Extraer tablas de datos de documentos PDF con Tabula
Tabula es una herramienta que te permite extraer los datos de las tablas que aparecen en documentos PDF a través de una interfaz web sencilla.
En este tutorial aprenderemos cómo subir un archivo PDF para poder extraer los datos tabulares en formato CSV, listos para su uso con un programa de hojas de cálculo. Tabula permite la extracción de tablas en aquellos documentos PDF basados en texto, no en los que contienen páginas escaneadas como imágenes.
En el tutorial trabajaremos a partir del siguiente conjunto de datos:
El conjunto de datos nos lleva a una página de la Consejería de Salud desde la que podemos descargar los distintos informes. Elegiremos los datos de calidad sanitaria de las aguas de baño en Málaga, en la segunda quincena del mes de junio de 2017. Para ello, accederemos dentro de "Informes por quincena" al apartado "junio - segunda quincena" y, cuando aparezca el mapa de Andalucía, pulsaremos sobre la provincia de Málaga.
Se descargará un documento en formato PDF de dos páginas:
Ya con los datos que vamos a trabajar descargados, instalaremos la herramienta Tabula, en la versión correspondiente al sistema operativo con el que estemos trabajando (Windows, Mac o Linux) de acuerdo con las instrucciones que aparecen en su sitio web. Una vez instalada abriremos en un navegador web (Chrome, Firefox, Explorer...) la dirección http://127.0.0.1:8080 para empezar a trabajar.
El siguiente paso es importar un PDF. Para ello pulsaremos el botón "Browse" y elegiremos el fichero "segunda_quincena_junio_2017_malaga.pdf" en nuestro sistema de archivos:
Una vez abierto el archivo, pulsaremos el botón "Import". Aparecerá en Tabula una página como la siguiente:
A continuación, pulsaremos el botón "Autodetect tables", ubicado en la parte superior de la página, para que la herramienta intente detectar las tablas disponibles. Si la detección automática falla, también es posible seleccionar a mano las zonas de extracción.
Una vez aparezcan marcadas las tablas, pulsaremos el botón "Preview & Export extracted data" coloreado en verde y ubicado en la parte superior de la hoja. Cuando lo hayamos pulsado, se mostrará una previsualización de los datos:
Para obtener los datos en CSV, seleccionaremos en el campo desplegable "Export format" el formato CSV y, a continuación, pulsaremos el botón "Export". Obtendremos un fichero como el siguiente:
Este fichero se puede abrir con un programa de hojas de cálculo como Excel, LibreOffice Calc o Google Hojas de Cálculo. Como se trata de un fichero CSV, para que el programa lo interprete correctamente tendremos que seleccionar varias opciones al abrir el archivo:
- La codificación de caracteres: Unicode UTF-8.
- El carácter separador: Coma (,).
- El delimitador de texto: Comillas dobles (").
La siguiente imagen muestra cómo rellenar las opciones de importación en LibreOffice Calc:
De una forma sencilla, tendremos los datos listos para trabajar con ellos en una hoja de cálculo. Si quieres aprender más sobre qué cosas puedes hacer con los datos a partir de este punto, te recomendamos que consultes nuestro tutorial "Trabajar con los datos en hojas de cálculo con Libreoffice Calc".
¿Aún tienes dudas?
Si tienes cualquier duda o necesitas más información puedes contactar a través del siguiente formulario.