Cómo descomponer en páginas documentos PDF

Selection_485

Una secuencia de pasos típica en nuestros proyectos de migración o integración de sistemas que envuelven archivos PDF es ésta:

  1. tomar datos de un documento PDF y convertirlos a un documento CSV
  2. acondicionar esos datos
  3. usar esos datos para reportes o para insertarlos en una base de datos.

Pero cuando el documento PDF contiene páginas de información que no le interesan al cliente, un paso previo a los listados arriba es extraer solamente las páginas de interés.

Para fines de este artículo tomaremos este catálogo de medidores de agua: Meter Boxes.

Una inspección del catálogo nos revela que hay varias paǵinas de contenido que no tienen las tablas de productos que nos interesan:

Descompondremos el documento en páginas individuales para poder seleccionar solamente las que necesitamos.

Usando una aplicación para separar páginas de un PDF

Una herramienta que hemos usado por muchos años para descomponer, unir o extraer información de documentos PDF es PDFsam (requiere tener Java instalado).

PDF Split and Merge basic Ver. 2.2.4

Puede encontrar otras aplicaciones que hacen lo mismo que PDFsam, pero lo que nos gusta en particular es que su código es abierto (“open source”) y podríamos modificarlo si fuera necesario. También funciona en Windows, Linux y Mac OS.

Estos fueron los pasos que seguimos para procesar el catálogo:

  1. En el panel de la izquierda seleccionamos “Split”
  2. Pulsamos el botón “Add” y seleccionamos el archivo. Note que podría seleccionar varios archivos para procesarlos en masa.
  3. Seleccionamos la opción “Burst (split into single pages)”. Esto descompondrá el catálogo en páginas individuales.
  4. Seleccione la carpeta o directorio en donde desea depositar las páginas. En nuestro caso el directorio es “catalog_meter_boxes”
  5. Pulse el botón “Run”

PDFsam procesará el archivo y le mostrará el progreso.

Opciones PDFsam

Cuando entramos a la carpeta “catalog_meter_boxes” allí encontramos todas las páginas del catálogo separadas y esperando que continuemos trabajando con ellas:

Una de las páginas del catálogo

Ahora que tenemos las páginas separadas podemos usar otras herramientas y técnicas para extraer la información de los productos: Cómo extraer tablas de datos de un documento PDF

PDFsam y herramientas parecidas no sólo pueden descomponer documentos PDF en páginas, también podrían ayudar en otras tareas:

  • unir documentos o páginas (“Merge”)
  • cambiar el orden de las páginas
  • rotar páginas
  • extraer imágenes

Herramientas para automatizar manipulación de documentos PDF

Si fuese necesario automatizar el procesamiento de documentos PDF, existen herramientas que combinadas con programación pueden eliminar el trabajo manual:

Además de minar documentos PDF para alimentar bases de datos, también hemos generado reportes PDF dinámicamente y llenado automáticamente formularios estándares en distintas industrias:

  • el CMS-1500 para facturas por servicios médicos
  • trancripciones de créditos académicos
  • planes de intervención terapéutica
  • diversos formularios para uso interno de nuestros clientes.

Contáctenos para más información sobre cómo podemos llenar estas necesidades en su empresa.