Páginas

miércoles, 24 de septiembre de 2014

Python: Extraer datos de un archivo PDF usando PDFMiner

Lo primero logicamente es descargar e instalar la libreria PDFMiner

PDFMiner viene con una herramienta que se puede usar directamente en la linea de comados, hay que entrar a la carpeta que contiene el script pdf2txt.py, y ejecutarlo especificando primero el nombre del archivo de salida y luego el nombre del archivo pdf del que vamos a extraer, por ejemplo:

C:\Python27\Scripts>python pdf2txt.py -o d:/output.txt d:/BL.pdf

Esto crea un archivo de texto llamado output en el disco D:

Ahora si queremos utilizar este script dentro de otro script, se lo puede ejecutar usado os.system:

>>> import os
>>> os.system('C:\Python27\Scripts\pdf2txt.py -o d:/output.txt d:/BL.pdf')


Cabe recalcar que en este caso fue necesario especificar la ruta completa al script pdf2txt.py

No hay comentarios:

Publicar un comentario