dimecres, 19 de maig del 2010

Com extraure text d'un PDF

Aquesta és una qüestió que va sorgir en el curs Documents 101: com extraure text d'un document PDF, per a utilitzar-lo dins d'un document de text nostre, o en una presentació, etc.?

Generalment el programa que utilitzem per a visualitzar els documents en format PDF (p. ex. Acrobat Reader) ens permetrà seleccionar un fragment del text, copiar-lo i, després, enganxar-lo en qualsevol altre document, com podem veure en la captura de pantalla adjunta. Només en alguns casos no podrem portar a terme aquesta operació, perquè els propietaris dels drets del document (els autors o editor) no hagen autoritzat aquest ús.

Captura de pantalla

També podeu provar programes com ara A-PDF Text Extractor (Windows, gratuït), que extrauen tot el text d'un document PDF.

Tingueu en compte, però, que alguns documents PDF són còpies escanejades que no contenen text, només una mena d'imatge fotogràfica de l'original. Llavors caldria utilitzar un programari de reconeixement de text (OCR) que convertisca aquestes imatges en text. Existeixen alguns OCR en línia, gratuïts però limitats, p. ex. Free OCR.