Text aus PDF-Dateien auslesen
hillux am 29. September 2008 – 22:16Den in PDF-Dateien enthaltenen Text kann man unter Linux in der Konsole bequem mit pdftotext auslesen und in einem Text-Dokument speichern. Dazu muss das Paket xpdf-utils installiert werden.
Danach kann man in der Konsole mit dem Befehl und der (beispielhaften) Pfadangabe
pdftotext /home/meins/Desktop/inhalt.pdf
den enthaltenen Text am selben Ort in ein gleichnamiges Textdokument umwandeln.
Ich denke, das bekommt auch ein ungeübter Konsolen-Nutzer hin.

2 Kommentare zu “Text aus PDF-Dateien auslesen”
hast du das mal bei komplexen PDF Dateien probiert?
geschrieben von stony am 30. Sep, 2008
Kommt drauf an, was man unter komplex versteht. Bis jetzt habe ich das mit ca. 10-20 seitigen PDF-Files versucht, die auch Grafiken enthalten. Es hat einwandfrei funktioniert. Auch falls es in Einzelfällen nicht funktionieren sollte, kenne bis jetzt kein Tool, das so einfach funktioniert. Schick mir doch mal ein aufwändiges PDF-File. Ich teste das dann. hillux
geschrieben von hillux am 30. Sep, 2008