Befehlszeilen-Extraktion von PDF in Text

PDFTron’s PDF2Text ist ein einfach zu bedienendes, plattformübergreifendes Befehlszeilenprogramm zur hochwertigen und effizienten Textextraktion aus PDF-Dokumenten. PDF2Text kann verwendet werden, um Text aus beliebigen PDF-Dokumenten als Unicode oder als strukturiertes XML zu konvertieren und bietet gleichzeitig eine Vielzahl von Ausgabestilen und Konfigurationsoptionen. Eine pdf zu text umwandeln und diese in Word speichern.
PDF2Text wird als einfach zu bedienende Befehlszeilenanwendung und als Softwareentwicklungskomponente angeboten, die als Baustein für andere Client- und Server-basierte Anwendungen verwendet werden kann.
PDF2Text herunterladen

Link

Warum PDF2Text?

Vollständige Unicode-Unterstützung. PDF2Text kann PDF-Dateien aus allen Teilen der Welt (einschließlich asiatischer Sprachen) verarbeiten und den extrahierten Text mit UTF-8 und UTF-16 darstellen. Um die Unicodeausgabe zu verbessern, kann PDF2Text herstellerspezifische Unicode-Zeichenzuweisungen (im Privatbereich) erkennen und dem öffentlichen Unicode-Bereich zuordnen. Ebenso können Unicode-Ligaturen und PDF-spezifische Ligaturen in eine Folge von einzelnen Unicode-Zeichen unterteilt werden. Zeichen, die nicht auf Unicode abgebildet werden können, werden im Privatbereich vorhersehbar zugeordnet.

Text aus PDF

Intelligente Texterkennung. Intelligente Texterkennung und logische Struktur-Engine zur Erkennung von Wörtern, Zeilen, Absätzen und der Lesereihenfolge in PDF-Dokumenten. Die Engine kann doppelten Text entfernen, der häufig verwendet wird, um Schatten zu werfen, oder Text, der durch andere Seiteninhalte verdeckt ist. Der Textextraktor funktioniert auch einwandfrei mit PDF-Dokumenten, die gedrehten Text enthalten, oder Dokumenten, bei denen die Informationen in zufälliger Reihenfolge dargestellt oder über die Seite verteilt werden.
Höchste Zuverlässigkeit und Robustheit. PDF2Text wurde von Grund auf für den Einsatz in serverbasierten und multi-threaded Anwendungen mit hohem Durchsatz entwickelt. Ein regelmäßiger und rigoroser Q&A-Prozess stellt hohe Anforderungen an die Zuverlässigkeit aller PDFTron-Produkte.

Höchstleistung. Fortschrittliche Algorithmen zur Texterkennung und Inhaltsanalyse in Verbindung mit geringem Speicherbedarf und nativer Code-Effizienz machen PDF2Text zur idealen Wahl für hoch frequentierte Server sowie für interaktive Anwendungen.
Link
Tastenfunktionen

Extrahiert Text aus jedem PDF-Dokument in Text oder als strukturiertes XML.

Bietet verschiedene Unicode Textkodierungsoptionen (UTF-8 und UTF-16).
Bietet Informationen zu Positionierung, Schriftart und Stil für jeden Absatz, jede Zeile, jedes Wort oder jede Glyphe auf einer Seite.

  • Bietet Optionen zur Steuerung des Detaillierungsgrades und der Formatierung im Ausgabe-XML.
  • Bietet erweiterte Optionen zur Steuerung der Ligaturerweiterung, zur Entfernung von Bindestrichen und zur Entfernung von doppeltem Text (z.B. für Schlagschatteneffekte).
  • Ermöglicht die Textextraktion aus einem Clip-Rechteck oder das Ausblenden von Text in bestimmten Bereichen einer Seite.
  • Option zum Entfernen von verstecktem Text oder Text, der durch andere Seitenelemente (wie Bilder oder Rechtecke) verdeckt ist.
  • Unterstützung aller Versionen des PDF-Formats (PDF 1.0 bis ISO32000).
  • Volle Unterstützung für verschlüsselte Dokumente (40 und 128 Bit RC4 und 128 Bit AES).
  • Unterstützt Automatisierung und Batch-Betrieb.
  • Link

Beispielhafte Use-Case-Szenarien

Server-basierte On-Demand-Konvertierung von PDF-Dokumenten in Textformatdateien.
Extrahieren Sie Text aus einem großen PDF-Repository für die Textindizierung oder das Abrufen von Inhalten (z.B. zur Implementierung einer PDF-Suchmaschine).
Klassifizieren oder fassen Sie PDF-Dokumente anhand ihres Inhalts. Finden Sie bestimmte Wörter für die Bearbeitung von Inhalten (z.B. Aufteilung von Seiten nach Schlüsselwörtern, etc.).
Konvertieren Sie PDF-Seiten in Text oder XML für die Wiederverwendung von Inhalten.

Durchsuchen Sie PDF-Seiten nach bestimmten Wörtern oder Schlüsselwörtern und geben Sie deren Positionierungsinformationen zurück (z.B. um Instanzen eines bestimmten Wortes hervorzuheben).

Link
Unterstützte Betriebssysteme
Windows, Linux und Mac.
Link
Systemanforderungen
Mindestens 10 MB freier Festplattenspeicher.
2 GB oder RAM.
Link
Beispiele
#!/bin/sh
echo „Beispiel 1): PDF in Text umwandeln“.
pdf2text „PDFTron PDF2Text Bedienungsanleitung.pdf“.
Echo
echo „Beispiel 2): PDF in Text für Seite 1 im Wortlistenformat mit Begrenzungsrahmen konvertieren“.
./pdf2text -o test_out -a 1 -f Wortliste –output_bbox „PDFTron PDF2Text Benutzerhandbuch.pdf“.
Echo
echo „Beispiel 3): PDF in Text für Seite 1 im Wortlistenformat mit Begrenzungsrahmen konvertieren“.
./pdf2text -o test_out -a 1 -f xml -output_bbox *.pdf
Vollbild

Kopieren
Link
PDFNet SDK
Für Entwickler, die eine Softwareentwicklungskomponente zur Integration in ihre Anwendung suchen, bietet PDFTron mit PDFNet SDK eine einfach zu bedienende und dennoch leistungsstarke Softwarekomponente zur Extraktion von Text aus PDF-Dokumenten. PDFNet SDK ist als einfache „C DLL“ verfügbar und kann einfach von jeder Programmiersprache aus aufgerufen werden (einschließlich C#, VB.NET, C/C++, Java, VB6, Perl, Python, Ruby, Delphi, etc). PDFNet SDK ist PDFTrons eigene umfangreiche PDF-Bibliothek. Wenn Sie eine Rasterung oder zusätzliche PDF-Funktionalität benötigen, besuchen Sie bitte das PDFNet SDK (http://www.pdftron.com/pdfnet) oder kontaktieren Sie einen PDFTron-Vertreter für weitere Informationen.