Connect with us

Wie man

Wie kann ich Text aus einer PDF-Datei kopieren und dabei die Formatierung beibehalten?

Wie kann ich Text aus einer PDF-Datei kopieren und dabei die Formatierung beibehalten?

PDF, das allgegenwärtige Dokumentformat, eignet sich hervorragend zum Teilen von Dokumenten, während Schriftarten, Bilder und das allgemeine Layout plattformübergreifend erhalten bleiben. Gibt es jedoch eine einfache Möglichkeit, diese Formatierung beim Kopieren und Einfügen von Text aus dem Dokument beizubehalten?

Die Frage

SuperUser Reader Colen sucht nach einer Möglichkeit, Text aus PDFs zu extrahieren und dabei die Formatierung beizubehalten:

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Weise entstellt. Formatierungen wie Fett und Kursiv gehen verloren. weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche konvertiert. Bindestriche, um ein Wort über zwei Zeilen zu brechen, bleiben erhalten, auch wenn sie nicht sein sollten. und einfache und doppelte Anführungszeichen werden ersetzt durch? Zeichen.

Idealerweise möchte ich in der Lage sein, Text aus einer PDF-Datei zu kopieren und Formatierungen in HTML-Codes, „intelligente Anführungszeichen“ in „und“ und Zeilenumbrüche ordnungsgemäß konvertieren zu lassen. Gibt es eine Möglichkeit, dies zu tun?

Gibt es eine schnelle und einfache Möglichkeit für Colen (und den Rest von uns), Text abzurufen, ohne die Formatierung zu beeinträchtigen?

Die Antwort

SuperUser-Mitarbeiter Frabjous bietet eine Lösung in Kombination mit viel Vorsicht:

Zunächst müssen Sie verstehen, was ein PDF ist. PDFs ahmen eine gedruckte Seite nach und sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält. In den meisten Fällen speichert eine PDF-Datei nicht einmal Informationen darüber, wo ein Wort endet und ein anderes beginnt, geschweige denn Dinge wie weiche Unterbrechungen oder harte Unterbrechungen für Absatzenden.

(Einige aktuelle PDFs speichern einige Informationen zu diesem Thema, aber das ist eine neue Technologie, und Sie können sich glücklich schätzen, solche PDFs zu finden. Selbst wenn Sie dies tun, weiß Ihr PDF-Viewer möglicherweise nichts davon.)

Wie auch immer, es liegt an Ihrer Software, eine Art „künstliche Intelligenz“ zu implementieren, um lediglich aus den Positionen einzelner Zeichen zu extrahieren, was ein Wort, was ein Absatz usw. ist. Andere Software wird dies besser als andere, und es wird auch davon abhängen, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist weitaus besser, das zu versuchen, wenn Sie können.

Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (das teure, nicht das kostenlose Lesegerät) zum Konvertieren der PDF-Datei in HTML zu verwenden. Auch das wird nicht zu perfekten Ergebnissen führen.

Es gibt eine kostenlose Software, mit der Sie Text aus PDFs extrahieren können, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch auch hier keine perfekten Ergebnisse. Siehe z. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow, oder das AbiWord-Textverarbeitungsprogramm (mit allen aktivierten Import / Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarten Sie keine Perfektion mit einem dieser Ergebnisse. Du gehst hier gegen den Strich. PDF ist einfach nicht als bearbeitbares Eingabeformat gedacht.

Wenn Sie Probleme bei der Entscheidung haben, mit welchem ​​Werkzeug Sie beginnen möchten, ist Calibre ein wahres Schweizer Taschenmesser. Sie können damit auch PDF-Dateien für Ihren E-Book-Reader konvertieren und Ihre E-Book- / Dokumentbibliothek organisieren.

Haben Sie der Erklärung etwas hinzuzufügen? Ton aus in den Kommentaren. Möchten Sie weitere Antworten von anderen technisch versierten Stack Exchange-Benutzern lesen? Den vollständigen Diskussionsthread finden Sie hier.

Continue Reading
Click to comment

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Tendencia