Ich habe heute begonnen, ein altes Familienbuch zu scannen, so dass eine durchsuchbare PDF-Datei entsteht. Bei der OCR-Korrektur gibt es m.E. noch einiges zu verbessern. Ich habe in einem Absatz etwas zu viel gelöscht und wollte dann die Änderungen rückgängig machen, was aber nicht ganz gelang. Jetzt habe ich einen Zustand, der sehr kaputt aussieht und ich weiß nicht mehr weiter. Ich möchte auch nicht die bisherige Arbeit verlieren. Vielleicht zeigt der Screenshot, wie verfahren die Situation jetzt ist.
Nach "Ermittelten" geht es mit "Die äußere Einrichtung" weiter, aber dann steht nachfolgender Text auf einmal darüber.
Wie kann man denn diese Situation bereinigen?
Probleme mit der OCR-Korrektur
Probleme mit der OCR-Korrektur
- Dateianhänge
-
- Problem Fleixipdf.jpg (78.32 KiB) 4132 mal betrachtet
Re: Probleme mit der OCR-Korrektur
Ich habe jetzt noch ein bisschen experimentiert und eine Seite mit NAPS2 gescannt. Das Ergebnis habe ich mit Sumatra untersucht: Die OCR hat gute Arbeit geleistet. Aber wenn ich die Datei in FlexiPDF 2022 öffne und den Text bearbeiten will, wird er mir gar nicht angezeigt. Der Inhalt der Datei wird nach dem Starten des OCR-Modus verblasst angezeigt, aber der Text erscheint nicht. Schade!
Re: Probleme mit der OCR-Korrektur
Ich bin inzwischen davon abgekommen, möglichst viel in FlexiPDF zu machen. Ich mache jetzt nur noch die Korrektur in FlexiPDF. Das klappt einigermaßen, aber an einer Stelle habe ich mir jetzt die Zähne ausgebissen. In der angehängten Datei steht in der 3. Zeile "Pratane b/Wittenberg". Leider hat die OCR daraus "Pratane b/Wit tenberg" daraus gemacht, wobei mir nicht klar ist, warum das überflüssige Leerzeichen nicht dargestellt wird und nicht gelöscht werden kann. Ich habe es jetzt doch mit der Rechtschreibkorrektur geschafft: tenberg durch nichts ersetzt und dann Wit durch Wittenberg.
Der Editor ist aber sehr störrisch. Ich brauche immer etliche Anläufe, bis ich etwas löschen kann. Das sollte dringend verbessert werden. Sollte so rund laufen wie bei einem normalen Editor. Ich verstehe oft gar nicht, warum ich es nun geschafft habe, eine Korrektur anzubringen. Was gibt's denn da für Tricks?
Der Editor ist aber sehr störrisch. Ich brauche immer etliche Anläufe, bis ich etwas löschen kann. Das sollte dringend verbessert werden. Sollte so rund laufen wie bei einem normalen Editor. Ich verstehe oft gar nicht, warum ich es nun geschafft habe, eine Korrektur anzubringen. Was gibt's denn da für Tricks?
- Dateianhänge
-
- Helene.pdf
- (423.42 KiB) 221-mal heruntergeladen
Re: Probleme mit der OCR-Korrektur
Die Erfahrung mit dem Editor ist wirklich nicht schön. Mal kann man nach zweimal klicken in ein Textfeld Änderungen machen, manchmal braucht es 3 Klicks.
Re: Probleme mit der OCR-Korrektur
Habe das Dokument runtergeladen, mit Flexi V3.07 geöffnet. Beim Klicken im Text kam der Hinweis auf verborgenen OCR-Text, den man mit dem OCR-Korrekturwerkzeug bearbeiten solle. Das findet sich zwar unter "Seiten", nicht unter "Dokument" wie im Tipp angegeben, aber wenn ich damit die Zeile 3 anklicke, kann ich direkt das Leerzeichen entfernen...
Mit freundlichem Gruß
Karl
SM 2018 rev. 982/0109/64, klassisches Menu @ W8.1/64 /Deutsch/Deutsch // emC 10.1.458
SM 2024NX Nightly, klassisches Menu
16GB Ram; Core i5-3450 mit integriertem Intel HDGraphics 4000, Treiber 10.18.10.4276; Samsung SSD 840pro
2560x1440 Monitor 100% Darstellungsgröße /// LaserJet 1200 per USB via Fritzbox 6591.
Empfehlung für supereinfache Bildschirmvideos: https://www.screentogif.com/
Karl
SM 2018 rev. 982/0109/64, klassisches Menu @ W8.1/64 /Deutsch/Deutsch // emC 10.1.458
SM 2024NX Nightly, klassisches Menu
16GB Ram; Core i5-3450 mit integriertem Intel HDGraphics 4000, Treiber 10.18.10.4276; Samsung SSD 840pro
2560x1440 Monitor 100% Darstellungsgröße /// LaserJet 1200 per USB via Fritzbox 6591.
Empfehlung für supereinfache Bildschirmvideos: https://www.screentogif.com/
Re: Probleme mit der OCR-Korrektur
Bin noch im Testmodus für FlexiPDF. Mein Windows läuft sehr langsam, so daß ich noch vorsichtig bin mit zu großer Hoffnung.
Insgesamt finde ich das vorgeführte Konzept sehr überzeugend. Mein OCR-Text wird auch dann angezeigt, wenn er von anderen PDF-Programmen als OCR erkannt und hinterlegt wurde. Am Beispiel deutsche Anführungszeichen sah ich zunächst Schwächen. Ich konnte nicht gut genug das Original erkennen und unterscheiden, ob einfache oder doppelte Anführungen verwendet wurden. Über den Mißstand, daß am PC mit Windows 10 keine deutschen Anführungszeichen getippt werden können, kann ich den Kopf schütteln, habe aber sofort auch die Idee, daß FlexiPDF für solche Zeichen eine kleine Palette anbietet, die den Suchweg extrem abkürzt.
Was ich technisch noch nicht verstehe, ist, warum die Schriftgröße des OCR-Textes bei meinem originalen gleichbleibenden Buchtext ersten schwankt und dann auch noch bei einer manuellen Äderung auf die ganze Zeile umschlägt.
Gut finde ich, daß der OCR-Text von der Rechtschreibkorrektur mit Wörterbüchern durchsucht werden kann. Bis zu meinem eigenen Projektwörterbuch bin ich dabei noch nicht vorgedrungen.
Ich las, finde es aber noch nicht wieder, daß die Transparenz und dadurch die Sichtbarkeit des PDF-Textes (als Bild) deutlicher gesehen werden kann.
Ich würde gerne auf Knopfdruck den OCR-Text, der zu verbessern ist, weit nach rechts neben die PDF-Seiten projizieren, um dort klareren Überblick zu haben.
Ich werden die Entwicklung von SoftMakers FlexiPDF mit Aufmerksamkeit verfolgen und wünsche guten Erfolg.
Norbert Lindenthal
Insgesamt finde ich das vorgeführte Konzept sehr überzeugend. Mein OCR-Text wird auch dann angezeigt, wenn er von anderen PDF-Programmen als OCR erkannt und hinterlegt wurde. Am Beispiel deutsche Anführungszeichen sah ich zunächst Schwächen. Ich konnte nicht gut genug das Original erkennen und unterscheiden, ob einfache oder doppelte Anführungen verwendet wurden. Über den Mißstand, daß am PC mit Windows 10 keine deutschen Anführungszeichen getippt werden können, kann ich den Kopf schütteln, habe aber sofort auch die Idee, daß FlexiPDF für solche Zeichen eine kleine Palette anbietet, die den Suchweg extrem abkürzt.
Was ich technisch noch nicht verstehe, ist, warum die Schriftgröße des OCR-Textes bei meinem originalen gleichbleibenden Buchtext ersten schwankt und dann auch noch bei einer manuellen Äderung auf die ganze Zeile umschlägt.
Gut finde ich, daß der OCR-Text von der Rechtschreibkorrektur mit Wörterbüchern durchsucht werden kann. Bis zu meinem eigenen Projektwörterbuch bin ich dabei noch nicht vorgedrungen.
Ich las, finde es aber noch nicht wieder, daß die Transparenz und dadurch die Sichtbarkeit des PDF-Textes (als Bild) deutlicher gesehen werden kann.
Ich würde gerne auf Knopfdruck den OCR-Text, der zu verbessern ist, weit nach rechts neben die PDF-Seiten projizieren, um dort klareren Überblick zu haben.
Ich werden die Entwicklung von SoftMakers FlexiPDF mit Aufmerksamkeit verfolgen und wünsche guten Erfolg.
Norbert Lindenthal