Probleme mit der OCR-Korrektur

BuSchu · Beitrag von **BuSchu** » 27.05.2024 12:05:50

Ich habe heute begonnen, ein altes Familienbuch zu scannen, so dass eine durchsuchbare PDF-Datei entsteht. Bei der OCR-Korrektur gibt es m.E. noch einiges zu verbessern. Ich habe in einem Absatz etwas zu viel gelöscht und wollte dann die Änderungen rückgängig machen, was aber nicht ganz gelang. Jetzt habe ich einen Zustand, der sehr kaputt aussieht und ich weiß nicht mehr weiter. Ich möchte auch nicht die bisherige Arbeit verlieren. Vielleicht zeigt der Screenshot, wie verfahren die Situation jetzt ist.
Nach "Ermittelten" geht es mit "Die äußere Einrichtung" weiter, aber dann steht nachfolgender Text auf einmal darüber.
Wie kann man denn diese Situation bereinigen?

BuSchu · Beitrag von **BuSchu** » 28.05.2024 10:59:21

Ich habe jetzt noch ein bisschen experimentiert und eine Seite mit NAPS2 gescannt. Das Ergebnis habe ich mit Sumatra untersucht: Die OCR hat gute Arbeit geleistet. Aber wenn ich die Datei in FlexiPDF 2022 öffne und den Text bearbeiten will, wird er mir gar nicht angezeigt. Der Inhalt der Datei wird nach dem Starten des OCR-Modus verblasst angezeigt, aber der Text erscheint nicht. Schade!

BuSchu · Beitrag von **BuSchu** » 29.05.2024 14:00:46

Ich bin inzwischen davon abgekommen, möglichst viel in FlexiPDF zu machen. Ich mache jetzt nur noch die Korrektur in FlexiPDF. Das klappt einigermaßen, aber an einer Stelle habe ich mir jetzt die Zähne ausgebissen. In der angehängten Datei steht in der 3. Zeile "Pratane b/Wittenberg". Leider hat die OCR daraus "Pratane b/Wit tenberg" daraus gemacht, wobei mir nicht klar ist, warum das überflüssige Leerzeichen nicht dargestellt wird und nicht gelöscht werden kann. Ich habe es jetzt doch mit der Rechtschreibkorrektur geschafft: tenberg durch nichts ersetzt und dann Wit durch Wittenberg.
Der Editor ist aber sehr störrisch. Ich brauche immer etliche Anläufe, bis ich etwas löschen kann. Das sollte dringend verbessert werden. Sollte so rund laufen wie bei einem normalen Editor. Ich verstehe oft gar nicht, warum ich es nun geschafft habe, eine Korrektur anzubringen. Was gibt's denn da für Tricks?

BuSchu · Beitrag von **BuSchu** » 29.05.2024 14:08:04

Die Erfahrung mit dem Editor ist wirklich nicht schön. Mal kann man nach zweimal klicken in ein Textfeld Änderungen machen, manchmal braucht es 3 Klicks.

FFF · Beitrag von **FFF** » 29.05.2024 16:48:23

Habe das Dokument runtergeladen, mit Flexi V3.07 geöffnet. Beim Klicken im Text kam der Hinweis auf verborgenen OCR-Text, den man mit dem OCR-Korrekturwerkzeug bearbeiten solle. Das findet sich zwar unter "Seiten", nicht unter "Dokument" wie im Tipp angegeben, aber wenn ich damit die Zeile 3 anklicke, kann ich direkt das Leerzeichen entfernen...

werkwelt · Beitrag von **werkwelt** » 11.01.2025 20:35:49

Bin noch im Testmodus für FlexiPDF. Mein Windows läuft sehr langsam, so daß ich noch vorsichtig bin mit zu großer Hoffnung.
Insgesamt finde ich das vorgeführte Konzept sehr überzeugend. Mein OCR-Text wird auch dann angezeigt, wenn er von anderen PDF-Programmen als OCR erkannt und hinterlegt wurde. Am Beispiel deutsche Anführungszeichen sah ich zunächst Schwächen. Ich konnte nicht gut genug das Original erkennen und unterscheiden, ob einfache oder doppelte Anführungen verwendet wurden. Über den Mißstand, daß am PC mit Windows 10 keine deutschen Anführungszeichen getippt werden können, kann ich den Kopf schütteln, habe aber sofort auch die Idee, daß FlexiPDF für solche Zeichen eine kleine Palette anbietet, die den Suchweg extrem abkürzt.
Was ich technisch noch nicht verstehe, ist, warum die Schriftgröße des OCR-Textes bei meinem originalen gleichbleibenden Buchtext ersten schwankt und dann auch noch bei einer manuellen Äderung auf die ganze Zeile umschlägt.
Gut finde ich, daß der OCR-Text von der Rechtschreibkorrektur mit Wörterbüchern durchsucht werden kann. Bis zu meinem eigenen Projektwörterbuch bin ich dabei noch nicht vorgedrungen.
Ich las, finde es aber noch nicht wieder, daß die Transparenz und dadurch die Sichtbarkeit des PDF-Textes (als Bild) deutlicher gesehen werden kann.
Ich würde gerne auf Knopfdruck den OCR-Text, der zu verbessern ist, weit nach rechts neben die PDF-Seiten projizieren, um dort klareren Überblick zu haben.
Ich werden die Entwicklung von SoftMakers FlexiPDF mit Aufmerksamkeit verfolgen und wünsche guten Erfolg.
Norbert Lindenthal

SoftMaker.de

Probleme mit der OCR-Korrektur

Probleme mit der OCR-Korrektur

Re: Probleme mit der OCR-Korrektur

Re: Probleme mit der OCR-Korrektur

Re: Probleme mit der OCR-Korrektur

Re: Probleme mit der OCR-Korrektur

Re: Probleme mit der OCR-Korrektur