Tipp: Gescannte PDFs mit Spotlight durchsuchen

Was tun, wenn Inhalte in PDF-Dokumenten einfach nicht aufgefunden werden? Dagegen helfen Apps, aber auch macOS-Bordmittel.

vorlesen Druckansicht
Lesezeit: 3 Min.

Ich habe ein paar gescannte PDF-Dokumente erhalten. Wenn ich im Finder nach enthaltenem Text suche, zeigt er nur einen Teil der Dateien, obwohl in Vorschau jedes PDF durchsuchbar ist. Was könnte die Ursache sein und wie löse ich das Problem?

Spotlight kann nur nach Textstellen in gescannten PDFs suchen, wenn entsprechende Textinformationen durch eine OCR-Software in die Dateien eingebettet wurden.

Vorschau nutzt hingegen grundsätzlich die Systemfunktion Live-Text zur Textanalyse. Dadurch wird jede PDF-Datei durchsuchbar. Diese optische Zeichenerkennung (OCR) greift jedoch erst beim Öffnen und gelangt nicht automatisch in den Suchindex des Systems.

Videos by heise

Das kostenlose Tool Podofyllin von Howard Oakley kann das PDF nach eingebettetem Text durchforsten. Der PDF-Betrachter zeigt in der rechten Seitenleiste neben dem PDF den tatsächlich enthaltenen und durchsuchbaren Text an. Fehlt dieser, bleibt die Spalte leer.

Der kostenlose PDF-Betrachter Podofyllin offenbart, ob Text in eine PDF-Datei eingebettet wurde.

Alternativ finden Sie mit dem Terminal heraus, ob und welche PDF-Dateien aus der Sicht von Spotlight Text enthalten:

mdimport -t -d2 /Pfad/zum/Ordner/*.pdf

Der Befehl listet die Dateien des angegebenen Ordners samt allen enthaltenen Metadaten auf. Der Eintrag kMDItemTextContent zeigt dabei, wie viele Zeichen der Spotlight-Importer finden konnte. Liegt kein Text vor, steht dort „<<< Text content of 0 characters >>>“.

Manchmal enthält der Index zwar Text, aber dennoch liefert der Finder keine Suchergebnisse. Ändern Sie den Parameter -d2 in -d3, um nachzuschauen, welcher Text tatsächlich im Spotlight-Index steht. Sollte bei kMDItemTextContent (oder in Podofyllin) nur Kauderwelsch erscheinen, liegt das meist an einer fehlerhaften Texteinbettung oder exotischen Zeichencodierungen, die Spotlight nicht versteht. Näheres zu dieser Problematik hat Howard Oakley in seinem Blog zusammengetragen.

Haben Sie problematische PDFs identifiziert, gibt es mehrere Lösungswege: Nicht von Spotlight erfassbare Dokumente machen Sie mit spezieller OCR-Software durchsuchbar. Am Mac empfehlen sich Abbyy FineReader (ab 69 €/Jahr), PDF Expert (150 €) oder OwlOCR (23 €). Auch einige iPhone-Scanner wie Docutain (ab 50 €/Jahr) und Scanner Pro (ab 32 €/Jahr) erzeugen durchsuchbare PDFs.

Eine kostenlose Alternative bietet macOS selbst: Öffnen Sie die problematischen Dateien in Vorschau und führen dort „Ablage > Exportieren“ aus. Aktivieren Sie im Sichern-Dialog die Option „Text einbetten“, um den von Live-Text ermittelten Text beim Export einzubetten. Der Schalter ist nur verfügbar, wenn Live-Text tatsächlich etwas erkannt hat. Das ist der Fall, wenn Sie Text auf dem Scan mit der Maus auswählen können. Die Systemfunktion ist brauchbar. Gerade bei schlecht lesbarer Schrift liefert jedoch darauf spezialisierte OCR-Software bessere Erkennungsraten.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(wre)