PDF Datei/Tabelle "untersuchen"

Heute ist Stammtischzeit:
Jeden Donnerstag 20:30 Uhr hier im Chat.
Wer Lust hat, kann sich gerne beteiligen. ;)
  • Hallo Community!

    Ich habe eine Idee und stehe nun vor einem Rätsel.

    Idee: In meiner Schule gibts den Vertretungsplan immer aktuell im Internet abrufbar (PDF Tabelle mit Kursen und so). Mein Pi soll jeden morgen die Datei herunterladen, auf meine Kurse untersuchen und eventuelle Treffer ausdrucken.

    Problem: Wie schaffe ich es, eine PDF Tabelle abzusuchen bzw so umzukonvertieren, dass ich mit grep o.ä. die Datei auf meine Kurse absuchen kann? Hat da irgendjemand eine gute Software? :helpnew:

  • Hallo Flllo,

    pdf ist eine Seitenbeschreibungssprache, die Tags verwendet, um z.B. eine Komponente (Text, Graphik) irgendwo auf der Seite zu platzieren.

    Ein Stundenplan ist eine Tabelle - mit Spalten und Zeilen.

    Problematisch wird die Auswertung dadurch, dass kein Zusammenhang zwischen der Eigenschaft [Zeile, Spalte] in einer Tabelle besteht und der Position an der die Komponente innerhalb des PDF-Dokumentes erscheint. Bei Tabellen werden diese z.B. sequentiell Spalte für Spalte abgelegt. Also erst die erste Spalte, Zeile für Zeile, dann die nächste Spalte Zeile für Zeile. Für die Positionierung werden absolute Positionsangaben verwendet, deren Reihenfolge u.a. auch von der zeitlichen Abfolge der Eingabe abhängen kann. Das hängt von der Anwendung ab, die das PDF-Dokument erzeugt.


    Willst Du ein PDF-Dokument auswerten, nutzt es Dir relativ wenig, wenn z.B. der zweite Zeilen-Tag erscheint. Erst zusammen mit der Positionsangabe und zusammen mit allen anderen Positionsangaben auf einer Seite, weißt Du, zu welcher Position [Zeile, Spalte] die Komponente in der Tabelle gehört.

    Was ich damit sagen will: Du unterschätzt den Aufwand der Auswertung eines PDF-Dokumentes mächtig gewaltig...

    Beste Grüße

    Andreas

    Ich bin wirklich nicht darauf aus, Microsoft zu zerstören. Das wird nur ein völlig unbeabsichtigter Nebeneffekt sein.
    Linus Torvalds - "Vater" von Linux

    Linux is like a wigwam, no windows, no gates, but with an apache inside dancing samba, very hungry eating a yacc, a gnu and a bison.


  • Ich habe zwar jetzt keine Software ausprobiert, aber probier mal nach pdf2text zu suchen.
    Meist sind die Programmnamen unter Linux sprechend ...

    cu,
    -ds-

    Danke, nach einigem googlen bin ich jetzt auf die Lösung gestoßen, mit

    Code
    pdftotext -layout input.pdf output.txt

    und grep funktioniert das Ganze für meine Zwecke.

    Andreas,

    Danke für deine ausführliche Antwort, für meine Anwendungen genügt aber das Tool pdf2text.

    :danke_ATDE::danke_ATDE:

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!