[SUCHE:] Programm zum überwachen von Webseiten

  • Guten Morgen ;)

    Habe mich neu angemeldet... habe schon einige interessante Threads gelesen... respekt :)

    Ich selbst betreibe 3 Pi's...
    Zwei zum automatisierten Darstellen bestimmter Webseiten...

    ..und nun möchte ich gerne mit meinen dritten Pi bestimmte Webseiten überwachen und bei Änderung eine email versenden...

    Bei Windows nennt man das Tool "WebMon"

    Nutze aktuelle Wheezy Version...

    Habt ihr ne Idee???

    Vielen Dank ;)

  • Achso ups, total vergessen... es ist ne stink normale PHP-Seite, die Werte aus Tabellen darstellt... Der vergleich der webseite würde reichen, wenn:

    a) die seite als txt exportiert wird und nach einem bestimmten Intervall erneut exportiert wird und auf Gleichheit verglichen wird
    oder b) bestimmte werte auf der Webseite auftauchen, z.b. der Name "Vanessa".

    B wäre natürlich genialer ;)

    Das Tool WebMon, vergleicht z.b. nur auf Änderung des Textes... andere Programm vergleichen ja auch mittels Screenshot usw... aber des wäre zu oversized...

  • Einfach so vorgehen, mit welcher Sprache ist egal: Alten Quelltext speichern, neuen holen und dann per Regex die zu verändernden stellen vergleichen.

    btw: Per Screenshot zu vergleichen, wäre ziemlicher Unsinn, da wenn Werbung auf der Seite ist, diese von der Engine die für das Screenshoten benutzt wird - dargestellt wird, und da werbung sich ja bekanntlich auf jeder 2. Seite ändert, wird das Programm dann bei jedem vergleich implodieren.

  • Ich nutze für sowas Webservices wie changedetection.com, falls das für Dich in Betracht kommt. Programme unter Linux kenne ich nicht, da lässt sich aber bestimmt sogar relativ leicht was scripten und per cronjob ausführen...

    • Offizieller Beitrag

    Wenn es sich um eine statische Seite handelt, würde ich per PHP die Seite anfordern und auf Änderung prüfen. Du brauchst natürlich einen "vorher" Zustand, damit du vergleichen kannst.

    Hier zwei Links zum Thema curl() :
    http://www.php-kurs.info/tutorial-webseiten_auslesen.html

    http://www.php-guide.net/de/skripte/cra…l-auslesen.html

    Mit preg_match könntest du den Inhalt herausfiltern und prüfen.
    http://www.google.de/search?ei=Nk_J…erp.X2bDeYVqj7w

    Voraussetzungen sind natürlich PHP Kenntnisse.

    Das könnte auch mit Python gemacht werden. Da gibt's viele interessante Seiten wenn du eine Suchmaschine mit "python check website for change" befragst.
    http://www.thp.io/2008/urlwatch/

    Update:
    Variante a: hashtag der Seite generieren und vergleichen
    Variante b: wie beschrieben mit preg_match

    Gruß,
    Ps915

    Well in my humble opinion, of course without offending anyone who thinks differently from my point of view, but also by looking into this matter in a different way and without fighting and by trying to make it clear and by considering each and every one's opinion, I honestly believe that I completely forgot what I was going to say.

    Einmal editiert, zuletzt von ps915 (25. Juni 2013 um 10:17)

  • [font="Arial"]Hallo, wow... das geht ja ratz fatz hier ;)[/font]

    [font="Arial"]Vielen Vielen Dank für eure ideen ;)[/font]

    [font="Arial"]Ich bin zwar eher nicht der Programmierer Typ, jedoch glaube ich, dass ich mich wohl damit befassen muss :)[/font]

    [font="Arial"]Eine fertige lösung a la webmon wäre sicher das feinste ;)[/font]

    [font="Arial"]Jedoch glaube ich, dass "sudo apt-get install urlwatch" mich ans ziel bringen wird ;)[/font]

    [font="Arial"]Alternativ wäre mir eingefallen, dass ich man vllt die webseite auslesen kann, als txt, und dann mittels find string... da bin ich gerade auch auf regex gestoßen, des ist aber für mich noch bissel wir war ;)[/font]

  • Hier nochn paar Links:
    - http://www.wcm.at/forum/showthre…0&p=1644310
    - http://alternativeto.net/software/webmon/?platform=linux
    - http://txt2re.com/ (für regex)
    - http://www.vb-paradise.de/allgemeines/ti…rtgeschrittene/
    - http://regexpal.com/

    Regex ist sehr wichtig, du wirst es immer wieder brauchen um bestimmte sachen rauszufiltern etc. - es ist sehr mächtig für die String Manipulation.

    Einmal editiert, zuletzt von Tasty (25. Juni 2013 um 10:39)

  • Hier ein Beispiel:

    A) Checke alle 15min ob sich die Seite "http://www.uni-paderborn.de/universitaet/b…ungsuebersicht/" verändert hat, wenn Ja, sende email an ***@***.de mit dem Link der Webseite

    B) Checke alle 15Minuten, ob auf der Seite "http://www.uni-paderborn.de/universitaet/b…ungsuebersicht/" der Text "Stimmseminar" auftaucht, wenn Ja, sende email an ***@***.de mit dem Link der Webseite

    Okay perfekt vielen dank euch... ich glaube, nun habe ich ne große Hausaufgabe ;)

    Werde mich heute abend mal hinsetzen und bissel basteln ;)

    Ich lasse den thread aber nochmal offen, falls es noch andere ideen oder lösungen gibt...

    wenn ich es zum laufen bekommen habe, dann schließe ich ihn ;)

    Einmal editiert, zuletzt von thr3e (25. Juni 2013 um 10:58)

  • eine ganz einfache Methode den Quelltext einer Seite zu bekommen ist "wget", also

    Code
    wget http://www.uni-paderborn.de/universitaet/bildungsinnovationen/veranstaltungsuebersicht/

    Die Seite wird mit ihrem Dateinamen gespeichert, in diesem Fall index.html

    Wird sie ein weiteres Mal abgerufen und man hat die alte Version umbenannt, vergleicht man sie mit "diff"

    Code
    mv index.html alt.html
    wget ...
    diff index.html alt.html

    Den Namen kann man mit "grep" suchen

    Code
    grep Vanessa index.html


    und das Ganze in ein script gepackt. Hier ein template zum Vervollständigen

    Keep it simple [,&] stupid

    Einmal editiert, zuletzt von kungel (25. Juni 2013 um 15:26)

  • Kungel du bist der Burner ;)

    Ich saß gestern abend den ganzen abend da und habe rumgebastelt... leider nur mit teilerfolg, da ich mich mit lynx -dump URL > FILE und mit find . | xargs grep -s 'Veranstaltung" auseinander gesetzt habe ;)

    Werde es nachher mal probieren... top ;)

    ...achso... vielen dank für deine unterstützung und deine zeit ;)

    Einmal editiert, zuletzt von thr3e (26. Juni 2013 um 08:12)

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!