Message from watchdog

Heute ist Stammtischzeit:
Jeden Donnerstag 20:30 Uhr hier im Chat.
Wer Lust hat, kann sich gerne beteiligen. ;)
  • Hallo Gemeinde,

    Mein rPi schickt mir alle 4 -7 Tage eine Mail mit dem Inhalt:

    Code
    Betreff: rpi.fritz.box is going down!
    
    
    Message from watchdog:
    The system will be rebooted because of error -3!

    Die üblichen Verdächtigen abgeklappert in /var/log/ erklären mir:

    Ich kann jedoch damit nichts anfangen.

    Meine Softwareumgebung:

    Code
    pi@rpi ~ $ uname -a
    Linux rpi 3.12.28+ #709 PREEMPT Mon Sep 8 15:28:00 BST 2014 armv6l GNU/Linux

    und mein rPi ist ein "B" ohne plus

    Wer kann helfen?

    LG theMario

  • Da findest du den Grund:

    Code
    Jan 20 11:40:13 rpi watchdog[3312]: loadavg 13 13 13 is higher than the given threshold 24 18 12!

    Googel einfach mal nach loadavg, gibt da genug ausführliche Erklärungen zu.
    Warum das dann ein reboot auslöst, das kann ich dir allerdings nicht sagen, sieht so aus als wenn du das irgendwie kondiguriert hast, das er das tun soll.

  • Hallo Mario,

    hier http://www.gieseke-buch.de/raspberrypi/ei…rwachung-nutzen findest Du einen kleinen Artikel über den Watchdog in Deinem Raspberry Pi.

    Demnach liegt irgendeine Störung vor. Diese solltest über

    Code
    dmesg

    und / oder

    Code
    cat /var/log/syslog

    versuchen, heraus zu bekommen.

    Folgende Ursachen führen zu einem Reset (so es in /dev/watchdog eingestellt ist):
    - zu warm
    - Verbindungsprobleme
    - Prozessor-Auslastung
    - System-Auslastung
    - RAM-Auslastung
    - ...

    Vielleicht hast Du auch ein Programm geschrieben, dass in einer Schleife festhängt? Das sorgt von jetzt auf gleich für eine 100%-ige CPU-Auslastung. Wenn Du selber programmierst, wirkt ein delay(20) innerhalb der Ereignisbehandlung Wunder!

    Wir hatten hier schon einmal einen Thread, in dem wir uns über Sinn und Unsinn automatischer Resets unterhalten haben. Damals kamen wir zu dem Ergebnis, dass es wenig Sinn macht, bei jedem Problemchen einen Reset durchzuführen OHNE Maßnahmen bzgl. der Ursachen zu ergreifen.

    Wird der Watchdog aktiv, weil Verbindungsprobleme bestehen, dann gilt es herauszufinden, WARUM? Dies sind meistens Kennzeichen von Stromversorgungsproblemen... Stichwort "Mysterium". ...

    Auf meinen Linux-Systemen ist kein Watchdog, aktiv. Meine Systeme laufen ohne automatischen Reset stabil. Und selbst, wenn der Prozessor mal längere Zeit ausgelastet sein sollte, wen interessiert's? Irgendwann normalisiert sich das wieder.

    Der Raspberry Pi verfügt über eine Reihe von Sicherheitsvorkehrungen, die Schlimmeres verhindern. So wird automatisch die Taktrate der CPU heruntergeschaltet, wenn es zu warm werden sollte bzw. die CPU-Auslastung zu hoch ist.

    Eines derartig aggressiv-bissigen Wachhundes bedarf es meiner Meinung nach nicht. Zähme ihn, bändige ihn!

    Beste Grüße

    Andreas

    Ich bin wirklich nicht darauf aus, Microsoft zu zerstören. Das wird nur ein völlig unbeabsichtigter Nebeneffekt sein.
    Linus Torvalds - "Vater" von Linux

    Linux is like a wigwam, no windows, no gates, but with an apache inside dancing samba, very hungry eating a yacc, a gnu and a bison.

    Einmal editiert, zuletzt von Andreas (20. Januar 2015 um 13:16)

  • Den watchdog so einzustellen das er bei "starker Last" etwas unternimmt ist - milde ausgedrückt - bescheuert.

    Ich finde den SoC-Hardware-Watchdog aber generell bescheuert. Niemand sollte ein System mutwillig resetten(!), egal aus welchem Grund auch immer - auch nicht wenn er wärmer als 80°C wird.

    Zitat


    Funktionsweise:
    Der Daemon teilt dem Watchdog in regelmäßigen Intervallen mit, dass das System funktioniert. Kommt es nun zu einem Problem und das System hängt sich auf, erhält der Watchdog keine Nachrichten mehr und setzt daraufhin das System zurück.

    Alleine das sollte einem zu denken geben.
    Wenn das System gerade viel zu tun hat aber den Watchdog nicht rechtzeitig anpingt, macht der Watchdog kein reboot sondern macht das selbe als wenn ihr mitten im Betrieb das Stromkabel zieht!
    Und was kann dadurch verursacht werden? Genau, Beschädigung des Dateisystems!

    Gerade wenn er viel zu tun hat sollte das ein Indikator dafür sein das er auch eifrig am schreiben ist. Dann aber stumpf den Stecker zu ziehen grenzt aber doch wirklich an Wahnsinn.


    Starke Last - gemessen an der durchschnittlichen Last der letzten 1,5,15 Minuten - sollte kein Grund sein ein Computer neu zu starten.

    Wird der Watchdog aktiv, weil Verbindungsprobleme bestehen, dann gilt es herauszufinden, WARUM? Dies sind meistens Kennzeichen von Stromversorgungsproblemen... Stichwort "Mysterium". ...

    Das alte Model-B kann Aufgrund von Stromversorgungsproblemen noch keine Reaktion seitens Hardware-Watchdog unternehmen. Gäbe es Stromversorgungsproblemen würde der Watchdog also davon nichts im Log erwähnen denn dazu würde er dann auch gar nicht kommen.

    Ob der Watchdog beim neuen B+ bezüglich Stromversorgungsproblemen etwas ins Log schreibt weiß ich nicht - wäre aber mithilfe von GPIO35 möglich.
    Der TE schreibt aber das er ein "B" ohne plus hat ;)

    Allerdings steht im Log eindeutig der Grund: loadavg 13 13 13 is higher than the given threshold

  • Code
    Jan 20 11:40:13 rpi watchdog[3312]: shutting down the system because of error -3

    Wie ist auf deinem Pi, die Ausgabe von:

    Code
    cat /etc/watchdog.conf | grep -i max-load


    ?

    The most popular websites without IPv6 in Germany.  IPv6-Ausreden

    Meine PIs

    PI4B/8GB (border device) OpenBSD 7.4 (64bit): SSH-Server, WireGuard-Server, ircd-hybrid-Server, stunnel-Proxy, Mumble-Server

    PI3B+ FreeBSD 14.0-R-p3 (arm64): SSH-Serv., WireGuard-Serv., ircd-hybrid-Serv., stunnel-Proxy, Mumble-Serv., ddclient

    PI4B/4GB Bullseye-lite (64bit; modifiziert): SSH-Server, WireGuard-Server, ircd-hybrid-Server, stunnel-Proxy, Mumble-Server, botamusique, ample

  • Hallo Meigrafd,


    Starke Last - gemessen an der durchschnittlichen Last der letzten 1,5,15 Minuten - sollte kein Grund sein ein Computer neu zu starten.


    Das alte Model-B kann Aufgrund von Stromversorgungsproblemen noch keine Reaktion seitens Hardware-Watchdog unternehmen. Gäbe es Stromversorgungsproblemen würde der Watchdog also davon nichts im Log erwähnen denn dazu würde er dann auch gar nicht kommen.

    Ob der Watchdog beim neuen B+ bezüglich Stromversorgungsproblemen etwas ins Log schreibt weiß ich nicht - wäre aber mithilfe von GPIO35 möglich.
    Der TE schreibt aber das er ein "B" ohne plus hat ;)

    Allerdings steht im Log eindeutig der Grund: loadavg 13 13 13 is higher than the given threshold

    mir ging es mit meinem Beitrag um allgemeine Information zum Watchdog und mögliche / denkbare Ursachen. Alles Weitere möchte ich der Eigeninitiative von Mario überlassen.

    Aber vielen Dank für Deine Detail-Info! Das wird anderen bei ähnlichen Problemen weiterhelfen - so sie suchen sollten...


    Beste Grüße

    Andreas

    Ich bin wirklich nicht darauf aus, Microsoft zu zerstören. Das wird nur ein völlig unbeabsichtigter Nebeneffekt sein.
    Linus Torvalds - "Vater" von Linux

    Linux is like a wigwam, no windows, no gates, but with an apache inside dancing samba, very hungry eating a yacc, a gnu and a bison.

  • Danke für die schnellen Antworten.

    Zunächst erst einmal, der rPi hat nicht viel zu tun.
    Er läuft nur noch als Mailserver und ejabbert eumelt vor sich hin. Darüber war aber zum Zeitpunkt des reboot keiner am werkeln. Das Projekt ist auch noch in Testphase. Texten und Bild-Datei-Versand funktionieren (soweit Empfänger auch online ist) aber voice oder gar Videochat (noch:angel:) nicht.

    Die Ausgabe der watchdog.conf

    Code
    pi@rpi ~ $ cat /etc/watchdog.conf | grep -i max-load
    max-load-1              = 24
    #max-load-5             = 18
    #max-load-15            = 12

    theMario

  • Hallo Mario,

    die Ausgabe verwirrt mich jetzt.

    Ich selber halte max-load-Werte von über 3 schon für hoch...

    Und wenn bei Dir 24 überschritten wird, dann stimmt da etwas nicht.

    Kannst Du mal die gesamte Datei watchdog.conf schicken? Da muss noch etwas anderes seine Grenzen verlassen haben.

    Wie gesagt, ich würde den Watchdog abschalten.


    Beste Grüße

    Andreas

    Ich bin wirklich nicht darauf aus, Microsoft zu zerstören. Das wird nur ein völlig unbeabsichtigter Nebeneffekt sein.
    Linus Torvalds - "Vater" von Linux

    Linux is like a wigwam, no windows, no gates, but with an apache inside dancing samba, very hungry eating a yacc, a gnu and a bison.

    2 Mal editiert, zuletzt von Andreas (28. Oktober 2017 um 20:01)

  • Kein Problem.

    Die Datei wurde von mir nicht bearbeitet. Ok, ganz sicher bin ich nicht, aber wenn ich das so lese, was da drin steht - nö - kenne ich nicht.


  • Kommentier diesen ganzen max load krams einfach aus oder setz es auf 0 .... das macht eh kein Sinn, vorallem nicht "last 1 min"

    meigrafd

    das kann nicht die Lösung sein. Wenn wir jedes Hilfssystem abschalten, weil es nicht verständlich läuft, sterben viele Leute. Jeder Vergleich hinkt.
    Mir pers. ist es lieber, der rPi bootet einmal in der Woche neu, als das er im Netz hängt, nicht ansprechbar ist und die Lösung dann ein "Netzstecker ziehen" sein soll. Von diesen anfänglichen Maßnahmen wegen Fehler an der Tastatur wollte ich weg sein. Habe mir so das Dateisystem öfters zerschossen und auch nicht immer gleich (mit "fsck.ext4 & co") retten können. Meist hilft da nur noch ein Backup vorziehen und drüber bügeln. Das ist viel mehr Aufwand und der rPi ist stundenlang offline. Schliesslich bin ich nicht 24/7 für meine Hardware da. Ist wohl kaum jemand.
    Ich muß noch dazu schreiben, am rPI hängt weder Tastatur, noch Monitor und um Letzteres zu ändern, bedarf es auch ein herunter fahren, oder "der Knochen kommt zum Hund" (40" TV zum rPi in den Keller tragen)
    Der rPi hat ein Problem, schreibt mir das noch brav und ich nehme ihn jetzt "den Stift weg" ?
    Das kann es dann nicht sein, oder?

    Einmal editiert, zuletzt von theMario (20. Januar 2015 um 14:14)

  • Hallo Mario,

    ich sehe das auch so wie Meigrafd.

    Wenn Du jedes Mal einen Reboot machst, weil eine Verbindung nicht mehr besteht, dann musst Du die Verbindung wieder herstellen - und die Ursache beseitigen, warum die Leitung nicht mehr besteht.

    Ich habe diese Problematik bei mir so gelöst, dass ich ein Programm geschrieben habe, dass die Verbindung überprüft (in definierbaren Abständen). Wenn die Verbindung nicht besteht, dann sorgt dieses Programm dafür, dass dafür verantwortliche Systemdateien wieder die richtigen Inhalte bekommen ==> Die Verbindung ist wieder da.

    Das Ganze läuft so schnell, dass Du als Anwender davon nichts mitbekommst. Das Programm nutzt bei sinnvoll gesetzten Intervallen weniger als 1% der CPU-Zeit.

    Das Programm habe ich hier im Forum hochgeladen... Du kannst es gern an Deine Bedürfnisse anpassen.

    Der Raspberry Pi verliert nicht einfach so seine Netzwerkverbindung - außer wenn Stromversorgungsprobleme vorliegen. Viele Beiträge zum Stichwort "Mysterium" helfen Dir da weiter.

    Beste Grüße

    Andreas

    Ich bin wirklich nicht darauf aus, Microsoft zu zerstören. Das wird nur ein völlig unbeabsichtigter Nebeneffekt sein.
    Linus Torvalds - "Vater" von Linux

    Linux is like a wigwam, no windows, no gates, but with an apache inside dancing samba, very hungry eating a yacc, a gnu and a bison.

    Einmal editiert, zuletzt von Andreas (20. Januar 2015 um 14:19)

  • So, habe mir mal die ganzen Zusammenhänge noch einmal angelesen.
    Im Grunde führt er Wachhund einen reboot aus, weil ihm die CPU-Last nicht gefällt. Einen reboot im herkömmlichen Sinne führt er nun auch nicht aus, sondern

    Zitat


    Wenn das System gerade viel zu tun hat aber den Watchdog nicht rechtzeitig anpingt, macht der Watchdog kein reboot sondern macht das selbe als wenn ihr mitten im Betrieb das Stromkabel zieht!

    Das geht ja nun garnicht. Warum läuft er dann überhaupt noch? Wenn ich den Stecker zog, war das Dateisystem in zwei von drei Fällen nicht mehr zu gebrauchen. :@

    Lange Rede kurzer Sinn, die # ist erst einmal gesetzt. Lösungen werde ich mir anlesen. Aber nicht heute.

    Andreas

    Zitat

    Das Programm habe ich hier im Forum hochgeladen... Du kannst es gern an Deine Bedürfnisse anpassen.

    Das werde ich mir einmal suchen.

    Ich bedanke mich für eure aufklärenden Sätze.

    theMario

  • Mir pers. ist es lieber, der rPi bootet einmal in der Woche neu, als das er im Netz hängt, nicht ansprechbar ist und die Lösung dann ein "Netzstecker ziehen" sein soll.

    Aber das hat ja nix mit der CPU-Auslastung zu tun. Ein Problem sollte man beheben, nicht umgehen ;)
    Wenn du ein Problem mit deinem Netzwerk hast (WLAN?) dann wäre es besser eine Lösung zu finden, aber diese Lösung lautet nicht dafür den watchdog zu nutzen oder gar den PI ständig zu rebooten - das Problem besteht dann nämlich weiterhin.

    Ein vollwertiges Linux muss man aber auch nicht ständig rebooten.

    Habe mir so das Dateisystem öfters zerschossen und auch nicht immer gleich (mit "fsck.ext4 & co") retten können.

    Der Hardware-Watchdog führt wie gesagt keinen reboot durch sondern unterbricht die Stromzufuhr. Und das kommt dann aufs gleiche raus als wenn du dem PI erst schön viel zu tun gibst aber dann plötzlich das Netzteil rausziehst...

    Wie auch soll der SoC einen Softwareseitigen und sauberen Reboot durchführen? Er kennt doch gar nicht das root Password :D
    und ein Power Managment hat er auch nicht, also kann er auch kein normalen shutdown initialisieren.

    Der Hardware-Watchdog soll ja eigentlich eingreifen wenn die Software (Betriebssystem) nicht mehr reagiert. Wenn also die Software nicht mehr reagiert, wird diese auch schlecht einen Reboot ausführen können - sollte logisch sein, oder? :-/

    Es macht eigentlich - wenn - dann nur Sinn eine Auslastung über einen längeren Zeitraum zu überwachen, aber nicht die Auslastung der letzten Minute!

    max-load-1 beachtet die durchschnittliche Auslastung der letzten Minute
    max-load-5 beachtet die durchschnittliche Auslastung der letzten 5 Minuten
    max-load-15 beachtet die durchschnittliche Auslastung der letzten 15 Minuten

  • meigrafd

    du wirst ne Menge mehr wissen für Linux als ich, abr als ich deinen Text las, sagte ich mir halt ... putty und ich dachte richtig.

    Code
    pi@rpi ~ $ ps aux |grep watch
    root      3996  0.0  0.3   1740  1680 ?        SLs  15:25   0:03 /usr/sbin/watchdog
    pi        4281  0.0  0.1   4144   856 pts/0    S+   17:06   0:00 grep --color=auto watch

    Der braucht kein Passwort,er ist es ja selbst, der den Wachhund los lässt. Somit sollte das auch machbar sein. Aber das nur am Rande.

    Im Grundsatz hast du Recht, einen Fehler umgeht man nicht, den räumt man aus. Ist schliesslich kein Riff und der rPi kann nicht (allein) schwimmen. Jeder Vergleich hinkt.
    Das Auskommentieren einer Ursache wird gern genommen, um eine Wirkung zu ändern. Was Anderes haben wir also auch nicht gemacht, als umfahren. Ahoi.

    Ich werde mal schauen, wie der rPi die kommenden zwei Wochen läuft. In der Zeit kann ich mich auch mit Andreas seiner Erfindung auseinander setzen.
    Habe noch ein anderes Problem, aber da muß ich wahrscheinlich einen neuen Thread aufmachen.

    ps aux liefert mir einen (wichtigen) Prozess - allerdings unter einem User, den es nicht gibt.

    Code
    pi@rpi ~ $ ps aux |grep fetch
    111       3150  1.2  0.7   6940  3504 ?        Ss   11:44   4:18 /usr/bin/fetchmail -d 900 -f /etc/fetchmailrc --pidfile /var/run/fetchmail/fetchmail.pid --syslog


    Wer macht sich da zum superuser?

    Während top meint,

    Code
    3150 fetchmai  20   0  6940 3504 1956 S   0,0  0,7   4:21.34 fetchmail


    Mysterien sollte ich ja suchen, oder? :wallbash:
    Ach ja, hier im Forum, nicht in den Unterwelten meines rPi :angel:

    LG theMario

    Einmal editiert, zuletzt von theMario (20. Januar 2015 um 17:26)

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!