Linux MINT NVidia GraKa Crash (08-2021)

Ich habe Linux MINT schon eine kleine Ewigkeit drauf und quasi keinerlei Probleme mit der System-Stabilität.

Seit kurzem jedoch habe ich sporadisch folgendes Verhalten. Beim gleichzeitigen abspielen zweier Video’s und deren Aufnahme mit dem SimpleScreenRecorder heulen von einer zur anderen Sekunde die GraKa-Lüfter auf, Sekunden später wird der Bildschirm schwarz, das war’s. Leider kann ich in dem Moment nicht die GraKa-Temperatur ermitteln.

Drücke ich RESET startet der Rechner neu. Bei einem weiteren Recording-Versuch läuft dann in der Regel alles ohne Probleme durch.

Deswegen habe ich heute am 10.9.2021 mal alles was mit CUDA zu tun hat deinstalliert. Mal beobachten was passiert…

14.9.2021

Und schon wieder, System frisch gestartet, man kann normal arbeiten. Ich lasse 2 Videos laufen und nehme Beide mit dem SimpleScreenRecorder auf. Und wieder mitten in der Aufnahme ein Crash, GraKa bringt keine Bildausgabe mehr (kein Signal), es hilft nur noch ein Hard-Reset.

Aufnahmen dieser Art waren bis neulich kein Problem. Und wie oben geschrieben habe ich alles was mit CUDA zu tun hat mal deinstalliert. Aktueller Treiber ist 470.67 auf meiner GeForce GTX 650 Ti Boost.

NVidia Treiber 460.67 crasht das System ?

Dieses mal drehten die GraKa-Lüfter kaum merklich hoch. Letztens ging von einer zur anderen Sekunde ans Drehzahllimit.

Nach dem Hard-Reset startet MINT normal und ich wiederhole die Aufnahme ohne jegliche Probleme. Und diese Aufnahme dauert dann auch länger weil ich ja mitten drin abgewürgt wurde.

Vor einiger Zeit hatte ich ja so ein Problem das nach einem Kaltstart Video’s sowohl in Celluloid als auch im Firefox mit YouTube exakt auf die gleiche Weise ruckelten. Dieser Effekt ist seit geraumer Zeit vollkommen verschwunden.

Dafür habe ich nun diese Crash’s aber eben nur beim Screen-Recording zweier gleichzeitig laufender Video’s.

Die Überschneidung beider Effekte sehe ich darin das beides oftmals (nicht immer) nach einem Kaltstart passiert. Startet man den Rechner 1x durch läuft alles.

Manuelles Treiber-Update auf 470.63 …

sudo apt -get install nvidia-driver-470

Nach der Installation, die erwartungsgemäß sauber durchläuft starte ich den Rechner neu. Begrüßt werde ich mit einer 1024×768 Auflösung, die sich auch nicht ändern läßt. Ich starte NVidia-Settings sehe aber das Fenster nirgends. Beenden läßt es sich aber.

Nochmal Rechner komplett AUS. Neustart, das Gleiche 🙁

Wen juckt’s…mache Rechner aus und Arbeite inzwischen 1h was Anderes. Komme wieder rein, Rechner gestartet, alles ist wie immer mit Full-HD 1920x1080er Auflösung.

Da meinste doch echt die Rechner leben (Sie Leben!)

PS : und in den NVidia-Settings unter X Server Display Configuration/Advanced ist sogar der Haken “Force Full Composition Pipeline” noch drin. Wofür war der noch gleich ?

Ach ja :

Der Haken behebt dauerhaft das verdammte Screen-Tearing eklatant zu sehen z.B. beim Scrollen im Browser oder quasi in jedem Video, egal ob Lokal oder YouTube.

Dann will ich mal beobachten ob das Crash-Verhalten während Screen-Recordings immer noch da ist …

Der folgende Tag

Ich starte den Rechner, der gestern noch die korrekte Bildschirm-Auflösung hatte und lande wieder im 1024x768er Pixelbrei-Desktop !!

Oh LINUX nicht ist wie es scheint …

Nach diesem Befehl sehe ich “Kernel Driver in use: nvidia

lspci -nnk | grep -i “VGA\|’Kern’\|3D\|Display” -A2

Wer hat hier eigentlich das sagen ?!

Laut NVidia-Settings ist aber der 470,63 Treiber am laufen/installiert/beides ?

OK, wenn die gestrige manuelle Treiber-Installation unerwünscht ist mache ich Sie mit sudo apt-get remove nvidia-driver-470 wieder rückgängig.

Aber anstatt das einige 100 Megabyte entfernt werden löscht MINT nur läppische 1,5MB !!

Oder hat die Installationsroutine den Treiber in den KERNEL eingebunden ? Meine bei der Installation sowas gesehen zu haben.

“Deinstallation” ist durch, Neustart, NVidia-Settings zeigt immer noch 470.63 an, hmmm, um so besser. Natürlich ist jetzt die Auflösung plötzlich wieder i.O.

Warte mal, den Effekt mit der ständig wechselnden Auflösung hatte ich schon einmal gehabt als ich mit MINT anfing.

Noch einen Tag weiter

Und nach dem Kaltstart wieder die niedrige unveränderliche Auflösung, was zu erwarten war 🙁

Das macht einfach keine Laune, so ein Betriebssystem-Verhalten. So etwas normalen Usern anzutun ist eine Frechheit.

Man weiß einfach nicht wer beim Thema Grafiktreiber das sagen hat, verdammich. Unter Windows installiere ich ‘nen Treiber und das war’s. Ab dann läuft Der, nicht bei Ubuntu !!

Irgendwo finde ich eine Anleitung

Erste Empfehlung : nimm die Treiberverwaltung

Seit ich MINT nutze war mir DAS auch klar. Leider ist Diese (oder deren Fenster) oft (IMMER) leer. Da ist weder was mit Deinstallation oder Installation. Hilft Niemandem !!

Zweite Empfehlung : der einfache Weg

Im Terminal ubuntu-drivers devices eingeben.

Es erscheint eine Liste verfügbarer Treiber-Versionen. Dort sehe ich dann auch die laut NVidia neuste Version 470.63.01

Der empfohlene Treiber wird dann mit sudo ubuntu-drivers autoinstall installiert.

Ich nehme aber geziehlt den 470er Treiber mit sudo apt install nvidia-driver-470

Mit nvidia-smi kann man den installierten Treiber anzeigen.

Ich mache mal einen Neustart, danach ist die Auflösung immer noch Full-HD. Das heißt aber nach meiner Erfahrung noch lange nicht das es morgen früh immer noch so ist. Denn scheinbar ist ein heutiger Neustart etwas anderes wie als wenn ich den morgen durchführe ?!

Heute, nachdem ich Full-HD wieder hinbekommen habe lief jedenfalls das ScreenRecording ohne Probleme. Aber das heißt noch lange nicht das es morgen auch so sein muß ?!&/%$
Der nächste Morgen

Uhh, immer noch Full-HD nach dem ersten Kaltstart.

Und oh Freude die GraKa Crasht wieder mal beim Recording zweier Videos mit dem SimpleScreenRecorder. Nach einem Reset klappt das Recording wie immer ohne jegliche Ausfälle.

Ich habe Windows 10 und MINT auf diesem Rechner und Windows macht NULL Probleme. Der Hund muß doch in MINT vergraben sein. Leider gibt es sooo viele Systemprotokolle das man eine Ursache nicht ausmachen kann.

Noch einen Morgen weiter

Cool, wieder Low-Res Auflösung !!

Wat is dat schön mit MINT. Mach einfach was du willst. Gestern ist nicht heute und Logik ist abwesend.

Ich starte die TREIBERVERWALTUNG, wow, da stehen ja mal zufällig Treiber drin, nicht wie üblich LEER.

Und JA, installiert wäre dann der 470.63.01

In der Not wähle ich den 460.91.03 und klicke “Änderungen anwenden”. Der Rechner rotiert, ist fertig, niedrige Auflösung. Ein Neustart wird NICHT empfohlen, deswegen starte ICH neu.

Ah, Full-HD (1920 x 1080), schön…morgen wahrscheinlich schon wieder Geschichte.

Ein weiterer Morgen der im LoRes Horror endet

LINK

17.10.2021

Wieder ein CRASH währen ich zwei Videos Recorde. Diese mal konnte ich folgende Meldungen aus /var/log/syslog extrahieren :

Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677447] NVRM: GPU at PCI:0000:05:00: GPU-111503de-418c-9b86-58f4-af73ef9ab86c
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677451] NVRM: Xid (PCI:0000:05:00): 79, pid=0, GPU has fallen off the bus.
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677453] NVRM: GPU 0000:05:00.0: GPU has fallen off the bus.
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: A GPU crash dump has been created. If possible, please run
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: nvidia-bug-report.sh as root to collect this data before
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: the NVIDIA kernel module is unloaded.

Aha, die Grafikkarte verlor angeblich ihren Kontakt zum BUS, wer’s glaubt. Nochmal vor Monaten lief alles mit gleicher Hardware einwandfrei.

Allerdings ist das ein bekanntes Problem. Denn Jemand beschreibt genau das Thema und stellt folgendes fest :

  • er hat eine NEUE Grafikkarte, unwahrscheinlich das DEFEKT
  • er steckt GraKa auf anderen Slot OHNE Besserung
  • er nutzt ersatzweise den Nouveau-Treiber dort passiert es NICHT

Toll, wie sich letztens herausstellt, steckte er seine LoSpec GraKa in einen x1-Slot anstatt in den x16-Slot. Meine Fresse das hätte selbst ich direkt so gemacht. GraKa in den GraKa-Slot !!

Hilft mir leider NULL weiter …

Viele sagen mach mal ‘nen GraKa Stress-Test

HTML5 3D Demo

Das liegt aber meines Erachtens nicht an der Leistungs-Grenze (oder Stomversorgung) der GraKa.

GraKa Stress-Test max. 60 Grad Celsius

Meine GraKa pendelt sich bei ca. 60° ein. Abstürzen tut hier unter Last gar nichts.

Ich stelle mal in den NVidia-Setting den Powermizer auf “Prefer Maximum Performance“. Mache mir aber keine Hoffnungen …

Moment ich schalte doch wieder auf Auto Modus, teste mal die BEREITSCHAFT des PC.

Rechner geht kurz AUS, direkt wieder AN, alle Lüfter laufen als wenn der PC liefe. Bewege die Maus, drücke die Tastatur, Rechner meldet sich nicht. Erst als ich den Power-Button drücke geht Er noch “anner” als Er schon ist. Die GraKa Lüfter heulen kurz auf ganz normal, eine USB HDD spinnt hoch.

Interessant ist dann das kurz darauf die GraKa Lüfter aufjaulen und nicht wieder beruhigen. Sekunden später schaltet sich der Rechner selber AUS.

Aha, da mag wohl ein Treiber/System keinen Ruhemodus. Ich frag mich nur wo ich im Ruhemodus gewesen sein soll wenn ich besagte zwei Videos Recorde, da ist doch Leistung angesagt.

Jetzt schalte ich nochmal den GraKa Modus auf Prefer Maximum Performance um. Genau der selbe Mist, schalte wieder auf Auto. Oh, der steht schon auf Auto, wie schön das meine Wünsche NICHT von Dauer sind !!

Und nochmal passiert es bei mir, mache ich einen RESET und beim folgenden Recording-Versuch klappt alles Problemlos

Fühlt sich so ähnlich an wie das Timing-Problem beim lightdm.service starten, nur mit der GraKa.

UND vor MINT Version 20 hatte ich das Problem nicht. Ich meine aber auch es lief eine geraume weile mit MINT 20 klasse, bis vor einigen Monaten. Irgendwo sitzt so ein Nerd und lacht sich bestimmt einen, weiß genau welcher Parameter es ist.

Es ist wieder mal sooo traurig. Zuerst das Auflösungs-DRAMA-Lotteriespiel bei jedem Systemstart, das ich endlich beseitigen konnte und nun das hier.

Und immer sind die Auswirkungen so drastisch, das man echt langsam die Gedult verliert. Ewig lang nach Lösungen zu suchen und keine zu finden. Ohne Spaß sah ich eben, das schon 2011 der Begriff “GPU has fallen off the bus” fiel !!!

Ähh, weiß es denn Keiner … Niemand … Niemand

2011 hatte man ganz andere Treiber-Versionen, OS-Versionen, KERNEL-Versionen … 2021 immer noch der selbe Schei(&%$

22.10.2021

Ein neuen KERNEL eingespielt, einen Tag später wieder mal ein CRASH beim Recorden zweier Video’s. Dieses mal ohne jegliche Ankündigung. GraKa-Lüfter bleiben ruhig, Bildschirm wird schwarz, Monitor sagt “kein Signal”.

RESET

Recorden klappt beim zweiten Versuch quasi IMMER, muß man nicht begreifen. Wo ist der Unterschied ?!

In /var/log/syslog steht wieder mal “GPU has fallen off the bus”

Und sudo nvidia-bug-report.sh spuckt nur die gleiche Info aus, bringt einen nicht weiter.

 

 

 

 

 

Schreibe einen Kommentar