Schlagwort-Archiv: überhitzt

Wasserkühlung nach “nur” 10 Jahren defekt (04-2022)

Gestern ging mein PC plötzlich aus, nur beim Surfen mit dem Firefox auf Linux MINT. Keine schwere Arbeit für meine Ryzen 5 3600 CPU.

Nach ausschalten des Netzteils und einschalten Minuten später lief alles wie gewohnt.

Heute morgen dann der Supergau. PC geht plötzlich einfach aus. Drückt man kurz darauf den Einschaltknopf, leuchtet die Power-LED kurz auf das war’s. Warte ich einige Minuten startet MINT wie gewohnt, kurz darauf, auch wenn man nichts tut, poff, PC aus.

Ich lasse den PC abkühlen und starte MINT. Öffne dann schnell die syslog Datei, keine speziellen Einträge zu der Uhrzeit eines AUSFALLs.

Relativ schnell stelle ich fest, das dieses mal das OS/Treiber/Software nicht der Schuldige sein kann. Denn es passiert schon im GRUB OS-Loader wenn man etwas wartet.

Zuerst habe ich das Netzteil bzw. die GraKa in Verdacht. Ich reinige Beide, das Netzteil auch zum ersten mal im Inneren.

Netzteil innen gereinigt

Etwas später merke ich das es selbst im BIOS (UEFi) passiert. Zuerst sehe ich das der Mauspfeil stottert, was dort nicht sein darf. Dann will ich mir die Lüfter-Drehzahlen ansehen, NULL steht da wo meine WaKü Pumpe angeschlossen ist !

Dann sehe ich zufällig die CPU-Temperatur, über 100° Celsius !!!

Die Temperatur steigt weiter bis genau 113° Celsius, poff, PC aus.

CPU Temperatur 113 Grad !!! Pumpendrehzahl = NULL !!!

Aha, das muß der Fehler sein, die Wasserkühlung eine AiO (All in One) Lösung Corsair H60. Die habe ich seit dem 19. September 2011. Jau, die hat ihren Dienst getan, und das ohne einmal aufzumucken.

Corsair H60 WaKü Pumpen-Elektronik

Eine neue WaKü muß her und zwar schnell … also auf zum Atem…ähh…ATOM…ähh…ALTERNATE

Und man weiß wohl, die A45 runter nach Gießen ist vom feinsten. Im ernst, wegen der schlechten Teedecke fahre ich eher nicht mehr nach ALTERNATE. Über Kilometer nicht enden wollend permanente Rippel-Teerdecke (gesponsert von Stößdämpfer-Herstellern), bei der man auch bei erlaubten 100 freiwillig nur 70 fährt.

Ich hatte mir schon vorher die Enermax Liquimax III raus gesucht, da es von Corsair AiO Lösungen mit nur EINEM Lüfter erst ab ca. 100€ gab. Die Enermax Liquimax III liegt bei läppischen 45€. Und die Bewertungen sind durchweg sehr positiv.

Gekauft, ab nach Haus über den Feldweg A45. Ach du Scheiße zurück ist Die ja noch schlimmer. Geht das überhaupt ?! Wer teert so einen MIST.

Das schöne an der Corsair H60 war, das man einfach nur zwei Steigbügel artige flexible Ösen hatte. Einfach in die original Mainboard Halterungen einhängen, festschrauben, fertig.

Enermax Liquimax III – Einbau

Alte WaKü raus ein Klacks.

Erstmal gedacht “was ist da für ein Zeug dabei, muß man ja studiert haben”. Im Endeffekt kann ich sagen da ist immer eine Schraube/Scheibe mehr dabei wie nötig und die Verarbeitung ist overall Top.

Enermax Liquimax III – Verpackung

Einbau in Kürze

  • Mainboard muß raus wegen neuer Backplate
  • alle USB-Kabel abziehen
  • Mainboard Gigabyte B550M AORUS Pro ein Traum weil das gesamte Backpanel ohne Blech schon in einem Block verbaut ist
  • ALLE internen Kabel wie SATA/USB/Frontpanel ect. können dran bleiben (es reicht das Mainboard nach vorne zu neigen)
  • original Mainboard CPU Halterung alle 4 Schrauben gelöst, dadurch fällt die original Backplane runter
  • bereite das neue Backplate vor, es werden 4 Schraubbolzen bei AM4 Löchern durch gesteckt und mit Kunststoffscheiben gesichert/fixiert dann den quadratischen Isolations-Aufkleber auf das Backplane kleben
  • den 120mm Lüfter schraube ich mit 4 Schrauben lt. Anleitung so an den Kühler das Er nach draußen durch den Kühler bläst
  • Mainboard los geschraubt und etwas nach vorne geneigt, genug Platz um die Bolzen des neue Backplane durch die 4 freien Löcher zu schieben
  • auf der Oberseite des Mainboards nun 4 konische Kunststoff Abstandshalter über die Bolzen des Backplate schieben (sind die Abstandshalter richtig herum gehen Sie sähmig auf die Bolzen und halten somit das Backplate in Position
  • die CPU “eincremen”
  • nun den Pumpen-Klotz auf die Backplate-Bolzen schieben und mit 4 Feder-Schrauben fixieren (natürlich hatte ich bei Erstversuch vergessen die Folie an der Kupferfläche der Pumpe abzuziehen 🙂 – Den Fehler hatte tatsächlich mal Jemand gemacht und sich gewundert das sein PC instabil lief
  • Mainboard wieder befestigt, alle USB-Stecker wieder rein
  • Pumpe an CPU-Fan1 angeschlossen
  • ich schraube die Kühler/Lüfter Kombi mit beigelegten 4 Schräubchen innen an die PC Rückseite
Backplate Blozen mit Plastikscheiben fixiert
Backplate durch die Mainboard Löcher gesteckt
Backplate am Mainboard fixiert mit Abstandshaltern
Pumpen-Block mit Feder-Schrauben befestigt (stückchenweise bis zum definierten Anschlag)
Kühler-Lüfter Kombination an der inneren PC Rückseite montiert

Erster Startversuch, NIX … ach du Scheiße !!!

Puh, nur vergessen den POWER Stecker vom Netzteil auf’s MB zu stecken …

Nö, Rechner startet, erstmal ins BIOS alle Drehzahlen sind schön low. CPU-Temperatur 29° Celsius, YEAHHH !!

Erstmal ‘n Video encodieren, ein bisschen YouTuben. Alles super stabil.

Wahnsinn sowas, ich hatte das gar nicht bemerkt oder auch nur daran gedacht das die alte WaKü nicht laufen könnte. Aber nix hält ewig.

Aber der Defekt war ja schnell gefunden und repariert und hat auch noch Spaß gemacht (außer die A45).

Bei der Enermax Liquimax III haben mir besonders so Kleinigkeiten gefallen. Z.B. diese kleinen blumenförmigen Kunststoffscheiben zum halten der Stehbolzen am Backplate. Einfach sähmig über die Bolzen schieben fertig.

Das gleiche dann mit den Abstandshaltern. Diese werden auch sähmig über die Bolzen geschoben, hält. Einen hatte ich zufällig falsch herum drüber geschoben, Der hielt dann nicht, war quasi lose, umgedreht hält. Klasse wenn man nix schrauben muß.

Alles vom Pumpen-Block über den 120mm Lüfter bis zum Kühler macht einen wertigen Eindruck und ist Sahne verarbeitet. Die Kühlleitungen sind noch extra mit Gewebe ummantelt, total edel. Jetzt muß das Teil nur noch 10 Jahre laufen …

Lautstärke wie vorher auch, kommt Last auf wird es dezent lauter, aber immer noch besser und stabiler wie ein Standard Kühlkörper direkt auf der CPU.

Nachtrag :

Der Pumpenblock ist aktuell nur mit dem 3 poligen Kabel am Mainboard CPU-Fan Anschluß gesteckt.

Nicht das man es bräuchte aber interessant. Mein Gehäuse hat so fein gelochte Blenden für die 5¼” Schächte. Dadurch sieht man den Pumpenblock. Im unbelasteten Betrieb leuchtet dort nichts. Kommt Last auf (z.B. Film Encodieren) geht die Pumpe in Sekunden über Rot/fett Orange/hell Orange und zuletzt dann Weiß. Sieht einfach cool aus. Allerdings würde ich erwarten, das Vollast eher Rot/Orange wäre und kühler dann weiß.

Man kann also direkt beobachten ob der Kühlkreislauf arbeitet.

Beiliegend sind allerdings noch zwei weitere Kabel. Eins falls die Stromversorgung des Mainboards für die Pumpe nicht ausreichend wäre. Mit Diesem kann man dann einen Netzteil SATA-Stromkabel anknabbern.

SATA-Stromkabel für den Pumpenblock

Des weiteren liegt noch ein BRG-Kabel bei für die RGB-Beleuchtung des Pumpenblocks.

BRG-Kabel zum Anschluß des Pumpenblocks an Mainboard CPU-BRG Stecker und eines optionalen weiteren Lüfters

In den Miniatur-Bildchen der Anleitung ist leider kaum erkennbar wo der Stecker am Pumpenblock verbaut ist. Ich denke er sollte hinter diesem Gummipfropfen sein. Nicht das ich den Pfropfen öffne und Der wäre zum Kühlflüssigkeit auffüllen.

In einem YT Video sehe ich, das einer dort sein RGB Kabel aufgesteckt hat, Pfropfen ab, Kabel gesteckt und mit dem CPU RGB Header verbunden. Nun leuchtet der Pumpenblock dauerhaft Orange, schön aber langweilig und Sinn befreit :/

PS : doch, dauer Orange sieht cool aus

Den Mainboard-Header muß man ja im UEFi justieren können … NÖ

Das geht wohl nur per Software unter LINUX z.B. OpenRGB.

 

 

 

 

Linux MINT NVidia GraKa Crash (08-2021)

Ich habe Linux MINT schon eine kleine Ewigkeit drauf und quasi keinerlei Probleme mit der System-Stabilität.

Seit kurzem jedoch habe ich sporadisch folgendes Verhalten. Beim gleichzeitigen abspielen zweier Video’s und deren Aufnahme mit dem SimpleScreenRecorder heulen von einer zur anderen Sekunde die GraKa-Lüfter auf, Sekunden später wird der Bildschirm schwarz, das war’s. Leider kann ich in dem Moment nicht die GraKa-Temperatur ermitteln.

Drücke ich RESET startet der Rechner neu. Bei einem weiteren Recording-Versuch läuft dann in der Regel alles ohne Probleme durch.

Deswegen habe ich heute am 10.9.2021 mal alles was mit CUDA zu tun hat deinstalliert. Mal beobachten was passiert…

14.9.2021

Und schon wieder, System frisch gestartet, man kann normal arbeiten. Ich lasse 2 Videos laufen und nehme Beide mit dem SimpleScreenRecorder auf. Und wieder mitten in der Aufnahme ein Crash, GraKa bringt keine Bildausgabe mehr (kein Signal), es hilft nur noch ein Hard-Reset.

Aufnahmen dieser Art waren bis neulich kein Problem. Und wie oben geschrieben habe ich alles was mit CUDA zu tun hat mal deinstalliert. Aktueller Treiber ist 470.67 auf meiner GeForce GTX 650 Ti Boost.

NVidia Treiber 460.67 crasht das System ?

Dieses mal drehten die GraKa-Lüfter kaum merklich hoch. Letztens ging von einer zur anderen Sekunde ans Drehzahllimit.

Nach dem Hard-Reset startet MINT normal und ich wiederhole die Aufnahme ohne jegliche Probleme. Und diese Aufnahme dauert dann auch länger weil ich ja mitten drin abgewürgt wurde.

Vor einiger Zeit hatte ich ja so ein Problem das nach einem Kaltstart Video’s sowohl in Celluloid als auch im Firefox mit YouTube exakt auf die gleiche Weise ruckelten. Dieser Effekt ist seit geraumer Zeit vollkommen verschwunden.

Dafür habe ich nun diese Crash’s aber eben nur beim Screen-Recording zweier gleichzeitig laufender Video’s.

Die Überschneidung beider Effekte sehe ich darin das beides oftmals (nicht immer) nach einem Kaltstart passiert. Startet man den Rechner 1x durch läuft alles.

Manuelles Treiber-Update auf 470.63 …

sudo apt -get install nvidia-driver-470

Nach der Installation, die erwartungsgemäß sauber durchläuft starte ich den Rechner neu. Begrüßt werde ich mit einer 1024×768 Auflösung, die sich auch nicht ändern läßt. Ich starte NVidia-Settings sehe aber das Fenster nirgends. Beenden läßt es sich aber.

Nochmal Rechner komplett AUS. Neustart, das Gleiche 🙁

Wen juckt’s…mache Rechner aus und Arbeite inzwischen 1h was Anderes. Komme wieder rein, Rechner gestartet, alles ist wie immer mit Full-HD 1920x1080er Auflösung.

Da meinste doch echt die Rechner leben (Sie Leben!)

PS : und in den NVidia-Settings unter X Server Display Configuration/Advanced ist sogar der Haken “Force Full Composition Pipeline” noch drin. Wofür war der noch gleich ?

Ach ja :

Der Haken behebt dauerhaft das verdammte Screen-Tearing eklatant zu sehen z.B. beim Scrollen im Browser oder quasi in jedem Video, egal ob Lokal oder YouTube.

Dann will ich mal beobachten ob das Crash-Verhalten während Screen-Recordings immer noch da ist …

Der folgende Tag

Ich starte den Rechner, der gestern noch die korrekte Bildschirm-Auflösung hatte und lande wieder im 1024x768er Pixelbrei-Desktop !!

Oh LINUX nicht ist wie es scheint …

Nach diesem Befehl sehe ich “Kernel Driver in use: nvidia

lspci -nnk | grep -i “VGA\|’Kern’\|3D\|Display” -A2

Wer hat hier eigentlich das sagen ?!

Laut NVidia-Settings ist aber der 470,63 Treiber am laufen/installiert/beides ?

OK, wenn die gestrige manuelle Treiber-Installation unerwünscht ist mache ich Sie mit sudo apt-get remove nvidia-driver-470 wieder rückgängig.

Aber anstatt das einige 100 Megabyte entfernt werden löscht MINT nur läppische 1,5MB !!

Oder hat die Installationsroutine den Treiber in den KERNEL eingebunden ? Meine bei der Installation sowas gesehen zu haben.

“Deinstallation” ist durch, Neustart, NVidia-Settings zeigt immer noch 470.63 an, hmmm, um so besser. Natürlich ist jetzt die Auflösung plötzlich wieder i.O.

Warte mal, den Effekt mit der ständig wechselnden Auflösung hatte ich schon einmal gehabt als ich mit MINT anfing.

Noch einen Tag weiter

Und nach dem Kaltstart wieder die niedrige unveränderliche Auflösung, was zu erwarten war 🙁

Das macht einfach keine Laune, so ein Betriebssystem-Verhalten. So etwas normalen Usern anzutun ist eine Frechheit.

Man weiß einfach nicht wer beim Thema Grafiktreiber das sagen hat, verdammich. Unter Windows installiere ich ‘nen Treiber und das war’s. Ab dann läuft Der, nicht bei Ubuntu !!

Irgendwo finde ich eine Anleitung

Erste Empfehlung : nimm die Treiberverwaltung

Seit ich MINT nutze war mir DAS auch klar. Leider ist Diese (oder deren Fenster) oft (IMMER) leer. Da ist weder was mit Deinstallation oder Installation. Hilft Niemandem !!

Zweite Empfehlung : der einfache Weg

Im Terminal ubuntu-drivers devices eingeben.

Es erscheint eine Liste verfügbarer Treiber-Versionen. Dort sehe ich dann auch die laut NVidia neuste Version 470.63.01

Der empfohlene Treiber wird dann mit sudo ubuntu-drivers autoinstall installiert.

Ich nehme aber geziehlt den 470er Treiber mit sudo apt install nvidia-driver-470

Mit nvidia-smi kann man den installierten Treiber anzeigen.

Ich mache mal einen Neustart, danach ist die Auflösung immer noch Full-HD. Das heißt aber nach meiner Erfahrung noch lange nicht das es morgen früh immer noch so ist. Denn scheinbar ist ein heutiger Neustart etwas anderes wie als wenn ich den morgen durchführe ?!

Heute, nachdem ich Full-HD wieder hinbekommen habe lief jedenfalls das ScreenRecording ohne Probleme. Aber das heißt noch lange nicht das es morgen auch so sein muß ?!&/%$
Der nächste Morgen

Uhh, immer noch Full-HD nach dem ersten Kaltstart.

Und oh Freude die GraKa Crasht wieder mal beim Recording zweier Videos mit dem SimpleScreenRecorder. Nach einem Reset klappt das Recording wie immer ohne jegliche Ausfälle.

Ich habe Windows 10 und MINT auf diesem Rechner und Windows macht NULL Probleme. Der Hund muß doch in MINT vergraben sein. Leider gibt es sooo viele Systemprotokolle das man eine Ursache nicht ausmachen kann.

Noch einen Morgen weiter

Cool, wieder Low-Res Auflösung !!

Wat is dat schön mit MINT. Mach einfach was du willst. Gestern ist nicht heute und Logik ist abwesend.

Ich starte die TREIBERVERWALTUNG, wow, da stehen ja mal zufällig Treiber drin, nicht wie üblich LEER.

Und JA, installiert wäre dann der 470.63.01

In der Not wähle ich den 460.91.03 und klicke “Änderungen anwenden”. Der Rechner rotiert, ist fertig, niedrige Auflösung. Ein Neustart wird NICHT empfohlen, deswegen starte ICH neu.

Ah, Full-HD (1920 x 1080), schön…morgen wahrscheinlich schon wieder Geschichte.

Ein weiterer Morgen der im LoRes Horror endet

LINK

17.10.2021

Wieder ein CRASH währen ich zwei Videos Recorde. Diese mal konnte ich folgende Meldungen aus /var/log/syslog extrahieren :

Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677447] NVRM: GPU at PCI:0000:05:00: GPU-111503de-418c-9b86-58f4-af73ef9ab86c
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677451] NVRM: Xid (PCI:0000:05:00): 79, pid=0, GPU has fallen off the bus.
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677453] NVRM: GPU 0000:05:00.0: GPU has fallen off the bus.
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: A GPU crash dump has been created. If possible, please run
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: nvidia-bug-report.sh as root to collect this data before
Oct 17 08:23:58 WorkserverMINT kernel: [ 906.677484] NVRM: the NVIDIA kernel module is unloaded.

Aha, die Grafikkarte verlor angeblich ihren Kontakt zum BUS, wer’s glaubt. Nochmal vor Monaten lief alles mit gleicher Hardware einwandfrei.

Allerdings ist das ein bekanntes Problem. Denn Jemand beschreibt genau das Thema und stellt folgendes fest :

  • er hat eine NEUE Grafikkarte, unwahrscheinlich das DEFEKT
  • er steckt GraKa auf anderen Slot OHNE Besserung
  • er nutzt ersatzweise den Nouveau-Treiber dort passiert es NICHT

Toll, wie sich letztens herausstellt, steckte er seine LoSpec GraKa in einen x1-Slot anstatt in den x16-Slot. Meine Fresse das hätte selbst ich direkt so gemacht. GraKa in den GraKa-Slot !!

Hilft mir leider NULL weiter …

Viele sagen mach mal ‘nen GraKa Stress-Test

HTML5 3D Demo

Das liegt aber meines Erachtens nicht an der Leistungs-Grenze (oder Stomversorgung) der GraKa.

GraKa Stress-Test max. 60 Grad Celsius

Meine GraKa pendelt sich bei ca. 60° ein. Abstürzen tut hier unter Last gar nichts.

Ich stelle mal in den NVidia-Setting den Powermizer auf “Prefer Maximum Performance“. Mache mir aber keine Hoffnungen …

Moment ich schalte doch wieder auf Auto Modus, teste mal die BEREITSCHAFT des PC.

Rechner geht kurz AUS, direkt wieder AN, alle Lüfter laufen als wenn der PC liefe. Bewege die Maus, drücke die Tastatur, Rechner meldet sich nicht. Erst als ich den Power-Button drücke geht Er noch “anner” als Er schon ist. Die GraKa Lüfter heulen kurz auf ganz normal, eine USB HDD spinnt hoch.

Interessant ist dann das kurz darauf die GraKa Lüfter aufjaulen und nicht wieder beruhigen. Sekunden später schaltet sich der Rechner selber AUS.

Aha, da mag wohl ein Treiber/System keinen Ruhemodus. Ich frag mich nur wo ich im Ruhemodus gewesen sein soll wenn ich besagte zwei Videos Recorde, da ist doch Leistung angesagt.

Jetzt schalte ich nochmal den GraKa Modus auf Prefer Maximum Performance um. Genau der selbe Mist, schalte wieder auf Auto. Oh, der steht schon auf Auto, wie schön das meine Wünsche NICHT von Dauer sind !!

Und nochmal passiert es bei mir, mache ich einen RESET und beim folgenden Recording-Versuch klappt alles Problemlos

Fühlt sich so ähnlich an wie das Timing-Problem beim lightdm.service starten, nur mit der GraKa.

UND vor MINT Version 20 hatte ich das Problem nicht. Ich meine aber auch es lief eine geraume weile mit MINT 20 klasse, bis vor einigen Monaten. Irgendwo sitzt so ein Nerd und lacht sich bestimmt einen, weiß genau welcher Parameter es ist.

Es ist wieder mal sooo traurig. Zuerst das Auflösungs-DRAMA-Lotteriespiel bei jedem Systemstart, das ich endlich beseitigen konnte und nun das hier.

Und immer sind die Auswirkungen so drastisch, das man echt langsam die Gedult verliert. Ewig lang nach Lösungen zu suchen und keine zu finden. Ohne Spaß sah ich eben, das schon 2011 der Begriff “GPU has fallen off the bus” fiel !!!

Ähh, weiß es denn Keiner … Niemand … Niemand

2011 hatte man ganz andere Treiber-Versionen, OS-Versionen, KERNEL-Versionen … 2021 immer noch der selbe Schei(&%$

22.10.2021

Ein neuen KERNEL eingespielt, einen Tag später wieder mal ein CRASH beim Recorden zweier Video’s. Dieses mal ohne jegliche Ankündigung. GraKa-Lüfter bleiben ruhig, Bildschirm wird schwarz, Monitor sagt “kein Signal”.

RESET

Recorden klappt beim zweiten Versuch quasi IMMER, muß man nicht begreifen. Wo ist der Unterschied ?!

In /var/log/syslog steht wieder mal “GPU has fallen off the bus”

Und sudo nvidia-bug-report.sh spuckt nur die gleiche Info aus, bringt einen nicht weiter.