Frostig Kleine Dinge
Jan 18

Himmelarsch, meine Fresse! Die oben genannte Festplatte steckt derzeit gleich fünf mal in meinem Server. Zwei teilen sich das RAID1 mit System und wichtigen beruflichen sowie privaten Daten, die anderen drei balgen sich im RAID5-Verbund um andere Userdaten.

Nun hat mein RAID-Controller in letzter Zeit verstärkt fehlerhafte Sektoren gemeldet, und zwar an gleich drei der Platten. So war ichs leid und habe mit Samsung telefoniert. Ein sehr freundlicher Hotline-Agent hat mir in Windeseile ein paar RMAs und Anweisungen zum reibungsfreien Garantietausch gemailt.

Nun bin ich, gerade was meine Daten angeht, ein vorsichtiger Mensch, außerdem brauchte ich ja ein bißchen Kapazität, um meine Daten zwischenzuspeichern. Also bin ich gleich am nächsten Tag, nämlich dem vergangenen Freitag, in den Münchner K&M-Shop gerannt und habe nochmal zwei Exemplare der Baureihe HE103UJ erstanden.

Beide auch gleich am Freitag eingebaut, dem RAID5 als Hot Spare gemeldet und eine der fehlerhaften Platten entfernt. Nach kurzem aber lauten Gepiepe des Controllers (”harddisk an port sowieso failed, hot spare took over”) legte selbiger auch schon los und kaum 6 Stunden später war das Array wieder “rebuilt”.

Heute Nachmittag wollte ich dann das selbe Spielchen mit der zweiten Platte durchziehen: Platte raus, Hot Spare springt ein, rebuilding, supi. Ein paar Stunden später, gerade auf dem Weg ins Bett, noch schnell den Rechner ausschalten… Hoppla, watt is das? RAID-Status CRITICAL? Rebuilding abgebrochen? Gut, nochmal anstoßen. Klick, ratterdiklack, “rebuilding failed. an error occurred on disk bla tüt”. WTF..?! Die Platte hab ich doch erst VORGESTERN gekauft?!?!

Dieser verfickte Drecksplatte ist doch tatsächlich gerade mal 48h am Stück gelaufen, bevor sie sich mit irreparablen Fehlern gemeldet hat! Und das allerschlimmste: Das ist exakt in dem Zeitfenster passiert, in dem sich das RAID im Rebuilding befunden hat, sprich: Null Toleranz bei Fehlern! 3 Stunden vorher - kein Problem, hätte ich halt das Rebuilden sein lassen und nur ein bißchen gekotzt! 3h später - kein Problem, dann wären alle Daten schon vollständig auf die neue Platte synchronisiert gewesen und der RAID-Verbund hätte - seinem Zweck entsprechend - gehalten.

Wie groß ist die verdammte Wahrscheinlichkeit, daß eine NAGELNEUE Platte nach so kurzer Zeit das zeitliche segnet und dann auch noch zu dem denkbar ungünstigsten Zeitpunkt, an dem NULL Datenredundanz herrscht, für die so ein blödes RAID nunmal entwickelt und in meinem Server eingerichtet wurde?!?!

Ich kann in diesem Leben niemals so viel fressen, wie ich KOTZEN möchte!

Ich habe nun ein RAID5-Array, das aus folgenden Platten besteht:

  • alte, funktionstüchtige Platte mit Daten
  • neue, funktionstüchtige Platte ohne Daten (da die Synchronisierung nicht komplett war)
  • neue Platte mit Fehlern und Daten

Ich sitze nun seit gut 6 Stunden vor der Kiste, habe eine der alten 1TB-Platten mit reparierten Sektorfehlern reaktiviert und schaufele Daten drauf. Da die Daten nun teilweise von einer defekten Platte gelesen werden, kann ich hier schön fast jedes Verzeichnis einzeln kopieren. Und wenn wir über einen defekten Sektor stolpern, ist in der Regel Reboot angesagt, da der Controller das RAID dann deaktiviert.

Und das alles mache ich bei dem penetranten Gepiepe meiner USV, deren Akku vor ein paar Tagen ebenfalls den Geist aufgegeben hat. Und ich trau mich auch nicht, mich sinnlos zu besaufen, weil ich Angst habe, Flüchtigkeitsfehler zu machen. :(

7 Antworten zu “Samsung HE103UJ”

  1. Matthias sagt:

    Kann es sein, dass die Platten einfach schlecht sind? So wie damals ganze IBM/Hitachi Baureihen? Hitachi hat ja auch zwei bis drei Jahre gebraucht, um das in den Griff zu bekommen.

    Ich hab mir auch schon überlegt; so selten wie ich mir einen neuen PC anschaffe, werde ich beim nächsten vielleicht Enterprise/Serverfestplatten einsetzen, anstatt nur auf Speed und Euro/Gigabyte zu achten.

    Und was ich noch fragen wollte: Bei 50Mbit, haste da nicht schon mal über einen professionellen (steuerabzugsfähigen) Onlinebackupdienst nachgedacht?

  2. demScroob sagt:

    ja, nach einiger recherche VOR dem ausfall und VOR dem neukauf habe ich festgestellt, daß man bei diesen platten 1-2 ganz miese chargen erwischen kann. jemand hatte schon 5-6 schlechte von denen in der hand. allerdings waren diese berichte von ende ‘08 / anfang ‘09, daher hatte ich gedacht, daß die das prob inzwischen im griff haben. meine platte hatte jedenfalls ein produktionsdatum vom 3. quartal ‘09.

    das sind übrigens serverfestplatten: S-ATA in einer RAID EDITION mit insgesamt 7 jahren garantie. deshalb hatte ich mich vor knapp 2 jahren dafür entschieden.

    meine lebensnotwendig wichtigen daten waren davon übrigens nicht betroffen. deren backup lag lediglich in dem verbund, der rest in einem separaten RAID1. von denen habe ich sicherheitshalber parallel zu der rettungsaktion ein paar dvds gebrannt. katastrophal wäre der verlust von dokumenten gewesen und sehr traurig, wenn private bilder das zeitliche gesegnet hätten.

  3. demScroob sagt:

    ach so, und zu nem onlinebackupdienst… da haste recht, für die privaten und firmendaten wär das echt ne maßnahme… *grübel*

  4. Matthias sagt:

    Hi, ich habe fast das selbe Problem. Darf ich fragen wann Du die ersten Platten gekauft hast? Welchen Raid Controller hast Du?

    Im speziellen Fall ist es bei mir ein SRCSASBB8I Controller von Intel. Die Platten wurden Anfang Dezember gekauft.

    REV A
    F/W 1AA01113

    2009.10 (ggf. Herstellungsdatum?)

    DO NOT COVER ANY DRIVE HOLES :)

    Matthias

  5. demScroob sagt:

    Uuh, da müsste ich daheim gleich nochmal gucken.

    Diese Platten hatten n Herstellungsdatum von Mitte 2008. Die habe ich inzwischen übrigens eingeschickt (siehe hier: http://blog.sexmitkleinengelbenhaftetiketten.de/2010/02/26/samsung-agrrrr/). Eine von den Austauschplatten (createddate 2009.12, also brandneu) hat den Burn-In-Test auch gleich nicht überstanden. Die liegt gerade im Auto und wandert in der nächsten halben Stunde zur Packstation… :-|

    Mein Fazit: Bisher hatte ich es drei Mal, daß von zwei Laufwerken mit aufeinanderfolgender Seriennummer jeweils eines den Geist aufgegeben hat.

  6. Matthias sagt:

    Hi demScroob, danke für Deine Antwort.

    Hast Du den Write Cache für das Array aktiviert? Habe gerade mal ein paar Benchmarks gemacht und habe auf den ersten Blick weniger Probleme, wenn er aktiviert ist.

    Matthias

  7. demScroob sagt:

    Hey, nicht so förmlich. Scroob reicht. :D

    Die Platten stecken bei mir im Fileserver an einem HighPoint RocketRaid 2320. Da laufen inzwischen vier von denen in einem RAID5 mit Write Back Cache wie Schmidts Katze. Flaschenhälse habe ich da eher in Form von Netzwerkkatzen und anderen Platten, die dann meist per USB dranhängen.

Einen Kommentar schreiben