Cel mai “frumos” lucru care se poate intimpla cu un server e sa i se prajeasca sursa. Functie de noroc se prajesc si motherboardul si ram-ul si procesorul si hardurile. Pe scurt ramine o carcasa fumeginda…(ultimele doua propozitii se rostesc printre dinti)
Legea lui Murphy a fost incalcata de data asta: “When yours hard disk is going to fail it will do so in the next 24 hours” .Este foarte adevarat ca nu spune nimic despre doua hardiskuri in raid 1.
E mult prea tehnica exprimarea si ma bate dono 🙂 . Pe scurt raid 1 inseamna ca aveti 2 galeti ( cu date ) si puneti nuci in galeti ( sub forma de date) . Cind puneti o nuca in prima galeata aveti grija sa puneti o nuca identica si in galeata 2 astfel incit daca “se fura” una din galeti ( sau se strica ) ramine a doua galeata cu aceleasi nuci ca prima. Stiu am folosit diateza reflexiva … De la Teo @ deko cafe ( tocmai am descoperit ca si-a facut si el blog ) mi se trage.
Ca am lamurit acest aspect al problemei sa continuam. Ei bine … controllerul de hard diskuri a decis in 2007 sa intre in greva neanuntata si a decis ca nu mai doreste sa colaboreze cu unul din harduri. Si asta fara sa dea nici un warning si nici un mesaj de eroare. In schimb a continuat sa colaboreze fructuos cu hardul 2. Sistemul mergea fara probleme . Pina in momentul in care serverul a crapat cu totul.
Ca s-a ars placa de baza , ram-ul si procesorul si sursa e nesemnificativ. semnificative au fost 2 lucruri. Faptul ca serverul a fost down o buna bucata de vreme si faptul ca initial am zis ca datele “s-au fu(rat)” …inlocuiti voi “rat” cu alte trei litere.
De curiozitate… ce controller si ce sursa erau?
LSI Megaraid. Sursa un noname ceva cu deluxe.
Get a real server man, a trecut timpu’ jucarelelor incropite pe genunchi. A full mothafucka’ redundant power supply, o placa de baza urmarita de un sistem destept de management care-ti da in pager sau SMS cand o iau lucrurile razna nu e de fitze, e un “must” ( asta o spun eu, ca mi-am luat deja tzeapa de la vreo 4-5 harduri care s-au pus pa decedat inainte sa apuce sa mai trimita SMARTu’ vreun semnal).
@rain: da-o dracu’ de jucarie, atunci cand e sa crape crapa indiferent cat management ai la placa de baza. Daca sursa (care isi merita numele, KillPower) iti da kill la tot ce apuca managementul ala nici nu apuca sa se trezeasca. Am avut surprize pana si cu surse redundante de la intel, chiar daca erau infipte in UPS-uri.
O sa-mi iau un server HP cit de curind. Probabil un DL 380 G5. Nu de alta dar tfm-ul pe hp-uei s-a comportat ireprosabil. si cum noi utilizam produsele proprii every single day … makes sense,
BTW … i’m back
daca-ti iei G5 nu uita sa te dai cu PSP (proliant support pack, nu altceva) pe el. apoi modifica /opt/hp/hp-snmp-agents/cma.conf sa-ti dea cu email/SMS/bolovan_in_geam in caz de trap.
Comments are closed.