Google i Seagate wykorzystują sztuczną inteligencję do przewidywania awarii dysków twardych


Pracując z dziennikami wydajności, system przewiduje wielokrotne awarie dysków.

Google Cloud i Seagate wykorzystują sztuczną inteligencję do przewidywania awarii dysków twardych (HDD) w centrum danych, dzięki czemu Google może zaplanować prace konserwacyjne i zminimalizować zakłócenia, wymieniając dyski z wyprzedzeniem.

Zespół przetestował dwa różne modele sztucznej inteligencji, aby przewidzieć, które dyski twarde ulegną awarii i odkrył, że model automatycznego uczenia maszynowego (AutoML) działa lepiej niż system niestandardowy, zapewniając 98-procentową precyzję – jednocześnie umożliwiając Google znalezienie nowych reguł, które pozwoliłyby inżynierii zespoły, aby wykryć awarie, zanim się wydarzyły.

Nie przewidział Chia

Technika ta może być bardzo na czasie, ponieważ przemysł centrów danych jest obecnie uderzany przez schemat wydobywania Chia, który nagradza w monety w oparciu o monopolizację przestrzeni dyskowej na dyskach twardych i dyskach półprzewodnikowych (SDD) i bardzo ciężką pracę tych dysków aby przedwcześnie się zepsuć. Jest to również następstwem innych prób wykorzystania technik sztucznej inteligencji w celu poprawy niezawodności sprzętu w centrum danych, w tym badania firmy Microsoft, w ramach którego obserwowano 180 000 przełączników centrów danych w obiektach chmurowych platformy Azure i ustalono, które kombinacje dostawców i oprogramowania były najbardziej narażone na niepowodzenie .

„W przeszłości, gdy dysk był oznaczany jako problem, główną opcją była naprawa problemu na miejscu za pomocą oprogramowania. Ale ta procedura była droga i czasochłonna. Wymagała opróżnienia danych z dysku, izolacji dysku, przeprowadzanie diagnostyki, a następnie ponowne wprowadzenie jej do ruchu” – wyjaśnia post na blogu napisany przez kierownika technicznego programu Nitin Aggarwal i inżyniera AI Rostama Dinyari z Google.

Gdy dysk twardy jest teraz oznaczony do naprawy, system ML korzysta z danych SMART i innych dzienników, aby przewidzieć, czy prawdopodobnie wystąpi ponowna awaria.

Firma Google współpracowała ze swoim głównym dostawcą dysków twardych, firmą Seagate, nad stworzeniem systemu uczenia maszynowego, który przewidywałby, które dyski będą miały powtarzające się awarie – co najmniej trzy problemy w ciągu 30 dni. Projekt miał również pomoc ze strony Accenture.

Google ma miliony dysków, a każdy z nich generuje setki parametrów metainformacji o swojej aktywności, w tym godzinowe dane SMART (technologia samokontroli, analizy i raportowania), a także dane hosta, w tym dzienniki napraw, diagnostyka online i dane terenowe dostępne dzienniki wskaźników niezawodności (FARM) i dane produkcyjne dotyczące dysku.

„Wszystko to daje terabajty (TB) danych. „Praktycznie niemożliwe jest monitorowanie wszystkich tych urządzeń w oparciu o samą ludzką moc” – mówią Aggarwal i Dinyari. „Aby pomóc rozwiązać ten problem, stworzyliśmy system uczenia maszynowego do przewidywania stanu dysków twardych w naszych centrach danych”.

Reklamy

Jak radzić sobie z zalewem danych

System AI skoncentrował się na dwóch najpopularniejszych dyskach Seagate w obiektach Google. Zespół musiał zbudować potok danych, który mógłby pobierać olbrzymią ilość dzienników i parametrów ze wszystkich dysków, szybko je przetwarzać i monitorować: „Musieliśmy zbudować potok danych, który byłby skalowalny i niezawodny zarówno do obsługi wsadowej, jak i strumieniowej przetwarzanie danych dla różnych źródeł danych ”– czytamy na blogu. „Przy tak dużej ilości surowych danych musieliśmy wyodrębnić właściwe funkcje, aby zapewnić dokładność i wydajność naszych modeli ML”.

Zespół wykorzystał kilka własnych narzędzi sztucznej inteligencji Google, w tym Terraform, BigQuery, Dataflow i AI Platform Notebooks. Tabele AutoML i niestandardowe modele Tensorflow oparte na transformatorze na platformie Cloud AI.

Tabele AutoML były dobrym skrótem, jak mówią kierownicy projektu: „Wszystko, co musieliśmy zrobić, to użyć naszego potoku danych, aby przekonwertować surowe dane na format wejściowy AutoML”. 

System wykorzystuje BigQuery do dokonywania przekształceń, takich jak przekształcanie wierszy w kolumny, łączenie znormalizowanych tabel i definiowanie etykiet, dzięki czemu może przygotowywać petabajty danych i wprowadzać je do tabel AutoML w celu trenowania modeli ML.

Grupa przetestowała dwie opcje. Jeden, klasyfikator tabel AutoML, wyodrębnił kluczowe cechy, takie jak współczynniki błędów, i połączył je z takimi cechami, jak typ modelu dysku. „Wykorzystaliśmy podział czasowy do stworzenia naszych podzbiorów szkoleń, walidacji i testów” – mówią kierownicy projektu.

Dla porównania, grupa stworzyła od podstaw niestandardowy model oparty na Transformerze, korzystając z Tensorflow. Nie wymagało to inżynierii funkcji; działał z surowymi danymi szeregów czasowych, odnosząc je do innych danych, takich jak typ dysku, wykorzystując głęboką sieć neuronową (DNN). Następnie połączono dane wyjściowe z modelu i DNN. 

Reklamy

Oba modele przewidywały przyszłe awarie, które można porównać z rzeczywistymi dziennikami napraw dysków po 30 dniach. AutoML osiągnął precyzję 98% przy przywołaniu 35%, podczas gdy model oparty na Transformatorze miał precyzję 70-80% i przywołanie 20-25%.

System zidentyfikował również główne przyczyny powtarzających się awarii, a zespoły naziemne mogłyby podjąć proaktywne działania w celu zmniejszenia liczby awarii w operacjach w przyszłości.

Zespół wykorzystał Terraform do wdrożenia systemów w całej infrastrukturze i GitLab do wersjonowania kontroli źródła, z MLOps – podejściem w stylu DevOps – w którym wersje rozwojowe i produkcyjne są przechowywane w dwóch gałęziach repozytorium.

„Środowisko MLOps Google pozwoliło nam stworzyć bezproblemową obsługę od zupy do orzechów, od pozyskiwania danych po łatwe do monitorowania pulpity menedżerskie kadry kierowniczej” –  powiedział Elias Glavinas, dyrektor Seagate ds. jakości narzędzi do analizy danych i automatyzacji. 

Wyniki są tak imponujące, że Seagate i Google mają nadzieję rozszerzyć projekt w Google: „Gdy inżynierowie mają większe okno na identyfikację uszkodzonych dysków, mogą nie tylko obniżyć koszty, ale także zapobiegać problemom, zanim wpłyną one na użytkowników końcowych. planujemy rozbudowę systemu tak, aby obsługiwał wszystkie dyski Seagate – i nie możemy się doczekać, aby zobaczyć, jakie korzyści przyniesie to naszym producentom OEM i naszym klientom! ”


źródło: https://www.datacenterdynamics.com/en/news/google-and-seagate-use-ai-to-predict-hard-drive-failures/


Opinie i artykuły na tej stronie reprezentują jedynie autorów poszczególnych publikacji do których znajdują się odnośniki (źródło) pod każdym z artykułów. Nie oznacza, to że chia.com.pl zgadza się z tymi poglądami.
Strona chia.com.pl powstała jedynie z potrzeby informowania lub edukowania osób zainteresowanych tą technologią oraz dostarczania wiadomości z dziedziny blockchain i jego wpływu na środowisko, nie znajdują się na niej artykuły dotyczących predykcji cenowych kryptowaluty XCH (Chia).
Informacje tutaj prezentowane, nie mogą być wykorzystywane jako porada inwestycyjna i finansowa. Wszelkie decyzje, np. inwestycyjne podejmowane przez Użytkowników strony są zawsze podejmowane indywidualnie i niezależnie, na ich własne ryzyko i na ich własną odpowiedzialność.

Artykuły na stronie:
– nie stanowią rekomendacji inwestycyjnej lub czynności doradztwa inwestycyjnego w rozumieniu §3 Rozporządzenia Ministra Finansów z dnia 19 października 2005r. w sprawie informacji stanowiących rekomendacje dotyczące instrumentów finansowych, ich emitentów lub wystawców (Dz.U. 2005 nr 206 poz. 1715);
–  nie stanowią rekomendacji inwestycyjnej lub czynności doradztwa inwestycyjnego w rozumieniu (art.42 ust. 1 i art.76) Ustawy z dnia 29 lipca 2005r. o doradztwie inwestycyjnym (Dz.U. 2005 nr 183 poz. 1538 z późn.zm.
)

Więcej w dziale contact.