Naujienos – neleiskite saugyklai tapti pagrindine modelių mokymo kliūtimi

Sakoma, kad technologijų įmonės arba griebiasi GPU, arba siekia juos įsigyti. Balandį Tesla generalinis direktorius Elonas Muskas įsigijo 10 000 GPU ir pareiškė, kad bendrovė ir toliau pirks didelį kiekį GPU iš NVIDIA. Iš įmonės pusės IT darbuotojai taip pat labai stengiasi užtikrinti, kad GPU būtų nuolat naudojami siekiant maksimaliai padidinti investicijų grąžą. Tačiau kai kurios įmonės gali pastebėti, kad didėjant GPU skaičiui, GPU neveikimas tampa sunkesnis.

Jei istorija mus ko nors išmokė apie didelio našumo skaičiavimą (HPC), tai yra tai, kad saugojimas ir tinklų kūrimas neturėtų būti paaukoti per daug dėmesio skiriant skaičiavimams. Jei saugykla negali efektyviai perduoti duomenų į skaičiavimo įrenginius, net jei turite daugiausiai GPU pasaulyje, nepasieksite optimalaus efektyvumo.

Pasak „Small World Big Data“ analitiko Mike'o Matchetto, mažesni modeliai gali būti vykdomi atmintyje (RAM), todėl daugiau dėmesio bus skiriama skaičiavimams. Tačiau didesni modeliai, tokie kaip ChatGPT su milijardais mazgų, negali būti saugomi atmintyje dėl didelių sąnaudų.

„Jūs negalite talpinti atmintyje milijardų mazgų, todėl saugykla tampa dar svarbesnė“, - sako Matchett. Deja, planuojant dažnai nepaisoma duomenų saugojimo.

Apskritai, nepaisant naudojimo atvejo, modelio mokymo procese yra keturi bendri taškai:

1. Modelių mokymas
2. Išvadų taikymas
3. Duomenų saugykla
4. Pagreitintas skaičiavimas

Kuriant ir diegiant modelius, dauguma reikalavimų teikia pirmenybę greito koncepcijos patikrinimo (POC) arba testavimo aplinkoms, kad būtų pradėtas modelio mokymas, o duomenų saugojimo poreikiams neatsižvelgiama.

Tačiau iššūkis slypi tame, kad mokymas ar išvadų diegimas gali trukti mėnesius ar net metus. Daugelis įmonių per tą laiką greitai padidina savo modelių dydžius, o infrastruktūra turi plėstis, kad tilptų augantys modeliai ir duomenų rinkiniai.

„Google“ atliktas milijonų ML mokymo krūvių tyrimas rodo, kad vidutiniškai 30 % mokymo laiko praleidžiama įvesties duomenų sraute. Nors ankstesniuose tyrimuose pagrindinis dėmesys buvo skiriamas GPU optimizavimui, siekiant pagreitinti mokymą, vis dar išlieka daug iššūkių optimizuojant įvairias duomenų srauto dalis. Kai turite didelę skaičiavimo galią, tikra kliūtis tampa tuo, kaip greitai galite pateikti duomenis į skaičiavimus, kad gautumėte rezultatus.

Konkrečiai, dėl duomenų saugojimo ir valdymo iššūkių reikia planuoti duomenų augimą, leidžiantį nuolat išgauti duomenų vertę progresuojant, ypač kai imasi sudėtingesnių naudojimo atvejų, tokių kaip gilusis mokymasis ir neuroniniai tinklai, kurie kelia didesnius reikalavimus. saugykla pagal talpą, našumą ir mastelį.

Visų pirma:

Mastelio keitimas
Mašininiam mokymuisi reikia tvarkyti didžiulius duomenų kiekius, o didėjant duomenų kiekiui, gerėja ir modelių tikslumas. Tai reiškia, kad įmonės kiekvieną dieną turi rinkti ir saugoti daugiau duomenų. Kai saugykla negali išsiplėsti, daug duomenų reikalaujantys darbo krūviai sukuria kliūtis, riboja našumą ir dėl to brangiai kainuoja GPU neveikimo laikas.

Lankstumas
Lankstus kelių protokolų (įskaitant NFS, SMB, HTTP, FTP, HDFS ir S3) palaikymas yra būtinas, kad būtų patenkinti skirtingų sistemų poreikiai, o ne tik vieno tipo aplinka.

Latencija
Įvesties / išvesties delsa yra labai svarbi kuriant ir naudojant modelius, nes duomenys skaitomi ir perskaitomi kelis kartus. Sumažinus I/O delsą, modelių mokymo laikas gali sutrumpėti dienomis ar mėnesiais. Greitesnis modelio kūrimas tiesiogiai reiškia didesnius verslo pranašumus.

Pralaidumas
Saugojimo sistemų pralaidumas yra labai svarbus efektyviam modelių mokymui. Mokymo procesai apima didelius duomenų kiekius, paprastai terabaitais per valandą.

Lygiagreti prieiga
Kad būtų pasiektas didelis pralaidumas, mokymo modeliai padalija veiklą į kelias lygiagrečias užduotis. Tai dažnai reiškia, kad mašininio mokymosi algoritmai vienu metu pasiekia tuos pačius failus iš kelių procesų (galbūt keliuose fiziniuose serveriuose). Saugojimo sistema turi patenkinti tuo pačius poreikius nepakenkiant našumui.

Dėl išskirtinių mažos delsos, didelio pralaidumo ir didelio masto lygiagrečiojo įvesties/išvesties galimybių „Dell PowerScale“ yra idealus GPU pagreitinto skaičiavimo saugyklos papildymas. „PowerScale“ efektyviai sumažina laiką, reikalingą analizės modeliams, kurie moko ir tikrina kelių terabaitų duomenų rinkinius. „PowerScale“ visos „flash“ saugykloje pralaidumas padidėja 18 kartų, pašalinant įvesties / išvesties kliūtis, be to, jį galima pridėti prie esamų „Isilon“ grupių, kad pagreitintų ir atlaisvintų didelio kiekio nestruktūrizuotų duomenų vertę.

Be to, „PowerScale“ kelių protokolų prieigos galimybės suteikia neribotą lankstumą vykdant darbo krūvius, leidžiančius duomenis saugoti naudojant vieną protokolą ir pasiekti naudojant kitą protokolą. Konkrečiai, galingos PowerScale platformos funkcijos, lankstumas, mastelio keitimas ir įmonės lygio funkcionalumas padeda spręsti šiuos iššūkius:

- Paspartinkite naujoves iki 2,7 karto, sumažindami modelio mokymo ciklą.

- Pašalinkite įvesties / išvesties kliūtis ir suteikite greitesnį modelio mokymą ir patvirtinimą, pagerinkite modelio tikslumą, padidinkite duomenų mokslo produktyvumą ir maksimaliai padidinkite investicijų į skaičiavimą grąžą, pasinaudodami įmonės lygio funkcijomis, dideliu našumu, lygiagretumu ir mastelio keitimu. Padidinkite modelio tikslumą naudodami gilesnius, didesnės raiškos duomenų rinkinius, išnaudodami iki 119 PB efektyvios atminties talpos viename klasteryje.

- Pasiekite platų diegimą pradėdami mažą ir nepriklausomai keičiamą skaičiavimą ir saugyklą, suteikdami patikimas duomenų apsaugos ir saugos parinktis.

- Padidinkite duomenų mokslo produktyvumą naudodami vietoje atliekamą analizę ir iš anksto patvirtintus sprendimus, kad būtų galima greičiau ir mažiau rizikuoti.

- Panaudoti patikrintus dizainus, pagrįstus geriausiomis technologijomis, įskaitant NVIDIA GPU spartinimą ir etalonines architektūras su NVIDIA DGX sistemomis. Didelis „PowerScale“ našumas ir lygiagretumas atitinka saugojimo našumo reikalavimus kiekviename mašininio mokymosi etape – nuo duomenų gavimo ir paruošimo iki modelio mokymo ir išvadų. Kartu su „OneFS“ operacine sistema visi mazgai gali sklandžiai veikti tame pačiame „OneFS“ valdomame klasteryje su įmonės lygio funkcijomis, tokiomis kaip našumo valdymas, duomenų valdymas, sauga ir duomenų apsauga, leidžiančiomis greičiau užbaigti modelio mokymą ir patvirtinimą įmonėms.

Paskelbimo laikas: 2023-03-03