Rečeno je da se tehnološke tvrtke ili bore za GPU-ove ili su na putu da ih kupe. U travnju je izvršni direktor Tesle Elon Musk kupio 10.000 GPU-a i izjavio da će tvrtka nastaviti kupovati veliku količinu GPU-a od NVIDIA-e. Na strani poduzeća, IT osoblje se također jako trudi osigurati da se GPU-ovi stalno koriste kako bi se maksimizirao povrat ulaganja. Međutim, neke tvrtke mogu otkriti da, dok se broj GPU-a povećava, neaktivnost GPU-a postaje ozbiljnija.
Ako nas je povijest nečemu naučila o računalstvu visokih performansi (HPC), to je da pohrana i umrežavanje ne bi trebali biti žrtvovani nauštrb prevelikog fokusiranja na računalstvo. Ako pohrana ne može učinkovito prenijeti podatke do računalnih jedinica, čak i ako imate najviše GPU-ova na svijetu, nećete postići optimalnu učinkovitost.
Prema Mikeu Matchettu, analitičaru tvrtke Small World Big Data, manji modeli mogu se izvršiti u memoriji (RAM), što omogućuje veći fokus na računanje. Međutim, veći modeli poput ChatGPT-a s milijardama čvorova ne mogu se pohraniti u memoriju zbog visoke cijene.
"Ne možete smjestiti milijarde čvorova u memoriju, tako da pohrana postaje još važnija", kaže Matchett. Nažalost, pohranjivanje podataka često se zanemaruje tijekom procesa planiranja.
Općenito, bez obzira na slučaj upotrebe, postoje četiri zajedničke točke u procesu obuke modela:
1. Obuka modela
2. Primjena zaključivanja
3. Pohrana podataka
4. Ubrzano računalstvo
Prilikom izrade i implementacije modela, većina zahtjeva daje prioritet brzim dokazima koncepta (POC) ili okruženjima za testiranje kako bi se započelo osposobljavanje modela, pri čemu se ne uzima u obzir potreba za pohranom podataka.
Međutim, izazov leži u činjenici da obuka ili implementacija zaključivanja može trajati mjesecima ili čak godinama. Mnoge tvrtke tijekom ovog vremena brzo povećavaju veličinu svojih modela, a infrastruktura se mora proširiti kako bi se prilagodila rastućim modelima i skupovima podataka.
Istraživanje koje je proveo Google o milijunima ML treninga otkriva da se prosječno 30% vremena treninga troši na cjevovod ulaznih podataka. Dok su prošla istraživanja bila usmjerena na optimizaciju GPU-a za ubrzavanje obuke, još uvijek postoje mnogi izazovi u optimizaciji različitih dijelova podatkovnog cjevovoda. Kada imate značajnu računsku snagu, pravo usko grlo postaje koliko brzo možete unijeti podatke u izračune da biste dobili rezultate.
Konkretno, izazovi u pohranjivanju i upravljanju podacima zahtijevaju planiranje rasta podataka, što vam omogućuje kontinuirano izdvajanje vrijednosti podataka dok napredujete, osobito kada se upustite u naprednije slučajeve upotrebe kao što su dubinsko učenje i neuronske mreže, koje postavljaju veće zahtjeve pohranu u smislu kapaciteta, performansi i skalabilnosti.
Posebno:
Skalabilnost
Strojno učenje zahtijeva rukovanje golemim količinama podataka, a kako se količina podataka povećava, točnost modela se također poboljšava. To znači da tvrtke moraju prikupljati i pohranjivati više podataka svaki dan. Kada se pohrana ne može skalirati, podatkovno intenzivna radna opterećenja stvaraju uska grla, ograničavajući performanse i rezultirajući skupim neaktivnošću GPU-a.
Fleksibilnost
Fleksibilna podrška za višestruke protokole (uključujući NFS, SMB, HTTP, FTP, HDFS i S3) neophodna je kako bi se zadovoljile potrebe različitih sustava, umjesto da bude ograničena na jednu vrstu okruženja.
Latencija
Ulazno/izlazno kašnjenje je kritično za izgradnju i korištenje modela jer se podaci čitaju i ponovno čitaju više puta. Smanjenje I/O kašnjenja može skratiti vrijeme obuke modela za dane ili mjesece. Brži razvoj modela izravno se prevodi u veće poslovne prednosti.
Propusnost
Protok sustava za pohranu ključan je za učinkovito osposobljavanje modela. Procesi obuke uključuju velike količine podataka, obično u terabajtima po satu.
Paralelni pristup
Kako bi se postigla visoka propusnost, modeli obuke dijele aktivnosti na više paralelnih zadataka. To često znači da algoritmi strojnog učenja pristupaju istim datotekama iz više procesa (potencijalno na više fizičkih poslužitelja) istovremeno. Sustav za pohranu mora podnijeti istodobne zahtjeve bez ugrožavanja performansi.
Sa svojim izvanrednim mogućnostima u niskoj latenciji, visokoj propusnosti i velikom paralelnom ulazu/izlazu, Dell PowerScale je idealan dodatak za pohranu GPU-ubrzanom računalstvu. PowerScale učinkovito smanjuje vrijeme potrebno za modele analize koji treniraju i testiraju skupove podataka od više terabajta. U PowerScale all-flash pohrani, propusnost se povećava za 18 puta, eliminirajući I/O uska grla, i može se dodati postojećim klasterima Isilon kako bi se ubrzala i otključala vrijednost velikih količina nestrukturiranih podataka.
Štoviše, mogućnosti pristupa više protokola PowerScalea pružaju neograničenu fleksibilnost za izvođenje radnih opterećenja, dopuštajući pohranjivanje podataka pomoću jednog protokola i pristupanje pomoću drugog. Konkretno, moćne značajke, fleksibilnost, skalabilnost i funkcionalnost na razini poduzeća PowerScale platforme pomažu u rješavanju sljedećih izazova:
- Ubrzajte inovacije do 2,7 puta, smanjujući ciklus obuke modela.
- Uklonite I/O uska grla i omogućite bržu obuku modela i provjeru valjanosti, poboljšanu točnost modela, poboljšanu produktivnost znanosti o podacima i maksimalan povrat ulaganja u računalstvo korištenjem značajki razine poduzeća, visokih performansi, konkurentnosti i skalabilnosti. Poboljšajte točnost modela s dubljim skupovima podataka više razlučivosti iskorištavanjem do 119 PB efektivnog kapaciteta pohrane u jednom klasteru.
- Postignite implementaciju u velikom opsegu pokretanjem malih i neovisnih skaliranja računala i pohrane, pružajući robusnu zaštitu podataka i sigurnosne opcije.
- Poboljšajte produktivnost znanosti o podacima s analitikom na licu mjesta i prethodno provjerenim rješenjima za brže implementacije s niskim rizikom.
- Iskorištavanje dokazanih dizajna temeljenih na najboljim tehnologijama, uključujući NVIDIA GPU ubrzanje i referentne arhitekture s NVIDIA DGX sustavima. PowerScale visoke performanse i konkurentnost ispunjavaju zahtjeve performansi pohrane u svakoj fazi strojnog učenja, od prikupljanja podataka i pripreme do obuke modela i zaključivanja. Zajedno s operativnim sustavom OneFS, svi čvorovi mogu besprijekorno raditi unutar istog klastera vođenog OneFS-om, sa značajkama na razini poduzeća kao što su upravljanje performansama, upravljanje podacima, sigurnost i zaštita podataka, što omogućuje brži završetak obuke modela i validacije za tvrtke.
Vrijeme objave: 3. srpnja 2023