Mos lejoni që ruajtja të bëhet pengesa kryesore në trajnimin e modeleve

Është thënë se kompanitë e teknologjisë ose janë duke u përpjekur për GPU ose në rrugën për t'i blerë ato.Në prill, CEO i Tesla Elon Musk bleu 10,000 GPU dhe deklaroi se kompania do të vazhdonte të blinte një sasi të madhe GPU nga NVIDIA.Nga ana e ndërmarrjes, personeli i IT-së po përpiqet gjithashtu fort për të siguruar që GPU-të të përdoren vazhdimisht për të maksimizuar kthimin nga investimi.Megjithatë, disa kompani mund të zbulojnë se ndërsa numri i GPU-ve rritet, papunësia e GPU-së bëhet më e rëndë.

Nëse historia na ka mësuar diçka rreth kompjuterave me performancë të lartë (HPC), është se ruajtja dhe rrjetëzimi nuk duhet të sakrifikohen në kurriz të fokusimit të tepërt në llogaritje.Nëse ruajtja nuk mund të transferojë në mënyrë efikase të dhënat në njësitë kompjuterike, edhe nëse keni më shumë GPU në botë, nuk do të arrini efikasitet optimal.

Sipas Mike Matchett, një analist në Small World Big Data, modelet më të vogla mund të ekzekutohen në memorie (RAM), duke lejuar më shumë përqendrim në llogaritje.Sidoqoftë, modelet më të mëdha si ChatGPT me miliarda nyje nuk mund të ruhen në memorie për shkak të kostos së lartë.

"Ju nuk mund të vendosni miliarda nyje në memorie, kështu që ruajtja bëhet edhe më e rëndësishme," thotë Matchett.Fatkeqësisht, ruajtja e të dhënave shpesh anashkalohet gjatë procesit të planifikimit.

Në përgjithësi, pavarësisht nga rasti i përdorimit, ekzistojnë katër pika të përbashkëta në procesin e trajnimit të modelit:

1. Trajnim model
2. Aplikimi i konkluzionit
3. Ruajtja e të dhënave
4. Llogaritja e përshpejtuar

Kur krijohen dhe vendosen modele, shumica e kërkesave i japin përparësi mjediseve të vërtetimit të konceptit të shpejtë (POC) ose testimit për të filluar trajnimin e modeleve, me nevojat e ruajtjes së të dhënave që nuk merren parasysh më së miri.

Megjithatë, sfida qëndron në faktin se trajnimi ose vendosja e konkluzioneve mund të zgjasë me muaj apo edhe vite.Shumë kompani rritin me shpejtësi madhësitë e modeleve të tyre gjatë kësaj kohe dhe infrastruktura duhet të zgjerohet për të akomoduar modelet dhe grupet e të dhënave në rritje.

Hulumtimi nga Google mbi miliona ngarkesa trajnimi ML zbulon se mesatarisht 30% e kohës së trajnimit shpenzohet në tubacionin e të dhënave hyrëse.Ndërsa kërkimet e kaluara janë fokusuar në optimizimin e GPU-ve për të përshpejtuar trajnimin, ende mbeten shumë sfida në optimizimin e pjesëve të ndryshme të tubacionit të të dhënave.Kur keni fuqi të konsiderueshme llogaritëse, pengesa e vërtetë bëhet sa shpejt mund të futni të dhëna në llogaritjet për të marrë rezultate.

Në mënyrë të veçantë, sfidat në ruajtjen dhe menaxhimin e të dhënave kërkojnë planifikim për rritjen e të dhënave, duke ju lejuar të nxirrni vazhdimisht vlerën e të dhënave ndërsa përparoni, veçanërisht kur futeni në raste përdorimi më të avancuar si mësimi i thellë dhe rrjetet nervore, të cilat vendosin kërkesa më të larta për ruajtje në aspektin e kapacitetit, performancës dhe shkallëzueshmërisë.

Veçanërisht:

Shkallëzueshmëria
Mësimi i makinerive kërkon trajtimin e sasive të mëdha të të dhënave dhe ndërsa vëllimi i të dhënave rritet, saktësia e modeleve gjithashtu përmirësohet.Kjo do të thotë që bizneset duhet të mbledhin dhe ruajnë më shumë të dhëna çdo ditë.Kur ruajtja nuk mund të shkallëzohet, ngarkesat e punës me të dhëna intensive krijojnë pengesa, duke kufizuar performancën dhe duke rezultuar në kohën e kushtueshme të papunësisë së GPU-së.

Fleksibiliteti
Mbështetja fleksibël për protokolle të shumta (përfshirë NFS, SMB, HTTP, FTP, HDFS dhe S3) është e nevojshme për të përmbushur nevojat e sistemeve të ndryshme, në vend që të kufizohet në një lloj mjedisi të vetëm.

Vonesa
Vonesa e hyrjes/daljes është kritike për ndërtimin dhe përdorimin e modeleve pasi të dhënat lexohen dhe rilexohen disa herë.Reduktimi i vonesës në hyrje/dalje mund të shkurtojë kohën e trajnimit të modeleve me ditë ose muaj.Zhvillimi më i shpejtë i modelit përkthehet drejtpërdrejt në avantazhe më të mëdha të biznesit.

Performanca
Rrjedha e sistemeve të ruajtjes është thelbësore për trajnimin efikas të modeleve.Proceset e trajnimit përfshijnë sasi të mëdha të dhënash, zakonisht në terabajt në orë.

Qasje paralele
Për të arritur performancë të lartë, modelet e trajnimit ndajnë aktivitetet në detyra të shumta paralele.Kjo shpesh do të thotë që algoritmet e mësimit të makinerive hyjnë në të njëjtat skedarë nga procese të shumta (potencialisht në shumë serverë fizikë) njëkohësisht.Sistemi i ruajtjes duhet të trajtojë kërkesat e njëkohshme pa kompromentuar performancën.

Me aftësitë e tij të jashtëzakonshme në latencë të ulët, xhiro të lartë dhe hyrje/dalje paralele në shkallë të gjerë, Dell PowerScale është një plotësues ideal i ruajtjes për llogaritjen e përshpejtuar nga GPU.PowerScale redukton në mënyrë efektive kohën e nevojshme për modelet e analizës që trajnojnë dhe testojnë grupe të dhënash me shumë terabajt.Në ruajtjen e të gjithë flashit PowerScale, gjerësia e brezit rritet me 18 herë, duke eliminuar pengesat në hyrje/dalje dhe mund të shtohet në grupimet ekzistuese të Isilon për të përshpejtuar dhe zhbllokuar vlerën e sasive të mëdha të të dhënave të pastrukturuara.

Për më tepër, aftësitë e aksesit me shumë protokolla të PowerScale ofrojnë fleksibilitet të pakufizuar për ekzekutimin e ngarkesave të punës, duke lejuar që të dhënat të ruhen duke përdorur një protokoll dhe të aksesohen duke përdorur një tjetër.Në mënyrë të veçantë, veçoritë e fuqishme, fleksibiliteti, shkallëzueshmëria dhe funksionaliteti i shkallës së ndërmarrjes së platformës PowerScale ndihmojnë në adresimin e sfidave të mëposhtme:

- Përshpejtoni inovacionin deri në 2.7 herë, duke reduktuar ciklin e trajnimit model.

- Eliminoni pengesat e I/O dhe siguroni trajnim dhe vërtetim më të shpejtë të modelit, saktësi të përmirësuar të modelit, produktivitet të përmirësuar të shkencës së të dhënave dhe kthim maksimal në investimet kompjuterike duke shfrytëzuar veçoritë e nivelit të ndërmarrjes, performancën e lartë, konkurencën dhe shkallëzueshmërinë.Përmirësoni saktësinë e modelit me grupe të dhënash më të thella dhe me rezolucion më të lartë duke përdorur deri në 119 PB të kapacitetit efektiv të ruajtjes në një grup të vetëm.

- Arritni vendosjen në shkallë duke filluar llogaritjet dhe magazinimet me shkallë të vogël dhe të pavarur, duke ofruar mbrojtje të fuqishme të të dhënave dhe opsione sigurie.

- Përmirësoni produktivitetin e shkencës së të dhënave me analitikë në vend dhe zgjidhje të para-validuara për vendosje më të shpejta dhe me rrezik të ulët.

- Përdorimi i modeleve të provuara të bazuara në teknologjitë më të mira, duke përfshirë përshpejtimin e GPU-së NVIDIA dhe arkitekturat e referencës me sistemet NVIDIA DGX.Performanca e lartë dhe konkurenca e PowerScale plotësojnë kërkesat e performancës së ruajtjes në çdo fazë të mësimit të makinerive, nga marrja dhe përgatitja e të dhënave deri te trajnimi dhe konkludimi i modeleve.Së bashku me sistemin operativ OneFS, të gjitha nyjet mund të funksionojnë pa probleme brenda të njëjtit grup të drejtuar nga OneFS, me veçori të nivelit të ndërmarrjes si menaxhimi i performancës, menaxhimi i të dhënave, siguria dhe mbrojtja e të dhënave, duke mundësuar përfundimin më të shpejtë të trajnimit të modelit dhe vërtetimin për bizneset.


Koha e postimit: korrik-03-2023