Cum să AI propriul tău AI: Chat with RTX!

Nvidia a venit cu ceva care recunosc ca m-a cam lăsat cu gura căscata. Drăcia se numește Chat With RTX si este un LLM, adică un model larg de limbaj, accelerat de propria ta placa video RTX… local, adică pe your own personal PC!

Așa că am băgat eu însumi o fisă, ca sa vad la prima mână despre ce este vorba. Ce propune deci Nvidia? Un LLM, un chatbot inteligent pe care îl instalezi pe PC-ul tău, care se folosește de placa ta video si pe care, mare atenție aici, îl antrenezi chiar tu, pe propriile tale fișiere, îl crești gen, așa încât el se va dezvolta si va învață ce si cum vrei tu. Plus ca fiind local, merge pe principiul eu l-am făcut eu îl omor, adică… poți renunța oricând la el, fără riscuri si probleme. Lăsând gluma de-o parte, marele avantaj al unei astfel de soluții pare a fi cel de privacy, atât timp cat drăcia rulează local si unicul motor de procesare de care se folosește, este placa ta video din sistem. De fapt găsești sumarizarea chiar pe site: „este o aplicație demo care te lasă sa personalizezi un model larg de limbaj de tip GPT conectat la propriul tău conținut: documente, notițe, clipuri si alte tipuri de date. Se folosește de acceleratorul grafic in așa fel încât sa poți configura un chatbot personalizat care sa-ti livreze răspunsuri contextual relevante. Și pentru ca rulează direct pe PC-ul sau stația ta grafica cu placa video RTX, vei primi răspunsuri rapide si „secure”, închei citatul. Dar mai multe veți înțelege pe parcurs si pe văzute.

Instalarea este extrem de simpla. Dai o căutare pe net după Chat with RTX si îl găsești direct pe site-ul celor de Nvidia. Fișierul de descărcat are vreo 35GB, deci este unul substanțial, dar nu exagerat, așa, cât o jumătate de joc AAA modern. Eu l-am instalat pe doua laptopuri diferite pentru o testare mai riguroasa, un Asus ROG Zephyrus G16 2024 cu RTX 4090 laptop si un Lenovo Legion cu RTX 3080Ti, deci motorizări corespunzătoare. Am vrut sa verific si afirmația celor de la Nvidia, cum că Chat with RTX merge bine si sisteme last-gen, cu o placa video RTX 3000 de exemplu. Deci nu ești limitat la the latest and the greatest 4000 series. De fapt cerințele de sistem arata cam așa: Windows 11, căruia i-am făcut toate update-urile, placa video RTX din seriile 3000 sau 4000.

Eu am pus la treabă cum vă spuneam un RTX 3080Ti si RTX 4090 ambele de laptop, ca sa vad daca exista diferențe in funcționare si rapiditate, 16GB RAM, si driver video zic ei minim 535.11. L-am instalat pe ultimul, 551.61, versiunea game ready, nu cea studio, ca… de ce nu. Și nu cred că asta afectează in vreun fel workflow-ul si rezultatele. Bun, și acum hai sa vedem cum se întâmpla efectiv treaba. Am dat la descărcat cei peste 35 de giga ai „aplicației”, proces care pe conexiunea noastră 10G de la birou a durat cam 25-30 de minute, am dezarhivat-o si fișierul rezultat a urcat la aproape 40 de giga, apoi i-am dat sa instaleze. Iar instalarea durează tată, cam 20 de minute după estimările mele, daca nu si mai mult, pentru ca mai descarcă diverse alte componente si instalează două modele de limbaj, Mistral si Llama 2, între care poți opta. Vom vedea mai încolo si daca exista deosebiri intre ele.

Am făcut update-urile de Windows 11 ambelor laptopuri, am instalat deci ultimul game ready driver, apoi am copiat in laptopuri un mare folder cu texte de-ale mele in engleza pentru canalul nostru internațional, ca „baza de date”. Well, in principiu, asta este baza de date pe care o interoghează local LLM-urile respective, si pe care „se antrenează”. Si aici intervine o chestie interesanta: soluția asta locala evita cumva o mulțime de probleme, dintre care cea mai importanta este legata de copyright, o „nucă tare” în discuțiile din ultima vreme pe acest subiect. Practic, tu ii dai manual calea către felderele si fișierele tale, iar el își ia de acolo informația. Ok, dar sa revenim la povestea step by step.

După ce si-a descărcat toate componentele si s-a terminat instalarea care a durat forever, a rulat niște linii de cod, după care hop, s-a deschis in browser o noua fereastra, cu o interfață familiara, adică un spațiu pentru prompt-uri jos, si câteva meniuri dropdown sus, din care sa optezi pentru diverse chestii. In dreapta sus iți spune ce fel de fișiere text suporta, txt, pdf, doc, iar dedesubt ii dai calea către folderul din care sa-si procure informațiile. Sau, tot de aici, poți opta sa ii introduci un URL de YouTube, daca dorești de exemplu un rezumat al unui video sau sa-ti spună ce opinie are respectivul video despre subiectul tratat. M-am întrebat cum se întâmpla asta, este simplu si cam rudimentar, el descarcă de fapt transcriptul făcut de Google acelui video, iar treaba asta funcționează in cazurile in care aceasta capabilitate este valabila, adică la clipurile in engleza. Dar ajungem imediat si la subiectul limbii, pana acolo sa le luam pe rând. După ce i-am dat folderul meu cu texte in engleza ca baza de date pe care s-o rumege, din partea dreapta selectezi modelul de limbaj dorit: Mistral sau Llama 2. Le-am folosit si pe unul si pe altul, si va zic sincer ca in utilizare n-am simțit nicio diferența.

Deci am ales întâi Mistral. Apoi… am început sa pun întrebări in spațiul de prompt. I-am cerut de exemplu sa sumarizeze textul meu pe subiectul ROG Ally vs Legion Go, si s-a achitat bine si prompt de sarcina. A zis ca povestea se refera la doua modele de console portabile cu Windows, la diferențele dintre ele, la dimensiuni, greutate etc si a scos in evidenta părțile bune si mai puțin bune ale fiecăreia, in sensul in care erau ele tratate in text. Not bad! La întrebarea ce am spus într-un anume text despre un laptop Zephyrus 2024, mi-a răspuns ca nu are informații si ca tot ce găsește in baza mea de date este un text despre modelul Zephyrus M16, si mi-a indicat dedesubt documentul pe care l-a găsit pe acest subiect. Mișto este ca la întrebarea contextuala cat de bun este respectivul M16, mi-a răspuns in baza textului, ca laptopul oferă un echilibru bun intre performante si un sașiu de dimensiuni reduse si alte câteva informații relevante, gen ca are un capac pe care rulează animații 8 bit, apoi a indicat mai jos documentul meu sursa.

În condițiile astea, gândiți-va la Chat with RTX ca la un soi de asistent local inteligent și personalizat pentru propriul tău laptop sau PC. Si nu se descurca rău deloc, dimpotrivă. Felul in care caută si înțelege documentele este destul de avansat.

Apoi am trecut pe celălalt model, pe Llama 2, si l-am rugat sa facă aceeași sumarizare la textului ROG Ally vs Legion Go, si nou aplicația s-a achitat bine de sarcina, clar, concis si inteligibil, apoi a furnizat sursa. Am schimbat subiectul, si l-am întrebat ce îmi poate spune despre ROG Phone 5; existau mai multe texte scrise de mine pe subiectul asta in respectivul folder, si mi-a făcut un sumar in 7 puncte, acoperind diverse elemente: specificații, culori, design, capabilități de înregistrare video, etc. Apoi a dat si o gherla. In folder am o mulțime de texte despre diverse telefoane Samsung, si i-am cerut sa găsească in folder tot ce am scris despre Samsung. N-a înțeles, a considerat ca mă interesează doar seria S23 si s-a rezumat la asta. I-am spus apoi sa-mi găsească toate textele cu subiectul Nvidia. Nu a „vrut”, mi-a returnat unul singur, e drept, cu path cu tot, despre seria de placi video Nvidia Super.

L-am întrebat la un moment și dacă poate elabora răspunsuri in limba română și mi-a zis ca poate. I-am dat, deci, și un text in română. Iar rezumatul a fost stângaci, dar inteligibil. Dar „gherlele” au fost mai multe. I-am cerut informații din baza de date despre ROG Phone 8, mi-a răspuns despre Moto Razr Neo. In schimb, la solicitarea de a-mi face un rezumat in română despre consola Legion Go în baza a ceea ce găsește in folder, a reușit sa furnizeze asta, cu mici greșeli de exprimare, dar per total coerent si inteligibil. Apoi, am schimbat direcția, si am trecut la clipurile de YouTube.

V-am zis că mecanismul după care funcționează este să descarce transcript-urile făcute de Google, pe care le analizează, si apoi formulează un răspuns ăn funcție de acestea. Cum bine știm, ele nu sunt perfecte, dar in condițiile date eu zic ca Chat with RTX se descurcă decent. Am luat linkul unui video de pe canalul nostru in engleză despre procesoarele Intel vs AMD si l-am întrebat care reiese din acel video ca este mai bun. Răspunsul m-a uimit, adică a rezumat bine ideile din clip si concluzia acestuia, iar la final a indicat clipul sursă. Apoi am schimbat URL-ul, si i-am dat un alt video in engleza, cel despre bolidul nostru cu Threadripper si l-am întrebat despre ce procesor este vorba si ce spune clipul despre el. Mi-a returnat un text succint dar corect, si a specificat ca transcriptul menționează aia si ailaltă, apoi a indicat clipul sursa. La un alt video despre un laptop Lenovo LOQ, l-am întrebat cat de bun considera review-erul ca este respectivul laptop, si a zis ca am fost laudativ la adresa lui si a prețului acestuia, si am spus ca are un raport bun performanta vs costuri. Confirm, așa este. Mai spune ca review-erul menționează si defectele, precum bateria slaba si culorile cam șterse ale ecranului. Not bad!

Iar in final, i-am dat sa facă aceleași lucruri si cu un video de pe Zona in limba română. Aaaa, fail! Mi-a zis așa: nu pot oferi un sumar in română al acestui video, pentru ca nu am abilitatea de a vorbi sau înțelege alte limbi decât engleza, deși in paranteza fie spus, mai înainte, la fișierul text original in română pe care i l-am dat sa-l rezume, s-a descurcat si a făcut un brief. Dar cum probabil Google nu oferă un transcript in română pentru video, s-a împotmolit.

Primele concluzii despre experiența Chat with RTX

M-am jucat o zi întreagă cu Chat with RTX si concluziile sunt în felul următor. Este un asistent local, adică pe direct pe PC-ul tău, destul de funcțional si eficient. Dacă ai nevoie să-ți cauți, să-ți gestionezi, să-ți sumarizeze propriile documente, sau să pui întrebări în legătura cu acestea, Chat with RTX se descurcă onorabil. In plus, fiind local, este clar mai sigur decât chatbotii online.

Dar nu, nu este la fel de deștept si de bine antrenat precum Chat GPT sau Gemini, ceea ce este absolut firesc, pentru că pana la urmă este o chestiune legata de mărimea bazei de date. Dar de rapid, este extrem de rapid, răspunsurile sunt decente si prompte, si clar este gândit pentru engleză. Nu am sesizat diferențe de funcționare sau de viteză intre cele doua modele de limbaj între care poți sa optezi. Overall.. a fost o experiența interesantă si cred că pe viitor vom mai vedea încercări de felul asta de a personaliza astfel de AI-uri pentru calculatorul propriu.

Pe de alta parte, dacă pui in balanță faptul ca ai deja modele online mult mai puternice, asta pare doar un gimmick. Poți folosi un Chat GPT pe care îl ai la vârful degetelor, fără sa mai instalezi nimic, cu atât mai puțin zeci de giga ca in cazul de fata, si fără să-ti mai bați capul in vreun fel. Dar si cel local are fără îndoiala avantajele lui. Daca ești paranoic cu securitatea si intimitatea datelor, daca vrei să-l personalizezi pentru tine si scopurile tale, atunci chat with RTX is the way.

Am mai constatat ca a mers la fel de bine si repede indiferent de placa video folosită, 4090 sau 3080Ti, dar ambele placi sunt din generații noi și sunt modele puternice. La fel n-am sesizat nicio diferență notabilă între cele două modele de limbaj folosite, ambele se descurcă bine.

Deci… cam așa stă treaba cu Chat with RTX și nu vă oprește nimeni să-l descărcați si să-l instalați voi înșivă pentru a va juca cu el. Sigur, daca va țin balamalele, puteți merge chiar mai departe de atât. Chat with RTX este un model cumva „presetat”, un demo, dar cum bine știți, cam toata revoluția AI actuala se bazează pe cip-uri Nvidia. Prin urmare, dacă știi ceva programare, nu te oprește nimeni sa te folosești in astfel de proiecte de propria ta placa grafica, sau placi, daca ai mai multe.

De exemplu poți configura si rula local modele AI precum ComfyUI care este interfață grafica node-based pentru Stable Diffusion, in care poți genera imagini prin asamblarea de blocuri, de noduri diverse. Sau WhisperAI, care este un sistem automat de speech recognition făcut de chiar de Open AI, băieții cu faimosul Chat GPT si DallE. Proiectul asta este open source, asta înseamnă ca îl poate folosi, distribui si modifica oricine. Spre deosebire însă de alte sisteme speech to text, Whisper nu se descarcă de pe un site, ci se găsește pe GitHub, adică iți trebuie ceva unelte de dezvoltare si oarece cod de rulat ca sa-l poți instala pe sistemul tău. Deci, daca ai cunoștințe de programare si dezvoltare, exista si astfel de modele si soluții AI pe care sa le poți instala si rula local.

La polul opus, daca ești total NUB in ceea ce privește skill-uri de dezvoltare in domeniu, tot nu înseamnă ca nu poți trage niște beneficii extra de pe urma plăcii tale video din seriile 3 sau 4000. De exemplu noi înșine beneficiem aici la YouTubărie de niște avantaje AI in DaVinci Resolve in care editam clipurile. Desigur, aceste mai mici sau mai mari funcții AI nu-ti înlocuiesc creativitatea, dar cu siguranță iți sporesc eficienta si calitatea rezultatului. Cu alte cuvinte, sunt niște unelte istețe menite sa te ajute in producție. Hai sa va dau si câteva exemple: înlăturarea unui obiect din cadru gratie unui smart trecking inteligent respectivului obiect si refacerea fundalului de unde el a fost scos, măști, efecte de beautify, izolarea vocilor si curățarea sunetului, recunoașterea fetelor in cadru, detecția scenelor, subtitluri automate, etc. Sunt din ce in ce mai multe aceste funcții si mai utile, si toate fac uz de componenta asta AI de care sunt capabile plăcile video actuale. In general este vorba despre procese migăloase si repetitive, care mănâncă foarte mult timp si a căror execuție a fost acum scurtata substanțial. Le folosim la greu zi de zi.

Chiar zilele trecute, la un interviu pe care l-am luat, aveam niște pârâituri pe sunet datorate probabil unor interferente sau contacte imperfecte, defecte pe care nu le-am auzit in caști la momentul înregistrării, fie pentru ca era zgomot, fie pentru ca nu erau imediat sesizabile. A fost suficienta aplicarea acelei funcții AI voice Isolation, si problema s-a rezolvat dintr-un click. Partea mișto este ca funcția corectează parametrii așa încât sa altereze cat mai puțin sunetul in ansamblul sau, iar rezultatul a fost excelent. Sau scene Cut detection este tot o astfel de funcție smart, care te ajuta sa tai rapid un footage lung, pe care ti-l împarte automat in scene in funcție de schimbările de cadru.

As putea sa va dau multe exemple de astfel de capabilități pe care le noi folosim zilnic, si cu siguranță si alții pot da astfel de exemple in legătură din alte aplicații, gen Photoshop sau After Effects sau de grafica 3D. Si toate se folosesc de placa video de care dispui deja in sistem, pentru a simplifica si accelera hardware aceste procese, si cu cat placa este mai puternica si mai rapida, cu atât magia se întâmpla mai repede.

Ce părere aveți despre chat with RTX, dar si despre ideea unui chatbot inteligent local, direct pe propriul PC. Cum va suna? Si apropo de PC-uri, băgați un ochi si pe zona.store, prăvălia noastră online, unde va așteptăm cu Gamebox si Workbox, gamele noastre de joaca si munca, gândite, configurate, asamblate si testate riguros chiar de noi.

Această știre este preluată prin Roboțelul iDOR.info!

Sursa acestei stiri: Cum să AI propriul tău AI: Chat with RTX!

Autor/editor:

Redacția: Redacția @ Stiri Google

Știre preluată

Cum să AI propriul tău AI: Chat with RTX!

Primele concluzii despre experiența Chat with RTX

Nevoiți să renunțe la visul lor! Nici Prințul William, nici Prințul George n-au vrut să fie regi

Secta din care a făcut parte Brad Pitt. Care era ritualul de purificare. O tânără de 15 ani trebuia să fie lângă actor