Galaxy AI pare că va primi un răspuns pe măsură din partea Apple, creatorul iPhone demonstrând un editor de imagini care acceptă solicitări scrise sau rostite în limbaj natural.

MLLM-Guided Image Editing, sau MGIE, noul editor asistat de inteligență artificială îți permite să retușezi poze fără să atingi ecranul sau să ai cunoștințe de photoshop. Pur și simplu descrii rezultatul pe care îl dorești iar telefonul va încerca să facă asta pentru tine. Pornind de la editări banale precum decupare, redimensionare și rotire, MGIE poate face și ajustări de finețe, selectând și aplicând filtre de imagine care corespund cerințelor tale. Însă nu se oprește aici, AI-ul poate răspunde solicitărilor de a modifica anumite obiecte dintr-o fotografie, pentru a le face să aibă o formă diferită, sau să devină mai strălucitoare.

Sistemul îmbină două utilizări diferite ale modelelor de limbaj multimodal. În primul rând, învață cum să interpreteze solicitările utilizatorului. Apoi „își imaginează” cum ar arăta editarea (ex. utilizatorul solicită un cer mai albastru într-o fotografie) identificând și retușând în mod selectiv elementul relevant din imagine.

Când editează o fotografie cu MGIE, utilizatorii trebuie doar să descrie în limbaj natural ceea ce doresc să schimbe în imagine.

În demonstrația oferită Apple a folosit exemplul unei imagini cu o pizza Pepperoni. Tastând mesajul ”fă-l mai sănătos” se adaugă toppinguri de legume. O fotografie cu tigri din Sahara pare întunecată, dar cu indicația ”să adauge mai mult contrast pentru a simula mai multă lumină”, imaginea pare mai strălucitoare.

”În loc de îndrumări scurte, dar ambigue, MGIE derivă intenția vizuală explicită și duce la o editare rezonabilă a imaginilor. Efectuăm studii ample din diverse aspecte de editare și demonstrăm că MGIE nostru îmbunătățește eficient performanța, menținând în același timp eficiența competitivă. De asemenea, credem că cadrul ghidat de MLLM poate contribui la cercetarea viitoare privind viziunea și limbajul”, au spus cercetătorii în lucrare.

Apple a făcut MGIE disponibil pentru testare pe GitHub, dar a lansat și versiune web demonstrativă pe Hugging Face Spaces, relatează VentureBeat .  Compania nu a spus care sunt planurile de viitor pentru  acest model AI, dar putem intui că aceasta va fi una dintre cele mai interesante noutăți iPhone 16 .

Photo of Aurelian Mihai

Aurelian Mihai

Îmi place să fiu la curent cu ultimele inovații și gadgeturi high-tech. Când nu scriu articole pentru Zona IT, îmi ocup timpul cu seriale SF, documentare sau periind internetul după tot felul de știri sau informații care-mi captează atenția. În week-end mă găsești cu bicicleta în parc sau colindând prin țară cu familia.