Territorio

18/02/2025

L’intelligenza artificiale ora può controllare il tuo computer – Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc

CONDIVIDI

Microsoft lancia il nuovo Tool che trasforma l’AI in un agente che controlla il tuo Pc

Microsoft ha lanciato OmniParser V2, un innovativo strumento che consente ai modelli linguistici di interagire con le interfacce grafiche degli utenti. L’automazione delle GUI (interfacce grafiche utente) è una sfida, poiché richiede che il modello comprenda e navighi efficacemente attraverso gli schermi, identificando correttamente le icone interattive e associano le azioni appropriate agli elementi visivi. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) hanno avuto difficoltà a gestire questo compito.

OmniParser risolve questo problema trasformando gli screenshot delle interfacce da semplici immagini in dati strutturati che possono essere facilmente interpretati dall’AI, migliorando la capacità del modello di prevedere e compiere le azioni necessarie. Con il rilascio di OmniParser V2, Microsoft ha potenziato ulteriormente la tecnologia, aumentando l’accuratezza nel rilevare anche gli elementi più piccoli e riducendo il tempo di latenza del 60% rispetto alla versione precedente. Questo è stato possibile grazie all’addestramento su un set di dati molto più ampio, che ha migliorato il riconoscimento delle icone e la loro corretta interpretazione.

Un esempio significativo dei miglioramenti ottenuti è dato dall’uso combinato di OmniParser e GPT-4o, che ha raggiunto un’accuratezza media del 39,6% nel benchmark ScreenSpot Pro, un test avanzato per identificare icone ad alta risoluzione. Questo segna un notevole progresso rispetto all’accuratezza di solo 0,8% ottenuta da GPT-4o in precedenza.

Per semplificare l’adozione e la sperimentazione di questa tecnologia, Microsoft ha sviluppato OmniTool, un sistema Docker per Windows che integra strumenti essenziali per gli agenti AI. OmniParser può essere utilizzato in combinazione con modelli avanzati come quelli di OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) e Anthropic (Sonnet), consentendo una comprensione più profonda degli schermi, l’interpretazione semantica degli elementi visivi e l’esecuzione delle azioni pianificate.

21/03/2025 

Territorio

Milano – Ortomercato devastato, ripreso un uomo che appiccava il rogo. Danni per milioni di euro

Milano – Incendio all’Ortomercato, ripreso un uomo che appiccava il rogo Il grave incendio che ha […]

leggi tutto...

20/03/2025 

Territorio

Milano – Venerdì nero per i trasporti: sciopero di tram, bus e metro. Disagi per i passeggeri. INFO e fasce garantite

Milano – Venerdì nero per i trasporti: sciopero di tram, bus e metro. Milano si prepara […]

leggi tutto...

20/03/2025 

Territorio

A Milano nasce il nuovo complesso residenziale con appartamenti di lusso: un progetto architettonico d’eccellenza. Ecco dove

Nel centro della città meneghina, nelle vicinanze del dinamico quartiere di Brera, sorge Moscova 64, un […]

leggi tutto...

20/03/2025 

A Milano arriva uno storico Capolavoro di Van Gogh: la mostra a Palazzo Citterio

A Milano arriva uno storico Capolavoro di Van Gogh A partire da venerdì 14 marzo, i […]

leggi tutto...

20/03/2025 

Sport

Tennis, il documento anti-Sinner scatena la polemica – Fra i 12 firmatari anche top player: ecco chi sono

Lo scontro  tra i giocatori di tennis professionisti e gli organi di governo del tennis mondiale […]

leggi tutto...

20/03/2025 

Territorio

Milano – Atterrati a Linate i bimbi palestinesi bisognosi di cure “Li abbiamo portati via dall’inferno”

Un aereo dell’Aeronautica Militare ha trasportato in Italia un gruppo di bambini palestinesi in gravi condizioni […]

leggi tutto...
Privacy Policy Cookie Policy