Google Gemini rappresenta un importante passo avanti nel campo dell’intelligenza artificiale, essendo il modello AI più capace e generale mai creato da Google DeepMind. Gemini è il risultato di un ampio lavoro collaborativo tra i team di Google, inclusi i colleghi di Google Research. È stato progettato fin dall’inizio per essere multimodale, il che significa che può generalizzare e comprendere, operare e combinare in modo fluido diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video.
Gemini è disponibile in tre diverse versioni, ottimizzate per specifiche esigenze e dimensioni di compito:
- Gemini Ultra: Il modello più grande e capace, pensato per compiti altamente complessi.
- Gemini Pro: Il modello migliore per scalare un’ampia gamma di compiti.
- Gemini Nano: Il modello più efficiente per compiti su dispositivi.
Una delle caratteristiche più notevoli di Gemini è la sua capacità di superare i risultati attuali dello stato dell’arte in 30 dei 32 benchmark accademici ampiamente utilizzati nella ricerca e nello sviluppo di grandi modelli di linguaggio (LLM). In particolare, Gemini Ultra è il primo modello a superare gli esperti umani nel MMLU (massive multitask language understanding), ottenendo un punteggio del 90,0%. Questo benchmark utilizza una combinazione di 57 argomenti come matematica, fisica, storia, diritto, medicina ed etica per testare sia la conoscenza del mondo che le capacità di risoluzione dei problemi.
Inoltre, Gemini Ultra ha ottenuto un punteggio dello stato dell’arte del 59,4% nel nuovo benchmark MMMU, che consiste in compiti multimodali che spaziano in diversi domini e richiedono un ragionamento deliberato. Questi benchmark evidenziano la multimodalità nativa di Gemini e indicano i primi segni delle capacità di ragionamento più complesse di Gemini.
Le capacità multimodali di Gemini si manifestano in maniera impressionante quando si tratta di analizzare sequenze di immagini. Ad esempio, Gemini può comprendere e interpretare informazioni visive presentate sotto forma di una serie di immagini, indovinare il film raffigurato in una sequenza di fotogrammi fermi o identificare scene specifiche all’interno di un film basandosi sui movimenti del corpo. Questo dimostra la capacità di Gemini di comprendere e ragionare su informazioni temporali.
Una delle applicazioni più affascinanti delle sequenze di immagini riguarda i trucchi di magia. Gli utenti possono eseguire un trucco magico che coinvolge una moneta che scompare e chiedere a Gemini di spiegare cosa è successo. Gemini può tracciare accuratamente la sequenza di immagini, identificare il momento in cui la moneta scompare e riassumere le azioni passo dopo passo, dimostrando la sua capacità di elaborare e ragionare su informazioni visive dinamiche.
Gemini è in grado di generare codice basato su diversi input forniti, dimostrando un’ampia gamma di potenziali applicazioni nel campo dell’AI, dalla creazione di contenuti all’assistenza decisionale, promettendo innovazioni significative per il futuro dell’intelligenza artificiale.