Era “solo” il 6 dicembre 2023 quando Google ha lanciato Gemini, il modello di Intelligenza Artificiale a marchio Google.
A distanza di due mesi, Google lancia Gemini 1.5 ovvero il risultato di ricerche ed innovazioni ingegneristiche volte cambiare radicalmente il modello AI. In meglio.
Innanzitutto, Gemini 1.5 offre prestazioni migliorate perché si basa sul modello di architettura MoE.
Cos’è il MoE?
MoE sta per “Mixture of Experts” e come suggerisce la traduzione letterale – e semplificata – si tratta di sottolivelli di esperti che gestiscono un determinato problema di competenza (io me li immagino tipo gli Umpa Lumpa). Volendo essere “più informatici”, parliamo di un modello di apprendimento che mette insieme più reti neurali affinché si possano risolvere anche i problemi più complessi.
A questa tecnologia (che comunque non è nuova eh, ma usata in altri ambiti, since 1991) viene integrata una finestra di contesto in cui trovano spazio fino ad 1 milione di token.
Che cos’è la “context window”?
Quando parliamo di finestra di contesto ci riferiamo a tutto lo spazio di testo che il modello AI può prendere in considerazione per generare la sua risposta. Se il limite di spazio viene superato, allora mandiamo l’AI in tilt.
Ecco che entrano in gioco i token ed ecco perchè sentire che Gemini 1.5 potrà contare su 1 milione di token ci dà la misura di quanto il nuovo modello potrà essere potente.
Avere a disposizione un milione di token significa non solo testo, ma anche immagini, video o codici. Quindi più spazio di manovra c’è, più efficace sarà il risultato generato.
Potendo contare sul multimodal prompt, Gemini 1.5 riesce ad essere efficace anche su un semplice disegno. Nel video/demo pubblicato da Google, vediamo come l’inserimento di un semplicissimo disegno, senza nessun tipo di dettaglio aggiuntivo, venga spiegato da Gemini al prompt “Che cos’è questo?”:
Gemini riconosce che quel piede rappresenta una parte di un’iconica immagine: quella di Neil Armstrong sulla luna.
Con questo esperimento, Google ha voluto dimostrare l’efficacia e pertinenza di risposta nonostante gli input forniti siano davvero nulli.
Altrimenti non la definiremmo Intelligenza, no?
LEGGI ANCHE: L’UE al mondo: L’AI la aiuto, la finanzio, ma se è il caso, la punisco
CONSIGLI DI LETTURA: Capire L’intelligenza Artificiale – di Luca Belmonte – prezzo €12,95