Indice
Cos’è DALL-E?
DALL-E, nome che omaggia sia Salvador Dalì, sia WALL-E, robot protagonista del classico Pixar, produce immagini da descrizioni testuali esprimibili in linguaggio naturale. Il sistema richiede un input di testo o testo con immagine e rilascia un output in immagini. Questo significa, per fare un esempio, che se l’utente scrive “ragazza con i capelli blu che mangia una pizza” il modello restituisce diverse versioni di una ragazza con i capelli blu che mangia una pizza, immagini realizzate in quel momento dal sistema e non trovate su Internet come farebbe qualsiasi motore di ricerca.
La prima versione di DALL-E, è stata rilasciata a gennaio 2021, mentre la seconda a luglio 2022. Per quest’ultima versione, soltanto un milione di utenti erano stati invitati a testarla. Invece, da fine settembre 2022 il software è diventato disponibile per tutti. Infine, a novembre 2022 OpenAI ha reso disponibili delle API che permettono di integrare DALL-E 2 all’interno di altre app, così da sfruttarne a pieno il potenziale.
Parlando di costi, ad oggi DALL·E può essere testato gratuitamente nella sua versione beta. Versione che funziona con un sistema di crediti: si ottengono 50 crediti all’iscrizione e poi 15 crediti gratis ogni mese seguente. Ogni credito offre la possibilità di fare una richiesta originale a DALL·E e ogni richiesta restituisce quattro immagini. Altrimenti, sempre con un singolo credito, è possibile effettuare una richiesta di modifica/variazione, che restituisce tre immagini. Se si necessita di un maggior numero di crediti, è possibile acquistarne con prezzi a partire da 115 crediti/15 dollari (i quali equivalgono a 460 immagini generate).
Come caricare immagini e modificarle su DALL-E?
Se si vuole caricare un’immagine già esistente potete cliccare su «upload an image», sotto la barra di ricerca, e scegliere un’immagine presente all’interno del dispositivo. Fatto questo passaggio avete due alternative: la prima è premere su «generate variations», che fa in modo che l’intelligenza artificiale modifichi a suo piacimento la vostra immagine, altrimenti si può cliccare direttamente su «edit image», che permette di modificare come si vuole l’immagine.
Se per esempio nella foto si vede soltanto l’immagine di una persona, è possibile chiedere a Dall-E di creare uno sfondo, marittimo o di montagna. L’ultima funzione, infine, prevede la possibilità di caricare altre immagini e fare una sorta di collage.
Nel menù in alto, a fianco a «Dall-E», si trova «history», ossia la sezione che contiene tutte le immagini che si sono ricercate. Queste a loro volta possono essere contrassegnate come preferite, così da trovarle nella sezione a fianco, chiamata «favorites». L’ultima sezione infine, ossia «collections», presenta al suo interno delle raccolte, che possono essere rese pubbliche o private, delle nostre immagini preferite e che vengono conservate col nostro profilo.
A chi appartengono le immagini realizzate da DALL-E?
Dall-E 2 ha problemi che, però, non sono stati attualmente irrisolti. Uno di essi riguarda la proprietà dell’immagine, domanda ancora senza una risposta.
Pensa a tutte le immagini pubblicate e vendute ogni giorno su siti come Shutterstock.com. Chiedere all’intelligenza artificiale di generare gratuitamente le stesse immagini che hai pagato per una volta potrebbe farti risparmiare un sacco di soldi da un lato e potenzialmente sprecare un sacco di lavoro delle persone dall’altro.
Che errori può commettere DALL-E?
Il sistema può ricevere in input anche istruzioni abbastanza dettagliate, come ad esempio “un piccolo pinguino che indossa un cappello blu, guanti rossi, camicia verde e pantaloni gialli”, ma quando deve iniziare a creare associazioni o quando le parti da comporre sono tante DALL-E ha la tendenza a “dimenticarsi” qualcosa.
Un’altra possibilità è mandare in input sia una stringa di testo sia un’immagine. La cosa interessante è che in alcuni casi i ricercatori hanno notato delle qualità emergenti nel modello, come la capacità nota come zero-shot reasoning, che consente al modello di realizzare diverse attività semplicemente con una descrizione e un aiuto visivo, senza che la classificazione fosse stata precedentemente programmata. DALL-E spesso tende a creare versioni proprie dell’immagine, anche quando era stato istruito a replicare l’immagine di input tale e quale. Si tratta del rovescio della medaglia di un sistema addestrato a “riempire gli spazi” non descritti dall’input.
Come sfruttare DALL-E nel business?
DALL-E è un sistema potenzialmente molto interessante per quanto riguarda i possibili usi, rendendolo adatto a studi creativi, interior designer e al settore della moda, lo si nota se gli si chiede ad esempio delle lampade a forma di orchidea, o in genere a tutte quelle attività dove c’è bisogno di fantasia visiva. Un sistema del genere aiuterebbe i creativi a ottenere nuove ispirazioni o a provare in pochi secondi concetti che sarebbero stati lunghi da impostare graficamente uno per uno.
I ricercatori di OpenAI hanno creato DALL-E senza un obiettivo specifico in mente. Avevano a disposizione un modello molto performante come GPT-3 e lo hanno modificato per dar vita a questo nuovo sistema, che porta la creatività del modello precedente verso il mondo delle immagini.