L’uso dell’Intelligenza Artificiale per migliorare le descrizioni delle foto per le persone non vedenti e ipovedenti
Quando gli utenti di Facebook navigano nel loro NewsFeed, trovano ogni tipo di contenuto – articoli, commenti degli amici, inviti a eventi e, naturalmente, foto. La maggior parte delle persone è in grado di vedere istantaneamente cosa c’è in queste immagini, sia che si tratti del loro nuovo nipote, di una barca su un fiume o di una foto sgranata di una band sul palco. Ma anche molti utenti non vedenti o ipovedenti possono fruire di queste immagini, a condizione che siano etichettate correttamente con un testo alternativo (o “alt text”). Un lettore di schermo può descrivere il contenuto di queste immagini utilizzando una voce sintetica e consentire alle persone non vedenti o ipovedenti di cogliere le immagini nei loro feed di Facebook.
Purtroppo, molte foto vengono pubblicate senza testo alternativo, così nel 2016 abbiamo introdotto una nuova tecnologia chiamata testo alternativo automatico (AAT). L’AAT – che è stata riconosciuta nel 2018 con il premio Helen Keller Achievement Award della American Foundation for the Blind – è una tecnologia che utilizza il riconoscimento degli oggetti per generare descrizioni di foto su richiesta, in modo che gli individui non vedenti o ipovedenti possano godere con meno limitazioni del loro News Feed. Da allora lo stiamo migliorando e siamo entusiasti di presentare la prossima generazione di AAT.
L’ultima versione dell’AAT riflette molteplici progressi tecnologici che migliorano l’esperienza fotografica per i nostri utenti. Anzitutto, abbiamo ampliato di oltre 10 volte il numero di contenuti che l’AAT è in grado di rilevare e identificare in modo affidabile in una foto, il che a sua volta significa un minor numero di foto senza descrizione. Le descrizioni sono anche più dettagliate, con la possibilità di identificare attività, simboli, tipi di animali, e così via – per esempio, “Può trattarsi di un selfie di due persone, all’aperto, con la Torre pendente di Pisa”.
Abbiamo anche realizzato una novità assoluta nel settore rendendo possibile l’inserimento in una foto di informazioni sulla posizione e le dimensioni relative degli elementi. Quindi, invece di descrivere il contenuto di un’immagine come “Può trattarsi di un’immagine di cinque persone”, possiamo specificare che ci sono due persone al centro della foto e altre tre sparse ai margini, il che implica che le due al centro sono il punto focale. Oppure, invece di descrivere semplicemente un bel paesaggio con “Può trattarsi di una casa e una montagna”, possiamo evidenziare che la montagna è l’oggetto primario in una scena considerandola in relazione alle sue dimensioni rispetto alla casa.
Nel loro insieme, questi accorgimenti aiutano gli utenti non vedenti o ipovedenti a capire meglio ciò che è contenuto nelle foto pubblicate dalla loro famiglia e dai loro amici – e nelle loro stesse foto – fornendogli informazioni maggiori (e più dettagliate).
Dove abbiamo cominciato
Il concetto di alt text risale agli albori di Internet ed è nato per fornire un testo alternativo al download di immagini ad alta intensità di banda laddove le connessioni dial-up erano lente. Indubbiamente, alt text ha aiutato anche le persone non vedenti o ipovedenti a navigare in Internet, in quanto può essere utilizzato da un software di lettura dello schermo per generare descrizioni vocali di immagini. Purtroppo però, l’incremento di velocità di internet ha reso alt text meno prioritario per molti utenti. E poiché queste descrizioni dovevano essere aggiunte manualmente da chi aveva caricato un’immagine, molte foto hanno cominciato a non presentare più alcun testo alternativo, senza tenere conto di chi ne aveva effettivamente bisogno.
Quasi cinque anni fa, abbiamo sfruttato le competenze di Facebook in materia di visione artificiale per contribuire a risolvere questo problema. La prima versione dell’AAT è stata sviluppata utilizzando dati etichettati dall’uomo, con cui abbiamo sviluppato una rete neurale convolutiva profonda utilizzando milioni di esempi e supervisionando ciascuno di essi. Il nostro modello ultimato dell’AAT poteva riconoscere 100 concetti comuni, come “albero”, “montagna” e “all’aperto”. Inoltre, poiché le persone che usano Facebook spesso condividono foto di amici e familiari, le nostre descrizioni AAT hanno usato modelli di riconoscimento facciale che identificano le persone (previo esplicito consenso). Per le persone non vedenti o ipovedenti, questo è stato un enorme passo avanti.
Vedere il mondo, un po’ di più
Sapevamo che c’era qualcosa in più che l’AAT poteva fare per cui la continuazione logica del nostro lavoro è stata di espandere il numero di oggetti riconoscibili e perfezionare il modo in cui li descrivevamo.
Per raggiungere questo obiettivo, ci siamo allontanati dal metodo di apprendimento supervisionato con i dati etichettati dall’uomo. Anche se questo sistema garantisce la massima precisione, il tempo e lo sforzo necessari per classificare i dati sono estremamente ingenti – ed è per questo che il nostro modello originale AAT è riuscito a riconoscere in modo affidabile solo 100 oggetti. Consapevoli che questo approccio non sarebbe stato scalabile, avevamo bisogno di un nuovo processo.
Per la nostra attuale versione dell’AAT, abbiamo fatto leva su un formato elaborato su dati scarsamente supervisionati, sotto forma di miliardi di immagini pubbliche di Instagram e dei loro hashtag. Per far sì che i nostri modelli funzionassero al meglio per tutti, abbiamo fatto riferimento a dati campionati su immagini provenienti da diverse aree geografiche e a traduzioni degli hashtag in molte lingue. Abbiamo anche valutato i contenuti in base al genere, alla tonalità della pelle e al range di età. I modelli ottenuti sono più accurati, culturalmente e demograficamente inclusivi – per esempio, possono identificare i matrimoni in tutto il mondo basandosi (in parte) sull’abbigliamento tradizionale invece di etichettare solo le foto dove compaiono abiti da sposa bianchi.
Tutto ciò ci ha anche dato la possibilità di riutilizzare più facilmente i modelli di machine learning come punto di partenza per la formazione di nuovi progetti – un processo noto come transfer learning. Questo ci ha permesso di creare modelli che identificano contenuti come monumenti nazionali, tipi di cibo e i selfie. L’intero processo non sarebbe mai stato possibile prima.
Per ottenere informazioni più dettagliate come la posizione o il numero, abbiamo anche sviluppato un rilevatore di oggetti a due stadi, chiamato Faster R-CNNN, utilizzando Detectron2, una piattaforma open source per il riconoscimento e la segmentazione degli oggetti sviluppata da Facebook AI Research. Abbiamo insegnato ai modelli a prevedere le posizioni e le etichette semantiche degli oggetti all’interno di un’immagine. Le tecniche di formazione su più etichette / set di dati multipli hanno contribuito a rendere il nostro modello più affidabile e con uno spettro di identificazione più ampio.
L’AAT potenziato riconosce in modo affidabile oltre 1.200 contenuti – oltre 10 volte più numerosi della versione iniziale lanciata nel 2016. Nel consultare gli utenti dei lettori di schermo riguardo all’AAT e al modo migliore per perfezionarlo, abbiamo capito che l’accuratezza è fondamentale. Da allora abbiamo incluso solo quei concetti per i quali potevamo garantire modelli ben precisi dell’AAT che raggiungessero una certa soglia di precisione. Anche se c’è un margine di errore, ed è per questo che iniziamo ogni descrizione con “Può trattarsi di”, abbiamo fissato l’asticella molto in alto e abbiamo omesso intenzionalmente i concetti che non potevamo identificare in modo accurato.
Vogliamo dare ai nostri utenti non vedenti o ipovedenti quante più informazioni possibili sul contenuto di una foto – ma a condizione che si tratti di informazioni corrette.
Fornire i dettagli
Una volta aumentato il numero di oggetti riconosciuti e garantito il massimo livello di precisione, ci siamo concentrati sul modo migliore per descrivere ciò che si trova all’interno di una foto.
Abbiamo chiesto agli utenti che dipendono dai lettori dello schermo quante informazioni volevano sentire e quando volevano sentirle. Ne è risultato che desiderano più informazioni quando un’immagine proviene da amici o familiari e meno quando non lo è. Abbiamo quindi progettato il nuovo AAT per fornire da una parte una descrizione sintetica di default per tutte le foto, e dall’altra offriamo anche un modo semplice per ottenere descrizioni più dettagliate sulle foto di interesse specifico.
Quando gli utenti selezionano quest’ultima opzione, viene presentato loro un pannello che fornisce una descrizione più completa del contenuto di una foto, incluso un conteggio degli elementi presenti, alcuni dei quali potrebbero non essere stati menzionati nella descrizione predefinita. Le descrizioni dettagliate includono anche semplici informazioni sulla posizione degli elementi – in alto/medio/basso o sinistra/centro/destra – e un confronto della relativa prominenza degli oggetti, descritti come “primari”, “secondari” o “minori”. Queste parole sono state scelte specificamente per ridurre al minimo l’ambiguità. Il feedback su questa caratteristica durante lo sviluppo ha mostrato che l’uso di una parola come “grande” per descrivere un oggetto potrebbe creare confusione, perché non è chiaro se il riferimento è alla sua dimensione reale o alla sua dimensione rispetto ad altri oggetti nell’immagine. Anche un chihuahua sembra grande se fotografato da vicino!
Per la sua descrizione predefinita, l’AAT utilizza un fraseggio semplice piuttosto che una formula lunga e articolata. Non è poetico, ma è altamente funzionale. I nostri utenti possono interpretare e comprendere rapidamente la descrizione – e si presta alla traduzione, per cui tutte le descrizioni del testo alternativo sono disponibili in 45 lingue diverse, assicurando che l’AAT sia utile alle persone di tutto il mondo.
Facebook è per Tutti
Ogni giorno, i nostri utenti condividono miliardi di foto. La presenza di fotocamere nei cellulari, le connessioni wireless veloci e i social media come Instagram e Facebook hanno reso facile catturare e condividere le fotografie e contribuiscono a renderle uno dei modi più popolari di comunicare – anche per gli individui non vedenti o ipovedenti. Se da un lato ci auguriamo che tutti coloro che caricano una foto includano una descrizione testuale alternativa, dall’altro ci rendiamo conto che spesso questo non accade. Abbiamo costruito l’AAT proprio per colmare questa lacuna, e l’impatto che ha avuto su coloro che ne hanno bisogno è incommensurabile. L’Intelligenza Artificiale promette progressi straordinari, e noi siamo entusiasti di poter estendere questi progressi anche alle comunità che più ne hanno bisogno.