Lancée en 2015, BeMyEyes est une application pour smartphone qui regroupe une communauté mondiale de personnes malvoyantes ou aveugles et de bénévoles voyants. L’utilisateur qui demande de l’aide via l’application est mis en contact vidéo avec un volontaire, selon la géolocalisation et le fuseau horaire. L’assistance visuelle ainsi fournie permet par exemple de distinguer les couleurs des vêtements, vérifier si les lumières sont allumées ou préparer le dîner.

Les développeurs de l’application, qui compte plus de 6 millions de volontaires, souhaitent améliorer l’accessibilité de leur outil avec l’intégration d’un « volontaire virtuel », géré par l’intelligence artificielle (IA) de deep learning GPT-4*. Un nouveau modèle de l’outil ChatGPT qui fait beaucoup parler de lui et que nous avions d’ailleurs soumis à un exercice du BTS-OL

Le but : fournir aux personnes malvoyantes ou aveugles de « nouvelles ressources pour mieux naviguer dans les environnements physiques, répondre aux besoins quotidiens et gagner en indépendance ».

Convertir l'image en texte

Mais comment ça marche concrètement ? Le nouveau modèle de langage GPT-4 contient un générateur dynamique qui convertit l’image en texte. Les utilisateurs peuvent donc envoyer des images via l’application et le « volontaire virtuel » répond à toute question concernant cette image. Par exemple, si l’utilisateur envoie une photo de l’intérieur de son réfrigérateur, l’application pourra identifier ce qui se trouve à l’intérieur et même extrapoler en proposant des recettes à partir des ingrédients identifiés.

L’application ne va néanmoins pas se séparer des volontaires en chair et en os qui seront sollicités si l’intelligence artificielle ne parvient pas à répondre à une question ou à apporter une solution. La fonctionnalité « volontaire virtuel » est actuellement en bêta et devrait être disponible « plus tard cette année ».

 

*Sur le site du développeur OpenAI, l’outil GPT-4 est ainsi décrit : GPT-4 est un modèle multimodal (acceptant des entrées d’image et de texte, émettant des sorties de texte) qui, bien que moins capable que les humains dans de nombreux scénarios du monde réel, présente des performances de niveau humain sur diverses références professionnelles et académiques.