Quel avenir pour les chatbots ? Interview de M. Ho-a-Chuck d’Orange

Entretien avec M. Olivier HO-A-Chuck, Head of Applications & OS Expertise chez Orange Multimedia Applications

Le Jeudi 21 avril, Orange a officiellement présenté Djingo, son assistant virtuel multiservice qui se commande à la voix ou au texte. Il permet de naviguer de manière simple et intuitive sur la TV d’Orange, de piloter sa maison connectée, de passer un appel et d’accéder à bien d’autres services encore.
Nous avons pu rencontrer M. Olivier HO-A-CHUCK, qui travaille actuellement sur ce projet. Entretien.

 

• Bonjour Monsieur, pourriez-vous présenter votre activité au sein d’Orange en quelques mots ?

Bonjour, pour le dire simplement, je travaille au Technocentre, une entité en charge de concevoir les produits d’innovation d’Orange. Dans cette entité, je suis plus particulièrement en charge de l’anticipation et de la veille dans le domaine des applications et OS mobiles. Le futur des applications est intimement lié aux assistants intelligents et aux agents conversationnels. C’est donc tout naturellement que j’ai été impliqué dans l’initiative de conception d’un écosystème permettant de favoriser le développement de services conversationnels. C’est Djingo : l’assistant intelligent d’Orange, qui permet d’accéder directement aux services du quotidien par la voix ou par le texte.

• Pourquoi Orange a-t-elle décidé de créer Djingo ? Qu’en attendez-vous ?

Vous savez, de ma position de veille sur l’écosystème mobile, on peut clairement observer l’évolution des usages dans ce domaine. A une époque où les services étaient majoritairement consommés sur le web desktop, il y a eu une transition des usages vers le web mobile, qui a fini par surpasser ceux du desktop. Puis très vite l’usage des services digitaux s’est déplacé au sein des applications natives. Aujourd’hui cela évolue encore et nous anticipons une nouvelle mutation de ces usages qui vont d’une part être orientés sur l’instantanéité et d’autre part sur l’accès en langage naturel.

• L’instantanéité c’est le fait de pouvoir consommer les services au moment où on en a besoin et sur le canal le plus immédiat. Par exemple, si je parle d’un film ou mentionne une adresse postale au sein de mon client de messagerie, le texte devient cliquable ce qui permet d’avoir plus d’infos sur le film, ou ce qui permet d’avoir l’itinéraire permettant de se rendre à l’adresse citée. Même si les services proposés derrière ces liens cliquables le sont au travers d’applications mobiles natives.
• L’accès en langage naturel c’est par exemple lorsque depuis la voiture on dit « Siri, appelle maman » ou c’est encore lorsque le texte tapé dans Google est du type : « quel temps fait-il demain à Madrid ?». A titre d’info, la recherche vocale sur Google représente déjà 20% des recherches sur mobile aux US. La consommation de services via interface vocale prend petit à petit sa place dans les usages quotidiens.

C’est donc sur la base de ces observations que le projet Djingo d’écosystème de services conversationnels est né. Nous avons identifié le besoin d’anticiper ces évolutions dans l’accès aux services et donc d’exposer nos services via les interfaces conversationnelles. Nous pensons que c’est ce que tout acteur du digital va finir par faire. Aussi, nous aurions pu nous appuyer sur les solutions existantes tels que Amazon ou Google pour favoriser l’accès au vocal à nos services. Mais nous mettons au centre de nos priorités la relation client ainsi que la gestion de leurs données personnelles que nous souhaitons maitriser de bout en bout. C’est pourquoi Orange a privilégié l’approche propriétaire pour cet écosystème. Du coup avec Djingo, en texte ou en vocal, nous pouvons fournir 24/24 7 jours/7 un accès personnalisé et contextuel à nos services, ainsi que ceux de nos futurs partenaires.

  • Qu’est-ce que ce projet d’écosystème dont vous parlez ? Pourriez-vous nous en dire un peu plus ?

Pour présenter ce qu’est un écosystème et quel est celui visé par Orange, il me semble pertinent de partir d’une analyse des chatbots actuels.

Facebook a été le premier à favoriser le développement des services conversationnels pour ses clients, via des chatbots. Beaucoup de marques lui ont alors emboîté le pas.

Mais le chatbot ne reste souvent qu’une FAQ ou un mode de conversation « question-réponse ». Il ne devient pertinent et consistant que quand il y a de la personnalisation et du contexte. Par exemple Orange avait créé pour Noël 2016 le bot Chris Mas pour aider les clients à choisir leur cadeau idéal. Mais comme beaucoup de chatbots actuels, pour être efficace, il guide encore beaucoup l’utilisateur. Celui-ci n’a pas la liberté de dialoguer exactement comme il le souhaite. Ce n’est pas vraiment une conversation.

Si je prends cet exemple, c’est pour montrer qu’aujourd’hui, le chatbot n’est que la partie visible d’un iceberg. Celui de l’assistant intelligent capable d’intégrer une myriade de services dits cognitifs tels que le speech-to-text bien sûr, mais aussi l’identification vocale, la reconnaissance d’image, la détection d’humeur ou plein d’autres fonctions basées principalement sur du Machine Learning. Et là on commence enfin à parler d’IA (Intelligence Artificielle) capable d’effectuer des tâches que seuls les humains étaient avant capables de réaliser. C’est grâce à cette IA que l’on peut vraiment commencer à traiter des requêtes formulées en langage naturel et parler vraiment d’interface conversationnelle. Google (Google Home), Apple (Siri) mais aussi Amazon (Alexa) ou même de façon moins médiatique Microsoft (Cortana) sont les acteurs majeurs qui poussent vraiment l’usage de l’interface conversationnelle avec leurs services vocaux. En effet, cela est plus simple et plus rapide dans le quotidien.

Les échanges conversationnels deviennent d’autant plus pertinents à mesure que les interactions sont enrichies de données contextuelles ou personnelles. Et c’est là que l’on en arrive à l’écosystème.

C’est un environnement technique qui permet d’enrichir les conversations d’éléments contextuels ou personnels ou de réaliser des fonctions techniques comme l’identification vocale ou encore l’authentification. Par exemple si je suis chez moi et que je dis « Ok Djingo c’est l’heure du dîner, coupe le wifi des enfants », je m’attendrai à ce que Djingo soit capable de savoir sur quel équipement couper le wifi, etc. De même, si je dis « Ok Djingo peux-tu enregistrer le film de 20h sur la une » je m’attends à ce que Djingo soit capable de piloter ma propre box. Pour que l’interaction avec les différents services disponibles soit le plus simple possible il va falloir définir un principe de routage intelligent vers le bon service ou le bon bot. C’est ce que l’on appelle le Discovery.

  • Qu’est-ce que le Discovery ?

Avec l’avènement des chatbots, on va assister à leur prolifération, car leur usage est plus pratique que celui des apps. Il est notamment instantané et peut être contextuel. Par exemple si je ne prends l’avion avec KLM qu’une seule fois dans l’année, je ne vais pas télécharger leur app pour autant, mais simplement utiliser leur chatbot car pas besoin de téléchargement. Par exemple pour demander à quelle porte se trouve le vol pour Amsterdam. Google estime ainsi que chacun de nous utilisera en moyenne 5 fois plus de chatbots que d’applications. Soit pour un usage moyen de 30 applications au global, on utilisera jusqu’à 150 chabots. Alors que la découverte des applications est déjà un problème aujourd’hui, la découverte des chatbots sera un vrai cauchemar demain.

Djingo a donc été pensé comme un canal unique : il permet d’adresser plusieurs services à la fois à travers un unique assistant, ceux d’Orange bien sûr mais aussi ceux de leurs partenaires. Cela permet d’avoir dans un système ouvert, une multitude de services en s’adressant à une seule entité que cela soit via Facebook Messenger ou similaire, par SMS ou encore en vocal sur le Speaker d’Orange. Par exemple demander vocalement ou par écrit la météo, les infos, écouter de la musique, regarder la TV, consulter ses factures mais aussi pourquoi pas faire un achat et être facturé directement sur sa facture mobile.

C’est ce que l’on appelle le Discovery. Djingo est l’unique point d’entrée, qui permet d’accéder à tous les services d’Orange et de ses partenaires, qui va ensuite chercher pour le client le bon service. Pour prendre une image, c’est comme si vous entriez dans un centre commercial. Je n’ai alors pas besoin de faire le tour de la ville pour trouver différents produits, car je peux y acheter des vêtements, mais aussi du matériel de sport. Bien que l’on s’adresse à des vendeurs de marques différentes (ici les bots partenaires), on reste tout de même dans le même centre (ici on reste dans le même assistant conversationnel).

Cela favorise également ce que l’on appelle la Contextualisation.

 

  • Qu’est-ce que la Contextualisation ?

La contextualisation permet d’éviter de perdre du temps à redonner à chaque fois des précisions sur le contexte de la demande. Elle permet de poser des questions générales de conversation (« livre-moi une pizza », « réserve-moi un taxi »,  « quelle est la météo »), donc d’être plus rapide et d’être accessible en vocal

Le chatbot devient pertinent en étant enrichi des données personnelles du client, qu’il retient en mémoire entre les différents services. Si je demande la météo je n’ai pas envie que le bot me demande à chaque fois dans quelle ville. Ni de devoir donner à chaque fois mon adresse si je commande à manger sur des services de livraison différents (pour prendre un exemple simple et trivial).

On appelle cela de la contextualisation, car il ne s’agit pas seulement de données personnelles.
La contextualisation prend en compte le temps et le lieu de la requête.

Si je demande au bot de me réserver un taxi, par exemple, il ne va pas (et ne doit pas) me réserver le taxi aux mêmes services si je suis à Rennes ou à Paris au moment où je lui fais la demande. De même, si je lui demande une pizza un lundi soir à 22h, il doit pouvoir prendre en compte si tel ou tel prestataire est fermé ce jour-là et à cette heure-là, pour ne pas me le proposer.

Il faut rappeler que pour accepter qu’un écosystème de services conversationnels conserve des données personnelles afin d’améliorer l’expérience des services consultés, il faut quand même une certaine dose de confiance, même si le consentement est obligatoire pour utiliser certaines données. Et nous pensons qu’Orange - comparé à d’autres acteurs majeurs de l’Internet - est un tiers de confiance idéal pour proposer des services contextuels et personnalisés. En effet, nous sommes très attachés à la protection des données de nos utilisateurs. Et nous sommes très vigilants sur la gestion de ces données personnelles en lien avec les nouvelles réglementations européennes en la matière.

  • Quand ces services seront-ils disponibles ?

Début 2018.

 

  • Pourriez-vous nous dire ce que vous prévoyez comme améliorations pour le futur ?

Une fois les bases de l’écosystème posées, c’est-à-dire d’être en mesure de router intelligemment une requête en langage naturel vers le bon service, nous n’avons plus qu’à enrichir la promesse de nouveaux services internes Orange, ou bien externes.
Puis de rajouter de nouvelles fonctions cognitives telle que la reconnaissance vocale par exemple. Ce qui permettra de dissocier dans le foyer deux voix distinctives qui interpelleraient le speaker d’Orange (celle de Pierre et celle de Jean par exemple) et donc de répondre avec un service personnalisé à chacun.

D’une façon plus générale, toutes les améliorations que nous pourrons rajouter dans le futur seront basées sur les premiers usages et les retours clients. Le principal pour nous est d’avoir une structure ouverte et évolutive. C’est que nous avons créé. Ensuite la démarche sera d’écouter nos clients pour leur donner ce qu’ils demandent. C’est-à-dire une expérience incomparable. Ok, cela fait « cliché », mais cela reste malgré tout ce que nous cherchons vraiment à faire !

 

  • Merci beaucoup du temps que vous nous avez accordé pour cet entretien.

 

Pour en savoir plus sur Djingo, l'assistant virtuel multiservice d'Orange, cliquez ici.

Leave a Comment