
— Il semble toujours au courant des dernières tendances.
— Totalement. Et il ne craint pas de poser les questions difficiles, ce que j’apprécie.
— Tout à fait. Et en plus…
Les deux animateurs du balado Deep Dive s’entretiennent, en anglais, d’un sujet que je connais bien : moi-même.
Deep Dive est le nom donné au balado virtuel pouvant être créé dans NotebookLM, de Google, une sorte d’assistant de recherche capable de résumer rapidement des documents et de les transformer en notes de travail ou en guide d’étude, lancé sans grand succès à l’été 2023. La popularité de cet assistant a explosé le mois dernier avec l’arrivée de l’outil Audio Overview, qui permet de produire des balados sans le moindre effort.
Créer un épisode de Deep Dive dans NotebookLM est on ne peut plus simple. On téléverse différents documents, comme des PDF, des enregistrements audios et des liens vers des sites Web, on clique sur un bouton et, quelques minutes plus tard, deux voix, une d’homme et une de femme, discutent pendant environ 10 minutes du sujet téléversé.
Pour mon essai, j’ai soumis 16 exemplaires de mon infolettre techno personnelle à NotebookLM. Les deux animateurs virtuels ont ainsi discuté de moi, de mon style d’écriture et de mes thèmes préférés, puis ils ont analysé certains des sujets traités plus en profondeur.
Le réalisme est déroutant. Non seulement les voix (en anglais seulement pour l’instant) sont crédibles, mais la façon qu’ont les animateurs de s’interrompre et d’intervenir quand l’autre parle donne vraiment l’impression qu’ils collaborent depuis de nombreuses années.
Même sur le fond, c’est plutôt réussi. Force est de constater que, sans être parfait, l’épisode pourrait être une bonne introduction à l’infolettre pour quelqu’un qui ne l’aurait jamais lue.
Succès viral pour un petit produit
NotebookLM semble partout sur le Web en ce moment. Alors que certains racontent le genre d’usage qu’ils en font, comme résumer un document de 200 pages, d’autres s’amusent à trouver des moyens de détourner l’outil afin de repousser ses limites, générant par exemple une discussion où les deux animateurs affirment venir de se rendre compte qu’ils sont des IA, et non des humains.
Détail intéressant, et plutôt inhabituel pour quelque chose venant d’une grande entreprise comme Google, NotebookLM est un produit d’une petite équipe, qui a imaginé, créé et lancé la fonctionnalité Audio Overview en moins de deux mois, selon ce qu’a partagé sur X un de ses designers.
Techniquement, la technologie est basée sur deux tendances en IA générative que j’avais abordées au printemps. Gemini 1.5 Pro, le modèle d’IA utilisé par NotebookLM, est une IA multimodale, ce qui veut dire qu’il est capable d’analyser plusieurs « modes », soit autant le texte que les images et les fichiers audios qui lui sont fournis ; c’est aussi une IA « à la mémoire longue », c’est-à-dire qu’il est possible de lui poser de très longues questions — vous pouvez soumettre jusqu’à 50 sources à NotebookLM, et chacune fait en quelque sorte partie d’une longue requête qui est automatiquement transmise à l’IA lors de la création du balado.
Google n’a pas donné beaucoup de détails sur la mécanique de l’outil, mais on peut également présumer que le modèle d’IA a été entraîné au préalable avec différents balados existants, ce qui lui permet de reproduire la cadence, les onomatopées et le style d’animation communs à ce type de contenu avec autant de réalisme.
Les créateurs de balados peuvent dormir tranquilles
Après que la fin des agents au service à la clientèle, des illustrateurs, des traducteurs, des journalistes, des agents de brevets et d’à peu près tous les métiers imaginables eut été annoncée, les baladodiffuseurs seront-ils les prochains à passer dans le collimateur de l’IA générative ?
Absolument pas.
D’ailleurs, même Google ne présente pas Audio Overview comme un outil pour créer des balados, mais plutôt comme une façon de générer une discussion sur le sujet de votre choix, pour étudier avant un examen, par exemple.
La nuance est bien réelle. Écouter un balado sert généralement à s’informer ou à se divertir. Dans le cas de Deep Dive, on ne peut pas vraiment s’y fier pour s’informer (l’IA peut oublier des aspects importants d’un dossier, en plus d’introduire de fausses informations), et la discussion produite n’est jamais aussi agréable qu’un échange entre de véritables personnes.
L’outil pourra cependant être utile à ceux qui ont plus de temps pour l’écoute que pour la lecture, et qui pourraient par exemple entreprendre une recherche en se faisant expliquer un sujet pointu tout en conduisant pour se rendre au boulot le matin. Il plaira aussi aux gens qui retiennent mieux ce qu’ils entendent que ce qu’ils lisent. Il est toutefois important de valider les informations qui sont dites, surtout si vous comptez les utiliser pour le travail ou l’école, par exemple. Vous vous apercevrez que, dans certains cas, il aurait peut-être été plus simple de lire tous les documents originaux dès la première fois.
C’est évidemment un outil surtout intéressant pour Google elle-même, dont les outils d’IA générative, souvent oubliés derrière ceux d’OpenAI, peuvent finalement profiter à leur tour d’une bonne visibilité.