publier la parole de "publier la parole"

Prélude :

Le projet publier la parole est un projet ou j'ai galérer tout du long, j'ai pendant la majorité du quadri vraiment pas su quoi faire avec ce sujet, voici une petite liste d'idées soit vraiment pas ouf soit répondant pas du tout à la consigne, que j'ai eu au fil du quadri :

- instalation sonore avec une piste son séparées en fonction des fréquences, jouant une pièce sonore automatisée avec des programs géneratifs.

- projet autour de la "parole" des animaux

- création d'une série de tutoriels vidéos sur des sujets numériques avec des ia. (inspiré de la vidéo de Jul qui explique le théorème de Thales)

- Création d'histoires audio d'horreurs avec des voix géneratives et du sound design

Pour m'aider à m'approprier le sujet Lionel et Alexia m'ont conseillé de partir de ma pratique et d'essayer de la racoler au sujet, j'ai donc planché sur l'élaboration d'un système live d'écoute et de retranscription visuelle de discussions. Je me dis que ça peut etre l'occasion d'enfin m'essayer à la création d'un système de lumière. C'était le début du projet "la parole en lumière".

La parole en lumière :

Pour élaborer ce système d'écoute/retranscription j'ai travaillé sur touch designer en m'inspirant des programes de génerations visuelles audio réactive que je fais d'habitude. Le principe repose sur la réception live de données sonores sous forme chiffrés (en fréquences), je peux ensuite utiliser ces chiffres pour créer des parametres afin de génerer des réactions aux variations de fréquences. D'habitude je fais ce genre de travail d'analyse sonores sur des fichiers mixés mais ici je veux travailler avec la prise son de mon ordinateur directement ce qui crée un "input" sonore très étendue : l'enregistrement englobe toutes ls fréquences sonores de la pièce créant un signal peu stable et trop sensible.

C'est à cette étape que je présente pour la dernière fois mon projet à la classe avant les cotations. Les professeurs ont l'air content que j'ai enfin le début de quelque chose de concret à présenter mais sont d'accord avec moi : le projet est dans un entre deux, traitant d'avantage du son que de parole. Il faut que je trouve un moyen de mieux intégrer cette dernière dans mon système. Si je n'ai jamais vu de système de reconaissance vocale dans TD, ça doit bien etre faisable. (spoil:ça l'est) Je pars donc du dernier cours avec un objectif ! (spoil2: j'ai pas réussi).

Je me suis jamais trop renseigné sur la reconaissance vocale, j'aime pas les assistants vocaux, encore plus depuis qu'ils sont intéligents. Néanmoins je me dis que les progrès technique va au moins me faciliter la vie. Je commence mes recherches sur des solutions de reconaissances vocales interne à touch designer : rien ne semble avoir été pensé directement pour cette fonctionalité dans le logiciels mais quelque rares personnes ont créés des choses qui s'en rapproche. La plus part utilisent un système d'api pour intégrer des modèles d'IA dans le logicel. C'est notament le cas de ce mec que je déteste désormais. Il a développé des composants TD facilitant l'utilisation d'open Ai et d'autres IAs et à innondé le web de pub pour son produit. a chaque fois que je croyais trouver une solution ou une explication je tombais encore sur lui et ses produits. Forums, youtube, github, docu td officielle, etc.. Je le déteste.

Je réussis tant bien que mal à comprendre deux trois trucs sur les api mais sans réussir à en sortir une finalité intéressante pour mon projet. Je découvre "whisper ai" une i.a. de reconaissance vocale qui semble "facile" à utiliser, les gens s'en servent pour créer des assistants vocaux dans TD à partir de chatgpt. Je me dis que créer un système de fact checking live d'analyse de discours politiques serait possible. Un sytème de fact checking avec de l'ia. Oui. Cette idée me fait arreter de tripatouiller chat gpt pour en tirer quelque chose. Je me dis que si je n'arrive pas à inporter un système de reconaissance dans TD il me suffit d'en créer un autrement ailleurs et de transférer les donées. (j'étais encore pleins d'optimisme, so cute)

Sortir de TD me permet de re-repenser mon projet, je me dis que TD n'est pas le seul moyen de faire un système live, et que ça pourrait également prendre la forme d'un site rajoutant une notion de publication chère à la section DN. J'abandonne l'idée d'un système lumineux comme finalité, ce médium me semble plus intéressant à traiter d'un point de vue musical en tout cas pour mon approche personelle et me limite dans mon exploration. Je me renseigne sur d'autre outils qui me permetraient de faire rette retranscription textuelle en live d'un discour oral. Tout ça me guide vers des librairies python. J'y connais rien mais j'adore les serpents à la base moi donc why not ?

Python :

DOG_vs_SNAKES:_I_HATE!!!!_PYTHON :

Alors là, c'est ici qu'on commence à s'amuser (ou pleinement sombrer). Mon objectif est SIMPLE : réussir à utiliser la librairie python "speech_recognition", une librairie permetant d'accéder à plusieurs moteurs de reconaissance vocale, pour certains sans à avoir à utiliser d'api. J'ai également besoin de "pyaudio" une librairie permettant à python d'accéder à mon microphone. (Pour py audio j'ai besoin d'installer "portaudio" mais ça j'ai vraiment pas compris ce que c'était concretement, ça permet de connecter pyaudio à mon micro physique je crois). Pour installer tout ça je doit passer par mon terminal en utilisant la commande "pip" ou "pip3", ça permet d'aller chercher les librairies (ou ça ? Dans un gros cloud auquel on est tous connecté ?). Tout ça me semble bien trop technique pour moi on va dire que l'important c'est que ça marche.

Ah ben sauf que ça marche pas.

Enfin si.

Mais en fait non.

C'est surement très simple quand on est habitué, mais j'avous je pige que dalle. Je galère déjà a retrouver ou fl enregistre mes projets alors les fichiers sans visuels auxquels j'ai pas accès avec ma souris .. C'est ici et dans le terminal de vs code que j'ai passé mes deux dernières semaines à essayer de trouver la combinaison qui marche. Askip c'est en faisant des erreurs qu'on apprends donc voici une liste des erreurs/problèmes que j'ai rencontrés, que j'ai (partiellement) comprises, et les solutions que j'ai trouvée pour tacher d'y remédier.

Je crois que le premier problème est d'utiliser le bon python. J'ai une version 2.7 déjà préinstallé que je n'ai pas supprimé quand j'ai instaler la 3.14 en Art num. La version 2.7 ne prend plus en compte les librairires que je veux utiliser, et la 3.14 est trop récente. Je doit donc installer un nouveau python. J'ai essayé plusieurs versions entre la 3.10 et la 3.14 en suivant des tutos et des discussions de forums. Après je sais pas combieen de tentatives j'arrive à installer les 2 librairies et là : incroyable j'arrive à lançer speech_recognition dans le terminal. Victoire !

Je pensais avoir enfin franchis cette montagne, mais le landemain (après avoir remit une heure à retrouver la commande qui lance le programme ) je suis confonté à un nouveau problème: effectuer mon programme dans visual studio.

Ben oui, c'est bien beau que mon terminal reconaise ce que dis si je peux rien en faire mon projet n'avance pas. En tachant de faire fonctioner ce fouttu reptil je découvre un nouveau problème : le transcripteur doit etre d'une "bonne version" pour mon python. La c'est une nouvelle chute vers les tréfonds parce que en essayant d'harmoniser tout mes programmes, la commande qui faisait fonctionner le terminal ne marche plus. Mon terminal n'arrive plus à trouver mes packages. (alors qu'ils sont toujours au meme endroit). Depuis ce jour je n'ai plus réussis à faire marcher speech_recognition, c'est le plus loin ou je suis allé. J'ai continué à m'obstiner mais rien ne faisait.

Je décide de rouvrir touch designer, touch designer permet d'utiliser python (en utilisant les blocks "DAT's") pour exécuter des scripts. Je me dis que peut etre comme ça ça va fonctionner ? Je me renseigne donc sur python dans TD, et de tuto en tuto je tombe sur une vidéo de quelqu'un qui explique comment importer des librairies pythons dans TD, jackpot il utilise speech_recognition pour son exemple ! (comble de l'ironie il n'y arrive pas et fait avec une autre librairie en nous disant que c'est plus compliqué pour speech_recognition mais que ça fonctionne pareil). Je regarde donc d'autres tutos et docus sur le sujet. En fouillant je tombe sur la notion de "virtual environement" qui semblerait etre une solution à mes problèmes. Un virtual environement si j'ai bien compris est une sorte de dossier/cloud dans lequel toutes les parties prenantes s'articulent dans un écosytème commun. Ça permet notamment de préciser quelle version de python utiliser avec tel logiciel. Ma version de td, la 099, utilise python 3.9. Je doit donc crééer un venv utilisant python 3.9, y importer les packages depuis le terminal et réussir à tout faire fonctionner. Je me renseigne sur anaconda, un système de venv conseillé dans les tutos. A ce moment là, Sable a tenté de m'aider, grace à elle j'ai pu créer mon venv, le connecter à python 3.9 et à y importer les librairies. Reste à le connecter à touch designer.

Ça non plus j'ai pas réussi, mon problème est, je crois, d'indiquer la bonne route à prendre pour installer le venv dans les fichiers binaires de touch designer. Le fait que j'utilise un mac m1 rajoute des galères que j'ai pas comprises, notamment au niveau du "path", il faut que je précise le "build" m1 et pas intel a quelque chose mais quoi et comment ?