Introduction
Le sous-titrage, dès sa conception dans le milieu cinématographique a été considéré comme une forme de médiation inter ou intralinguistique greffée aux dispositifs audiovisuels afin d’en assurer la circulation. Cette forme de textualisation, qui occupe tour à tour le rôle de transcription ou de traduction, joue un rôle essentiel dans la redéfinition contemporaine de nos écologies médiales. Le texte du sous-titrage, d’abord considéré comme une solution de repli au cinéma, s’est finalement affirmé comme un outil d’articulation essentiel au sein des infrastructures médiatiques qui véhiculent les sons et les images en mouvement. Son utilisation, loin d’être confinée au cinéma, est aujourd’hui répandue dans une grande quantité de configurations médiales (des séries en streaming aux vidéos publiées sur les réseaux sociaux jusqu’aux visioconférences), en multipliant de fait la quantité de sons et d’images « équipées » d’une trace textuelle qui en assure la circulation. Les aspects sémiotiques, traductologiques et socioculturels de ce vaste champ d’enquête font l’objet de nombreuses études en traduction audiovisuelle (AVT) à la croisée des film studies, des études sur l’accessibilité, de l’industrie langagière et des études socionumériques, en offrant des classifications terminologiques et des cadres d’analyse essentiels pour l’observation ciblée du sous-titrage comme pratique de traduction (Gambier & Gottlieb, 2001 ; Matamala & Orero, 2010 ; Pérez-González, 2014 ; De Linde & Kay, 2014 ; Dwyer, 2017 ; Díaz-Cintas & Nikolić, 2018; Romero-Fresco, 2018 ; Díaz-Cintas & Remael, 2021). Cependant, l’aspect matériel des liaisons que le texte du sous-titrage entretient avec les sons et les images en mouvement, beaucoup moins étudié, appelle à un réductionnisme qui pourrait produire des perspectives d’étude intéressantes. Notre étude, en ce sens, se concentrera plus sur le sous-titre en tant qu’objet textuel (soit-il traductif, transcriptif, manuel, algorithmique, amateur ou professionnel) plus que sur le sous-titrage en tant que pratique de négociation traductologique multimédia. Effectivement, la nature technique de l’articulation qui s’y joue et sa prolifération massive au sein des médias numériques permet de concevoir le sous-titre comme donnée audiovisuelle dont les possibilités d’exploitation dépassent son usage localisé comme support de traduction. En retraçant l’histoire du sous-titrage, nous mettrons en évidence la séparation progressive du texte et de l’image qui a permis l’essor d’une telle conception, et nous montrerons son rôle dans l’évolution des systèmes d’indexation et de recherche numériques. Dans une perspective interdisciplinaire, nous tenterons donc d’établir un lien entre les études de l’histoire des médias cinématographiques et les recherches sur les modes de classification et de récolte des données. Enfin, nous montrerons les possibilités de bifurcation artistique du traitement des données de sous-titrage, en proposant d’y voir des poétiques de fouille informatique capables de réinventer nos manières de circuler par le texte entre les sons et les images.
1. Le sous-titrage dans l’écologie des images
Dans un ouvrage récent, Peter Szendy (2021) se concentre sur l’histoire et les possibles évolutions du concept d’écologie des images, projet philosophique dont il retrace les coordonnées majeures dans les textes de Susan Sontag (1977) et Andrew Ross (1992). Avant de déployer sa propre hypothèse, Szendy avance deux propositions qui nous paraissent essentielles. D’abord, il soutient que l’histoire des images est l’histoire d’un transformatage : de la fable plinienne qui narre de l’origine du dessin comme tracé de l’ombre, jusqu’aux perpétuels réarrangements de paquets de données qui font apparaître et circuler nos images numériques, les images seraient donc des transformats, des différentiels de vitesses toujours imbriqués dans un processus d’évolution de leur (im)matérialité iconique. Deuxièmement, il remarque que les processus de l’ontogenèse iconique sont toujours conditionnés et projetés dans ce qu’il appelle une iconomie, un marché des images, un territoire de circulation, d’affrontement et de modification constante de celles-ci. Bien entendu, ce plan iconomique est lui-même à concevoir comme un empilement d’échelles communicantes qui se conditionnent constamment. Le projet d’une écologie des images pourrait alors être envisagé comme un macro-ensemble de relations entre des processus d’iconogenèse et de transformatage extrêmement variés, toujours sujets à l’influence de forces d’organisation et d’administration (humaines ou non-humaines). Ainsi, une écologie des images, pour bien porter son nom, ne pourra pas être dissociable d’une écologie des terres rares qui constituent la base matérielle de « l’infrastructure de la visibilité contemporaine » (Szendy, 2021 : 27 ; Parikka, 2015) ni d’une écologie de l’attention que nous portons aux images (Citton, 2014), ni encore d’une écologie des cadres qui en délimitent l’apparition et des textes qui en titrent, décrivent ou indexent le champ d’action. C’est dans une telle perspective que nous proposons d’observer l’histoire du sous-titrage comme un interrègne où se joue la superposition de plusieurs écologies médiales, dont la portée nous paraît éclairer un tournant essentiel dans les relations iconomiques de nos médias.
1.1. Brève histoire du sous-titrage au cinéma : éléments combinatoires
Il existait déjà des dispositifs textuels (cartons, intertitres) dans le précinéma et le cinéma muet (Gaudreault, 1998 et 2013 ; Dupré La Tour, 20021). Le sous-titrage proprement dit, qui en diffère sur les plans narratologique et pragmatique, apparaît en 1929 avec l’arrivée du film parlant, pour ensuite se généraliser pendant les années 1930. Il est important de remarquer que le passage au parlant ne se fait pas sans scepticismes, les nouveaux talkies étant au début considérés comme une curiosité sans avenir, voir une mode de mauvais goût qui dénaturait le propre du cinéma en tant qu’art de l’image en mouvement (par exemple Desnos, 1992 : 133). Le parlant finit tout de même par s’imposer sur les marchés internationaux, en provoquant une véritable révolution de l’industrie cinématographique qui allait devoir reconfigurer de façon radicale son médium. Un des problèmes majeurs de l’introduction du parlant fut celle d’une limitation soudaine de la circulation de films dans les territoires nationaux. Si l’esperanto des images du cinéma muet avait permis dans les premières décennies une circulation internationale sans bornes (Plesseraud, 2011), le parlant imposait aux studios de production du monde entier le problème de la traduction audiovisuelle et par conséquent celui de la restriction des marchés. C’est en réponse à ce problème qu’un certain nombre de tentatives de repli sont mises en œuvre tout au long des années 1930. En passant par l’insertion d’intertitres de traduction, à l’utilisation d’un commentateur, jusqu’au tournage des versions multiples, les solutions qui finissent par s’affirmer seront celles qui constituent encore aujourd’hui le standard du spectacle cinématographique : le doublage et le sous-titrage (Cornu, 2014). Parmi les deux, le sous-titrage a l’avantage d’être moins coûteux et plus rapide à réaliser, bien que son emploi soulève de nombreuses critiques de la part du public et des cinéastes. Généralement, ces critiques peuvent être lues dans le prolongement de celles qui visaient l’emploi massif d’intertitres dans certains films muets : elles concernent la dénaturation du médium cinématographique, alourdi par la présence textuelle qui impose au spectateur une tâche de déchiffrage de plus en plus articulée et complexe, à mi-chemin entre regard et lecture (Lindsay, [1915] 2000; Weinberg, 1947). Ce n’est qu’avec le temps et avec la structuration progressive de normes de traduction et de composition (Pedersen, 2011 ; Ivarsson & Carrol, 1998) que le sous-titrage perd sa réputation de « mal nécessaire » pour se généraliser comme outil de traduction audiovisuelle, support pédagogique dans l’apprentissage des langues (Vanderplank, 2016), ou technologie d’accessibilité pour le public sourd et malentendant (Matamala & Orero, 2010). Remarquons cependant que le sous-titrage reste encore aujourd’hui une forme de traduction/adaptation « vulnérable » (Díaz-Cintas et Remael, 2021), toujours exposée aux critiques des défenseurs de l’immersion cinématographique, mais aussi à celles des publics capables de comparer la langue originale à sa traduction.
À la lumière de ce bref récapitulatif, nous pouvons donc affirmer que l’histoire du sous-titrage est l’histoire du réarrangement des éléments structurels du cinéma à partir des années 1930, lorsque la synchronisation des images et des sons enregistrés fait émerger un objet multimodal qui doit s’équiper d’une couche de médiation textuelle afin de surmonter les impasses issues de sa propre complexification. En ce sens, les évolutions du sous-titrage sont observables à travers deux lignes directrices principales. D’une part sous l’angle du perfectionnement des stratégies sémiotiques (introduction de l’habitude de lire et regarder, d’entendre une langue et d’en lire une autre, de traduire sous contrainte spatio-temporelle). D’autre part, à travers le prisme du développement technique de la surimpression et de l’incrustation textuelle. Comme nous le verrons, la nature de cette surimpression qui vient transcrire, traduire et synchroniser le pacte audiovisuel entre bande sonore et bande visuelle est un facteur déterminant dans l’histoire de nos infrastructures médiales.
1.2. Sous-titrage ouvert et fermé : séparation et articulation du texte et de l’image
Aux débuts du cinéma, la quasi-totalité des apparitions textuelles était extérieure au film. Des « titres des vues » affichés à l’entrée du cinéma forain, au catalogue que suivait le bonimenteur dans sa narration (Lacasse, 1996), jusqu’aux intertitres et cartons qui séparaient les différentes bobines, le texte ne faisait pas partie de l’image filmique, si ce n’est dans des cas particuliers de textes « filmés » (Chion, 2013). Cette extériorité du matériau textuel, diégétique ou extradiégétique, a joué un rôle considérable dans la structuration du mode de représentation institutionnel du spectacle cinématographique (Burch, 1991). Si, aux débuts, les titres étaient souvent projetés à l’aide d’une lanterne à côté de l’écran ou au-dessous de celui-ci, l’entrée du texte dans la bande visuelle elle-même va de pair avec l’évolution de films plus longs, où les intertitres relient plusieurs plans et bobines dans une narration de plus en plus complexe et indépendante (Dupré la Tour, 1998 : 45-46 ; Nagels, 2012 : 369-373). Bien que certains procédés rudimentaires de surimpression textuelle aient été développés pendant la période du muet comme relais de dialogues ou de commentaires, c’est à l’arrivée du parlant que voient le jour les procédés d’inscription de sous-titres sur la bande visuelle. Comme l’a admirablement résumé Jean-François Cornu, à qui on doit à ce jour la plus précise histoire des techniques du sous-titrage, on passe de la surimpression au contretypage à la gravure chimique le long des années 1930, puis aux procédés optiques à partir de l’après-guerre, pour ensuite parvenir progressivement à automatiser les processus d’inscription avec la gravure au laser à la fin des années 1980 (2014 : 223-273). Tous ces procédés techniques (à l’exception du Lumitype — Cornu, 2014 : 263) se fondent sur le principe d’intégration du texte de sous-titrage au sein même de l’image cinématographique. Dans une telle configuration, chaque copie d’un film est sous-titrée pour un marché national spécifique, et le texte est gravé sur la pellicule elle-même en donnant naissance à une nouvelle unité multimodale. Bien évidemment, cela comporte des inconvénients économiques : il faut tirer beaucoup de copies pour permettre la circulation internationale d’un film, et il devient impossible de corriger ou adapter une copie mal sous-titrée. De plus, une salle qui souhaiterait insérer au programme le même film en version doublée et en version originale sous-titrée devra obligatoirement s’équiper de plusieurs copies. Ces textes indélébiles issus des procédés de gravure, que l’on pourrait définir de sous-titrages ouverts (en adaptant le syntagme anglophone open subtitles/captions) ne trouveront leur contrepartie fermée (closed captions/subtitles) dans le milieu du cinéma qu’à partir du développement des supports numériques.
C’est dans le milieu de la télévision, à partir des années 1970, que l’on commence à développer une alternative au sous-titrage ouvert. Aux États-Unis, la chaîne de diffusion publique PBS, à travers le laboratoire The Caption Centre associé aux réseaux WGBH et ABC, offre dès août 1972 des rediffusions sous-titrées du programme de cuisine The French Chef de Julia Child (Zdenek, 2015 : 17-18). Les émissions sous-titrées ont un grand succès dans les communautés sourdes, et se répandent sur plusieurs chaînes. Cependant, craignant que le sous-titrage ne rende la télévision peu appétissante pour le public général, WGBH met au point un système de sous-titrage optionnel pensé pour le public sourd et malentendant : les closed captions (Downey, 2008 : 55). À partir des années 1980, aux États-Unis avec Line 21, mais aussi en Angleterre et en France (respectivement avec le système Ceefax et Antiope), les consommateurs qui étaient équipés d’un décodeur spécifique, pouvaient donc allumer (ou ouvrir) les sous-titres qui étaient enfermés dans le Vertical Blanking Interval, ces lignes d’émission en surplus qui ne canalisent pas d’information audiovisuelle dans les systèmes de télétransmission analogique. Le principe général de ces systèmes, mieux connus sous le nom de télétexte, est d’encoder et transmettre des données textuelles synchronisées sur une ligne invisible de l’émission analogique, qui peut être décodée en faisant apparaître le sous-titrage en surimpression. Cette solution technique permettait donc d’une part de préserver la nature audiovisuelle de la télévision, sans l’alourdir par la présence constante du texte à l’écran, et d’autre part de garantir un outil d’accessibilité pour le public sourd ou malentendant2.
Ce qui caractérise le sous-titrage fermé est donc une séparation structurelle entre le support audiovisuel et celui du texte. Ces deux unités séparées sont fusionnées par une opération d’encodage optionnelle. En bref, les sous-titres fermés sont une unité distincte, empaquetée parallèlement à l’émission audiovisuelle, et ils ne s’affichent que si on les active. Ce principe de séparation et d’encodage est précisément celui qui sera mis en œuvre à partir des années 2000 sur les supports audiovisuels numériques. Qu’il s’agisse des technologies optiques du DVD avec sous-titrage multilingue, des logiciels vidéo ou des plateformes de streaming contemporaines, le sous-titrage optionnel s’est répandu grâce à son efficacité et son aspect modulables, ce qui va de pair avec le développement d’une conception des médias informatiques comme interfaces contrôlables et personnalisables par le consommateur. Cette même logique s’applique d’ailleurs progressivement aussi à la piste sonore sur de nombreux supports de diffusion, en permettant de choisir parmi plusieurs options de doublage, voire d’audiodescription (Perez-Gonzales, 2014).
Ce passage de la gravure à l’encodage optionnel, loin d’être une simple curiosité technique, implique un véritable changement dans la conception des médias audiovisuels et des relations entre texte et image. Dans le cas de la gravure, le texte et l’image en mouvement fusionnent de fait en une nouvelle unité hybride, matériellement indissociable. En revanche, la séparation des entités sur laquelle se fonde le sous-titrage fermé établit un nouveau champ de relations souples entre texte, image et son. On passe d’une logique du marquage (chimique, au laser) à une logique de stéganographie (Szendy, 2017). En ce sens l’histoire du sous-titrage est aussi l’histoire de la modulation et du réaménagement d’un écosystème textuel qui s’articule à l’écosystème des images en mouvement en bousculant radicalement des éléments combinatoires qui constituent nos médias. Comme nous le verrons, la souplesse et la modularité que ce branchement atteint à partir des années 2000 projettent l’audiovisuel dans un nouveau stade iconomique.
2. Adressabilité et cherchabilité : le sous-titrage comme système d’indexation
2.1. De l’adressabilité massive à l’adressabilité profonde
La nature modulable et optionnelle de cette relation opératoire qu’institue le sous-titrage à partir des années 70 nous permet d’observer les sous-titres sous une nouvelle perspective. Dans le cas de la gravure, le texte était en quelque sorte incorporé par le support filmique en devenant de fait l’image d’un texte dont l’utilité spécifique était entièrement circonscrite à sa consommation. Alors que l’autonomie relative que le sous-titrage gagne avec les procédés d’encodage optionnels permet d’en concevoir l’utilité sur le plan d’abstraction spécifique des matériaux textuels, à savoir celui de l’adressabilité. Michael Witmore, dans un texte bref et dense, se sert de ce terme pour relier les pratiques d’indexation du livre au champ émergent des humanités numériques (Witmore, 2010). En s’appuyant fréquemment sur la métaphore de l’annuaire téléphonique, il soutient que le propre du texte est justement d’établir ce qu’il appelle une adressabilité massive. Loin d’être une technique, cette capacité d’adresse du texte est selon lui une véritable condition systématique. La structure textuelle elle-même serait alors un système qui génère d’innombrables façons de repérer, classifier et mettre en relation des objets (soient-ils des objets physiques, des idées, des événements, etc.) sur plusieurs plans d’adresse. Le changement radical qu’il souligne, avec la généralisation des textes numérisés, réside dans la rapidité et dans la facilité avec lesquelles nous pouvons désormais naviguer entre de différentes échelles d’adresse afin de se servir des matériaux textuels d’innombrables façons, même au-delà de celui qui nous paraît être leur but ou leur utilité de surface. En d’autres termes, concevoir le texte comme un système d’adresses signifie l’appréhender comme un réservoir de données structurées par un réseau de liens ouvert à de nouvelles configurations fonctionnelles.
Le designer et philosophe Benjamin Bratton, dans l’essai The Stack, consacré au design computationnel, prolonge la réflexion de Witmore en proposant le terme d’adressabilité profonde. Il soutient qu’avec le développement de l’innervation informatique dans les différentes couches de notre réalité, nous arriverons bientôt à « adresser » toute sorte d’objets micro ou macroscopiques, en vue d’une interopérabilité computationnelle systématique (Bratton, 2015 : ch. 44 — Deep Address). Il met ainsi en évidence une tendance progressive à l’élargissement et à l’abstraction des opérations de marquage alphanumérique dans le but de multiplier nos systèmes d’adressage afin d’établir des prises qui nous permettent de récolter et exploiter de grandes masses de données. Ce discours est bien évidemment beaucoup plus vaste que l’histoire du cinéma ou celle du sous-titrage, mais notre intuition est que ce dernier participe, dans une certaine mesure, à une plus vaste généralisation de l’adressage textuel des médias audiovisuels. Dans une telle perspective, le développement de techniques de sous-titrage fermé permet de considérer les sous-titres comme des métadonnées audiovisuelles, au même titre que l’horodatage d’une émission télévisuelle, le poids d’un vidéo-clip, le synopsis d’un film lié à son fichier, d’éventuels hashtags, etc. Et cela, comme nous le verrons, installe l’audiovisuel dans un nouveau régime de cherchabilité (searchability).3 Néanmoins, remarquons d’emblée que la variété des modes de réalisation des sous-titrages impliquera une variété des liens d’indexation. Bien que d’un point de vue technique, on puisse considérer les sous-titres comme une classe générique de métadonnées, chaque différente approche du sous-titrage produira des prises spécifiques dans la matière audiovisuelle. Un sous-titrage intralinguistique ou interlinguistique réalisé selon les normes qui en encadrent aujourd’hui la rédaction (de façon fluctuante et variée selon le contexte de diffusion et les pays) s’éloignera considérablement de la piste sonore, en produisant des formes de traduction diagonale hautement adaptatives (Gottlieb, 1994), voire abusives (Nornes, 1999). Un sous-titrage transcriptif, qu’il soit manuel ou automatique, réalisé en temps réel ou en postproduction, visera plutôt à restituer l’intégralité des occurrences verbales. Remarquons d’ailleurs qu’une vaste quantité de sous-titrages sont produits aujourd’hui par des amateurs (fansubbing) ou sur des plateformes collaboratives (crowdsubbing) en s’affranchissant des règles de l’art et des codifications du métier. Ce vaste champ, regroupé par Díaz Cintas (2018) sous le terme de cybersous-titrage, fait aujourd’hui du sous-titrage un terrain carnavalesque (au sens bakthinien) de modes de traduction audiovisuelle erratiques (Dwyer, 2017). La stratification des codifications traductologiques, des normes d’accessibilité locales, des conventions typographiques, des approches sémiotiques et des sélectivités propres aux innombrables manières de sous-titrer, impliquera donc une variété dans les manières de chercher qu’elles rendent possibles. En d’autres termes : il est possible de penser le sous-titrage comme un système d’indexation à condition de reconnaître que sa structure et sa granularité ne sont ni homogènes ni tout à fait fiables, justement parce qu’il est issu d’une variété de pratiques adaptatives intersémiotiques, algorithmiques ou manuelles, qui s’enchâssent de manière non uniforme dans les médiations multimodales (De Linde & Kay, 2014).
2.2. Cherchabilité étendue : moteurs de recherche sous-titrologiques
Dans l’environnement audiovisuel numérique, à partir des années 1990, le sous-titrage acquiert donc des caractéristiques opérationnelles qui le rapprochent d’un système d’indexation. Comme le remarque Gregory Downey (2008), auteur d’un livre majeur qui retrace la convergence de la sténographie et du sous-titrage comme formes de textualisation, à la fois les procès-verbaux juridiques et les sous-titres télévisuels évoluent en devenant des outillages de recherche avec la constitution progressive d’archives numériques temporellement encodées. Ce changement marque une étape essentielle au sein de l’évolution des méthodes d’archivage et de recherche dans plusieurs champs professionnels : de la recherche scientifique à la gestion du patrimoine, de la pratique juridique et policière à la bibliothéconomie, en impliquant la refonte des services audiovisuels vers une nouvelle conception de l’archive comme bibliothèque électronique. Grâce au sous-titrage il est donc possible d’effectuer des recherches approfondies au sein d’archives audiovisuelles de plus en plus nourries (de la télévision analogique numérisée aux catalogues de films ou de vidéos à la demande) en repérant précisément les occurrences d’un nom ou d’une phrase.
Cette évolution est d’autant plus évidente si l’on considère l’essor (et le perfectionnement récent) du sous-titrage automatique sur plusieurs plateformes numériques qui hébergent une quantité de vidéos littéralement innombrable.4 Déjà en 2005, Google Video et Yahoo proposaient des outils de recherche vidéo d’extraits d’émissions télévisuelles et Jonathan Rosenberg, vice-manageur du projet de Google, interrogé au sujet de futurs développements, déclarait : « le projet à long terme est compliqué et évoluera avec le temps » (Hansell, 2005). Afin d’avoir une vision d’ensemble, remarquons que le projet de numérisation de livres Google Books avait été lancé l’année précédente5, et qu’en 2006 on assiste parallèlement au lancement de Google Translate et à l’achat, de la part de l’entreprise, de la plateforme YouTube (Turovsky, 2016 ; Kamangar, 2007). En 2009, en couplant les outils de reconnaissance de la parole de Google Voice et le traducteur automatique Google Translate, on assiste au lancement du sous-titrage automatique de YouTube, ce qui étend l’infrastructure de recherche numérique au sein de contenus vidéo à une échelle quantitative sans précédent (Harrenstien, 2009). Depuis les années 2000, Google investit avec constance le marché de la recherche numérique, lancé par le développement des bibliothèques numériques dans les années 90. Parmi les différents moyens mis en œuvre pour étendre son domaine sur une masse de données de plus en plus gigantesque, les chercheurs de l’entreprise ont saisi la valeur intrinsèque du sous-titrage comme outil d’indexation. Sur la plateforme YouTube, bien qu’il soit impossible de rechercher un sous-titre dans le moteur de recherche (ce qui signifie que les mots ne sont pas indexés dans leur interface utilisateur), il est possible de faire une recherche par mot à l’intérieur de chaque vidéo. Pour ce faire, il suffit d’ouvrir l’onglet de transcription d’une vidéo et de lancer une commande de recherche (CMD+F dans l’environnement Mac), le codage temporel du texte de sous-titrage nous permet ensuite de remonter automatiquement au moment de la vidéo où apparaît telle ou telle autre phrase. En effet, il est possible d’effectuer les mêmes gestes de recherche que l’on appliquerait à un document .pdf sur une vidéo d’une conférence ou d’un tutoriel. Dans les plateformes Meta, en raison de la structure de l’interface de Facebook et Instagram, il est impossible de naviguer en utilisant les sous-titres comme entrée de recherche, mais nous pouvons aisément supposer qu’une telle fonctionnalité est disponible pour les analystes de données de l’entreprise. Semblablement, nous pouvons émettre l’hypothèse que Google ait une application interne permettant de naviguer dans l’ensemble des données textuelles issues du sous-titrage manuel et automatique de sa plateforme, pour réaliser des études de marché, du ciblage publicitaire, des actes de censure, etc.
La séparation entre texte de sous-titrage et fichier audiovisuel, comme nous l’avons vu, est à la base de ces nouveaux outils de recherche, et bien que les grandes entreprises comme Google ou Meta gardent le pouvoir sur la navigabilité des données qu’elles produisent et hébergent, on peut observer l’essor d’un certain nombre d’interfaces extérieures qui en puisent le potentiel en s’y greffant. C’est le cas du moteur de recherche filmot, créé par jopik 1 en 2018. Il s’agit d’un moteur de recherche qui permet de repérer les occurrences d’un mot ou d’une phrase au sein d’une vaste base de données tirée des sous-titres de YouTube. L’application, réalisée par un seul programmeur comme « hobby project », est fondée sur un crawler textuel (un bot qui traite automatiquement des données textuelles) qui télécharge, indexe et stocke les sous-titres manuels et automatiques de la plateforme YouTube (jopik 1, 2018). Le programmeur affirme que son bot récolte actuellement les sous-titres d’environ 2 millions de vidéos par jour, et le moteur de recherche contient désormais environ 2 milliards de contenus indexés en plusieurs langues (jopik 1, 2023). Il est donc possible d’utiliser filmot.com comme outil de recherche par le sous-titrage dans une base de données qui constitue, d’après l’estimation de son ingénieur, environ 30 % des vidéos sous-titrées de YouTube. Le résultat de ces recherches, à l’aide d’hyperliens qui nous renvoient directement aux vidéos YouTube, nous permet de naviguer de façon non linéaire dans la plateforme. Le faible poids des fichiers de sous-titres (qui ne sont rien d’autre que du texte estampillé par un codage chronologique) et leur maniabilité permettent donc, même à un programmeur indépendant, de réaliser une infrastructure de navigation extrêmement riche et complexe en se greffant sur les données exploitables disponibles sur les plateformes. D’autres applications avec des fonctionnalités semblables indexent de vastes bibliothèques de films ou d’émissions télévisuelles. Sur Yarn, Playphrase ou Popmystic6 il est possible de naviguer par les sous-titres et de repérer des extraits de films par des citations de dialogues. De plus, puisque ces moteurs de recherche sont indexés à partir de sous-titrages filmiques (et non pas de sous-titrages transcriptifs, comme c’est souvent le cas des vidéos YouTube), il est également possible de repérer des occurrences non verbales en utilisant la syntaxe canonique du sous-titrage pour sourds et malentendants7. Il est ainsi possible de rassembler toutes les occurrences d’aboiement de chiens, ou de sons de pluie indexés par les plateformes en cherchant par exemple [dogs barking] ou [rain falling]. L’équipe de Popmystic a publié un article de démonstration qui met bien en valeur le potentiel scientifique de ce genre de recherches en montrant comment extraire de leur corpus des données quantitatives et qualitatives axées dans le temps sur l’évolution des occurrences du rire ([laugh]) au sein d’une célèbre série télévisuelle (PopMystic, 2021). Outre faciliter la recherche en milieu cinématographique, ces outils peuvent très bien servir pour produire des études de sociolinguistique ou de marketing. L’application NodusLabs offre en effet un service d’analyse des données textuelles du sous-titrage d’une quelconque vidéo YouTube, en permettant de générer des graphes interactifs qui aident le repérage de mots clés et de motifs récurrents, avec une claire orientation commerciale (NodusLabs, 2018).
Tous ces exemples témoignent de l’essor d’un nouveau régime de cherchabilité étendue qui résulte du développement d’un vaste champ de convergence entre les études sur le traitement du langage naturel et les modes de navigation et de collecte de données dans des environnements multimodaux. L’opération de textualisation mise en place par le sous-titrage, d’abord conçu comme outil d’accessibilité pour la circulation de contenus audiovisuels, est aujourd’hui à considérer à tous les effets comme un acteur de cette transformation des outils de recherche et dans les modes de navigation et d’analyse des bases de données multimédiales. Ce changement de paradigme, loin de concerner uniquement les données textuelles, implique une nouvelle façon de concevoir nos écosystèmes médiatiques dans leur ensemble.
2.3. Le sous-titrage dans les corpus d’entrainement des intelligences artificielles
Dans une telle perspective qui voit le sous-titrage sous l’angle des données, le texte peut être traité de plusieurs manières, plus ou moins reliées au contenu audiovisuel de base d’où il est extrait. Parmi les domaines où le sous-titrage acquiert une valeur en tant que donnée, outre les moteurs de recherche que nous avons observés dans la partie précédente, il y a le vaste domaine de l’entrainement des modèles statistiques et des réseaux de neurones artificiels au traitement du langage naturel. Considérons d’abord que le sous-titrage interlinguistique, en tant que texte, est avant tout une forme de traduction alignée. Des bibliothèques de sous-titres filmiques en accès libre, telles que OpenSubtitles (qui compte au 26/09/2023 6 852 260 fichiers de sous-titres en plusieurs langues), constituent une base de données de textes traduits et alignés qui a servi à la réalisation de corpus parallèles pour l’entrainement de modèles de traduction automatique (Lison & Tiedemann, 2016).8 Ce type de corpus prend le sous-titrage comme simple texte de traduction, faisant abstraction de son caractère d’intermédiation avec un contenu audiovisuel. D’autres, tels que Wenetspeech (Zhang et al. 2021) ou Ted-Lium (Hernandez et al. 2018) se servent des sous-titres et des fichiers audio tirés respectivement de YouTube et de TedTalks pour établir des corpus alignés de texte et voix, destinés à l’entrainement de modèles de reconnaissance de la parole, en élidant cette fois-ci uniquement la bande vidéo des données audiovisuelles de départ. Une troisième typologie de corpus retiendra particulièrement notre attention : celle qui vise le sous-titrage dans sa relation avec l’environnement multimodal des contenus audiovisuels. Des corpus tels que HowTo100M (Miech et al. 2019) ou Tv Show Retrieval (Lei et al. 2020) ont été conçus spécifiquement pour le repérage de contenus vidéo par le texte (text-to-video retrieval). Il s’agit de corpus pensés pour l’entrainement de modèles de reconnaissance multimodale, capables d’identifier et de décrire des situations complexes définies par l’interaction de données visuelles et langagières. En d’autres termes ces modèles travaillent au développement d’intelligences artificielles capables de « comprendre » non seulement le langage naturel, mais aussi son contexte pragmatique, par des systèmes de vision par ordinateur (machine vision). Une telle tâche ne peut être réalisée qu’en disposant de très grandes bibliothèques audiovisuelles précisément annotées, ce qui demande aujourd’hui un travail humain coûteux et long. Afin d’en faciliter la production, un groupe de recherche sous la direction d’Ivan Laptev a développé une fascinante méthode d’apprentissage. En faisant une analyse comparative du fichier de sous-titrage et du scénario d’un film, il montre qu’il est possible d’isoler des représentations précises de certaines actions humaines et de les stocker comme exemples pour un apprentissage futur. Le scénario est une forme textuelle qui inclut à la fois les dialogues et les descriptions sommaires de l’action, mais pas de marquages temporels précis. Le sous-titrage inclut bien les dialogues et les marques temporelles, mais aucune description de l’action. En faisant interagir les deux dans un processus comparatif, on peut situer dans le temps du film les moments où tel ou tel autre événement visuel est localisé. Ainsi, non seulement la parole ou le son, mais l’image en mouvement elle-même est susceptible d’être découpée en segments indexés, cherchables et utilisables (Laptev et al. 2008).
Le data-set HowTo100M, pour sa part, est une très vaste bibliothèque d’actions humaines étiquetées, mais elle a été constituée par une autre méthode. Afin de regrouper une grande quantité de scènes multimodales précisément décrites, les chercheurs se sont concentrés sur les tutoriels vidéo racontés (narrated video-tutorials), à savoir des vidéos où une personne est en train de faire quelque chose (de la cuisine au bricolage) tout en expliquant ce qu’elle fait dans un but pédagogique. Le sous-titrage de ces vidéos est donc une sorte de texte descriptif aligné et synchronisé temporellement au visuel de l’action. En l’analysant automatiquement, il est donc possible de constituer une bibliothèque de relations texte-image robustes sans recourir à un travail massif d’annotation humaine.
Ces exemples visent à montrer comment, au-delà de la consommation habituelle par le public et de la structuration de moteurs de recherche non linéaires, les sous-titres, entendus comme masse de données multimodales, sont aujourd’hui articulés de façon particulièrement intéressante à l’écologie audiovisuelle. D’un côté ils permettent bien sûr au public de regarder des films étrangers, de suivre des vidéos lorsqu’on ne peut pas entendre le son, mais, de l’autre côté, ils permettent aussi le développement d’outils de recherche et des prises inédites dans la matière des sons et des images, en rendant les contenus audiovisuels maniables et exploitables à des fins insoupçonnées au moment de leur fabrication. Il convient tout de même de relativiser l’importance du rôle que jouent les sous-titres dans la recherche en intelligence artificielle. Qu’ils soient employés comme corpus de traductions alignées, comme réservoir de segments oralisés ou comme outil pour le repérage d’interactions multimodales complexes, ils demeurent problématiques quant aux enjeux de sélectivité inhérents à leur fonction primaire. Leur conception comme instruments d’accès ou d’accessibilité à géométrie variable ne permet pas tout à fait de les considérer comme une base de données fiable. Dans l’entraînement de larges modèles linguistiques, les corpus tirés de sous-titres constituent un bassin d’extraction parmi tant d’autres, et leur efficacité n’est sans doute pas des plus robustes, en raison de l’hétérogénéité des facteurs multimodaux qui en conditionnent la réalisation dès le départ. Ce bref survol de quelques-unes des mobilisations de ces corpus vise uniquement à montrer que le sous-titrage a été identifié comme une classe de textes susceptible de fournir des données de traduction et de transcription à grande échelle. L’efficacité de ces usages parallèles reste à prouver, aussi en tenant compte des opérations d’édition et d’annotation humaines qui sont nécessaires pour configurer les sous-titres comme bassin de données. Néanmoins, une telle incursion nous semble pointer un terrain de recherche important à l’avenir pour comprendre les développements du sous-titrage et des usages qu’on en fait. Sa généralisation et son automatisation à partir des années 2000 ne répondent plus uniquement à un besoin de globalisation multilinguistique ou d’accessibilité. L’industrie langagière semble fusionner de plus en plus avec le marché de la recherche, à travers le déploiement de méthodes d’adressage et de référencement informatique, en imposant à nos techniques de médiation la double tâche d’être à la fois un outil de compréhension (pour les usagers) et un bassin de données pour la conception de modèles de recherche, de traduction ou de génération de langage. L’harmonisation de cette double tension problématique nous semble être un des objectifs principaux des prochaines années dans le champ du design des infrastructures numériques.
3. Poétiques de la fouille de données : moissonnages sous-titrologiques
3.1. Naviguer au large des écosystèmes numériques
Le nouveau régime d’adressage et de cherchabilité des images et des sons que nous avons décrit trouve ses principales applications dans la recherche et dans le milieu commercial au sein d’un vaste marché du stockage et du traitement des données. Cependant, il serait intéressant de remarquer que les outils issus du développement des infrastructures d’indexation numérique ont aussi éveillé l’intérêt de nombreux artistes. À bien voir, il existe dans le milieu de l’art une véritable tradition de l’appropriation des outils commerciaux et bureaucratiques dans le but d’explorer le potentiel des tensions entre fonctionnalité et expérimentation. Pensons aux dispositifs de l’art archivistique décrits par Hal Foster (2004), au concept d’un art de la postproduction développé par Nicolas Bourriad (2004), jusqu’au travail autour des dispositifs et documents poétiques mis en évidence par Franck Leibovici (2007) et Christophe Hanna (2010). Ces formes de recherche et de création n’ont fait que se multiplier avec l’essor des technologies numériques, en ouvrant un terrain de convergence où l’art et le traitement informatique des données s’entrecroisent afin d’explorer des écologies médiales de plus en plus complexes.
Dans un texte de 2010, l’écrivain conceptuel Kenneth Goldsmith élabore le concept d’écosystème textuel, en relation aux gestes d’uncreative writing qui sont à la base de sa pratique (Goldsmith, 2010). Il décrit l’écologie du texte numérique par échelles caractérisées par de différents degrés de protection et de mise en relation. Sa propre bibliothèque de fichiers serait un « écosystème local » protégé, inaccessible aux multiples modifications et transformatages. Les documents partagés entre peu d’individus dans un processus éditorial seraient un « microclimat où les variables sont extrêmement contrôlées et restreintes »9. Enfin, un fichier téléchargé sur un serveur public serait projeté dans une écologie du texte à grande échelle, où chaque élément est susceptible d’être modifié, transformé, copié, intégré, tagué, etc. L’écrivain non créatif dont il peint le portrait serait alors capable de comprendre et d’explorer la variété des passages médiaux et les subtilités des modifications du langage qui adviennent au sein de ces transactions documentales des écosystèmes locaux aux réseaux publics. Si, comme nous l’avons démontré, le sous-titrage constitue une typologie spécifique de données articulées aux écologies (et aux économies) circulatoires des sons et des images, il s’agit alors de voir de quelle manière on peut s’en saisir pour ouvrir des perspectives de création et dérouter son fonctionnement utilitaire et commercial. Bien qu’il existe, depuis les années 1960, un certain nombre d’exemples de pratiques artistiques qui se sont emparées des techniques de sous-titrage pour détourner et réécrire des films, ces méthodes agissent toute somme faite, dans les termes de Goldsmith, à un degré local dans l’écologie audiovisuelle (en modifiant le texte d’un objet spécifique par une intervention localisée). Ici, nous nous concentrerons plutôt sur des opérations qui agissent sur le sous-titrage en tant que donnée, outil de recherche ou flux de synchronisation à une échelle systémique plus large. De telles pratiques artistiques se fondent moins sur l’écriture ou la création de toute pièce d’un artefact que sur la conception de méthodes de fouille et de « moissonnage du web » (web scraping)10 afin de montrer de nouvelles manières de concevoir nos navigations et nos consommations médiatiques.
3.2. Videogrep et le supercut sous-titrologique
Un premier exemple de création artistique fondée sur les outils de recherche et d’indexation par le sous-titrage est repérable dans les pratiques d’automatisation de vidéos supercut. On désigne par supercut « des montages obsessionnels et compulsifs de clips vidéo, isolant méticuleusement chaque occurrence d’un seul élément, généralement des clichés, des phrases et d’autres tropes. » (Bayo, 2008). Bien que ce type de remix audiovisuels trouve ses ancêtres savants dans l’histoire du cinéma expérimental et du found-footage, avec la généralisation du téléchargement et des logiciels de montage, cette pratique est devenue à tous les effets un « genre » extrêmement répandu dans la culture internet (McCormack, 2011). La création d’un supercut, étant de fait une pratique de remix monothématique (constituée autour d’un seul principe de sélection), demande un travail rigoureux de visionnage et de découpage d’extraits11. Par exemple, l’artiste Christian Marclay a travaillé pendant trois ans avec ses six assistants pour réaliser son célèbre « The Clock », un film de la durée de 24 heures, composé uniquement d’images qui montrent l’heure qu’il est (Myers & Marclay, 2018).
Le programmeur et artiste numérique Sam Lavigne réalise en 2014 Videogrep, un logiciel en ligne de commande qui permet d’automatiser le processus de recherche et de composition de vidéos supercut. Le logiciel permet de sélectionner un critère d’extraction dans les fichiers de sous-titrage d’une bibliothèque de vidéos (un mot, une phrase, une catégorie grammaticale, par exemple les noms suivis d’adjectifs, etc.) et puis de découper et d’enchaîner les extraits correspondants au critère établi. Il est ainsi possible de compiler l’ensemble des occurrences du syntagme « What I can tell you… » dans les conférences de presse du secrétaire de la Maison-Blanche, ou les scènes sans dialogue dans le film Total Recall, ou encore les séquences « gérondif+article déterminatif+adjectif+nom » dans une centaine de vidéoconférences TED, comme l’explique Lavigne dans un entretien pour Vice (Mufson & Lavigne 2014). Le logiciel de Lavigne permet donc de concevoir les données de sous-titrage comme un outil de repérage automatisé, et de générer des œuvres composites qui réarrangent de manière non linéaire les contenus audiovisuels. Outre cela, c’est aussi un excellent outil pédagogique, dont Lavigne se sert dans ses cours de Scrapism à l’École pour la Computation Poétique (School for Poetic Computation), consacrés au moissonnage du web comme pratique créative (Lavigne, 2022 et 2023). Le logiciel de Lavigne a par ailleurs été appliqué à un modèle d’intelligence artificielle par la firme de marketing numérique Branger_Briz en 2017, en intégrant la logique du supercut à la création générative pour réaliser un vidéo-clip recomposé quotidiennement pour le morceau de musique Dig Down du groupe Muse. L’algorithme développé à cet effet réalisait tous les jours un nouveau montage audiovisuel où les paroles du morceau de Muse étaient tirées d’extraits de vidéos d’actualité automatiquement moissonnés sur YouTube (Branger_Briz, 2017 ; Grba, 2021).
3.3. SoSo Limited : « ReConstituer » le discours politique par le sous-titrage
Le logiciel de Lavigne et la pratique du supercut automatisé prennent comme modèle les outils informatiques d’extraction de données (data mining) appliqués aux sous-titres pour produire des compositions absurdistes dans la lignée du cut-up ou de l’art du remix. Le travail de SoSo Limited, groupe de designers fondé en 2003 à MIT, se concentre sur un autre aspect du traitement des données, celui de l’analyse et de la visualisation. ReConstitution est une performance réalisée par les membres du collectif en 2008 et 2012, au moment des débats présidentiels états-uniens. Le protocole est le suivant : pendant les débats, un logiciel spécifiquement conçu pour capter le sous-titrage télévisuel permet aux membres du collectif d’élaborer et de performer en direct une analyse textuelle informatisée des discours des candidats (Obama vs. McCain en 2008 et Obama vs. Romney en 2012). Ainsi, en utilisant plusieurs outils de traitement du langage naturel et de visualisation de données, la parole des candidats est constamment accompagnée par un flux analytique qui en dévoile les patterns linguistiques, en exposant la récurrence de certaines formules de langage ou de certains thèmes fondamentaux en altérant les conditions habituelles de réception du débat (SoSo Limited, 2008)12. Si la performance de 2008 était réalisée devant un public assis dans un cadre cinématographique, en 2012 elle prend la forme d’une application, présentée comme « une déconstruction des débats présidentiels en temps »13 navigable en temps réel par les utilisateurs, qui disposent ainsi d’une « une manière complémentaire de s’immerger dans l’expérience du débat, en se servant uniquement de la loupe du langage pour se guider. » (SoSo Limited 2012). ReConstitution se présente donc, non sans une certaine ironie, comme un outil de traversée et de démystification de la rhétorique des candidats à la présidence, en exposant, par une sorte de rétro-ingénierie de la communication politique, les stratégies linguistiques mises en œuvre pour convaincre l’électorat.
Dans le cas de ReConstitution, le modèle de référence de l’œuvre n’est plus tant celui de l’extraction des données, mais bien celui de la visualisation de celles-ci. Si le supercut de Lavigne est un outil exploratoire qui permet d’effectuer un remix diffus de nombreuses sources pour expérimenter de nouveaux jeux combinatoires, SoSo Limited offre bel et bien un « service d’analyse » du discours politique, non pas pour mélanger les cartes, mais pour en clarifier certains aspects et suivre pas à pas son déroulement d’un point de vue différent. Ainsi faisant, ReConstitution se présente comme une sorte de plug-in pirate de l’émission télévisuelle, en bifurquant les normes spectatoriales qui y sont inscrites. Le texte du sous-titrage, dans ce cas, n’est plus considéré comme une surface de re-composition, mais bien comme un plan de re-constitution, à savoir un flux de langage obscur (voire même incantatoire) dont il s’agirait de reconstituer le sens par l’analyse et la structuration. Ainsi, les pratiques désormais canoniques des humanités numériques (lecture distanciée, lexicométrie et logométrie, modélisation thématique) et de l’analyse statistique (représentation graphique, visualisation de réseaux, cartographie cognitive) sont mises au profit d’une reconfiguration médiale de l’écosystème télévisuel et des représentations du discours politique, en transposant les images, les sons et les textes dans une interface de déconstruction et de reconstitution praticable par le public.
Conclusion
Dans cet article nous avons tenté d’ouvrir, dans une perspective interdisciplinaire, un terrain au carrefour des études des média cinématographiques et des études sur les modes de classification, de récolte et de traitement des données. L’histoire technique du sous-titrage nous semble constituer un champ particulièrement intéressant pour observer l’évolution des relations entre texte, images et sons au sein de nos écologies médiales numériques. Comme nous l’avons montré, le processus de séparation des éléments textuels initié au cinéma et à la télévision se prolonge aujourd’hui dans l’environnement numérique en affirmant de plus en plus le caractère optionnel et stéganographique du sous-titrage. Cette articulation technique confère au sous-titrage une sorte d’autonomie par rapport à l’objet audiovisuel auquel il s’incruste. C’est précisément par cette relation de raccord ou de greffe que le sous-titre peut être considéré en tant que texte (et non pas en tant qu’image d’un texte) et qu’il peut en conséquence manifester son pouvoir d’indexation. L’objectif de cet article était donc de remonter aux conditions de possibilité de l’application d’une pensée de l’indexation au champ du sous-titrage. Les exemples que nous apportons démontrent qu’une telle démarche d’utilisation décalée des sous-titres comme données n’est pas une curiosité. Elle s’insère bel et bien dans une industrie grandissante, celle des plateformes audiovisuelles et des infrastructures de recherche, qui capitalise systématiquement sur la production collective de formes langagières. Le sous-titrage, comme d’autres productions textuelles utilitaires, joue donc un rôle au sein des infrastructures de référencement et de recherche ainsi que dans la constitution de corpus langagiers. À travers cette perspective historico-technique, nous avons pu établir qu’il est possible de considérer les sous-titres comme des données et qu’on peut s’en servir comme d’un index. L’efficacité et la spécificité de ces usages restent à expliciter. En effet, les arguments ici proposés se fondent sur une réduction de la complexité des pratiques du sous-titrage. Afin de prendre le recul nécessaire pour l’observer en tant qu’objet textuel, nous avons renvoyé un certain nombre de questions qui méritent d’être traitées ultérieurement. D’abord, il faudrait expliciter quelle sorte de données sont les sous-titres, à quoi effectivement ils renvoient et au sujet de quoi ils sont susceptibles de nous renseigner. Une telle recherche pourrait être menée en réintégrant une perspective sémiotique et traductologique pour observer de près les typologies de pratiques de sous-titrage issues des études en traduction audiovisuelle. Deuxièmement, il s’agirait donc de comprendre quelle sorte d’index nous pouvons élaborer à partir de ces données et quelles formes d’intertextualité multimodale en découleraient. À cet égard, il faudrait s’appuyer davantage sur les recherches en ingénierie des connaissances (Cavalié, 2019 ; Bachimont, 2007) et sur l’éditorialisation numérique (Vitali-Rosati, 2020), tout en continuant à nourrir la réflexion avec une observation des usages non conformes (souvent fort intéressants) qui émergent des pratiques artistiques.