Quelles sont les applications?

2. Quelles sont les applications du format Objet ?

Après avoir présenté le principe de l’audio objet, cette deuxième partie vise à découvrir les applications de l’OBA, ainsi que les formats utilisés dans différents domaines (Sonorisation, Cinéma, Broadcast, VR, Musique).

_2.1 LA SONORISATION

2.1 La Sonorisation

Le but de la sonorisation a longtemps été de diffuser le son aussi bien que possible, afin que les spectateurs puissent entendre ce qu’il se passe sur scène. Ceci n’était pas le cas lors de la tournée américaine des Beatles en 1964, puisque seul les ampli de guitares servaient d’enceintes de façades, et n’étaient guère efficaces face aux cris hystériques de la foule. Ce n’était pas non plus le cas en 1969 lors du mythique festival de Woodstock, qui diffusait 12 000 W de son pour 500 000 personnes, puissance aujourd'hui utilisée pour une salle de 500 personnes. Les progrès étaient alors dirigés sur la puissance, la consommation, le volume/poids, la réponse en fréquence, la longue portée avec le line source, ou encore l’audio numérique.

Dans un événement aujourd’hui, on retrouve souvent deux points de sources principales sur chaque côté de la scène, (parfois trois avec une source centrale, voire quatres points sur certains grands festivals) afin de couvrir toute la zone où se trouve le public. L’écoute y est souvent monophonique, à moins de se trouver dans le “Sweet Spot”, petite zone ou l’on peut percevoir de la stéréophonie. Cette zone est située dans l’axe central de la scène, car le son provenant des deux sources arrivent à nos oreilles, avec la même intensité, sans décalage temporel, ni détimbrage causé par la directivité de l’enceinte. Mais dans la majorité des cas, le spectateur écoute le son provenant d’une seule enceinte, en plus ne correspondant pas à l’image sonore réelle de la scène, car la localisation sonore est contradictoire avec ce qu’il voit. Avec une localisation imprécise, le mix est bien plus compliqué à construire, à rendre tous les instruments cohérents dans un espace spatial et spectral plus restreint.

Concert auj LISA webinar intro to lisa.j

Représentation de la perception du son dans un

concert standard.

(Lien Cliquable)

___2.1.1 WFS

2.1.1 WFS

La WFS (Wave Field Synthesis) est issue des recherches notamment de l’IRCAM, de l’université de Delft au Pays Bas, et des sociétés comme Sonic Emotion ou encore Euphonia. La synthèse du front d’onde (WFS) est une technique de restitution multipliant le nombre de point de diffusion sur le même plan horizontal. L’ensemble des enceintes est excité en même temps, générant un front d’onde (type plane) selon le principe d’Huygens, s’inspirant des ondes à la surface de l’eau.

Principe de la restitution WFS.

(Source Cliquable)

WFS%20Principe%20LISA%20webinar%20intro%

Perception du son dans un concert WFS.

(Source Cliquable)

Des microphones placés en ligne, ayant le même espacement que les diffuseurs ponctuels (amplifiés individuellement), donnent une représentation conforme de la scène. Le procédé étend le Sweet Spot stéréo ainsi que le champs sonore à presque l’ensemble du public, offrant une écoute beaucoup plus naturelle et réaliste qu’un système de sonorisation classique (cf zone verte représenté sur la figure ci-dessous). Le spectateur peut alors se déplacer ou se positionner à n’importe quel endroit, tout en gardant une localisation cohérente de chaque source. Par conséquent, une localisation améliorée permet une meilleure précision spectrale des sources, un mix plus clair et plus de liberté créative.

Les angles de diffusion des ondes planes sont contrôlés avec des delay. De multiples configurations d’enceintes sont possibles, comme élargir le champ sonore avec des sources supplémentaires aux extrémités (“extension”), mais aussi diffuser du son en 360° ou en 3D afin d'immerger le public dans le son (cf figure 2.4). En plus d’une diffusion innovante, on retrouve le principe objet avec les données de position (Pan, Width, Distance, Elevation) pour chaque source réelle ou virtuelle, décuplant les possibilités artistiques. Le mix d’un format (stéréo, 5.1, 7.1,...) peut aussi être facilement adapté au système utilisé. Mais de nouveaux besoins surgissent, car l'événementiel peut contenir plusieurs contraintes comme l’acoustique du lieu, les positions d’enceintes imparfaites, le show control,...

Représentation d’un Système WFS.

(Source Cliquable)

Un processeur spécial WFS comme le Wave1 de Sonic Emotion, vient alors s'insérer dans la chaîne du son, entre la table de mixage (ou DAW) et l’amplification. Il reçoit par le biais d’une transmission audionumérique, chaque canal individuel de la console correspondant à un objet. Parallèlement, les metadatas de positions de chaque piste sont transférées au Wave1. Le tout est calculé par le processeur, puis le signal audio traité est envoyé aux enceintes. Le Wave1 est contrôlable en temps réel, afin d’indiquer les informations concernant les objets sur le logiciel WavePerformer, à l’aide de plugins, d’interfaces et de trackers. Avec ce dernier, la localisation du son diffusé pourra suivre automatiquement la position de la source d’origine.

L-Acoustics

Le géant Français de la sonorisation L-Acoustics, est récemment entré dans le marché de la WFS avec son système L-ISA. Son processeur peut intégrer 96 entrées audio (correspondant aux objets) et 64 sorties hauts parleurs avec le protocole MADI. Une sortie AES/EBU est disponible pour transmettre un downmix stéréo de secours généré automatiquement, et un cable RJ-45 permet la liaison remote en DHCP entre le L-ISA Processor et le software L-ISA Controller (Cf figure 2.5).

Le logiciel supervise les objets et groupes d’objets, les presets de scène, ainsi que les contrôles externes possible avec le plugin LA (compatible Protools, Nuendo, Reaper, Ableton Live), les tables de mixages (plugin compatible Yamaha, Avid, et Digico), des trackers, ou encore des interfaces OSC. Le logiciel intègre également des outils de traitements pour corriger le son suivant l’acoustique du lieu.

Workflow L-ISA

(Source Cliquable)

Le système de L-Acoustics est déjà bien présent dans le monde, pour des concerts symphoniques (“Harry Potter et le prisonnier d’Azkaban” en Australie, concerts d’Ennio Morricone), des tournées (Christine and the Queen, Gambino enfantin), des festivals (Tomorrowland, The Lab Panorama) ou le Parc à Thème Français le “Puy du Fou” aux Epesses. Ce dernier fut la première implémentation du système dans le monde, cela pour le spectacle “Le Dernier Panache”, demandant une configuration sonore particulière. Doté d’une tribune tournante qui s’axe sur plusieurs décors, le son de diffusion devait suivre la rotation de la tribune. Ceci fut possible avec l’utilisation d’objets audio et des capteurs, permettant de diffuser au bon moment sur les bonnes enceintes (placées en couronne) le son du spectacle, tout en prenant en compte les mouvements (plus ou moins lent) de la tribune.

La technique de diffusion WFS est innovante, et résout bon nombre de problèmes existants, sans complexifier l’utilisation, mais elle doit encore se démocratiser. Les prestataires doivent se procurer le matériel nécessaire, afin de proposer ce service aux organisateurs. L’emplacement, l’installation et le câblage des enceintes doivent aussi être repensés et organisés avec les techniciens de scène pour les événements occasionnels.Les salles doivent s’équiper et apporter un service adapté aux besoins des groupes qu’ils accueillent. Enfin les techniciens et créateurs doivent assimiler les outils, afin d’utiliser cette technique au service des événements. Tout cela prend du temps, mais finira, certainement et on l’espère, par convaincre les professionnels du spectacle, et les spectateurs.

_2.2 LE CINEMA

2.2 Le Cinéma

wfs

___2.2.1 Dolby Atmos

2.2.1 Le Dolby Atmos

Le Dolby Atmos est sans doute le procédé orienté objet le plus connu, car véritable atout marketing pour les salles de cinéma, allant jusqu'à faire une démonstration du système avant le lancement d’un film. Il est associé à la technologie Dolby Vision (pour l’image) pour les salles Dolby Cinema, souvent proposé sans majoration de tarif, comparé aux places en salles standard. Parmis 5000 salles équipées (ou en cours d’installation) dans plus de 90 pays dans le monde, la France peut être considérée comme très bien équipée, comptant à ce jour plus de 130 salles dans l’hexagone (Pathé/Gaumont, CGR, Cinévilles,...). Le film Pixar “Rebelle”, fait le premier pas vers la technologie Atmos, ils sont aujourd’hui plus de 1500 (“Gravity” d’Alfonso Cuarón, “Mad Max: Fury Road” de George Miller, “Ready Player One” de Steven Spielberg, mais aussi des séries avec la saison 2 de “Game of Thrones” de Weiss & Benioff, qui est 1ère série Atmos (après remixage), et “Sherlock” de Steven Moffat & Mark Gatiss, première à intégrer le format nativement).

L’envie d’un renouveau multicanal (création du Dolby 7.1), et le rachat en 2012 de la firme Imm Sound (créer en 2010) avec ses recherches conduiront à la naissance du Dolby Atmos la même année. Les travaux de la société espagnole étaient dirigés sur la gestion de l’audio, des metadatas et du DCP, jusqu'à la diffusion en trois couronnes (23.1 ou 14.1). Sur la couche supérieure, trois enceintes frontales et cinq au plafond; sur la couche intermédiaire trois enceintes LCR, six canaux pour dix enceintes latérales et deux canaux pour six enceintes à l’arrière. Pour la dernière couche inférieure, trois enceintes frontales avec deux sub pour le canal LFE. Dolby se sert donc de cette base de recherche et instaure son format de diffusion, en prenant en compte les aménagements de chaque salle.

Le nombre de haut-parleur peut ainsi varier selon la configuration existante. Derrière l’écran, on retrouve trois enceintes LCR, et une enceinte supplémentaire de chaque côté du canal centre (Lc et Rc), conseillées pour des écrans de plus de 12 mètres, pour une localisation sonore plus cohérente et fluide (cf carrés verts sur la figure 2.6). Tous ces hauts parleurs sont dirigés vers un point de référence. Le caisson de basse lui, est positionné de façon asymétrique par rapport au centre de la salle afin d’éviter les ondes stationnaires.

L’ Atmos est totalement rétrocompatible avec le 7.1 / 5.1, notamment en conservant la position des canaux existants, et en optimisant l'intégration de nouveaux. 64 Enceintes au total peuvent être gérer par le processeur. Les nouvelles se situent au plafond et sur les côtés entre les enceintes de façades (écran) et surround, la couverture sonore dans la salle est alors élargie (cf carrés bleus sur la figure 2.6). Une nouvelle dimension, celle de la hauteur et l’élévation est possible avec précision. Au lieu de reproduire un son sur plusieurs enceintes, ici le son peut être lu uniquement sur un haut parleur, augmentant considérablement la localisation, la cohérence à l’image et la liberté créatrice.

Configuration Dolby Atmos

(Source Cliquable)

Contrairement à l’ADM, l’Atmos distingue seulement deux types de sons dans un contenu, le “bed” et les “objets” pour une meilleure compatibilité dans les salles. Le “bed” (souvent en 7.1), est le “décor” du paysage sonore, et contient les sons ayant une localisation fixe assignée à un canal (ambiances, musique, similaire à l’orienté canal ou au multicanal traditionnel), contrairement aux “objets” pouvant être en mouvement. Ils peuvent aussi être statiques et représenter une position précise dans l’environnement. Le procédé peut utiliser jusqu’à 128 canaux. Le processeur se chargera d'interpréter les objets / bed, et de transmettre le signal vers les enceintes, (cela bien plus fidèlement que le principe multicanal) en faisant une concordance avec les coordonnées de la salle.

Principe Dolby Atmos

(SourceCliquable)

Les fichiers audio et métadonnées Dolby Atmos sont livrés avec les fichiers traditionnels 5.1 et 7.1 dans un seul et unique DCP pour toutes les salles équipées ou non, éliminant les besoins de plusieurs fichiers selon les versions. Dans la salle Atmos, les fichiers appropriés seront décodés par le processeur (ou RMU Server), et pourront à tout moment basculer au format inférieur si nécessaire, et cela sans interruption durant la projection. Un outil de monitoring (“Dolby Atmos Monitor Tool”) est fourni, ainsi que l’outils “Dolby Atmos Designer Tool” permettant la calibration de la salle.

Cryptage des données Dolby Atmos

(Source Cliquable)

___2.2.2 MDA DTS:X

2.2.2 MDA DTS:X

2012 est décidément une année charnière pour le son orienté objet. DTS, le concurrent direct de Dolby, fait l’acquisition de SRS Labs, entreprise de processing audio contenant cent cinquante brevets. Parmis eux, le MDA (Multi Dimensional Audio), un format audio PCM non-compressé Orienté Objet, (.mda incluant les métadonnées propres au format) compatible DCP, destiné aux professionnels. La firme mise alors sur la gratuité de licence pour les productions, et la liberté du format, avec certaines spécifications libres de droits et pris en charge par un SDK (Software Development Kit) facilitant son évolution. Il a également été standardisé par l’ESTI, SMPTE et l’ITU.

En 2015, le MDA devient DTS: X pour l’exploitation dans les salles de cinéma et les produits grand public.

Coté production, à ce jour, plus de cent films ont été mixés en DTS:X comme “Midway”, “Ford v Ferrari”, ou “Sonic Hedgehog”. Après une implémentation de 14000 salles DTS dans le monde en 1998 (contre 15000 salles Dolby Digital), le déploiement DTS:X semble plus timide, environs 1000 installations, majoritairement en Amérique du Nord (AMC Theatre, Cinépolis, Cinémex, Epic Cinémas, UEC…). Un récent accord avec CJ 4DPLEX prévoit une intégration dans les salles ScreenX dotées d’un écran 270°.

Le principe reste similaire au concurrent, quatres configurations type (basées sur le 7.1) sont proposées selon la taille des salles, tout en prenant en compte les conditions de celles-ci, sans y percevoir un nombre idéal d’enceintes (image ci-dessous). Le format est compatible avec les configurations Dolby Atmos, 22.2, Auro 3D,...

Cryptage des données Dolby Atmos

Bien que l’on retrouve les mêmes arguments que Dolby, soit une meilleure restitution, une fidélité créatrice dans toutes situations, le DTS:X MDA reste moins fermé que son rival, avec une installation ne nécessitant aucun matériel propriétaire, rendant l’adaptation d’une salle plus efficace.

Concernant la création, DTS met à disposition une suite d’outils sous forme de plug-ins AAX Protools ou logiciels stand alone fonctionnant sur macOS. Parmis ces outils, le MDA Creator permettant de placer un nombre illimité d’objets dans l’espace, un encodeur, et un lecteur. Un auditorium certifié ATMOS est totalement compatible pour fonctionner avec le MDA. Ces auditoriums Dolby Atmos en France sont aussi équipés et certifiés DTS:X.

___2.2.3 WFS

2.2.3 WFS

La WFS nous l’avons vu, est surtout connu de l'événementiel, mais des salles de cinéma utilisent aussi pour certaines d’entre elles ce système, s’éloignant ainsi de la course aux formats. Reposant sur la multiplication des diffuseurs et sur l’audio objet, la salle de cinéma pourrait alors contenir avec cette technique un nombre suffisant d’enceintes, donnant une grande précision spatiale, et ainsi, être capable de recevoir tous types de formats. La salle et le processeur s’adapteraient, sans altérer le contenu.

Avec ces avantages sur le papier, la WFS aurait pu influencer l’installation des salles de cinéma, et pourtant le Dolby Atmos semble dominer le marché du cinéma Orienté Objet. Les inconvénients semblent principalement être au niveau du coût de l’installation et la de la complexité d’adaptation, dus à un nombre important d’enceintes. Dolby offre le nécessaire sur toute la chaîne de production cinématographique (du mix à la diffusion, normé, avec des outils hardware et software), avec un large panel de films produits dans ce format. Le choix d'équiper une salle en Atmos semble alors être préférable, et à moindre risque du point de vue technique pour les exploitants de salles.

2.3 Le Broadcast et les Supports grand public

_2.3 LE BROADCAST

wfs

___2.3.1 MPEG-H

2.3.1 MPEG-H

Le MPEG-H est un format audio objet ouvert, élaboré par Fraunhofer pouvant être lu sur n’importe quel enceinte ou casque. Il a été testé et utilisé dans le monde entier par TV Globo (télé Brésilienne), NHK (télé Japonaise), CCTV (Télé Chinoise), l’Eurovision (2018 et 2019), pour la coupe du monde de foot 2018 ou encore France TV pour Roland Garros; et est d’ores et déjà actif pour la télé 4K Sud Coréenne.

Le MPEG-H a été conçu pour pouvoir être transmis par un simple câble SDI sans perte de qualité, ce qui le limite pour l’instant à 16 canaux audio dont un canal dédié aux metadata, ici appelé “Control Track” (aussi en flux PCM), évitant la perte des métadonnées. Le nombre d’objets est alors limité, donc la liberté d’adaptation et de personnalisation est plus réduite.

Conformer le contenu pour les salles de cinéma nécessite un grand nombre d’objets (donc de piste), cela semble alors compliqué pour le MPEG-H. Mais ce format est très intéressant pour la télé, la VR, la musique en streaming, les podcasts, la diffusion live ou tout autre contenu à consommer à la maison. Les promesses de la NGA offrant une meilleure expérience avec un son immersif (adaptabilité selon le type diffusion disponible) ainsi que l’interactivité sont maintenus, tout en préservant un aspect essentiel pour l’utilisateur, la simplicité. L’interface et les options sont épurés, puis des solutions existent afin de proposer une expérience évolué avec une installation réduite. Le son 3D interactif est alors plus que jamais accessible.

L’ AAC, également l’une des innovations de Fraunhofer, est réutilisée (entreprise que l’on connaît bien avec le projet Orpheus). Le débit s’apparente à 128 kbps pour un mix 5.1 et 64 kbps pour du stéréo (données techniques à différencier de la qualité subjective). Comme montré ci-dessous, l’étape d’authoring vient s’ajouter à la chaîne de production avec le format MPEG-H.

Chaîne de production audio Standard

Chaîne de production MPEG-H Audio

l'Authoring

L’authoring est l’étape permettant de conformer le contenu en objet, de définir l’interactivité, les presets, mesurer le loudness, effectuer l’export,...Le format repose sur la méthode “bed+object” (comme le dolby atmos) qui sépare la scène sonore en deux types de son. Les “bed” représentent la base du contenu audio, c’est à dire les ambiances, les musiques, qui sont affiliées à une position précise et fixe (multicanal, 5.1, 7.1, 22.2, quad,...). Puis les objets représentent le reste de la scène sonore, donc les effets spéciaux, les voix par exemple, dont la position est variable (ou peut être changé par l'utilisateur).

Ensuite les “Switch Group” servent à proposer un choix unique et non multiple à l’auditeur, en groupant un certain nombre d’objets ou scènes. Par exemple, le switch group sera nécessaire pour le choix des langues du contenu, pour ne pas choisir le français en même temps que l’anglais.

A partir de la différenciation des sons, il est possible de définir des presets, que l’utilisateur pourra sélectionner rapidement et simplement, selon ses besoins (cf photo de l'interface). Trois presets sont recommandés comme le montre l'illustration (mais d’autres sont possibles avec des paramètres aux choix de l’ingénieur son, du réalisateur,...).

Le premier est nommé “Default”, comme son nom l’indique, ce sont les paramètres audio du contenu d’origine proposés par le mixeur son.

Le second est nommé “Dialogue+”. Si ce preset est sélectionné, la voix, les dialogues, sont automatiquement augmentés de 6 dB.

Le troisième se nomme “Commentary OFF”, il est donc dépourvu de voix, et seulement constitué des effets, de la musique, de l’ambiance,...

Illustration des étapes lors de l'authoring

Notons que sur chaque preset, l’utilisateur peut changer par lui même le volume, l’azimut et l'élévation du son dans les limites qui lui sont accordées. Ces nouvelles valeurs seront sauvegardées pour une prochaine utilisation. Ainsi, les principales fonctions du NGA importantes aux yeux des utilisateurs (la compréhension des dialogues, le choix du format et la localisation)10 sont respectées, tout en restant simple et accessible pour tout utilisateur.

“Dialogue Enhancements”, une ancienne étude de 2011 menée par Fraunhofer sur les réglages audio choisis par les utilisateurs est très intéressante. L'ancêtre du MPEG-H, le MPEG4 AAC était utilisé lors d’un match de tennis de Wimbledon. Un curseur de mixage allant de la valeur “3” à “-3” est proposé aux auditeurs. La valeur “zéro” correspond mixage par défaut de l’ingénieur son, les valeurs positives privilégient les commentaires, tandis que les valeurs négatives les atténuent et donnent une priorité à l’ambiance du stade. Deux types de réglages se distinguent dans les résultats, 25% ont préféré le réglage “-1” (moins de commentaires), et environ 22% le réglage “2”. Le mixage par défaut à été choisi à hauteur de 7%, et 14% n’ont pas de préférence. Cette petite expérience montre à quelle point le mixage est subjectif, différent pour chacun, et est un vrai casse tête pour l’ingénieur du son. Le MPEG-H est alors une belle proposition afin de résoudre ce problème.

Etude Dialogue Enhancements mené par Fraunhofer en 2011

Post-Production

Si il s’agit de diffuser un contenu enregistré (film, documentaire,...), un simple plugin de Fraunhofer nommé MHAPI est nécessaire à la conversion en format objet. Nous l’analyserons en partie 3 de ce mémoire.

Événements en Live

Si il s’agit d’une diffusion Live (événement sportif, concert,...), les contraintes sont différentes et cela nécessite une configuration plus complexe afin d’obtenir les mêmes résultats et fonctions, qu’avec un PAD11 utilisant le MPEG-H (interactivité, preset,...).

L’ensemble des micros d’ambiance et de la matière sonore (commentaire, musique,...) est reçu dans un car régie, afin de mixer et faire l’authoring du contenu (même principe de ce que nous venons de voir). Deux outils Hardware et Software sont majoritairement utilisés pour l’authoring, chacun ayant une interface différente mais effectuant la même tâche: le Jünger MMA (Multichannel Monitoring and Authoring) et le Linear Acoustic AMS (Authoring and Monitoring System). L’interface utilisateur, les presets ainsi que l’interactivité, sont entièrement modifiables en temps réel. La synchronisation entre le son (avec les métadonnées) et la vidéo se font verticalement, par frame (50 fps), et peut être assurés jusqu'à -30dB.

Lecteur MPEG-H:

A ce jour, Fraunhofer fait des recherches sur un lecteur, car seul le hardware comme certaines télévisions ou barres de son (comme la “AMBEO” de Sennheiser” est capable de décoder, lire et profiter des avantages d’un contenu MPEG-H.

Le décodeur MPEG-H (USAC pour Unified Speech and Audio Coding) prélève les éléments (schema ci), on retrouve ainsi les objets, fichiers ambisonique et basés canal. Les signaux “Channel Based” son transmis au mixer virtuel, convertit au bon format si besoin est. Les objets sont traités en fonction des metadatas et le système de spatialisation SAOC (Spatial Audio Object Coding). Les fichiers Ambisonique sont eux aussi, traités par un moteur de rendu. Ainsi, l’ensemble du contenu audio est adapté aux configurations de l’auditeur, avec de l'interactivité et de la personnalisation. Un moteur de rendu situé après le mixer permet la binauralisation

avec une réponse impulsionnelle pour ajouter ou non de l’acoustique de pièce pour plus de réalisme. Pas d’information sur l’insertion de fichier .sofa ou l’intégration de plusieurs HRTF, donnant la possibilité la meilleure expérience 3D au casque selon les personnes (un bon compromis si il n’y a pas de créateur d’HRTF comme propose Sony en partie 2.5.1).

Principe du décodeur MPEG-H Audio

___2.3.2 Dolby Atmos

2.3.2 Dolby Atmos

On peut retrouver le procédé Dolby Atmos également dans le salon. Côtés supports, plusieurs films ont commencé à être distribués en Atmos sur Blu-Ray. Les jeux vidéos sur consoles sont également compatibles (Forza, Assassin's Creed, Battlefield, Final Fantasy,...) proposant ainsi un réel potentiel sonore, en explorant les limites créatrices que l’audio ne peut pas forcément se permettre avec les codes de la fiction. Cela apporte un réel plus pour le joueur, pouvant se repérer et anticiper son jeux. Le marché en hausse des plateformes VOD/SVOD propose aussi l’Atmos (Netflix, Apple TV+, Amazon Prime, Vudu ou encore Youtube). Il faudra encore attendre afin de pouvoir regarder un film ou une série Atmos proposé par une chaîne de télévision, bien que la firme soit prête à diffuser des évènements Live avec le même codec AC-4 (annexe figure B1 pour en savoir plus sur la configuration Live).

Au-delà de ses capacités de diffusion, on retrouve les possibilités de personnalisation que propose le MPEG-H tels que les presets (ici intitulé “présentation”) avec le choix des langues, le volume des dialogues rehaussé ou modifiable, les commentaires sportifs “muté”, etc.

Restitution:

Plusieurs solutions s’offrent au spectateur pour pouvoir profiter de ce format à la maison. Il est possible d’avoir une télévision Atmos qui lui permettra de regarder du contenu (Blu-Ray, SVOD,...) et de le restituer sur un home-cinéma Atmos par exemple. Il est aussi possible de passer par son Home-Cinema compatible, câblé à sa télévision (avec possibilité d’Upmixer un contenu).

Afin de restituer les sons aériens, des systèmes jouent sur les réflexions du plafond, évitant d’encastrer des enceintes, donc une installation complexe chez le particulier, (bien que abordable et plus fidèle). Il s’agit d’enceintes à poser, d’autres inclusent sur le côté supérieur de la baffle servant aussi à restituer le canal Gauche/droite. Puis des barres de son Atmos, plug&play, moins intrusives mais plus coûteuses sont sur le marché. Des programmes sont disponibles sur certains appareils afin de mesurer l’acoustique de la pièce, et offrir la meilleure expérience possible.

atmos 2

atmos 3

atmos

atmos 2

1/3

Différéntes configurations Dolby Atmos à la maison

Le binaural se révèle alors être l’alternative aux prix élevés ou aux installations complexes, seulement avec un casque. Néanmoins, la société permet cette option d’écoute exclusivement avec les casques sans fil Dolby Headphones. Ces casques dotés d’un Head Tracking sont connectés avec l’application Dolby Dimension, permettant d’écouter le contenu provenant du smartphone, de la télé ou tout autre appareil. Contrairement à Sony, Dolby ne croit pas pour l’instant à la personnalisation auditive (Création et virtualisation des HRTF) et propose une seule HRTF censée convenir pour tous. L’application permet avec le “Default Lifemix” de modifier le niveau d'extériorisation et l’acoustique, compensant le manque de personnalisation.

___2.3.3 DTS:X

2.3.3 DTS:X

Étant plus présent que Dolby sur le marché du Blu-Ray, DTS poursuit son gage qualité avec DTS:X pour l'expérience à la maison.

Ce format rétro-compatible est disponible sur des Blu-Ray (“Spiderman”, “Jumanji”, “Terminator”,...), et les plateformes de streaming Américaine Européenne et Asiatique (Rakuten TV, Fandango Now, Tsutaya TV,...).

L’interactivité est aussi présente avec un contrôle du niveau des dialogues ou autres composantes (Musique, Foreground Effect, Background Effect) avec une interface simple et épurée, schématisée avec un curseur. Le responsable de l'authoring peut autoriser ou non certaines fonctions, mais la restriction semble moins évoluée que le format MPEG-H. Cela mène soit à une grande liberté de l’auditeur, au risque de détériorer les intentions créatives, soit à l’interdiction de la personnalisation du contenu.

Le format est aussi utilisé pour IMAX enhanced. L’IMAX faisant partie du même groupe que DTS (XPERI), ils ont associé leurs technologies au service du home-cinéma haute qualité, avec une amélioration visuelle (couleurs, taille de l’image,...) et sonore (adaptabilité, immersion).

Puis la firme est présente sur le marché du jeux vidéo, notamment sur présente sur la XBOX One, et en partenariat avec GDC (Game Developers Conference) l’un des événements professionnels les plus important dans ce domaine.

Restitution:

Beaucoup de home-cinema et téléviseurs sont équipés DTS:X (Sony, Trinnov, Pioneer, Denon, Yamaha, Lexicon,...), pouvant prendre en charge jusqu'à 11.2 canaux et trente-deux emplacements d’enceintes différentes. Un Upmix est possible afin d’exploiter les enceintes supérieures sur du contenu n’utilisant à l’origine que le plan horizontal. Le choix de la barre de son jouant sur les réflexions acoustique du salon est également viable, elles aussi nombreuses à être compatibles. Le binaural est accessible par l'intermédiaire du DTS HeadphoneX intégré sur les smartphones, tablettes et ordinateurs, pour une expérience sonore 3D sur les Jeux Vidéo, Films ou encore Musiques.

Le marché de l’automobile est en pleine extension, les acteurs de l’audiovisuel prévoyant de nous distraire sur le temps du trajet, temps qui finira par s’avérer libre avec les voitures autonomes. DTS fait parti de ces acteurs qui prend ce marché à part entière très au sérieux, avec l’utilisation du HeadphoneX pour le visionnage de films, et du son “Neural”.

___2.3.4 WFS

2.3.4 WFS

On retrouve aussi le principe WFS dans la fabrication des barres de son grand public, en associant plusieurs enceintes sur un espace restreint. L’onde n’est plus plane mais cardioïde, afin d’assurer une certaine homogénéité du son dans la pièce, la perception spatiale est alors plus aboutie. Cette technique facilite l’accès du multicanal au grand public car moins encombrante, bien que la qualité du son dépend beaucoup de l’acoustique de la pièce.

_2.4 REALITE VIRTUELLE

2.4 La Réalité Virtuelle

___2.4.1 MPEG-H

2.4.1 MPEG-H

Fraunhofer a pour avantage de créer non seulement les solutions Software mais aussi des solutions Hardware intégrées pour la VR, ce qui en fait un des acteurs principaux. Le partenariat avec B-COM a permis de présenter en 2017 le premier court-métrage en VR. Le MPEG-H est le codec privilégié pour les contenus à Réalité Virtuelle pour son efficacité de codage, et son flux binaire contenant l’ensemble des metadatas et diverses signaux audio (object, ambisonics FOA/HOA, Beds,...). L’interface est simple, et pratique pour l’utilisateur souhaitant une perception du contenu adapté à ses besoins. Les possibilités interactives sont les mêmes que pour le broadcast, cela dans un environnement 360. Des outils d’authoring, de spatialisation et d’encodage sont proposés par la firme sous forme de Plugin AAX / VST3 et un plugin Unity. Un rendu binaural y est intégré avec plusieurs fonctionnalités de Head Tracking.

___2.4.2 Dolby Atmos

2.4.2 Dolby Atmos

Dolby propose aussi des solutions pour la VR avec intégration de vidéo MP4 (vue 360 ou 2D) sur Windows/Mac, et compatible avec Oculus Rift pour le monitoring. Le Player VR Dolby peut être connecté en IP au Dolby Atmos Renderer sur ProTools, en gardant la synchronisation entre le son et la vidéo 360. L’export ambisonique semble être de l’ambiX (format B) d'ordre 1. Dolby Atmos VR Player Home disponible sur android, permet de lire le contenu avec le Samsung Gear VR ou Google Cardboard V2.

Dolby Atmos VR Player

_2.5 La MUSIQUE

2.5 La Musique

___2.5.1 MPEG-H

2.5.1 MPEG-H

En fin d’année 2019, Sony a lancé son gros projet musical, le “360 Reality Audio”, en partenariat avec Google, Amazon Music, Deezer, Tidal ou encore Nugs.net, proposant du contenu audio 3D personnalisable. Après plusieurs recherches et échecs des entreprises ayant misées sur l’individualisation de l’écoute, Sony permet maintenant à l’utilisateur une expérience binaural optimisée. Avec l’application “Headphone Connect”, l’auditeur peut scanner ses oreilles afin de créer ses propres données HRTF pour une expérience immersive maximisée, devançant largement DTS Headphones X. Il s’agit donc bien de restitution en trois dimensions (X, Y, Z), et non sur deux plans comme peut le supposer le nom marketing “360”.

Sony collabore avec les grands labels de musique (Warner, Universal, Sony Music), et met à disposition son propre outil de production, traitant indépendamment chaque composante de la musique afin de la spatialiser. De simples projets multipistes d’anciens ou nouveaux titres sont éligibles au mastering 360 Reality audio. Pour cela, le codec MPEG-H est utilisé et peut diffuser du Dolby Atmos.

Outil 360 Reality Audio

Contrairement au Dolby Headphones, l’utilisateur n’est pas obligé d'acquérir un casque compatible, (bien que Sony conseille ses casques adaptés) tout est donc très simple et accessible. Un catalogue de 1000 titres est d’ores et déjà disponible sur les plateformes et applications Deezer ou Tidal avec l’abonnement HiFi (Flac 1411kbps). Nugs propose également la rediffusion de concerts, le binaural prend alors tout son sens avec l’ambiance et l’acoustique d’un Live. Le nombre de titres doit encore s’étoffer, tout en ayant un réel apport et volonté artistique, exploitant judicieusement les possibilités du son 3D.

___2.5.2 Dolby Atmos

2.5.2 Dolby Atmos

Dolby Atmos conquiert aussi le secteur de la musique en étant également disponible sur Tidal et Amazon Music, avec Warner et Universal en partenaires. La firme mise son expérience en audio immersif, et sur la simplicité de ses outils (Dolby Atmos Music Panner) favorisant l’accessibilité, donc la créativité des artistes et techniciens. Des studios emblématiques en sont équipés (Abbey Road, Blackbird, ou encore Capitol Studios). Quelques concerts sont également mixés en Dolby Atmos, diffusés en salle de Cinéma et distribué en Blu-Ray ou encore les boîtes de nuit comme le club britannique “Ministry of Sound” et les DJ utilisent aussi cette technologie.

Les titres Dolby Atmos sont sujets à une nouvelle restriction du niveau sonore, 18LKFS intégré conforme aux différents services de musique.

2.6 Etude Statistique

_2.6 Etude Statistique

Nous l’avons vu dans une étude d’ORPHEUS, ainsi que dans les différents cas précédents, les professionnels sont intéressés par l’OBA. Ce procédé a bien des avantages du côté technique, certains même l’utilisent dès à présent, mais quand est-il du grand public? Pour en savoir un peu plus sur les envies, la connaissance du grand public sur ces avancées audio, nous avons réalisé un court questionnaire, illustré pour guider un minimum les sondés.

Voir l'étude statistique

Suite Partie 3

3. Comment réaliser un projet audiovisuel au