Du XXe au XXIe siècle : Le chemin du son monophonique au son 3D

1. La Monophonie (1 canal 2D)

2. La Stéréophonie (2 canaux 2D)

3. Le Son Surround (Multicanal 2D)

4. Le son binaural (2 canaux 3D)

5. Le son 3D (Multicanal 3D)

La réalité virtuelle se préoccupe essentiellement de la localisation des sons associés à l’image. Les approximations de l’oreille sont corrigées par la vision. Mais dans une salle de cinéma équipée du Dolby Atmos[1] lorsqu’on ferme les yeux on expérimente déjà une sorte d’écoute réduite. Le terme d’objet sonore longtemps confiné dans le petit monde de la musique concrète est aujourd’hui employé par tous les théoriciens et praticiens de la spatialisation sonore en 3D parce que ces technologies contribuent à cette immersion dans le son, « …the use of three dimensional space makes listeners feel like they are inside the music. » (Cf.music.dolby.com).

La caractéristique la plus importante de la spatialisation est pour nous l’immersion. Elle apparait déjà avec l’acousmonium créé en 1974 par François Bayle au Groupe de Recherches Musicales. Le compositeur chercheur John Chowning qui est aussi l’inventeur des techniques de synthèse par modulation de fréquence a été un des pionniers de ce mouvement[2].

Toutes les techniques d’encodage audio conventionnelles, y compris les formats surround, produisent des sources acoustiques fantômes que nous percevons entre des haut-parleurs simples. Ces sources sonores ne sont pas de véritables sources sonores. C‘est la connexion psycho acoustique des deux signaux auditifs qui permet au cerveau de percevoir la source.

Le premier effet de la stéréophonie est de créer une ambiance spatiale dans un demi plan horizontal. Les formats surround ajoutent les dimensions latérales et arrières qui confortent l’effet d’ambiance mais n’apportent pas vraiment de précision à la localisation spatiale.

Les premières techniques d’encodage pour le contrôle de la spatialisation sont basées sur le principe conventionnel de pondération d’intensité. La précision spatiale s’améliore avec les techniques VBAP[3]

Viennent ensuite L’encodage en format B et la technique Ambisonics ; voir le site bien documenté de l’université d’York[4]. L’Ambisonics a été développé d’après les travaux de M.A. GERZON utilisant les caractéristiques de l’oreille humaine. Le format B utilise 4 canaux qui peuvent être réduit à 2 pour une écoute au casque. Le HOA, High Order Ambisonics apporte une meilleure résolution et un sweet-spot plus large (zone d’écoute optimale).

La technique la plus élaborée mais qui demande encore un nombre important de hauts parleurs est la Wave Field Synthesis, synthèse de champs d’ondes. Comme Christiaan Huygens l’a découvert, chaque point d’un front d’onde représente le point de départ d’une onde élémentaire. Cela fait plus de 300 ans que le mathématicien néerlandais a réussi à expliquer les effets de diffraction par ce principe. Ce principe est applicable à tout type de propagation d’ondes, y compris les ondes lumineuses ainsi que les ondes sonores. Le principe de Huygens est l’un des concepts les plus importants dans le domaine de la physique. Aujourd’hui, dans le domaine de l’acoustique, cette connaissance offre la possibilité de restaurer de véritables ondes sonores à partir de telles ondes élémentaires

Principe de Huyghens: « Les vibrations qui se propagent à l’extérieur d’une surface fermée So contenant la source sont identiques à celles qu’on obtiendrait en supprimant cette source et en la remplaçant par des sources convenablement reparties sur la surface So »

La technique WFS se prête parfaitement à une diffusion sans sweet spot, et la localisation de sources au-delà des haut-parleurs crée une ambiance acoustique très réaliste.

La quantité de hauts parleurs nécessaires a été réduite par des systèmes de fenêtrage digitaux et l’introduction de paramètres psycho acoustiques. Sonic emotion (http://www2.sonicemotion.com) présente des solutions avec le processeur wave1 et une recherche a été menée pour créer des sources sur des plaques excitées par des piezo (MAP). Holoplot propose également un processeur WFS, https://holoplot.com


[1] https://www.dolby.com/us/en/technologies/dolby-atmos/dolby-atmos-specifications.pdf

[2] « Pour pouvoir localiser la source d’un son dans un espace clos, l’auditeur a besoin de deux types d’informations : la position angulaire et la distance de la source par rapport à l’auditeur.

Les variables qui dépendent de la position angulaire sont :

  • (1) L’instant où le signal atteint l’oreille, le délai de propagation du signal étant différent pour chaque oreille lorsque la source n’est pas centrée face à l’auditeur ou derrière lui.
  • (2) Les différences de niveau de pression acoustique des hautes fréquences à chaque oreille résultant de l’effet d’ombre de la tête lorsque la source n’est pas centrée. ‘

Les variables qui dépendent de la distance entre la source et l’auditeur sont les suivants :

  • (1) Le rapport entre l’énergie directe et l’énergie indirecte ou réverbérante car l’intensité du son direct atteignant l’auditeur diminue plus fortement avec la distance que le son réverbérant.
  • (2) La perte des composantes fréquentielles de faible intensité du son en fonction de l’éloignement croissant de l’auditeur.
  1. CHOWNING, « The simulation of moving sound sources », J. Audio Engineering Society, vol. 19, no. 1, 1971.

[3] Ville Pulkki. 1997. Virtual sound source positioning using vector base amplitude panning. Journal of the audio engineering society.

[4] https://www.york.ac.uk/inst/mustech/3d_audio/welcome.html et https://www.ambisonic.net