Phelma Formation 2022

5PMSTTA2 : Traitements Audio (SICOM-SIGMA S9) - WPMTTTA2

  • Volumes horaires

    • CM 8.0
    • Projet 0
    • TD 8.0
    • Stage 0
    • TP 4.0

    Crédits ECTS

    Crédits ECTS 2.0

Objectif(s)

Ce cours traite des fondamentaux des traitements audio (analyse automatique de scènes sonores naturelles et artificielles, de signaux de musique, etc.): Bases sur les sons et leur enregistrement; outils fondamentaux pour l'analyse, la transformation et la synthèse des signaux audio; rehaussement de parole dans le bruit; séparation de sources audio; traitements spatiaux (multicanal). Ce cours abordera à la fois les approches classiques basées sur des modèles de signal et canal, et les approches récentes de type machine learning et deep learning en particulier.

Contact Laurent GIRIN

Contenu(s)

Partie 1: Fondamentaux sur les sons et leur enregistrement
Partie 2: Fondamentaux de l'analyse/synthèse audio (transformée de Fourier discrète, transformée de Fourier à court-terme, vocodeur de phase)
Part 3: Débruitage de parole et séparation de sources audio (en monocanal)
Part 4: Traitements spatiaux multicanal (avec un focus sur le séparation de sources audio multicanal)
Partie 5: Modèles génératifs profonds pour la synthèse sonore (intervenant: Fanny Roche, Arturia)
Partie 6: Fundamentaux du Music Information Retrieval (intervenant: Geoffroy Peeters, Telecom ParisTech)



Prérequis

Bases solides en traitement du signal (analogique et numérique, déterministe et aléatoire).
Les aspects deep learning sont fortement connectés au cours de deep learning, au projet de traitement audio correspondant, et au cours de traitement de la parole, tous en 3A Sicom.

Contrôle des connaissances

Examen écrit : 2h
BE : rapport
Calcul de la note: Examen écrit : 50%, rapport de BE : 50%



Written exam: 50%, Lab work report: 50%

Informations complémentaires

Cursus ingénieur->Double-Diplômes Ingénieur/Master->Semestre 9
Cursus ingénieur->Masters->Semestre 9

Bibliographie

J. B. Allen & L. R. Rabiner, A unified approach to short-time Fourier analysis and synthesis, Proceedings of the IEEE, 1977.
J. Benesty, S. Makino & J. Chen, Speech enhancement, Springer, 2006.
R. E. Berg & D. G. Stork, The physics of sound. Prentice Hall, 1995.
M. Dolson, The phase vocoder: A tutorial, Computer Music Journal, 1986.
E. Jacobsen & R. Lyons, The sliding DFT, Signal Processing Magazine, 2003.
H. Kuttruff, Room acoustics, CRC Press, 2016.
J. Le Roux, E. Vincent & H. Erdogan, Learning-based approaches to speech enhancement and separation, Tutorial at Interspeech Conference 2016.
P. C. Loizou, Speech enhancement: Theory and practice, CRC Press, 2013.
M. Müller, Fundamentals of Music Processing, Springer, 2015.
A.V. Oppenheim & W.S. Shaffer, Digital Signal Processing, Prentice Hall, NYC, 1975.
E. Vincent, T. Virtanen & S. Gannot (Eds.), Audio source separation and speech enhancement, John Wiley & Sons, 2018.
D. Wang & J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.