|
De
la visioconférence à la visiophonie mobile La séance était présidée par Léonard Laborie, historien Le
codage d’images au CNET dans les années 1970 et le projet européen COST 211 par Helga Séguin, ancienne présidente du projet COST 211 Les premiers visiophones sont apparus avec le programme ambitieux du Picturephone, lancé par AT&T à la fin des années 1960. Le projet reposait sur un standard réduit en vue d’une transmission analogique sur le réseau téléphonique local existant. Le Picturephone ne connut pas un grand développement aux Etats-Unis, mais il entraîna au CNET la création en 1970 d’un département chargé des nouveaux services de la visiophonie et de la télécopie. Un des sujets de recherche de ce département a été le codage d’image, permettant de comprimer le signal visiophonique pour pouvoir la transmettre sur l’émergent réseau numérique de télécommunications. Mais, à cette époque, les circuits intégrés et les mémoires électroniques en sont encore à leur première jeunesse. Les travaux débutent avec des systèmes simples, du type intra-image utilisant des techniques différentielles, DPCM, et le sous-échantillonnage, qui permettent de comprimer le signal visiophonique jusqu’à 6 Mbit/s Pour pouvoir comprimer davantage, le CNET se lance rapidement dans le codage inter-images nécessitant des mémoires d’images. Dès 1973, il définit avec la SAT le premier codec à 2 Mbit/s, avec rafraîchissement systématique, et prépare la maquette d’un codec à rafraîchissement conditionnel. A partir de 1974, une première liaison visiophonique est installée sur l’ « autoroute électronique de l’Ouest », qui relie la région parisienne au Trégor. En parallèle, de nombreuses démonstrations sont effectuées à l’aide du satellite Symphonie. En ce même début des années 1970, les ministères de la Recherche européens ont lancé un programme de Coopération scientifique et technique, le COST. Parmi les premiers projets sélectionnés dans le domaine des télécommunications, le programme COST 211 a pour objectif les études de codage d’images. Une première réunion a lieu en 1973 et, trois ans plus tard, un accord est signé pour définir en commun un codec visiophonique conditionnel à 2 Mbit/s. Les pays participants sont la France, l’Allemagne de l’Ouest, le Royaume Uni, la Hollande, la Suède, puis l’Italie. Dès la fin des années 1970, les premiers codecs fonctionnent dans plusieurs laboratoires de recherche, CNET, BTRL, CSELT, KPNRL, et des liaisons par satellite permettent, au début des années 1980, d’affiner leur qualité et leur compatibilité au sein du projet EVE, European Videoconference Experiment. Les propositions du COST 211 sont soumises à la CEPT et au CCITT qui vont les normaliser. Un premier service de visioconférence à 2 Mbit/s est alors lancé sur la base de ces codecs. La coordination européenne dans le domaine des images se poursuit sous les noms de COST 211 bis à quater et d’autres pays s’y joignent, Danemark, Espagne, Finlande, Irlande, Norvège, Portugal, Suisse, Turquie. Alors que les travaux de simulation et la technologie font des progrès considérables, le COST 211 bis, lancé en 1983, se fixe l’objectif d’atteindre le nx64 kbit/s, avec n petit, en comprimant davantage l’image, tout en permettant encore plus de flexibilité et de compatibilité. Les premiers résultats sont excellents et deux faits marquants surviennent au cours du projet : la décision de fixer n=1 et de viser directement 64 kbit/s pour la visiophonie ; la démonstration que ce même codage très performant permet d’obtenir à un débit de 2 Mbit/s une qualité VHS pour des signaux télévisuels. Le premier ouvre à la visiophonie un réseau commuté, le RNIS, et le second entraîne la création de MPEG par les membres de COST 211. Les travaux se poursuivent avec COST 211 ter vers 1990 et COST quater en 1996. Ce sont donc deux décennies d’études communes qui ont été poursuivies au niveau européen, sans guère de financement en provenance de la Commission européenne. Ces travaux ont apporté une contribution majeure à la numérisation des images, en avance au niveau mondial, à la fois pour définir la visiophonie et la visioconférence modernes et pour ouvrir la voie aux normes MPEG, qui vont faire converger les travaux sur la numérisation des images interactives et celle des images audiovisuelles. De la compression d’images à la visioconférence par Jean-Pierre Témime, directeur à France Télécom. Avant 1983, les codecs utilisables pour la visioconférence étaient : le codec à 2 Mbit/s, à rafraîchissement systématique, qui était utilisé sur le réseau de salles de visioconférence du CNET ; le codec à 2 Mbit/s, à rafraîchissement conditionnel, défini par le projet COST 211, avec une réalisation MCU/EVM, Multipoint Conference Unit, et une expérimentation européenne par satellite, le projet EVE. En parallèle, existait le service d’audioconférence analogique du projet Caducée. A la fin de 1983, le CNET lance le projet Cèdre en association avec la SAT. Le projet a de fortes ambitions en compression d’images. Il vise à passer successivement à 768 kbit/s, puis à 384 kbit/s, enfin à 64 kbit/s. Un banc de simulation, Artiste, est réalisé, qui permet 30 secondes d’images vidéo au format CCIR de la télévision, en utilisant un échantillonnage à 13,5-6,75-6,75 MHz. Des investigations sont menées sur les divers algorithmes de compression : Fourier, DCT, quantification vectorielle. Enfin deux maquettes de laboratoire sont réalisées. Le projet concerne aussi l’organisation des salles de visioconférence : position des caméras, place des écrans, emplacement des sièges, etc. et il définit un serveur multipoints. En audioconférence, le projet travaille sur la prise et la restitution du son, avec annulation des échos. Il utilise un codage à bande élargie par rapport à la téléphonie : 7 kHz. Il définit des données annexes : fonction tableau, images fixes, télécopie. Il utilise le serveur multipoints. Des travaux complémentaires du projet s’intéressent à l’ergonomie du système et aux réseaux utilisables. Les algorithmes de compression et de codage du projet Cèdre concernent d’abord, en audioconférence, le passage à la bande élargie. En images animées, on procède à des simulations sur le pré-filtrage temporel récursif, la différentiation, le seuillage et l’interprétation, sur la détection et la compensation du mouvement, sur le DCT 16x16 intra et inter-images, avec rafraîchissement conditionnel. Mais il faut encore 5 mn pour comprimer une image ! Le projet s’intéresse aussi à la norme JPEG pour les images fixes et les données numériques. Au total, la trame Cèdre définit un multiplexeur d’images et de sons, dans des accès RNIS à 128 kbit/s ou à 2 Mbit/s, soit nx64 kbit/s. En 1985, arrive l’heure des choix, tant au niveau européen que mondial. L’algorithme proposé par le CNET arrive en tête pour la qualité obtenue mais il apparaît trop complexe pour les choix de la DCT 8x8. On aboutit donc à la sélection de la trame Cèdre, mais aussi à celle du format d’image CIF, Common Intermediate Format, avec 625 lignes et 60 Hz, soit des images 288x256. C’est le quart de CIF, QCIF, qui est aujourd’hui utilisé dans la téléphonie portable. En 1986, sont intervenues les spécifications du CCITT. La Commission XVIII a adopté la trame Cèdre H222, ouvrant la voie aux circuits intégrés. La Commission XV a choisi l’image animée G.7xx, avec 384 kbit/s en cible prioritaire, 2x64 kbit/s ensuite, en incluant le son. En audio, la Commission XVIII a adopté la bande élargie G729, à 7 kHz et 56 kbit/s. Ces choix ont été validés par les Commissions I et VIII. Les développements ultérieurs en France ont été marqués par la maquette du CNET à la mi-1986, avec des essais par liaisons satellites, puis par la maquette de la SAT à la mi-1987, avec une version industrielle en 1989 et un lancement commercial la même année avec Numeris, à 100 kF le codec. Les principaux acteurs de cette aventure ont été : J. Guichard pour le matériel, J.-P. Témime, G. Eude et E. Cassimatis pour le logiciel, J. Leclerc pour la salle de visioconférence, L. Charoy, A. Soubigou, M. Combescure, J.-P. Jullien et M. Zurcher pour l’audioconférence, C. Petit à la DAII et J.-C. Jolivet et J.-M. Devimeux à la SAT pour l’industrialisation. Images animées numériques, évolution et développements par Jacques Guichard, directeur à France Télécom Contrairement
à la rigueur habituelle de l’AHTI, il n’a pas été possible d’obtenir une
relecture du texte par son auteur. Aussi la rédaction des Cahiers se tient-elle
prête à publier toute critique ultérieure qu’elle pourrait recevoir. Mon objectif est de situer les évolutions passées et à venir de la télévision numérique, de souligner les technologies clés et la normalisation, en me focalisant sur les technologies de compression. En résumé, la télévision numérique existe aujourd’hui sur le câble, sur les satellites et sur terre et les marchés émergents concernent la télévision par ADSL, la télévision mobile et la télévision à haute définition, avec pour objectifs de satisfaire les besoins en réseau de médias à domicile et en accès généralisé. Les marchés Les normes relatives à la chaîne audiovisuelle intéressent la production au format standard ou à haute définition et l’échange de formats de fichiers (AAF, MXF) ; elles intéressent la compression et le transport (MPEGx/H.2-x, SMPTE) ; elles concernent enfin les systèmes de bout en bout (DVB, ATSC, ARIB, ISMA). Les solutions clés reposent sur la compression et le transport audiovisuel : efficacité, résistance aux erreurs, gestion des contenus et leur protection. L’évolution de la compression vidéo est passée par l’histoire des normes, par les fondements techniques et par l’évolution des performances. Les normes à venir sont le MPEG-21 SVC et H 265. Plus lointains se profilent les ondelettes 2D+t, les réseaux à mailles actives et une nouvelle génération d’ondelettes. Pour la compression audio, on retrouve l’histoire des normes et l’évolution des performances. Les techniques et normes émergentes s’appellent MPEG-4 spatial, et MPEG-4 vs. MPEG-21 pour un codage mesurable. En conséquence, on se trouve devant un nouveau défi en matière de compression audiovisuelle et, au delà de la compression, à la recherche d’une normalisation globale pour la chaîne audiovisuelle. Le marché actuel de la télévision numérique passe d’abord par les satellites d’émission qui en ont été le premier support et qui furent, en Europe, associés à la télévision à péage (80% du marché et 21% des prises à domicile). Il passe aussi par le câble qui est dominant aux Etats-Unis avec 60-70% d’abonnés, mais seulement 20-25% équipés en décodeurs. Une situation qui devrait changer rapidement avec l’accord plug and pay de la FCC. Il passe enfin par des émetteurs terriens, qui existent depuis 1997 aux Etats-Unis, mais avec des difficultés d’extension (une couverture à 97%, mais seulement 650.000 récepteurs en mai 2003, d’après l’IDATE) et qui existent aussi dans quatre pays européens (Allemagne, Espagne, Italie, Grande-Bretagne) et au Japon depuis décembre 2003. Un marché émergent concerne la télévision sur IP, avec un ruissellement de vidéo live s’écoulant sur l’Internet à large bande à travers l’IAP, avec le PC individuel comme objectif de terminal. L’intérêt est que tout utilisateur puisse accéder à tout contenu.. Un canal montant est techniquement disponible. La réticence provient de la consommation globale de bande. Des applications peuvent concerner des événements spéciaux, une télévision personnalisée, l’éducation, la communication d’entreprise ou des vues provenant du Web. Il s’agit du premier essai de télévision sur un réseau IP. Les principaux problèmes concernent la perte de paquets (QoS), la largeur de bande et l’adaptation. Un autre marché émergent concerne la
télévision sur ADSL. Il s’agit en fait d’un cas spécial de télévision sur IP,
mais avec un réseau dédié (Collect specific virtual channel for TV). La
plupart des spécifications relatives à la télévision numérique (DVB)
s’appliquent dans ce cas. Le système existe en Italie, en Allemagne, en France.
C’est un outil complémentaire du satellite, notamment pour les centre-villes.
Il introduit une convergence avec les services interactifs fondés sur IP (Internet)
et il ouvre la porte aux services interactifs (multiplay) comprenant la
télévision, la visiophonie, le téléphone. La disponibilité d’une bande
passante suffisante pour desservir nombre de gens demeure un point critique. Un troisième marché émergent est constitué par la télévision numérique à haute définition. Des formats à 720p ou 1080i seraient considérés comme une vraie révolution depuis la télévision en couleur. Depuis 1998, 1000 heures de programmes en haute définition (1000h sur 250.000 au total) sont diffusées par terre, par satellite ou par câble, chaque semaine, avec une pénétration de 3% en 2004. Après le Japon en 2001 par satellite et en 2003 par terre, l’Australie et la Corée ont commencé à émettre et l’Europe (Euro 1080) et la Chine se lancent dans des expérimentations. La bande passante, même après compression, est un important problème qu’il faut négocier avec le nombre de programmes distribués. La compatibilité avec la télévision standard est un autre problème, qui nécessite de tenir compte des normes existantes. Un quatrième marché émergent concerne l’écoulement d’images vivantes sur mobile. On retrouve la télévision sur IP, mais avec un réseau mobile (de préférence en 3G). Le Japon est pionnier dans cette voie, mais l’Europe suit, la France notamment. La largeur de bande est relativement limitée, jusqu’à 380 kbit/s en centre-ville, mais la dimension de l’écran terminal l’est aussi. La perte d’informations en ligne (QoS) et la largeur de bande sont les principaux problèmes, avec celui du récepteur portable. La télévision mobile est le dernier marché émergent. De la télévision diffusée au portable, il y a une forme particulière de télévision numérique terrestre. Des expérimentations sont conduites en Europe et au Japon. La perte d’informations et la gestion de la bande sont des problèmes à évaluer (erreurs binaires, multiplexeurs, etc.). En Europe, des plans DVB-H estiment à 12 Mbit/s le taux total nécessaire, avec 128 à 384 kbit/s par service et 30 à 80 canaux. Une complémentarité devra être trouvée avec le marché précédent des images vivantes sur réseau mobile 3G. La représentation des normes audiovisuelles est la suivante : - IUT-T VCEG (Video Compression Experts Group) s’est le premier centré sur la communication vidéo et a produit la norme H.261, première norme de téléphonie vidéo, qui a été suivie par les normes H.263, H.263+, H.263++. Le groupe a également travaillé à des normes communes avec MPEG : H.262 qui est MPEG-2, H.264 qui est MPEG-4 et dont il fut en fait à l’origine. Il prévoit la norme H.265, prévue pour 2008. - MPEG a connu les dates importantes de MPEG-1 sur des images non entrelacées en octobre 1989, avec JVC et Kurihama ; celle de MPEG-2 sur des images entrelacées en novembre 1991, avec les mêmes acteurs. - SMPTE (Society of Moving Pictures and Television Engeneers) a limité en principe son activité à la reconnaissance des normes de compression existantes.(tel MPEG-2) pour la télévision et la production audiovisuelle. En fait, elle examine aussi les techniques de compression vidéo de Microsoft WM-9 et adopte la norme VC-9. - AVS (Audio Video Coding Standards) s’intéresse à la nouvelle norme chinoise pour la télévision et le DVD et finalise les configurations de télévision et de DVD, de vidéo et d’audio mobiles et de systèmes en développement. La compression La comparaison de MPEG-4 AVC avec MPEG 2 met en évidence un gain de 2 en taux de bits pour une qualité visuelle équivalente. MPEG-1 apparaît à l’ISO en 1988, MPEG-4 en 1993. Les principes du codage video reposent, pour l’image, sur une structure syntaxique de base : les macroblocs. Ceux-ci ont pour dimensions : 16x16 pixels en luminance Y, comprenant 4 blocs 8x8, et deux blocs 8x8 de chrominance CR (rouge) et CB (bleu). La compensation du mouvement s’applique aux macroblocs ou au niveau des blocs. La prévision des erreurs de codage s’appuie sur la transformation, la quantification et l’entropie du codage et elle est en général appliquée au niveau des blocs. La structure syntaxique de la vidéo part de groupes d’images, GOP, comprenant un bloc intra-images I, un bloc d’images prévisibles P et un bloc bidirectionnel B, le tout entrelacé. Typiquement on part de 10 images, 3x2 B, 3 P, I. On améliore ainsi l’efficacité de la compression, les images-B demandant moins de bits ; on permet une désincrustation temporaire ; on accroît la robustesse des bits, en limitant leurs dépendances. Une évolution des performances est attendue avec MPEG-4 AVC. Une norme commune à l’IUT-T et à l’ISO-IEC, H.264/MPEG-4, a été proposée par le groupe commun JVT (Joint Video Team) et approuvée en mai 2003 par l’IUT-T et en octobre 2003 par l’ISO (MPEG-4 partie 10). Il n’y a pas de révolution technique par rapport aux normes précédentes, mais un codage hybride fondé sur les blocs et une amélioration des concepts et outils existants, notamment pour les prévisions inter et intra-images. L’amélioration des performances est significative sur le taux de bits, par un facteur 2 comparé à MPEG-2, avec la même qualité visuelle, et sur la possibilité de transmettre de la télévision à haute définition et de la télévision mobile avec un taux de bits raisonnable. Mais la complexité algorithmique est bien plus élevée. Nouveaux enjeux techniques Le codage échelonné permet d’adapter le contenu vidéo.aux fluctuations du réseau (largeur de bande, perte de paquets, par ex.), aux capacités du terminal (puissance, dimension d’écran, par ex.), au profil d’utilisation (type d’accès, abonnement, par ex.). Les normes actuelles, MPEG-2 ou MPEG-4 partie 2, offrent déjà certaines possibilités : sorte d’échelonnage, codage hiérarchique ou en couches, mais une perte de taux de compression de l’ordre de 20% réduit son intérêt. Des solution nouvelles sont à l’étude, avec MPEG-21 partie 13 ou SVC, avec des performances proches de MPEG-4, mais avec pour objectif de dépasser adroitement AVC. Deux solutions sont en compétition : les pures ondelettes (t+2D) et MPEG-4 AVC plus des ondelettes temporelles. Mais les solution en ondelettes n’ont pas encore atteint leur maturité et les solutions fondées sur MPEG-4 AVC pourraient être prochainement disponibles, mais avec le risque de nuire au développement de AVC. La transformation en ondelettes a pour intérêt une représentation à échelles multiples, qui permet une adaptation naturelle à la résolution, et une décorrélation du signal qui permet un reserrement de l’énergie, favorable à une meilleure compression. Cette solution est adoptée par JPEG-2000, avec un taux de compression proche de 30% et une capacité de fonctions nouvelles, telles que l’échelonnage ou la progressivité, le choix de régions d’intérêt, un codage multi-composantes et le choix d’un codage avec ou sans pertes. Une voie d’amélioration est le maillage actif, qui augmente les prévisions fondées sur le mouvement, grâce à un riche modèle de déformation, avec translation, rotation, zoom ou cisaillements, qui permet un suivi dans le temps efficace et qui est naturellement adapté aux ondelettes de seconde génération. Quant à la compression audio, elle a pour objectif un codage de haute qualité, adapté à la musique et au son et loin du seul codage de la parole (CELP) et aussi de passer du mono au multi-canaux. L’évolution a été progressive avec celle des MPEG : - En 1992, on se préoccupait des cassettes compactes et de la radio numérique (Musicam), ainsi que de l’échange et de la circulation sur Internet. - En 1994, le MPEG-2 compatible arrière a permis une extension avec échantillonnage moitié et un multi-canaux (5.1) et muti-langues (jusqu’à 7 canaux). - En 1997, le MPEG-2 non compatible arrière a introduit le format AAC (Advanced Audio Coding), avec un taux d’échantillonnage de 8 à 96 kHz, un nombre de canaux de 1 à 48 et un débit par canal de 8 à 160 kHz. - En 2003, la dernière édition de MPEG-4 introduit
le format HE-AAC (High Efficiency AAC), en utilisant une réplique de la
bande passante pour améliorer AAC (AAC+SBR=HE-AAC) et en normalisant la DRM (Digital
Radio Mondial). - En 2004, le codage audio spatial permet un paramétrage à bas taux de bits pour une perception audio en 3D (Binaural Cue Coding), avec pour objectif le multi-canaux à 48 kbit/s (5.1) utilisant le codage HE-AAC+SA.
Pour ce qui concerne l’audio, on est
confronté au codage échelonné pour les taux de bits faibles et jusqu’au codage
transparent. On a besoin aussi de compression améliorée pour le codage spatial,
multi-canaux.
Eléments de
la discussion Une
question concerne les débouchés du visiophone après l’intense et prolongé
effort des chercheurs du CNET pour faire entrer une image de plus en plus
animée dans l’étroitesse d’une vois téléphonique, alors que c’est par le chemin
inattendu des portables que le visiophone semble s’ouvrir aujourd’hui un
marché. J.-P. Témime répond que, s’il est vrai que la visiophonie individuelle
n’a pas trouvé de marché dans les années 1980-90, par contre la visioconférence
institutionnelle a connu un succès certain. J. Girard ajoute que la visiophonie
sur portable n’est possible que grâce aux recherches conduites sur la
compression d’images et qu’il en est de même des débuts prometteurs de
l’audiovisuel sur portable, même si les ambitions de qualité ne sont pas les
mêmes qu’en vidéo classique. La
question est complétée par l’échec du transfert de la visioconférence sur le
poste de travail informatique. J.-P. Témime répond qu’il s’agit plus d’une
lenteur de mise en œuvre que d’un échec et que celle-ci est liée à un refus
initial de l’informatique dans beaucoup de professions. Une
autre question concerne le succès européen dans la normalisation de la
compression d’images, d’autant plus remarquable que l’Europe est rarement en
avance sur les Etats-Unis, mais avec pour conséquence le refus par les
américains de la norme européenne et leur choix d’ une norme différente. H.
Séguin souligne l’importance de ce succès européen trop peu mis en évidence,
mais ne peut que regretter cette position américaine, refusant ce qui ne vient
pas de ses laboratoires, pour des raisons évidentes de brevets. D’autres
questions posées dans une intéressante discussion n’ont pas pu être retenues. Acronymes ADSL, Asymetrical
Digital Subscriber Line BTRL, CCITT, Commission consultative internationale de télégraphie
et téléphonie CEPT, Commission européenne des Postes et
Télécommunications CNET, Centre national d’étude des télécommunications COST, Coopération scientifique et technique de la
Communauté européenne CSELT, Centre de recherche italien en télécommunications DPCM, Differential
Pulse Code Modulation IDATE, Institut de l’audiovisuel et des
télécommunications en Europe |