Kuaishou (via sa filiale Kling AI) a mis à disposition KlingAvatar 2.0 le 4 décembre 2025, une mise à jour majeure de son outil de génération d’avatars vidéo. Le système permet de transformer une image statique et un fichier audio en une vidéo animée avec une synchronisation labiale et des expressions faciales dynamiques.
Au-delà de la performance technique, ce lancement marque une étape stratégique : avec 240 millions de dollars de revenus annualisés (janvier 2026) et une base de 22 millions d’utilisateurs, Kling AI utilise sa domination sur la génération vidéo généraliste pour attaquer le segment applicatif des avatars, jusqu’ici dominé par des acteurs spécialisés comme HeyGen ou Synthesia.
Ce qui est disponible : avatars 1080p et synchronisation multimodale
L’outil fonctionne sur un principe d’entrée simple : une photo (portrait) et une piste audio (voix). Le modèle génère ensuite une vidéo en 1080p à 30 images par seconde, animant le visage, les lèvres et le haut du corps pour correspondre au discours.
Contrairement aux versions précédentes qui souffraient de flou sur la durée, KlingAvatar 2.0 s’appuie sur un module “Director” multimodal. Ce composant fusionne les données de l’image, de l’audio et du texte (optionnel) pour maintenir la cohérence des traits du visage et assurer une synchronisation précise, incluant les micro-expressions comme les clignements d’yeux ou les hochements de tête.
L’accès se fait directement via l’interface web de Kling AI ou par API via des plateformes tierces comme Fal.ai et Replicate, facilitant son intégration dans des pipelines de production automatisés.
À quoi ça sert : marketing, formation et workflows créatifs
La versatilité du modèle ouvre des cas d’usage distincts de ceux de ses concurrents strictement “corporates” :
- Marketing et Contenu Brandé : Création rapide de présentateurs virtuels pour des publicités ou des vidéos explicatives, réduisant les coûts de tournage.
- Workflows Créatifs : La communauté utilise l’outil pour animer des personnages non-humains (animaux, cartoons, statues), là où d’autres outils se limitent au réalisme professionnel. Des intégrations avec Suno (musique) et ElevenLabs (voix) permettent de produire des clips musicaux ou narratifs complets.
- Formation : Production de tutoriels et modules e-learning multilingues sans nécessiter de ré-enregistrement vidéo.
Positionnement : 240M$ de revenus pour concurrencer les leaders
Kling AI n’est plus un simple projet de recherche. Avec un revenu annualisé (ARR) de 240 millions de dollars annoncé en janvier 2026, l’entreprise dispose d’une force de frappe financière comparable aux licornes américaines du secteur.
Le marché des avatars était jusqu’ici segmenté : HeyGen pour les entreprises, Synthesia pour la formation, D-ID pour l’animation rapide. Kling AI arrive avec une approche “tout-en-un”, bénéficiant de son statut de numéro 1 mondial en génération vidéo (classement Artificial Analysis, fin 2025) pour capter une audience plus large, allant du créateur individuel aux grandes entreprises, avec une tarification souvent plus flexible.
Contraintes techniques et retours d’usage
Malgré la qualité visuelle, les premiers retours utilisateurs et tests techniques soulignent certaines limites :
- Ajustements audio nécessaires : Des décalages légers entre le son et l’image nécessitent parfois un recalage manuel en post-production (Adobe Premiere, CapCut).
- Cadrage : La performance est optimale sur des plans serrés (visage/buste) mais se dégrade sur des plans larges où l’articulation peut paraître simplifiée.
- Personnage unique : Le système traite une photo et une voix à la fois, ne permettant pas encore de générer nativement des interactions complexes entre plusieurs avatars simultanés sans montage.
Ce qu’il faut retenir
- Disponibilité : KlingAvatar 2.0 est accessible depuis décembre 2025 via le web et API, produisant des vidéos en 1080p.
- Technologie : Le modèle améliore la stabilité temporelle et la synchronisation labiale grâce à une architecture multimodale.
- Marché : Kuaishou (240M$ ARR) défie directement HeyGen et Synthesia en proposant un outil plus versatile (humains et styles créatifs).
- Usage : Idéal pour le marketing et la création de contenu rapide, bien que nécessitant parfois des ajustements de montage pour l’audio.
Sources :