Skip to content

EMO: Die beeindruckende neue KI von Alibaba

Die KI-Forschung erreicht einen neuen Meilenstein mit Alibaba's neuestem KI-Framework, EMO.

EMO steht für "expressive audio-driven portrait video generation framework" und hat die bemerkenswerte Fähigkeit, sehr ausdrucksstarke und lebensechte Videos aus einem einzigen Referenzbild und einer Audiodatei zu erzeugen

Das neue KI-Framework von Alibaba, EMO, kann aus einer einzigen Referenz und einer Audiodatei lebensechte "sprechende Kopf"-Videos generieren.

Im Gegensatz zu traditionellen Methoden, die oft an der Erfassung des vollen Spektrums menschlicher Ausdrücke und individueller Gesichtsstile scheitern, zeigt EMO beeindruckende Fähigkeiten. EMO kann Videos mit expressiven Gesichtsausdrücken und verschiedenen Kopfhaltungen erzeugen, und das alles, während die Konsistenz des Charakters über längere Sequenzen bewahrt wird.

Die Technologie hinter EMO

Emo nutzt ein tiefes neuronales Netzwerk, das Diffusionsmodelle verwendet, ähnlich wie in DALLE oder Midjourney. Der Schlüssel zu EMO's beeindruckender Leistung liegt in der Konditionierung dieser Modelle auf Audio anstatt auf Text oder Bilder während des Trainings. Dadurch lernt EMO, subtile Gesichtsbewegungen genau nachzuahmen.

Die KI kann genutzt werden, um realistische sprechende und singende Videos in verschiedenen Stilen zu erzeugen. Das System ist in der Lage, die "Feinheiten" menschlicher Sprache und Gesang einzufangen und Animationen zu erzeugen, die der natürlichen menschlichen Bewegung stark ähneln.

Überlegenheit von EMO im Vergleich zu bestehenden Methoden

Experimentelle Ergebnisse zeigen, dass EMO bestehende Methoden in Bezug auf Ausdruckskraft und Realitätsnähe deutlich übertrifft.

Autor dieses Beitrags

Simon Feller

Experte für Künstliche Intelligenz (KI) und Prozessautomatisierung