5 choses que vous devez savoir sur le dernier outil de conversion texte-vidéo d'OpenAI, « Sora »

OpenAI, le développeur de ChatGPT, a dévoilé silencieusement Sora, un modèle texte-vidéo. Sora peut créer des vidéos d'une durée maximale de 60 secondes présentant des scènes très détaillées, des mouvements de caméra complexes et plusieurs personnages aux émotions vibrantes.

OpenAI a déclaré que Sora fait toujours l'objet d'une équipe rouge pour s'assurer qu'il ne génère pas de contenu inapproprié ou nuisible. De plus, la société a accordé l’accès à une sélection d’« artistes visuels, designers et cinéastes » pour obtenir des commentaires sur l’évolution du modèle afin qu’il soit le plus utile possible aux professionnels de la création.

Peut générer des scènes complexes

Le modèle texte-vidéo d'OpenAI peut générer des scènes complexes avec plusieurs personnages, des types de mouvement spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle comprend ce que l'utilisateur a demandé dans l'invite et comment ces choses existent dans le monde physique.

Compréhension approfondie de la langue

Le modèle possède une compréhension approfondie du langage, ce qui lui permet d'interpréter avec précision les invites et de générer des personnages convaincants qui expriment des émotions vibrantes. Sora peut également créer plusieurs plans dans une seule vidéo générée qui représente avec précision les personnages et le style visuel.

Mais ce n'est pas parfait à 100%

OpenAI rapporte que Sora pourrait avoir du mal à simuler avec précision une physique complexe et à comprendre des scénarios de cause à effet spécifiques.

Par exemple, une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure.

De plus, le modèle peut être confondu avec les détails spatiaux d'une invite, comme le mélange de gauche et de droite, et il peut s'avérer difficile de décrire avec précision des événements qui se produisent au fil du temps, comme le traçage d'une trajectoire de caméra spécifique.

OpenAI en partenariat avec Red Teamers

OpenAI prend plusieurs mesures de sécurité pour rendre Sora disponible dans ses produits. L’entreprise s’est associée à des équipes rouges – des experts dans le domaine de la désinformation, des contenus haineux et des préjugés – qui testeront le modèle de manière contradictoire. Ces tests visent à garantir que Sora est sûr et fiable pour une utilisation dans les produits OpenAI.

La société développe également des outils pour détecter les contenus trompeurs, notamment un classificateur de détection capable de reconnaître les vidéos générées par Sora. Si le modèle est implémenté dans un produit OpenAI à l'avenir, ils prévoient d'inclure des métadonnées C2PA.

L'équipe utilise les méthodes de sécurité existantes conçues pour les produits DALL·E 3 pour préparer le déploiement de Sora. Leurs classificateurs de texte et d'images rejettent les contenus qui enfreignent les politiques d'utilisation, tels que la violence extrême, le contenu sexuel, les images haineuses et les ressemblances avec des célébrités.

L'entreprise prévoit de collaborer avec les décideurs politiques, les éducateurs et les artistes du monde entier pour comprendre leurs préoccupations et identifier des cas d'utilisation positifs de leur nouvelle technologie.

Malgré des recherches et des tests approfondis, l’entreprise reconnaît qu’il est impossible de prédire comment les gens utiliseront ou abuseront de la technologie. Par conséquent, ils estiment que l’apprentissage de l’utilisation réelle est un élément essentiel dans la création et la publication de systèmes d’IA de plus en plus sûrs au fil du temps.

Techniques de recherche

Sora est un modèle de diffusion qui génère une vidéo en « commençant par une vidéo qui ressemble à un bruit statique et en la transformant progressivement en supprimant le bruit sur plusieurs étapes ».

OpenAI indique que Sora peut générer des vidéos entières ou étendre les vidéos générées pour les rendre plus longues.

« En donnant au modèle une vision de plusieurs images à la fois, nous avons résolu un problème difficile consistant à garantir qu'un sujet reste le même même lorsqu'il est temporairement hors de vue », déclare la société.

Comme les modèles GPT, Sora utilise une architecture de transformateur, permettant une évolutivité supérieure.

Les vidéos et les images sont représentées sous forme de collections d'unités de données plus petites – des correctifs, similaires aux jetons dans GPT.

Cette représentation unifiée des données facilite l'entraînement des transformateurs de diffusion sur des données visuelles, y compris des durées, des résolutions et des rapports d'aspect variables.

Sora est un modèle d'IA qui s'appuie sur des recherches antérieures sur les modèles DALL·E et GPT. Il intègre la technique de récapitulation de DALL·E 3, qui génère des légendes hautement descriptives pour les données d'entraînement visuel. Cette technique permet à Sora de créer des vidéos qui suivent plus précisément les instructions textuelles de l'utilisateur.

En plus de pouvoir générer une vidéo uniquement à partir d'instructions textuelles, le modèle peut également créer une vidéo à partir d'une image statique en animant son contenu avec une grande précision et une grande attention aux détails.

Le modèle peut également prendre une vidéo existante et l'étendre ou remplir les images manquantes.

Sora peut servir de base à l'AGI en comprenant et en simulant le monde réel.