Restructuration-Dette.fr

Le site d’actualités sur la finance et l’entrepreneuriat !

Deepseek a une grosse sueur technique, mais les investisseurs devraient rester au frais

Deepseek a une grosse sueur technique, mais les investisseurs devraient rester au frais

Pourquoi l'efficacité de Deepseek est une excellente nouvelle pour l'industrie – et pour les actions de l'IA aussi

Depuis la startup de l'IA chinoise En profondeur Jeté son nouveau modèle R1 – qui rivalise avec les meilleurs robots américains comme Chatgpt – les actions AI ont été sur une promenade de montagnes russes sauvages.

La nouvelle a été explosive, suscitant les craintes que les entreprises reculent sur leurs dépenses extrêmes de l'IA. Qui a conduit le fabricant de puces Nvidia (NVDA) Pour perdre 600 milliards de dollars en valeur marchande en quelques heures seulement lundi – la plus grande baisse d'une journée de l'histoire du marché.

Sans surprise, il y a eu beaucoup de discussions sur Deepseek, Nvidia et le reste de l'univers de l'IA au cours des derniers jours.

Mais la principale question qui se demande est: Comment?

Comment une startup chinoise pratiquement inconnue a-t-elle perturbé l'ensemble de l'industrie mondiale de l'IA, aurait développé le modèle le plus avancé du monde pour seulement environ 5 millions de dollars?

Pourtant, nous pensons que la question la plus importante peut être: Qu'est-ce que ça veut dire?

Que signifie la percée de Deepseek pour l'industrie dans son ensemble? Est-ce que cela marquera la fin du Big Bull Run en actions d'IA? Ou la vente récente est-elle juste une réaction excessive, ce qui en fait une opportunité d'achat très convaincante?

Dans ce numéro, nous tenterons de répondre à ces questions, au mieux de nos capacités. Et ce faisant, nous espérons vous indiquer Quelques choix de stock gagnants futurs.

Faire plus avec moins

Alors… comment Deepseek l'a-t-il fait?

Sur la base de nos recherches, le succès de la startup est venu via l'ingénierie innovante née de la nécessité géopolitique.

Autrement dit, au cours des deux dernières années, l'approche des États-Unis pour construire des modèles AI de nouvelle génération a été de «y jeter de l'argent». Créez plus de centres de données. Achetez plus de GPU. Embaucher plus d'ingénieurs pour construire, former et faire avancer plus de modèles en plus de tous ces GPU.

Mais en raison des tensions géopolitiques en cours, les entreprises d'IA chinois ont dû utiliser une stratégie différente. Depuis le début du boom de l'IA, les États-Unis ont toujours appliqué des interdictions d'exportation sur les puces de l'IA vers la Chine, limitant ainsi le nombre de chips que les entreprises chinoises peuvent acheter. Ils n'ont pas pu utiliser l'approche «plus, plus, plus» que Microsoft (MSFT), Alphabet (Googl), Amazone (Amzn) et d'autres l'ont fait ces dernières années.

Au lieu de cela, les développeurs chinois ont été obligés d'adopter une mentalité «faire plus avec moins».

Cela a conduit Deepseek à se concentrer sur un mélange innovant de techniques d'ingénierie pour créer un modèle d'IA super efficace.

Maintenant, je ne ferai pas semblant de comprendre ces techniques à un niveau granulaire. Bien que je sois familier avec différentes compositions de modélisation d'IA, je ne suis pas moi-même un développeur de classe mondiale.

Cependant, j'ai suffisamment étudié ce sujet pour avoir une compréhension générale de ce qui a fait le modèle de Deepseek. Et alerte de spoiler: c'est assez soigné.

Une architecture innovante fait entendre Deepseek

Au cœur de la percée de Deepseek s'appelle quelque chose Mélange (MOE) Architecture.

En bref, la plupart des modèles d'IA sont créés aujourd'hui pour être omnipotend. Ils essaient d'être des médecins, des avocats et des ingénieurs qui ont tous été réunis en un seul – des experts sur un nombre quasi infini de matières. Lorsque vous posez un modèle général comme Chatgpt une question, toute son architecture «se réveille» pour répondre car toutes ses connaissances expertes sont réunies en un seul modèle.

Mais Deepseek utilise une architecture MOE. Dans un sens, il a créé une salle d'experts multiples, où chacun est séparé et distinct. Il s'agit d'un modèle composé de plusieurs sous-modèles spécifiques à un sujet. Par conséquent, lorsque vous posez une question Deepseek, la seule partie du modèle qui «se réveille» est le sous-modèle expert pertinent pour votre question.

Grâce à cette approche modulaire, Deepseek peut économiser une immense quantité de puissance de calcul sur chaque requête car seule une partie du modèle est réveillée par requête. Selon les propres numéros de Deepseek, son modèle V3 est formé sur près de 700 milliards de paramètres. Mais seulement environ 20 milliards de ceux-ci – ou moins de 5% – sont activés simultanément à un moment donné.

Cette réduction drastique des paramètres activés est en partie ce qui a permis à Deepseek de créer une IA aussi bonne que les modèles principaux pour environ 95% de coûts inférieurs.

Certes, Deepseek n'est pas la seule entreprise au monde à utiliser l'architecture MOE. Mais grâce à une variété de nouvelles techniques d'ingénierie, il semble que ce soit l'entreprise qui a pu la perfectionner et l'étendre.

Et c'est ainsi qu'une startup d'IA chinoise pratiquement inconnue a perturbé toute l'industrie mondiale de l'IA.

Mais qu'est-ce que cela signifie pour les autres dans l'espace? Est-ce le début du coffre de Dot-Com de l'IA Boom?

Au contraire, nous considérons en fait la percée de l'efficacité de Deepseek comme une excellente nouvelle pour l'industrie – Et une excellente nouvelle pour les actions d'IA aussi.

Avatar de Christophe