Kiosque à Actualités IA
Posts
🤔 DeepSeek-R1 : La révolution silencieuse de l'IA qui rebat les cartes

🤔 DeepSeek-R1 : La révolution silencieuse de l'IA qui rebat les cartes

+ Apprenez à l'utiliser sans internet, sur votre machine

Jonathan Bouaziz
31st janvier 2025

Heureux de vous retrouver, fans d'IA.

Une révolution vient de se produire dans le monde de l'intelligence artificielle, et elle vient de là où on ne l'attendait pas. DeepSeek AI, une entreprise relativement peu connue, vient de réaliser un exploit qui pourrait bien changer la façon dont nous développons l'IA.

Imaginez GPT-4 comme un iPhone 4 comparé aux nouveaux modèles d'IA. C'est exactement ce qui est en train de se passer avec l'arrivée de DeepSeek-R1, une innovation qui change complètement la donne dans le monde de l'IA.

Dans cet édition spéciale, je décortique l'innovation majeure de DeepSeek :

🤔 Qu'est-ce que Deepseek ?
🧮 Comprendre l'enjeu : Les défis du développement d'une IA
TUTO : 🎯 Comment utiliser DeepSeek
🤯 Pourquoi est-ce une révolution ?
👨‍🏫 La vraie innovation : Apprendre sans exemples
TUTO : 🖨️ Comment utiliser DeepSeek R1 sur votre ordinateur
🔮 L'impact sur l'avenir de l'IA
Plus d’actualités sur l’IA et la tech.

Temps de lecture : 4 minutes

L’ACTUALITÉ IA

KEZAKO

🤔 Qu'est-ce que Deepseek ?

https://x.com/TheJackForge/status/1883217483294986668

C'est un side-project d'une société chinoise spécialisée dans le trading quantitatif. En gros, cette entreprise emploie des mathématiciens et des développeurs de très haut niveau pour créer des algorithmes de trading performants.

Disposant déjà d'une infrastructure solide et de GPUs pour leur activité principale, ils ont réussi à développer un LLM avec un budget nettement inférieur à celui des géants du secteur comme OpenAI, Google ou Meta. Ils ont nommé ce projet DeepSeek et ont développé un modèle de raisonnement appelé DeepSeek (R1).

Les modèles :

DeepSeek V3 — Modèle de langage généraliste multilingue avec 671 milliards de paramètres, capable de traitement de texte, traduction et analyse avancée (comparable à OpenAI 4o).
DeepSeek R1 — Modèle de raisonnement spécialisé dans la résolution de problèmes complexes, avec une architecture Mixture-of-Experts (MoE). Performance remarquable sur des benchmarks mathématiques et de codage (comparable à OpenAI o1).

❝

“Ce n’est pas la Chine qui dépasse les États-Unis, mais l’open source qui dépasse les modèles fermés"

Yann Le Cun via Thread

⚠️ Comme toutes les annonces chinoises, il faut prendre les chiffres donnés (ex : coût d’entrainement,) avec des pincettes. Par contre, les publications ne mentent pas et DeepSeek est bel et bien Open Source.

C’EST PAS SORCIER

🧮 Comprendre l'enjeu : Les défis du développement d'une IA

Pour saisir l'importance de cette innovation, il faut comprendre les défis majeurs du développement d'une IA conversationnelle (LLM). Traditionnellement, créer un tel système nécessite :

Une quantité massive de données d'apprentissage
Une architecture complexe inspirée du cerveau humain (réseau neuronal)
Des milliards de paramètres à ajuster avec précision
Une puissance de calcul considérable, principalement fournie par les GPU NVIDIA
Des investissements colossaux : plusieurs milliards de dollars pour l'entraînement
Des coûts d'exploitation élevés pour faire fonctionner ces modèles

Face à ces défis considérables, l'approche de DeepSeek est d'autant plus remarquable.

5️⃣ DeepSeek-R1 : Une Approche en 5 Étapes

Pour arriver à ce résultat, DeepSeek a utilisé une approche en plusieurs phases :

Création d'une base solide avec un petit ensemble de données initiales
Apprentissage par renforcement pur
Création automatique de nouvelles données d'entraînement (via rejection sampling)
Fusion avec des connaissances existantes
Phase finale d'apprentissage par renforcement

Ce processus multi-étapes résout les défis initiaux comme la lisibilité et permet d'atteindre des performances exceptionnelles.

TUTO

🎯 Comment utiliser DeepSeek

DeepSeek R-1 est accessible via :

La plateforme gratuite DeepSeek ou leur appli mobile iOS
Une API abordable ($0.55/million tokens en entrée, $2.19/million en sortie)
Des plateformes partenaires comme Vellum et Fireworks AI
En l’installant sur votre machine (voir mon tuto plus bas)

😃 Fun fact : Pour utiliser l’API de DeepSeek, il faut utiliser la librairie openai.

Mon post LinkedIn sur le sujet

MAIS POURQUOI

🤯 Pourquoi est-ce une révolution ?

Démocratisation : 27 fois moins cher que les solutions existantes
Innovation : Apprentissage sans données étiquetées
Rapidité de développement : 2 mois vs 6 mois pour OpenAI
Open Source : Code et méthodologie accessibles à tous

Alors que OpenAI garde ses méthodes secrètes, DeepSeek adopte l'approche opposée — en partageant ouvertement ses progrès et en récoltant des éloges pour son engagement fidèle envers la mission open-source. Ou comme le dit Marc Andreessen:

https://x.com/pmarca/status/1882719769851474108

Les avantages concrets :

Coût : DeepSeek-R1 est 27 fois moins cher à utiliser que le modèle d'OpenAI
Transparence : Contrairement à OpenAI, DeepSeek partage ouvertement sa méthodologie
Performance : Le modèle égale les performances du dernier modèle d'OpenAI sur des tests complexes de mathématiques et de raisonnement
Accessibilité : Le code est open source, permettant à d'autres chercheurs de l'améliorer

Comparatif des coûts des modèles de raisonnement

OK JAMIE

👨‍🏫 La vraie innovation : Apprendre sans exemples

Jusqu'à présent, pour créer une IA capable de raisonner efficacement, il fallait lui fournir des milliers, voire des millions d'exemples étiquetés. C'est comme si vous deviez montrer à quelqu'un des milliers d'exemples de problèmes résolus avant qu'il ne puisse apprendre à les résoudre lui-même. Un processus long, coûteux et souvent limité.

DeepSeek vient de prouver qu'une autre approche est possible. Leur modèle, DeepSeek-R1-Zero, apprend à raisonner uniquement par essais et erreurs, sans avoir besoin d'exemples pré-étiquetés. C'est une première mondiale, et les résultats sont stupéfiants : le modèle atteint les mêmes performances que le modèle o1 d'OpenAI.

Le résultat ? Des performances égales au modèle o1 d'OpenAI, mais 27 fois moins cher à utiliser.

Comment ça marche ? Le secret réside dans une nouvelle méthode appelée GRPO (Group Relative Policy Optimization). Au lieu d'avoir un "coach" qui évalue chaque décision de l'IA, le système apprend en comparant ses performances à la moyenne du groupe sur des critères simples :

Cohérence : La réponse a-t-elle du sens ?
Complétude : La réponse est-elle complète ?
Fluidité : Le style est-il naturel ?

C'est comme si l'IA apprenait en se comparant constamment à ses pairs plutôt qu'en suivant des instructions strictes.

TUTO

🖨️ Comment utiliser DeepSeek R1 sur votre ordinateur

L'outil : Un guide complet pour utiliser DeepSeek R1 localement sur votre ordinateur via LM Studio, parfait pour ceux qui veulent garder leurs données en local.

Étape-par-étape :

Allez sur LM Studio et téléchargez la version pour votre système d'exploitation
Ouvrez LM Studio et rendez-vous dans l'onglet "Discover"
Cherchez "DeepSeek R1 Distill QU 7B” or “DeepSeek R1 D Llama” et téléchargez-le
Une fois téléchargé, trouvez-le dans "My Models" et sélectionnez le modèle “DeepSeek R1”
Cliquez sur "New Chat", écrivez votre prompt et envoyez
Le modèle vous répondra avec son raisonnement détaillé

💡 Astuce : Le modèle fonctionne entièrement en local, donc vos données restent sur votre machine !

N'hésitez pas à me dire si vous rencontrez des difficultés à l'installation, je vous aiderai à le configurer.

CONCLUSION

🔮 L'impact sur l'avenir de l'IA

DeepSeek vient de prouver que l'innovation en IA peut venir de directions inattendues. En combinant apprentissage par renforcement pur et approche open source, ils ont non seulement égalé les performances des leaders du marché, mais ont aussi potentiellement changé la façon dont nous développerons l'IA à l'avenir.

Quel impact sur l’industrie ? Cette avancée est particulièrement significative pour plusieurs raisons :

Elle démontre qu'il est possible de créer des IA performantes sans dépendre de vastes ensembles de données étiquetées
Elle ouvre la voie à une démocratisation de l'IA avancée
Elle accélère considérablement le rythme de l'innovation : DeepSeek a réalisé en 2 mois ce qu'OpenAI a mis 6 mois à développer

Cette avancée marque peut-être le début d'une nouvelle ère où l'IA avancée devient plus accessible, plus transparente et plus rapide à développer. Une chose est sûre : le paysage de l'IA ne sera plus jamais le même.

L'écart entre les modèles propriétaires et open-source semble se réduire, ce qui signifie que des entreprises comme OpenAI et Alphabet auront plus de mal à justifier leurs prix élevés. Si DeepSeek et d'autres concurrents maintiennent leur dynamique, l'industrie toute entière pourrait être bouleversée.

🔮 Ma prédiction : Si DeepSeek a réussi à faire ca en moins de 2 mois, attendez-vous à voir de nouveaux modèles de raisonnement apparaitre dans les prochaines semaines (pas mois, semaines...).

ART IA

Et si on allait au ski ?

Prompt Midjourney : A picture taken from an iPhone 16, landscape pov, a suburban park after a fresh snow, a sunny day with community members and kids sledding on the hill happily. The bill reaches a height that seems impossible, sloping uo gradually at first but then climbing ever higher and higher with children seen somehow cwreenng madly down it at all stages

@trilldad via Midjourney

LES OUTILS IA

Outils IA en vogue

🤖 Gemini 2.0 Flash Thinking Exp - Le nouveau modèle de raisonnement puissant de Google
🛍️ Omakase AI : Transforme ton site web en expérience retail propulsée par l'IA avec une simple URL — sans code nécessaire.
🧊 Hunyuan 3D 2.0 : Le nouveau système IA open-source de Tencent pour créer et animer des assets 3D de haute qualité
🏘️ Infuzu : Utilise une plateforme unique qui rassemble tous les modèles d'IA les plus performants et trouve automatiquement le meilleur pour chaque requête.
📢 Snoops : Trouve des clients potentiels ou des opportunités en surveillant les discussions sur Reddit grâce à l'IA.

PROMPT DU JOUR

Un business plan à la portée de tous

Prompt : En tant que stratège commercial expérimenté, rédige un business plan concis pour un [TYPE D'ENTREPRISE/INDUSTRIE]. Inclus un executive summary, la description de l'entreprise, l'analyse du marché, la structure organisationnelle, les détails des produits/services, les stratégies marketing et commerciales, les besoins de financement et les projections financières. Résume la vision et la mission de l'entreprise dans le résumé exécutif. Décris l'entreprise, sa proposition de valeur et son marché cible.

PLUS D’ACTU

Le reste de l’actualité IA

Sixième Sens — Une nouvelle étude montre que si vous utilisez beaucoup ChatGPT, vous pouvez probablement repérer les textes générés par l'IA, même s'ils sont passés au préalable par un logiciel d'"humanisation". Leurs expériences montrent que les annotateurs qui utilisent fréquemment les LLM pour des tâches d'écriture excellent dans la détection de textes générés par l'IA, même sans formation spécialisée ni retour. On parle de peu de testeurs “experts” (<10) mais ont tous dû annoter 300 articles, avec au final un taux d’erreur de 1 sur 300 (!).
Mon Insta, Ton IA — Meta vient d'annoncer une mise à jour de son chatbot Meta AI, désormais capable de personnaliser ses réponses grâce aux données des utilisateurs issues de Facebook et Instagram. Le modèle analysera les préférences de l’utilisateur, comme un régime alimentaire ou des centres d’intérêt, pour offrir des recommandations adaptées. Disponible aux États-Unis et au Canada, cette évolution ne manquera pas de soulever en Europe des questions sur la gestion des données personnelles.
Sortie de OpenAI Operator — Le premier produit agentique de la startup pourrait redéfinir notre relation avec l'IA, la transformant en un collaborateur dynamique plutôt qu'un simple outil passif. Operator utilise un nouveau modèle appelé CUA (computer using agent) pour naviguer sur le web comme un humain — tout en exprimant ses réflexions en cours de route. Cela signifie que vous pouvez effectuer des tâches complexes comme réserver un voyage avec une simple commande.
DeepSeek Images — La startup chinoise DeepSeek vient de lancer Janus-Pro, un modèle d'IA multimodal open-source qui surpasse ses rivaux majeurs DALL-E 3 et Stable Diffusion dans les benchmarks de qualité d'image. Disponible en versions 1B et 7B paramètres sous licence MIT, cette sortie fait suite à leur modèle R1. Essayez le ici.

VOUS ÊTES À JOUR

Merci d’avoir lu cet email !

Jonathan et l’équipe Kiosque AI.

PS : Si vous avez aimé la newsletter, partagez-la avec vos amis et collègues en leur envoyant ce lien.