Gemini 3.1 Pro : Google DeepMind franchit un cap majeur en raisonnement abstrait
Avec 77,1 % sur ARC-AGI-2, le nouveau modele de Google surpasse ses concurrents directs et relance la course vers l'AGI
Le 19 fevrier 2026, Google DeepMind a lance Gemini 3.1 Pro, une evolution significative de sa serie Gemini 3 qui marque un bond sans precedent en raisonnement abstrait. Le modele affiche un score de 77,1 % sur ARC-AGI-2, le benchmark de reference pour evaluer la capacite des IA a resoudre des problemes logiques inedits — soit plus du double du score de Gemini 3 Pro (31,1 %) et bien au-dessus de Claude Opus 4.6 (68,8 %) et de GPT-5.2 (52,9 %).
ARC-AGI-2, concu par l'ARC Prize Foundation, est considere comme l'un des tests les plus discriminants vers l'intelligence artificielle generale (AGI) car il requiert une capacite d'abstraction et de generalisation que les modeles traditionnels peinent a acquerir par simple scaling. Un score de 77,1 % represente donc une avancee qualitative, pas seulement quantitative.
Au-dela du raisonnement, Gemini 3.1 Pro excelle sur plusieurs fronts : SWE-Bench Verified a 80,6 % (resolution de bugs en conditions reelles), GPQA a 94,3 % (questions d'experts en sciences), et Terminal-Bench 2.0 a 68,5 % pour les taches agentiques en ligne de commande. Le modele gere un contexte de 1 million de tokens et genere jusqu'a 64 000 tokens par requete, le rendant adapte aux documents longs et aux workflows complexes.
Disponible via l'API Google AI et dans les applications grand public (Gemini.google.com), le modele a ete accompagne d'une demonstration frappante : un agent planificateur urbain capable d'analyser des terrains, simuler le trafic et generer des plans d'urbanisme detailles en temps reel. Ces demos agentiques illustrent la trajectoire de Google vers des agents IA capables d'executer des taches du monde reel de bout en bout.
Sur le plan de la securite, Google DeepMind confirme qu'aucun seuil critique n'a ete franchi dans les evaluations CBRN (chimique, biologique, radiologique, nucleaire) ou cyberoffensives, permettant un deploiement immediat selon son Frontier Safety Framework. Ce lancement s'inscrit dans une semaine particulierement dense pour l'IA, ou Anthropic (Claude Sonnet 4.6 le 17 fevrier) et MiniMax (M2.5 le 19 fevrier) ont aussi publie des modeles majeurs, intensifiant une competition a trois bandes entre Google, Anthropic et les acteurs open-weights.
Claude Sonnet 4.6 : Anthropic efface la frontiere entre modele mid-tier et flagship
Le 17 fevrier 2026, Anthropic a publie Claude Sonnet 4.6, une mise a niveau qui rebat les cartes du marche des LLM. Le modele affiche des performances comparables a Claude Opus 4.6 — le flagship de la gamme — tout en conservant la tarification plus accessible de la ligne Sonnet (3 USD / 15 USD par million de tokens en entree/sortie).
Les gains les plus notables concernent le codage (meilleure consistance, suivi d'instructions plus fiable, moins de sur-ingenerie), l'utilisation informatique (navigation dans des tableurs et formulaires complexes au niveau humain sur OSWorld-Verified) et les taches agentiques multi-etapes. La resistance aux injections de prompts a ete renforcee, et le taux d'hallucinations reduit.
La nouveaute la plus attendue : une fenetre de contexte de 1 million de tokens en beta, avec compaction automatique pour les conversations tres longues. Lors des tests internes et aupres des developpeurs en acces anticipe, 59 a 70 % des evaluateurs preferaient Sonnet 4.6 a Opus 4.5 dans les workflows de codage et d'analyse. Ce resultat illustre la convergence acceleree entre modeles mid-tier et frontier, une dynamique qui comprime les marges et force tous les acteurs a revoir leur grille tarifaire.
Pour les entreprises, Claude Sonnet 4.6 devient une option credible pour scaler des agents autonomes a moindre cout — un avantage strategique concret alors qu'Anthropic vient de lever 30 milliards de dollars pour accelerer son developpement.
Anthropic leve 30 milliards de dollars : la plus grande levee privee de l'histoire de l'IA
Le 13 fevrier 2026, Anthropic a annonce une levee de fonds de 30 milliards de dollars dans le cadre d'une Serie G, portant sa valorisation post-money a 380 milliards de dollars. Ce tour est co-mene par GIC (fonds souverain de Singapour) et Coatue, avec la participation de D.E. Shaw, Dragoneer, Founders Fund, ICONIQ Capital, MGX, Microsoft et NVIDIA, parmi d'autres.
Les chiffres operationnels qui sous-tendent cette valorisation sont sans equivoque : 14 milliards de dollars de revenus annualises (croissance de plus de 10x sur un an), plus de 500 clients generant chacun plus d'un million de dollars par an, et le produit Claude Code atteignant un run-rate de 2,5 milliards de dollars. Huit des dix plus grandes entreprises mondiales (Fortune 10) utilisent desormais Claude.
Ce tour depasse la levee record d'OpenAI et s'impose comme la plus importante jamais realisee dans le secteur technologique prive. Les fonds seront destines a la recherche en securite IA, au developpement de nouveaux modeles et a l'expansion de l'infrastructure. Cette levee confirme la position d'Anthropic comme leader en IA d'entreprise fiable, avec une offre qui couvre le codage agentique, l'analyse legale, la finance et la cybersecurite. Elle illustre aussi la concentration croissante du capital dans quelques acteurs frontier capables de rivaliser avec Google et OpenAI.
MiniMax M2.5 : un modele open-weights de 229 milliards de parametres
Le 19 fevrier 2026, la startup chinoise MiniMax a publie M2.5, un modele open-weights de 229 milliards de parametres (architecture MoE) sous licence MIT modifiee. Il atteint 80,2% sur SWE-Bench Verified et 51,3% sur Multi-SWE-Bench, avec un contexte de 200 000 tokens et un prix 10 a 20 fois inferieur aux modeles frontier concurrents (environ 1 USD/heure en continu). Deux variantes sont disponibles : M2.5 (50 tokens/s) et M2.5-Lightning (100 tokens/s).
Google integre Lyria 3 dans Gemini : la musique generative accessible a tous
Le 18 fevrier 2026, Google a integre Lyria 3, son modele de generation musicale de nouvelle generation, directement dans l'application Gemini. Les utilisateurs peuvent desormais creer des pistes musicales de 30 secondes a partir d'une description textuelle, d'une photo ou d'une video. Chaque creation est protegee par un filigrane numerique invisible via la technologie SynthID de DeepMind, pour identifier les contenus generes par IA.
Qwen 3.5 : Alibaba publie un modele open-weight de 397 milliards de parametres supportant 201 langues
Le 16 fevrier 2026, l'equipe Qwen d'Alibaba a lance Qwen 3.5-397B-A17B, premier modele open-weight de la serie Qwen 3.5. Avec une architecture hybride (delta networks lineaires + MoE sparse), il active seulement 17 milliards de parametres sur 397, ce qui lui confere une vitesse de decodage 8,6 a 19 fois superieure a Qwen3-Max. Le modele supporte 201 langues et dialectes (contre 119 pour Qwen3), avec une fenetre de contexte native de 262 000 tokens extensible a 1 million. Disponible en Apache 2.0 sur HuggingFace et ModelScope.
Le NIST lance une initiative de standards pour les agents IA
Le 17 fevrier 2026, le National Institute of Standards and Technology americain (NIST) a lance une initiative industrie pour developper des standards formels regissant les agents IA autonomes : interoperabilite, securite, confiance et supervision humaine. Cette demarche vise a encadrer le deploiement croissant d'agents IA dans les environnements critiques et a faciliter leur adoption en entreprise. Les parties prenantes du secteur sont invitees a contribuer au processus de normalisation.
DeepSeek accusee d'attaques de distillation contre les modeles OpenAI et Google
Le 14 fevrier 2026, OpenAI et Google ont signale aupres du Congres americain des attaques massives de distillation attribuees a DeepSeek. Ces attaques consistent a interroger systematiquement les APIs frontier avec des centaines de milliers de prompts pour extraire les raisonnements et entraîner des modeles copies a moindre cout. OpenAI decrit cette methode comme faisant partie d'un 'CCP playbook' pour 'voler, copier et tuer'. Google a documente une campagne ciblant Gemini via des langues non-anglophones pour contourner les filtres. Les deux labs appellent a une intervention legislative americaine et investissent dans des defenses 'anti-distillation'.
Macron au sommet IA de New Delhi : plaidoyer pour une IA souveraine et inclusive
Le 19 fevrier 2026, Emmanuel Macron a prononce un discours-cle a l'India AI Impact Summit 2026 a New Delhi, saluant la strategie indienne de l'IA souveraine (modeles legers sur smartphones, 38 000 GPUs finances par l'Etat pour les startups) et critiquant la vision americaine centree sur les tres grands acteurs. Il a plaide pour un axe France-Europe-Inde base sur l'innovation responsable et la souverainete numerique, et a egalement tacite les partenaires europeens qu'il juge 'mal informes' sur la situation competitive reelle.
OpenAI deprecie GPT-4o dans ChatGPT : la fin d'un modele iconique — Effectif des le 13 fevrier 2026, OpenAI a retire GPT-4o de ChatGPT pour pousser ses utilisateurs vers la serie GPT-5. La decision a suscite des reactions vives dans la communaute, certains evoquant la perte d'un outil fiable et d'une personnalite attachante. →
Peter Steinberger (OpenClaw) rejoint OpenAI pour developper des agents personnels — Le 15 fevrier 2026, Peter Steinberger, createur du client AI OpenClaw, a annonce rejoindre OpenAI pour travailler sur les agents personnels autonomes. OpenClaw devient une fondation independante, signalant la montee en puissance des agents IA personnalises comme nouveau champ de bataille strategique. →
GPT-5.3 Codex Spark : 1000 tokens/s grace a Cerebras — Lance en preview le 12 fevrier 2026 en partenariat avec Cerebras et ses puces wafer-scale, GPT-5.3 Codex Spark produit du code a plus de 1000 tokens par seconde — 15 fois plus vite que les modeles anterieurs — pour des boucles de prototypage quasi-instantanees dans VS Code et la CLI Codex. →
Glossaire
ARC-AGI-2
Benchmark de la ARC Prize Foundation qui evalue la capacite d'un modele a resoudre des problemes visuels et logiques inedits necessitant une vraie generalisation abstraite. Un score eleve sur ARC-AGI-2 est considere comme un indicateur fort de progression vers l'AGI.
SWE-Bench Verified
Benchmark evaluant la capacite des modeles IA a resoudre des bugs reels issus de depots GitHub open-source, en conditions proches du travail d'ingenierie logicielle professionnel. Version 'Verified' implique une validation humaine des tests.
MoE (Mixture of Experts)
Architecture de reseau de neurones qui active uniquement un sous-ensemble de parametres (les 'experts') pour chaque requete, permettant d'avoir un modele tres large en parametres totaux tout en maintenant une inference rapide et economique.
Distillation de modele
Technique consistant a interroger massivement un modele IA existant pour en extraire les raisonnements et entraîner un modele derive plus petit ou concurrent. Dans le contexte de DeepSeek, le terme designe une forme d'extraction non autorisee qualifiee de vol de propriete intellectuelle.
SynthID
Technologie de filigrane numerique invisible developpee par Google DeepMind, integree dans les contenus audio, image et video generes par IA pour permettre leur identification ulterieure sans alterer la qualite perceptible.
Lyria 3
Modele de generation musicale de Google DeepMind integre dans Gemini en fevrier 2026, capable de produire des pistes musicales de 30 secondes a partir de texte, photo ou video, avec filigrane SynthID automatique.
Claude Sonnet 4.6
Modele de langage d'Anthropic lance le 17 fevrier 2026, positionne dans la gamme mid-tier mais atteignant des performances proches du flagship Opus 4.6 sur les benchmarks de codage et d'agentique, avec une fenetre de contexte de 1 million de tokens en beta.
Gemini 3.1 Pro
Modele multimodal de Google DeepMind lance le 19 fevrier 2026, qui etablit un nouveau record sur ARC-AGI-2 (77,1%) et sur SWE-Bench Verified (80,6%), disponible via l'API Google AI et les applications grand public Gemini.