Sélectionner une page
Accueil » Tous les articles » Comparer 4 modèles LLM en local : le crash test en français

Comparer 4 modèles LLM en local : le crash test en français

par | Juin 20, 2026 | IA & Automatisation | 0 commentaires

| Mis à jour le 20 juin 2026

Ollama et Open web UI installés, modèles téléchargés – reste à savoir lequel utiliser au quotidien. Un prompt unique soumis aux 4 modèles permet de les départager rapidement sur ce qui compte : logique, maîtrise du français, et comportement de la machine.


La configuration de test

  • Mini PC sous Ubuntu, processeur Intel i5, 16 Go de RAM
  • Inférence CPU uniquement – pas de GPU dédié
  • 4 modèles testés via Open WebUI connecté à Ollama. Voir le processus d’installation dans l’article Installer Ollama et Open WebUI sur Ubuntu avec Docker.

Les 4 modèles et leurs caractéristiques :

ModèleTailleProfil
qwen2.5:3b~2,2 Go RAMPetit modèle, développé par Alibaba
gemma2:2b~1,6 Go RAMTrès compact, développé par Google
llama3.1 (8B)~4,7 Go RAMModèle de référence de Meta
mistral (7B)~4,1 Go RAMDéveloppé en France par Mistral AI

Le protocole : un seul prompt, quatre critères

Le même prompt a été soumis à chacun des 4 modèles, sans modification :

« Résous ce problème de logique étape par étape : Trois personnes (Alice, Bob et Charlie) ont chacune une couleur de pull différente (Bleu, Rouge, Vert). Alice dit qu’elle ne porte pas de bleu. Charlie porte un pull vert. Quelle est la couleur du pull de Bob ? Ensuite, traduis cette expression anglaise de manière naturelle en français : ‘It is raining cats and dogs’. Enfin, écris une seule phrase poétique sur la pluie. »

Ce prompt évalue quatre critères en une seule passe :

  • Logique : résoudre l’énigme par déduction (solution attendue : Bob = Bleu)
  • Traduction idiomatique : éviter la traduction littérale, trouver l’équivalent naturel en français
  • Créativité : qualité et fluidité de la phrase poétique
  • Comportement machine : vitesse d’affichage, charge CPU et RAM observées via htop

Résultats modèle par modèle

qwen2.5:3b – L’outsider agile

Logique : correct. Raisonnement concis, conclusion juste (Bob = Bleu).

Traduction : excellent. Non seulement il évite la traduction littérale, mais il propose spontanément quatre variantes naturelles – « Il pleut à torrents », « Il pleut à verse », « Il pleut comme jamais ». C’est la meilleure performance du test sur ce critère.

Poésie : correct mais artificiel. « La pluie, symbole de caresses tendres, descend doucement sur les cieux en vers libérés. » La construction est maladroite.

Machine : très bon comportement. Affichage quasi instantané, charge CPU modérée, RAM peu sollicitée. La machine reste disponible pendant et après le test.


gemma2:2b – Le petit modèle décevant

Logique : faux. Il identifie correctement que Charlie porte le vert et qu’Alice ne porte pas le bleu, mais conclut que Bob porte le rouge au lieu du bleu. C’est la limite des modèles à 2 milliards de paramètres : la « surface cognitive » est insuffisante pour enchaîner correctement plusieurs étapes de déduction avec une négation.

Traduction : échec. Il traduit « It is raining cats and dogs » par « Il pleut des chats et des chiens » – traduction littérale, qui perd tout le sens de l’expression.

Poésie : simpliste. Il écrit trois lignes au lieu d’une seule phrase, et ignore la consigne.

Machine : comportement moyen. Plus lent que qwen2.5:3b malgré sa taille inférieure – l’architecture de Gemma est plus gourmande en ressources CPU relativement à sa taille.


llama3.1 (8B) – Le raisonneur méthodique

Logique : correct, mais avec un comportement inattendu. Le modèle a mobilisé tellement de tokens sur la résolution de l’énigme qu’il n’a pas traité le reste du prompt dans un premier temps. Une relance a suffi pour obtenir les réponses aux deux questions suivantes, parfaitement traitées. Ce phénomène d’attention est classique sur les prompts longs avec des modèles de grande taille.

Traduction : parfait. « Il pleut des cordes » – sans hésitation.

Poésie : très bon. Phrase mélancolique, syntaxe propre, vocabulaire soigné.

Machine : lourd. Affichage lent, charge CPU élevée sur les 8 coeurs, RAM fortement sollicitée. La mémoire reste chargée plusieurs minutes après la fin du test – c’est un comportement normal d’Ollama, qui maintient le modèle en RAM pendant 5 minutes pour éviter un rechargement à la prochaine question. La machine revient à la normale d’elle-même.


mistral (7B) – La surprise du test

Logique : correct, et avec l’explication la plus rigoureuse des quatre modèles. Le raisonnement est structuré et précis.

Traduction : moyen. Il donne « Il pleut des cordes » mais commence par rappeler la traduction littérale « Il pleut des chiens et des chats » avant de la corriger – une maladresse que les autres modèles n’ont pas.

Poésie : faute de grammaire. Mistral écrit : « Les gouttes de pluie sont les diamants que tombent du ciel. » Il aurait fallu écrire « qui tombent ». C’est la surprise du test : un modèle développé en France, réputé pour son français, commet une erreur de syntaxe élémentaire. Cela illustre l’effet de la quantification – la compression du modèle pour réduire sa taille peut dégrader certaines compétences, même sur la langue maternelle du modèle.

Machine : critique. C’est le modèle le plus lourd du test. Avec Home Assistant et les autres containers actifs en parallèle, la machine a atteint la limite de sa RAM physique et a commencé à utiliser le Swap (espace disque utilisé comme mémoire de secours). Le système est resté saturé environ 30 minutes avant de revenir à la normale.


Tableau récapitulatif

Critèreqwen2.5:3bgemma2:2bllama3.1 (8B)mistral (7B)
LogiqueCorrectFauxCorrectCorrect
TraductionExcellentÉchecParfaitMoyen
PoésieCorrectSimplisteTrès bonFaute de syntaxe
VitesseRapideMoyenLentLent
Impact machineLégerMoyenLourdCritique

Ce que ce test apprend sur les LLM locaux

La taille ne fait pas tout. qwen2.5:3b (3 milliards de paramètres) surpasse gemma2:2b (2 milliards) sur tous les critères linguistiques, y compris la traduction en français, alors qu’il est plus grand. L’architecture et les données d’entraînement comptent autant que le nombre de paramètres.

Les modèles « français » ne sont pas immunisés contre les fautes. Mistral, développé en France, commet une erreur de grammaire que les autres évitent. La réputation d’un modèle sur sa langue d’origine ne garantit pas des résultats irréprochables après compression.

Les grands modèles ont un coût réel sur CPU. Llama 3.1 et Mistral sont utilisables, mais pas sur une machine déjà chargée par d’autres services. Sur un PC dédié uniquement à Ollama, le résultat serait différent.


Recommandation pour ma configuration

Au quotidien : qwen2.5:3b. Rapide, léger, excellent en français, il ne sollicite pas la machine. C’est le modèle à utiliser en priorité sur une machine qui fait tourner d’autres services en parallèle.

Pour les tâches complexes : llama3.1 si la machine est disponible et si tu peux attendre. Son raisonnement logique est de haut niveau.

À désinstaller : gemma2:2b. Ses performances en logique et en français sont insuffisantes, et il n’offre aucun avantage sur qwen2.5:3b malgré sa taille inférieure.

À utiliser avec précaution : mistral. Ses qualités de raisonnement sont réelles, mais son impact sur la RAM est trop important pour une machine partagée avec d’autres containers.

0 0 votes
Évaluation de l'article
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x