Post

đŸ€– LLM Locaux : Gemma 4 vs Qwen3Coder

đŸ€– LLM Locaux : Gemma 4 vs Qwen3Coder

LLM Locaux - Gemma 4 26B vs Qwen 3 Coder 30B - Retour d’expĂ©rience

#Dev #AI #Hardware #LocalLLM

AprĂšs plusieurs jours/semaines en local sur Gemma 4 (26B A4B) et Qwen 3 Coder (30B A3B) voici mon verdict. On est face Ă  deux modĂšles qui boxent dans la mĂȘme catĂ©gorie mais qui se comportent assez diffĂ©remment.

Voici un rĂ©cap complet jusqu’à ma conclusion (sans langue de bois) sur l’utilitĂ© des LLM locaux pour du dĂ©v aujourd’hui. (selon moi)


⚙ 1. Le Guide de Survie Technique

Faire tourner ce genre de modĂšle chez soi demande un bon paramĂ©trage Ă  la mimine sous peine de voir sa machine et/ou les performances exploser en vol. Si vous voulez tester, voici quelques rĂšgles qui n’ont bien Ă©tĂ© utiles :

🌍 Les rùgles communes (Valables pour les deux modùles)

  • Gestion de la VRAM : Ne saturez jamais votre carte graphique. Laissez au moins 1 Go de VRAM de libre pour le systĂšme, mais remplissez-la au maximum pour trouver le point d’offload GPU optimal.
  • Stockage du contexte : Le contexte doit impĂ©rativement ĂȘtre stockĂ© dans la VRAM, sinon les performances s’effondrent instantanĂ©ment.
  • Quantification du KV Cache : Par dĂ©faut, il est en FP16. Si vous manquez de VRAM, quantifiez le KV Cache en Q8 (et pas moins). Cette compression du contexte permet de gratter 2, 3 ou 4 couches supplĂ©mentaires dans la VRAM.
  • Profils d’infĂ©rence : Chaque modĂšle vient avec des spĂ©cifications et des paramĂštres d’infĂ©rence prĂ©cis. Veillez Ă  bien reporter les bonnes valeurs de tempĂ©rature, top_p et pĂ©nalitĂ©s pour chacun d’eux pour obtenir des rĂ©sultats cohĂ©rents.

â˜Żïž SpĂ©cificitĂ©s : Qwen 3 Coder

  • L’appĂ©tit des tokens : Ce modĂšle bouffe les tokens comme un goinfre. Adaptez la taille du contexte Ă  la taille de votre projet.
    • Petits projets (ex: Tetris) : Bloquez Ă  15-25k tokens pour Ă©conomiser la VRAM, laisser de la place pour les couches et accĂ©lĂ©rer l’exĂ©cution.
    • Gros projets : On peut monter Ă  plus de 100k, mais attention Ă  la baisse drastique de vitesse. Un contexte trop bas tronquera la rĂ©ponse ou bridera la rĂ©flexion du modĂšle.
  • Limite de quantification : Ne descendez jamais sous le format Q4. Pour la version Coder, une quantification infĂ©rieure dĂ©truit complĂštement la logique et la pertinence du code gĂ©nĂ©rĂ©.

đŸȘ™ SpĂ©cificitĂ©s : Gemma 4

  • Gestion des tokens : Bonne nouvelle, il est beaucoup moins gourmand en tokens que son rival. Pour du dev standard, partez sur une base de 8192 tokens et ne montez au-dessus que si vous ressentez un rĂ©el besoin d’étendre la mĂ©moire du projet.
  • Le casse-tĂȘte du protocole : Gemma 4 utilise un protocole trĂšs rĂ©cent et moderne. ProblĂšme : son mode “Tool” (l’appel de fonctions / outils externes) est particuliĂšrement pĂ©nible Ă  configurer avec les plugins et extensions d’IDE actuels (comme VS Code), qui ne le supportent pas encore correctement. Attendez-vous Ă  devoir mettre les mains dans le cambouis pour stabiliser l’environnement de travail.

🧠 2. Match de comportement : Gemma 4 vs Qwen 3 Coder

Les deux modĂšles partagent un Ă©norme dĂ©faut : une approche “Brute-Force” / Straight-Forward. Ils ne cherchent pas Ă  Ă©crire du code propre ou scalable, ils cherchent juste Ă  rĂ©pondre au prompt immĂ©diatement, quitte Ă  gĂ©nĂ©rer un bordel monumental, impossible Ă  maintenir.

  • Gemma 4 : C’est le modĂšle rĂ©cent, trĂšs moderne dans son protocole
 un peu trop d’ailleurs. Actuellement, beaucoup d’extensions d’IDE (comme VS Code) ne le supportent pas encore nativement. Ses modes de rĂ©ponse font bugger les plugins existants, ce qui demande un effort de configuration pĂ©nible.
    • Comportement : Il est imprĂ©visible. Il peut ĂȘtre foudroyant de pertinence sur un truc complexe lĂ  oĂč on ne l’attend pas, et se gaufrer lamentablement la minute d’aprĂšs sur une broutille.
  • Qwen 3 Coder : Beaucoup plus constant et mature. Il fait de grosses boulettes beaucoup moins souvent, mais il n’est jamais impressionnant non plus. C’est le modĂšle 30B prĂ©dictif de base par excellence.

💡 Le conseil : Face Ă  leurs grosses boulettes (ou moins grosses d’ailleurs), n’insistez pas. Ne vous lancez pas dans une cascade de corrections (“corrige ça”, “ah non en fait remets comme avant”). Effacez simplement sa derniĂšre rĂ©ponse, repensez votre prompt initial et relancez proprement.


📉 3. Le problĂšme de la dĂ©gradation des performances

Au dĂ©but d’un projet, c’est fluide. Les deux modĂšles tournent Ă  environ 20-25 tokens par seconde (t/s). C’est tout Ă  fait acceptable.

Le drame arrive Ă  mesure que les heures passent : le contexte augmente et la charge de calcul explose de maniĂšre exponentielle.

  • AprĂšs quelques heures de dev, la vitesse est divisĂ©e par deux (~10 t/s).
  • Au bout de deux jours de dev, on tombe Ă  2 ou 3 tokens par seconde.

Le moindre script un peu lourd met 5 bonnes minutes Ă  gĂ©nĂ©rer. Si le code dĂ©conne et qu’il faut refaire une passe, c’est reparti pour 5 minutes d’attente. Travailler dans ces conditions est tout simplement invraisemblable.


⚖ 4. Verdict : Le grand paradoxe de l’assistant local

Ces modĂšles souffrent d’un paradoxe majeur. Pour obtenir de bons rĂ©sultats, il faut ĂȘtre extrĂȘmement directif et guider l’IA en citant explicitement les classes et les fonctions. Si vous la laissez libre, elle part dans le dĂ©cor.

Le Paradoxe : Pour diriger efficacement l’IA, il faut ĂȘtre soi-mĂȘme un excellent analyste et parfaitement connaĂźtre son sujet. Un dĂ©butant total se fera submerger par les erreurs du modĂšle et passera son temps Ă  demander Ă  l’IA de se corriger elle-mĂȘme en priant. Quant au professionnel, s’il doit concevoir toute l’architecture lui-mĂȘme et passer son temps Ă  fliquer la machine, ça ira plus vite Ă  coder tout seul.

De plus, faire tourner un 30B demande une bonne machine moyen de gamme dĂ©diĂ©e. Si vous l’utilisez sur votre PC principal, le navigation web et les applications font vite se retrouver Ă  court de RAM et tout faire ramer.


đŸ–„ïž 5. La Machine de Test (Hardware dĂ©diĂ©)

Pour que ces retours d’expĂ©rience soient pertinents, il faut garder en tĂȘte que tous ces tests ont Ă©tĂ© rĂ©alisĂ©s sur une machine de milieu de gamme entiĂšrement dĂ©diĂ©e Ă  cette tĂąche (laissant ainsi le PC principal 100% libre pour le code).

Voici la fiche technique de la bécane :

1
2
3
4
5
6
7
[ CONFIGURATION DE TEST ]
-----------------------------------------------------------------
‱ CPU     : AMD Ryzen 7 5700X
‱ RAM     : 32 Go DDR4 @ 3600 MHz
‱ GPU     : Nvidia RTX 5070
‱ STORAGE : NVMe M.2 4 To
-----------------------------------------------------------------

⚠ Constat d’allocation : Sous LM Studio, quasi 100% des ressources mĂ©moire Ă©taient utilisĂ©es (RAM + VRAM). Si la configuration dispose d’une belle marge en computing pur, on se retrouve face au grand classique des LLM : le fameux bottleneck sur la bande passante mĂ©moire.

🛑 Conclusion : Uninstall direct

Pour moi, la conclusion est implacable. À moins d’avoir un besoin ultra-spĂ©cifique (aucun accĂšs internet, donnĂ©es ultra-secrĂštes), le jeu n’en vaut pas la chandelle.

Ces modĂšles 30B locaux ne sont que des produits d’appel, des apĂ©ritifs pour donner envie d’utiliser les gros modĂšles en ligne. Ils ne font pas assez bien le travail pour justifier le blocage d’une machine dĂ©diĂ©e chez soi. Sur tous mes projets rĂ©cents, coder seul aurait Ă©tĂ© plus rapide.

RĂ©sultat : suppression des fichiers de ma machine. Je prĂ©fĂšre largement payer des tokens Ă  l’utilisation ou prendre un abonnement pour un gros modĂšle Cloud performant. C’est nettement plus rentable, infiniment plus rapide, et ça libĂšre mes cartes graphiques pour autre chose.

This post is licensed under CC BY 4.0 by the author.