đ€ LLM Locaux : Gemma 4 vs Qwen3Coder
LLM Locaux - Gemma 4 26B vs Qwen 3 Coder 30B - Retour dâexpĂ©rience
#Dev #AI #Hardware #LocalLLM
AprĂšs plusieurs jours/semaines en local sur Gemma 4 (26B A4B) et Qwen 3 Coder (30B A3B) voici mon verdict. On est face Ă deux modĂšles qui boxent dans la mĂȘme catĂ©gorie mais qui se comportent assez diffĂ©remment.
Voici un rĂ©cap complet jusquâĂ ma conclusion (sans langue de bois) sur lâutilitĂ© des LLM locaux pour du dĂ©v aujourdâhui. (selon moi)
âïž 1. Le Guide de Survie Technique
Faire tourner ce genre de modĂšle chez soi demande un bon paramĂ©trage Ă la mimine sous peine de voir sa machine et/ou les performances exploser en vol. Si vous voulez tester, voici quelques rĂšgles qui nâont bien Ă©tĂ© utiles :
đ Les rĂšgles communes (Valables pour les deux modĂšles)
- Gestion de la VRAM : Ne saturez jamais votre carte graphique. Laissez au moins 1 Go de VRAM de libre pour le systĂšme, mais remplissez-la au maximum pour trouver le point dâoffload GPU optimal.
- Stockage du contexte : Le contexte doit impĂ©rativement ĂȘtre stockĂ© dans la VRAM, sinon les performances sâeffondrent instantanĂ©ment.
- Quantification du KV Cache : Par défaut, il est en FP16. Si vous manquez de VRAM, quantifiez le KV Cache en Q8 (et pas moins). Cette compression du contexte permet de gratter 2, 3 ou 4 couches supplémentaires dans la VRAM.
- Profils dâinfĂ©rence : Chaque modĂšle vient avec des spĂ©cifications et des paramĂštres dâinfĂ©rence prĂ©cis. Veillez Ă bien reporter les bonnes valeurs de tempĂ©rature, top_p et pĂ©nalitĂ©s pour chacun dâeux pour obtenir des rĂ©sultats cohĂ©rents.
âŻïž SpĂ©cificitĂ©s : Qwen 3 Coder
- LâappĂ©tit des tokens : Ce modĂšle bouffe les tokens comme un goinfre. Adaptez la taille du contexte Ă la taille de votre projet.
- Petits projets (ex: Tetris) : Bloquez Ă 15-25k tokens pour Ă©conomiser la VRAM, laisser de la place pour les couches et accĂ©lĂ©rer lâexĂ©cution.
- Gros projets : On peut monter à plus de 100k, mais attention à la baisse drastique de vitesse. Un contexte trop bas tronquera la réponse ou bridera la réflexion du modÚle.
- Limite de quantification : Ne descendez jamais sous le format Q4. Pour la version Coder, une quantification inférieure détruit complÚtement la logique et la pertinence du code généré.
đȘ SpĂ©cificitĂ©s : Gemma 4
- Gestion des tokens : Bonne nouvelle, il est beaucoup moins gourmand en tokens que son rival. Pour du dev standard, partez sur une base de 8192 tokens et ne montez au-dessus que si vous ressentez un rĂ©el besoin dâĂ©tendre la mĂ©moire du projet.
- Le casse-tĂȘte du protocole : Gemma 4 utilise un protocole trĂšs rĂ©cent et moderne. ProblĂšme : son mode âToolâ (lâappel de fonctions / outils externes) est particuliĂšrement pĂ©nible Ă configurer avec les plugins et extensions dâIDE actuels (comme VS Code), qui ne le supportent pas encore correctement. Attendez-vous Ă devoir mettre les mains dans le cambouis pour stabiliser lâenvironnement de travail.
đ§ 2. Match de comportement : Gemma 4 vs Qwen 3 Coder
Les deux modĂšles partagent un Ă©norme dĂ©faut : une approche âBrute-Forceâ / Straight-Forward. Ils ne cherchent pas Ă Ă©crire du code propre ou scalable, ils cherchent juste Ă rĂ©pondre au prompt immĂ©diatement, quitte Ă gĂ©nĂ©rer un bordel monumental, impossible Ă maintenir.
- Gemma 4 : Câest le modĂšle rĂ©cent, trĂšs moderne dans son protocole⊠un peu trop dâailleurs. Actuellement, beaucoup dâextensions dâIDE (comme VS Code) ne le supportent pas encore nativement. Ses modes de rĂ©ponse font bugger les plugins existants, ce qui demande un effort de configuration pĂ©nible.
- Comportement : Il est imprĂ©visible. Il peut ĂȘtre foudroyant de pertinence sur un truc complexe lĂ oĂč on ne lâattend pas, et se gaufrer lamentablement la minute dâaprĂšs sur une broutille.
- Qwen 3 Coder : Beaucoup plus constant et mature. Il fait de grosses boulettes beaucoup moins souvent, mais il nâest jamais impressionnant non plus. Câest le modĂšle 30B prĂ©dictif de base par excellence.
đĄ Le conseil : Face Ă leurs grosses boulettes (ou moins grosses dâailleurs), nâinsistez pas. Ne vous lancez pas dans une cascade de corrections (âcorrige çaâ, âah non en fait remets comme avantâ). Effacez simplement sa derniĂšre rĂ©ponse, repensez votre prompt initial et relancez proprement.
đ 3. Le problĂšme de la dĂ©gradation des performances
Au dĂ©but dâun projet, câest fluide. Les deux modĂšles tournent Ă environ 20-25 tokens par seconde (t/s). Câest tout Ă fait acceptable.
Le drame arrive Ă mesure que les heures passent : le contexte augmente et la charge de calcul explose de maniĂšre exponentielle.
- AprÚs quelques heures de dev, la vitesse est divisée par deux (~10 t/s).
- Au bout de deux jours de dev, on tombe Ă 2 ou 3 tokens par seconde.
Le moindre script un peu lourd met 5 bonnes minutes Ă gĂ©nĂ©rer. Si le code dĂ©conne et quâil faut refaire une passe, câest reparti pour 5 minutes dâattente. Travailler dans ces conditions est tout simplement invraisemblable.
âïž 4. Verdict : Le grand paradoxe de lâassistant local
Ces modĂšles souffrent dâun paradoxe majeur. Pour obtenir de bons rĂ©sultats, il faut ĂȘtre extrĂȘmement directif et guider lâIA en citant explicitement les classes et les fonctions. Si vous la laissez libre, elle part dans le dĂ©cor.
Le Paradoxe : Pour diriger efficacement lâIA, il faut ĂȘtre soi-mĂȘme un excellent analyste et parfaitement connaĂźtre son sujet. Un dĂ©butant total se fera submerger par les erreurs du modĂšle et passera son temps Ă demander Ă lâIA de se corriger elle-mĂȘme en priant. Quant au professionnel, sâil doit concevoir toute lâarchitecture lui-mĂȘme et passer son temps Ă fliquer la machine, ça ira plus vite Ă coder tout seul.
De plus, faire tourner un 30B demande une bonne machine moyen de gamme dĂ©diĂ©e. Si vous lâutilisez sur votre PC principal, le navigation web et les applications font vite se retrouver Ă court de RAM et tout faire ramer.
đ„ïž 5. La Machine de Test (Hardware dĂ©diĂ©)
Pour que ces retours dâexpĂ©rience soient pertinents, il faut garder en tĂȘte que tous ces tests ont Ă©tĂ© rĂ©alisĂ©s sur une machine de milieu de gamme entiĂšrement dĂ©diĂ©e Ă cette tĂąche (laissant ainsi le PC principal 100% libre pour le code).
Voici la fiche technique de la bécane :
1
2
3
4
5
6
7
[ CONFIGURATION DE TEST ]
-----------------------------------------------------------------
âą CPU : AMD Ryzen 7 5700X
âą RAM : 32 Go DDR4 @ 3600 MHz
âą GPU : Nvidia RTX 5070
âą STORAGE : NVMe M.2 4 To
-----------------------------------------------------------------
â ïž Constat dâallocation : Sous LM Studio, quasi 100% des ressources mĂ©moire Ă©taient utilisĂ©es (RAM + VRAM). Si la configuration dispose dâune belle marge en computing pur, on se retrouve face au grand classique des LLM : le fameux bottleneck sur la bande passante mĂ©moire.
đ Conclusion : Uninstall direct
Pour moi, la conclusion est implacable. Ă moins dâavoir un besoin ultra-spĂ©cifique (aucun accĂšs internet, donnĂ©es ultra-secrĂštes), le jeu nâen vaut pas la chandelle.
Ces modĂšles 30B locaux ne sont que des produits dâappel, des apĂ©ritifs pour donner envie dâutiliser les gros modĂšles en ligne. Ils ne font pas assez bien le travail pour justifier le blocage dâune machine dĂ©diĂ©e chez soi. Sur tous mes projets rĂ©cents, coder seul aurait Ă©tĂ© plus rapide.
RĂ©sultat : suppression des fichiers de ma machine. Je prĂ©fĂšre largement payer des tokens Ă lâutilisation ou prendre un abonnement pour un gros modĂšle Cloud performant. Câest nettement plus rentable, infiniment plus rapide, et ça libĂšre mes cartes graphiques pour autre chose.
