Local LLMs

Qwen 3.5 122B lokal betreiben

Alibaba hat am 24. Februar die Qwen 3.5 Medium Series veröffentlicht — und das 122B-A10B-Modell ist ein Gamechanger für alle, die KI-Workloads lokal betreiben wollen. 122 Milliarden Parameter, aber dank Mixture-of-Experts-Architektur nur 10 Milliarden aktive Parameter pro Token. Das Ergebnis: Frontier-Level-Performance, die tatsächlich auf lokaler Hardware laufen kann.

Bei Surfgreen.dev testen wir das Modell aktuell auf unserem lokalen AI Server mit llama.cpp und GPU/CPU-Offloading. Hier ist, was wir bisher wissen — und warum dieses Modell für Unternehmen, die ihre KI-Infrastruktur in den eigenen vier Wänden betreiben wollen, besonders interessant ist.

Was macht Qwen 3.5 122B-A10B so besonders?

Die Architektur ist bemerkenswert. 48 Layer, 256 Experten, davon werden pro Token nur eine Handvoll aktiviert — insgesamt 10 Milliarden Parameter. Dazu kommt eine hybride Attention-Architektur, die Gated Delta Networks für lineare Attention mit klassischen Full-Attention-Blöcken im Verhältnis 3:1 kombiniert. Das Kontextfenster fasst über eine Million Tokens.

Die Benchmark-Ergebnisse sprechen für sich: Auf dem BFCL-V4 (Tool Use) erreicht das Modell 72,2 Punkte und übertrifft damit GPT-5 mini (55,5) um über 30 Prozent. Im GPQA Diamond (Wissenstests) liegt es bei 86,6 — fast 4 Punkte über GPT-5 mini. Beim AIME 2026 (Mathematik) erreicht es eine Erfolgsquote von 85 Prozent. Und auf dem Humanity's Last Exam mit Chain-of-Thought-Reasoning schlägt es mit 25,3 Punkten alles in seiner Gewichtsklasse.

Die übliche Einschränkung gilt: Diese Benchmarks sind vom Hersteller selbst berichtet. Unabhängige Validierung durch Stanford HAI oder die LMSYS Chatbot Arena steht noch aus. Aber selbst mit einem gesunden Abschlag bleiben die Zahlen beeindruckend.

Warum lokaler Betrieb — und warum gerade jetzt?

Die Frage „Cloud oder lokal?" stellt sich für viele Unternehmen neu. Datenschutz, DSGVO-Compliance, Latenz, Kosten — es gibt gute Gründe, KI-Workloads nicht an US-amerikanische oder chinesische Cloud-Anbieter auszulagern. Gerade im deutschen Mittelstand sehen wir wachsendes Interesse an lokaler KI-Infrastruktur.

Qwen 3.5 122B-A10B macht das erstmals mit einem Modell dieser Leistungsklasse realistisch. Die Mixture-of-Experts-Architektur ist der Schlüssel: Weil pro Token nur 10B Parameter aktiv sind, reagiert das Modell auf partielles Offloading erheblich weniger empfindlich als dichte Modelle gleicher Größe.

Unser Setup: llama.cpp mit MoE-Offloading

Wir testen das Modell aktuell mit llama.cpp — dem De-facto-Standard für lokale LLM-Inferenz. Unser Fokus liegt auf der optimalen Balance zwischen GPU- und CPU-Nutzung.

Die Grundidee

Unkomprimiert benötigt das 122B-Modell rund 244 GB VRAM in BF16 — das ist Multi-GPU-Territorium mit 3–4 A100-80GB-Karten. Aber mit Quantisierung (4-Bit GGUF, MXFP4_MOE) und intelligentem Offloading wird das deutlich zugänglicher.

MoE-spezifisches Offloading

Der entscheidende Vorteil gegenüber herkömmlichem Layer-Splitting: Bei MoE-Modellen können die Experten-Weights gezielt auf die CPU ausgelagert werden, während Attention-Layer und Routing auf der GPU bleiben. Da die meisten Experten pro Token ohnehin inaktiv sind, ist der Performance-Verlust minimal.

Die Konfiguration in llama.cpp sieht so aus:

Alle MoE-Layer auf CPU:

-ngl 99 -ot ".ffn_.*_exps.=CPU"

Nur Up- und Down-Projections auf CPU (mehr VRAM verfügbar):

-ngl 99 -ot ".ffn_(up|down)_exps.=CPU"

Nur Up-Projections auf CPU (noch mehr VRAM):

-ngl 99 -ot ".ffn_(up)_exps.=CPU"

Mit Flash Attention (-fa) und Multi-GPU-Support (-dev cuda0,cuda1 -sm row) lässt sich die Performance weiter optimieren.

Performance-Erwartungen

Bei naivem Offloading — wenn Weights einfach in den RAM „überlaufen" — rechnet man mit 5–30x Verlangsamung. Mit MoE-aware Offloading über -ot sieht das Bild fundamental anders aus, weil die ausgelagerten Experten-Weights größtenteils nicht gleichzeitig aktiv sind. Die Attention-Layer und das Routing bleiben auf der GPU, wo die Geschwindigkeit zählt.

Was wir bisher sehen

Unsere Tests laufen noch, aber die ersten Erkenntnisse sind vielversprechend. Das Modell zeigt bemerkenswerte Konsistenz über lange Kontexte — ein direkter Effekt der hybriden Attention-Architektur. Bei Tool-Use-Szenarien und agentic Tasks übertrifft es unsere bisherigen lokalen Setups deutlich.

Die Quantisierungs-Verluste bei 4-Bit sind für die meisten unserer Anwendungsfälle — Code-Generierung, Dokumentenanalyse, technische Assistenz — akzeptabel. Wo es kritisch wird, ist bei sehr langen Reasoning-Chains: Hier merkt man den Unterschied zur vollen Präzision.

Für wen ist das relevant?

Mittelständische Unternehmen, die KI-Workloads nicht in die Cloud geben wollen oder können — sei es aus Datenschutzgründen, regulatorischen Anforderungen oder schlicht, um die Kontrolle über ihre Infrastruktur zu behalten.

Entwicklungsteams, die lokale KI-Assistenz für Code-Review, Dokumentation oder Testing brauchen, ohne pro Token zu bezahlen.

Agenturen und Beratungen, die ihren Kunden KI-Lösungen anbieten und dabei auf Datensouveränität setzen wollen.

Fazit

Qwen 3.5 122B-A10B markiert einen Wendepunkt: Zum ersten Mal ist ein Modell mit Frontier-Level-Performance unter Apache-2.0-Lizenz verfügbar, das sich mit der richtigen Hardware und Konfiguration tatsächlich lokal betreiben lässt. Die Kombination aus MoE-Architektur und llama.cpp's granularem Offloading macht das möglich.

Wir bei Surfgreen.dev begleiten Unternehmen genau bei dieser Aufgabe: vom Hardware-Sizing über die Modellauswahl bis zum produktiven Betrieb lokaler KI-Server. Wer Interesse an einem eigenen Setup hat oder wissen möchte, ob die eigene Infrastruktur für ein Modell dieser Klasse ausreicht — sprecht uns an.


Surfgreen.dev — Studio für Künstliche Intelligenz, Schweinfurt

Quellen: Qwen3.5-122B-A10B auf Hugging Face, MarkTechPost, Qwen llama.cpp Docs, DataCamp Setup Guide, Awesome Agents