Lokale LLM Modelle unter Windows

the_muck · 7 Oktober 2025

Aktuell teste ich auf einem Ryzen Ai MAX+ 395 (128gb) lokale LLM Modelle. Bespielen tu ich sie aktuell mit LM Studio & Open WebUI (Docker). Da ich den Eimer auch als Desktop nutze, noch unter Windows... qwen & gpt versionen sind super schnell. Andere haben wohl noch keine AMD Unterstützung. Gerade ärgert mich nach Windows updates der Vulkan Treiber, da wird alles in den RAM und nicht VRAM geladen und die GPU nicht mehr benutzt. Vielleicht muss ich noch mal Ollama testen, ROCm läuft. Aber die OCR Tools mögen das irgendwie nicht. Die Erfahrungen sind durchwachsen, wir testen OCR Modelle zur Texterkennung auf Bildern. Manche Modelle schmieren noch ab, was aber gut geht, mit Python und "KI OCR" Modellen die Generierten Texte an die Lokale LLM schicken. Mit passenden Prompts kommt dann eine JSON die man dann "Maschinen lesbar" nutzen kann. Aber da ist auch etwas die Schwierigkeit, die KI dazu zubringen nicht von den Vorgaben ab zu weichen

.
Mit Texten in PDFs ist es auch so eine Sache, das funktioniert leider alles noch nicht sooo gut wie Online bei den Großen Modellen.

Das Ganze läuft leider nur nebenbei wenn Zeit ist

. Wer spielt denn noch in dem Bereich rum?

Blockmove · 7 Oktober 2025

Ich hab damit unter Linux gespielt. Ich glaub da ist die Hardwareunterstützung in der Zwischenzeit in dem Bereich besser als unter Windows.
Mit den lokalen LLMs hast du Recht. Da liegt Licht und Schatten nah beisammen. Kein Vergleich zu online. Aber das ist ja auch nicht unbedingt der Sinn der lokalen LLMs.
Die Beispiele die man online findet lassen sich schon recht einfach nachbauen. Bei eigenen Anpassungen wird’s aber schnell komplex. Also schnell mal nebenbei … eher nicht.

Blockmove · 12 Oktober 2025

@the_muck

Ich hab jetzt mal LM Studio https://lmstudio.ai unter Windows probiert.
Da kannst du mit verschiedenen Modellen testen. Aber da braucht man am besten schon so ein Spielzeug Ryzen.

the_muck · 12 Oktober 2025

? Genau das mache ich gerade doch

.

the_muck schrieb:
Aktuell teste ich auf einem Ryzen Ai MAX+ 395 (128gb) lokale LLM Modelle. Bespielen tu ich sie aktuell mit LM Studio & Open WebUI (Docker).

WhoAmI · 10 November 2025

Moin Moin,

Ich hab auch lokale KI zum Testen im Homelab (leider nur 12GB Vram und 32GB DDR4).
Dort verwende ich Ollama mit Openwebui unter Linux.
Zusätzlich mit N8N kann mann sich dann schnell gute Agent basteln (auch Multiagents), funktioniert gut für Textbearbeitung, für Programmieren und testen jedoch ein bisschen schwerfällig. Je nach Modell welches Toolfähig ist, kann man da schon Toole Sachen machen lassen, aber man merkt auch dann das Prompten ein riesen Thema wird bei kleineren Modellen (kleiner 10B) (System-Prompt, Agent-Promt, User-Prompt müssen da feingetunted werden so wie anpassung von Temperatur etc).

Ich hab selbst eine Anbindung über ein Tool an einen ESP32(mit Micropython) via RS232 geschrieben. Und kleinere aufgaben kann die KI wirklich selbständig bewältigen, so wie aus den Kontext "lernen".

Unterm Strich ist meine Erfahrung lokale KI mit kleine Modelle, dass die für Text Aufgabe super sind z.b. klassifizieren von Dokumente, Alles andere ist einfach Stromverbrennung, wenn man sieht wie die Auslastung der GPU/CPU hoch geht, und die vorfreude nach 2 Minuten zusehen wie die KI scheiter und nochmal^^.

Wollte mich wenn die Zeit es mal zu lässt mit Ollama und MCP-Server beschäftigen um die macht von den großen auszutesten.

Und wer sich selbst einen AI Agent erziehen möchte:

ab 10min wirds Grusselig, Intressant und Funktionfähig.

Blockmove · 10 November 2025

WhoAmI schrieb:
Unterm Strich ist meine Erfahrung lokale KI mit kleine Modelle, dass die für Text Aufgabe super sind z.b. klassifizieren von Dokumente, Alles andere ist einfach Stromverbrennung, wenn man sieht wie die Auslastung der GPU/CPU hoch geht, und die vorfreude nach 2 Minuten zusehen wie die KI scheiter und nochmal^^.

Wollte mich wenn die Zeit es mal zu lässt mit Ollama und MCP-Server beschäftigen um die macht von den großen auszutesten.

Die Frage ist halt, ob sich es wirklich lohnt lokal ein KI-Modell zu betreiben oder ob man da nicht besser eine in einem Rechenzentrum gehostete Lösung nimmt.

WhoAmI · 10 November 2025

Meines Erachtens macht es schon Sinn Lokal LLM zu betrieben wegen volle Kontrolle über meine Daten.
Es sei dazu gesagt, dass ich es Lokale KI nur privat nutze aus Eigeninteresse.

Zum Beispiel Lebenlauf formatieren/aufpolieren (persönliche Daten) etc. dort habe ich dann die volle Kontrolle über meine Daten und brauch ich die KI nicht schalte ich sie ab und lass sie alles vergessen^^.

Bei Rechenzentren weiß man leider nicht was mit den Informationen in der LLM passiert.

Interessant sind auch Workflows von N8N die automatisch E-Mails beantworten nach Zustimmung etc.
Gerne nutzt ich sogenannte Search Agent die das Netz durchsuchen und z.b. 10 Einträge sich anschauen und dann das zusammenfassen.

Eins sei jedem gesagt, betritt man die Welt der KI und interessiert sich dafür, wird man jede Menge lernen können und das mehr als einen lieb ist.

Ob LLM, SLM, TinyML, Stablediffusion, dazu wie man Prompts genieren und die neusten Techniken zu prompten anwendet, wie sich unterschiedliche Modelle verhalten und und und alles sehr interessante Themen.

Ob es sich lohnt eine lokale KI zu betrieben hängt stark damit zusammen was man vor hat.
Zum Papiere digitalisieren und klassifizieren super. Einscannen KI geben, auswerten und wegsortieren lassen, macht Sinn.
Naja nicht wirklich, da ich in der selben Zeit es auch händisch wegsortiert hätte, ohne Strom zuverbennen.
Briefvorlagen schnell erstell lassen macht auch sinn. klar gibt auch Vorlagen in Word, aber hey es ist das KI Zeitalter.
Spaß bei Seite, ich habe bis jetzt nicht wirklich einen Mehrwert mit Lokaler KI geschaffen außer Wissen über KI und tolle zusammenfassungen Text / Anleitungen erstellen lassen.

the_muck · 11 November 2025

Wir haben einige Modelle durch und da sind die Unterschiede in der Performance schon gewaltig. Für einen Test bei der Bild Erkennung brauchen wir mit Mistral Lokal 1:30min für eine Anfrage mit drei Bildern, ich meinen 120W nimmt der Ryzen AI sich dann. ChatGPT Online braucht etwa 20s ... Aber die Ergebnisse sind aktuell so gut das wir dran bleiben. Und mit jedem Monat tut sich was bei den Modellen. Da muss man einfach viel spielen. Und ja die Prompts sind ausschlaggebend und einige Lokale Modell bleiben schnell hängen, das ist etwas ernüchternd. Die online Modell sind da echt robuster.

Mehrwert mit nur lokalen anfagren habe ich auch nicht erschaffen. Aber bestimmt 300$ bei Open-Router ausgegeben für die Implementierung von Webanwendungen für "dirty little helper" und zur Optimierung einiger C Programme.
Diese werden bei uns im Büro sehr viel genutzt und generieren schon einen großen Mehrwert. Ohne die eigene implementierung auf die schnelle hätte man das so nicht versucht.

Das Büro nutzt auch Mistral und Qwen Lokal auf der selben Maschine, und da ist der Trick eben das man die Kontrolle über die Daten behält. Wenn man hört das R&D Abteilungen in der Vergangenheit ihre Erkenntnisse mit den Bots geteilt haben wird's halt interessant...

In der SPS Welt gehts viel um Regel und Logik Strategien, oder Fehler von Kommunikations Protokollen aufarbeiten.
Gerade bei bit spielerein "Bit - Hacks" oder "Magic Numbers" . Finde ich die Erläuterungen oft ziemlich gut. "Quake, fast inverse square root" und so. Manchmal Frage ich einfach ob es für meine Umsetzung einen schnelleren Ansatz gibt für die Berechnung. Festkomma Arithmetik, Runden über Datentypen und wie man Fehler abfangen sollte und Programme robuster macht.

Blockmove · 11 November 2025

the_muck schrieb:
In der SPS Welt gehts viel um Regel und Logik Strategien, oder Fehler von Kommunikations Protokollen aufarbeiten.
Gerade bei bit spielerein "Bit - Hacks" oder "Magic Numbers" . Finde ich die Erläuterungen oft ziemlich gut. "Quake, fast inverse square root" und so. Manchmal Frage ich einfach ob es für meine Umsetzung einen schnelleren Ansatz gibt für die Berechnung. Festkomma Arithmetik, Runden über Datentypen und wie man Fehler abfangen sollte und Programme robuster macht.

Ich hab jetzt ein paar Dinge für Codesys ausprobiert. Online mit Grok und ChatGPT. Als Beispiel hatte ich mir die Berechnung von Sonnenhöhe und Sonnenwinkel ausgesucht. Die Erläuterungen über die verwendeten Formeln waren richtig gut. Allerdings hat es keine der KIs geschafft einen lauffähigen Baustein zu erzeugen. Beide scheiterten an den Zeit- und Datumsfunktionen. Also speziell an den Datentypen und den richtigen Bibliotheken. Und das obwohl ich mehrfach die richtigen Bibliotheken genannt habe inklusive den Links zu den Beschreibungen. Und auch immer brav im Dialog die Rückmeldungen gegeben habe. "Lustig" waren, wie immer, die Ausreden der KI.
Im Anschluss wollte ich von der KI eine Lösung in Javascript. Da haben beide funktionierenden Code geliefert.

Was mich in dem Zusammenhang eben frage ist in wie weit eine lokale KI bei solchen Aufgaben wirklich Sinn macht.
Klar, du hast die Hoheit über deine Daten und dein Wissen, aber zum Lösen von Problemen brauchst du nicht nur Intelligenz sondern auch auch Wissen und Erfahrungen.
Vielleicht ist das eben auch einer der Gründe, warum es so schwierig mit Businessmodellen rund um die KI ist.

WhoAmI · 11 November 2025

Ich fande es auch interessant zu sehen, wo die grenzen sind bei lokalen KI und man merkt halt das 7B Parameter manchmal zu knapp sind und 22B besserer Ergebnisse liefern können.

Mein Experiment war:
einen ESP32 CYD mit Micro Python via Rs232 dann angekoppelt am PC, fix ne Tool Node erstellt für N8N bidirektional (REPL).
Somit kann die KI Befehle geben und Bekommt Feedback. Weiterer Vorteil, bei vollem zugriff brauch ich keine angst zu haben das was kaputt geht.

Dann hab ich weiter 2 Tool Nodes erstellt, die einfach nur die Dokumentation zu dem minimalsten an Micropython gibt und eine weiter node mit speziellem wissen "https://randomnerdtutorials.com/esp32-cheap-yellow-display-cyd-pinout-esp32-2432s028r/" snippets im endeffekt von hier.

Kurze beschreibung der aufgabe war Nutzt Tool1ESP32 mimt "help()" um mehr zu erfahren, nutzt "help(modules)" um dann vertiefte informationen zu bekommen, anschliessend nutzt die 2 Lern Nodes um mehr über die Programmierung von Display zu lernen. Erstelle dannn einen Code um "Hello Word" auf dem display mittig anzuzeigen.

mit den lokalen KIs hat es leider nicht so gut geklappt, die Ansätze der KI waren gut. aber habe sich dann verrannt, tokenlimit vermutlich überschritten.
Dann das mit 2 Agent gemacht. also ein Programmier experten KI , die der Kleinen Tool KI helfen soll. Dabei passierten mehrer witzige unerwartet Dialoge. Beste war zuerst falsches Display versuch zu programmieren, dann fing die Diskussion an über Debuggen und weiter zu den Protokollen und Bus Systeme und zum Schluss haben die 2 ein neues i2c Protokoll erstellt mit bitbanging vom feinsten. Leider ist das Display SPI. Dennoch witzig zu sehen. Wäre so als ob sich 2 Programmierer besaufen und neben bei was planen^^.

Mit Unterstützung von den großen online KI konnte meine kleine Tool KI dann nach mehreren Versuchen das erste "Hello World" auf dem Display.

Kleinere Aufgabe wie:
- verbinde dich mit dem Wifi mit der SSID etc konnte die kleine KI auch lösen.
- Oder auch schalt GPIO8 1sec an und dann aus

the_muck · 14 November 2025

In N8N habe ich noch nicht so richtig einen Fuß. Die Tage aber mal ein "KI Bestellsystem" getestet was Emails Empfängt den Inhalt liest und dann eine Bestellung in einer DB ablegt. Das klappt schon recht gut, Lokal braucht es ca. 20s! Das Problem ist halt IMHO immer, was passiert bei Fehlern?

Man übergibt ja einen Prompt und wenn dann im Nachgang Daten abgelegt werden sollen, dann muss die KI die Struktur ja auch immer einhalten und es muss stimmig sein. Und das ist glaube ich die Hürde.

Hast du zu N8N mal gute Tutorials wie du das obige umgesetzt hast, oder mal ein Bild von der Struktur?

Was ich halt gut finde ist wie schnell man sich Tools bauen kann. Gestern wurde ein neues Gerät mit Modbus TCP eingebaut. Die Externe IT konnte mir die IP nicht auf die schnelle nennen. Dann habe ich ein Tool gebaut was erstmal Pingt, und dann den Modbus Port Testet und den Vendor aus dem Netz holt. Nach 10min hatte ich die IP.

Lokale LLM Modelle unter Windows

the_muck

Level-2

Blockmove

Supermoderator und User des Jahres 2019

Blockmove

Supermoderator und User des Jahres 2019

the_muck

Level-2

WhoAmI

Level-2

Blockmove

Supermoderator und User des Jahres 2019

WhoAmI

Level-2

the_muck

Level-2

Blockmove

Supermoderator und User des Jahres 2019

WhoAmI

Level-2

the_muck

Level-2

Wir schützen deine Privatsphäre