Windows Server Summit 2026 | Teil 11: KI-Workloads in Windows Server

Lesedauer 2 Minuten

KI ist mittlerweile überall, egal, wo man hinschaut. Es haben sich auf dem Markt mehrere große und viele kleine Anbieter etabliert, die jeweils ihre eigenen Stärken und Schwächen haben. Einen großen Knackpunkt haben die meisten Anbieter jedoch - sie sind cloudbasiert.

Windows Server ermöglicht dagegen die Bereitstellung von KI im eigenen Rechenzentrum. Klingt unrealistisch? Bald nicht mehr!

Windows Server als KI-Plattform

Die Grundlage für die KI-Nutzung stellen zwei Hyper-V-Neuerungen dar:

  • Die Funktion "GPU-Partitionierung" ermöglicht die Aufteilung von Ressourcen einer physikalischen Grafikkarte auf mehrere virtuelle Maschinen.
  • Die Anbindung an NVMe-Speicher erhöht die Speicherleistung drastisch.

Darüber hinaus verfügt Windows Server 2025 über die neue Funktion "Lokale KI-Inferenz". Damit ist es möglich, trainierte KI-Modelle auf eigener Hardware auszuführen. Diese Funktionen bilden zusammen den Grundstein für den lokalen Einsatz von Foundry.

Foundry Local auf Windows Server

Microsoft Foundry ist eine universelle Plattform zur Erstellung und Wartung von KI-Anwendungen und Agenten. Sie ist bereits in Azure nativ verfügbar.

Foundry Local ist das Pendant für lokale Rechenzentren. Es kann auf Windows Server 2025 und künftigen Windows Server-Versionen ausgeführt werden. Es wird keine spezielle Hardware hierfür benötigt. Es können beliebige Sprachmodelle heruntergeladen und integriert werden.

Die Installation und Verwendung wird in einer kurzen Demo gezeigt (AI workloads on Windows Server - Windows Server Summit, ab Minute 8:38).

Typische Szenarien für KI-Workloads in Windows Server

Die folgende Tabelle zeigt einige Anwendungsszenarien für die lokale Bereitstellung von KI:

SzenarioIndustrieDetails
Bildverarbeitungsmodelle verwenden, um Qualitätsprobleme in der Verarbeitungskette zu ermittelnHerstellungNiedrige Latenz, beschränkte Konnektivität
Lokale Modelle verwenden, um KI-Inferenz für die vorbeugende Wartung in vollständig getrennten Systemen durchzuführenU-BootIsolierte Umgebung, KI-Beschleuniger
Wissensarbeiter können geistiges Eigentum mittels agentischen Arbeitsabläufen verarbeitenGesundheitHohe Grenzen für Datenübermittlung, Datenschutz, Nachhaltigkeit, Aufruf von MCP-Lösungen
Anwendungsübergreifende Verwendung von generativer KI ermöglichenFinTechHoher Datenschutz, Modellaktualisierungen, Sicherheitsanforderungen
KI-zertifizierte Hardware für Dienstanbieter oder Distributoren für SMB herstellenHardwarevertriebEinfacher Einstieg in lokale KI

Neuerungen in Foundry Local

Eine neue Funktion ist die Bereitstellung sogenannter Text-Einbettungs-Modelle in Verbindung mit SQL Server 2025. Dies ermöglicht die komplett lokale Bereitstellung einer Plattform für die sogenannte Retrieval-Augmented Generation, was bislang nur unter Einbeziehung von Cloud-Anbietern möglich war (siehe Retrieval-Augmented Generation – Wikipedia).

Weiterhin ist es nun möglich, Lösungen für den Zugriff auf die lokalen KI-Modelle auf Basis des Modellkontextprotokolls (MCP) zu verwenden. Diese ermöglichen eine kontextbasierte Verarbeitung von Daten auf Basis von Benutzereingaben, so wie man es von der Nutzung von Copilot und ChatGPT her kennt.

Bekannte Einschränkungen in Foundry Local

Foundry Local weist einige Einschränkungen auf. So ist es nicht für folgende Szenarien/Umgebungen optimiert:

  • Multi-GPU-Grafikkarten
  • Verteilte Inferenz
  • Failover-Clustering
  • Eingeschränkte Parallelität und batchbasierte Inferenz, nur sequenziell
  • Nicht für sehr große Unternehmensumgebungen vorgesehen

Andere Optionen

Microsoft nennt noch einige Open-Source-basierte Alternativen zu Foundry Local:

  • vLLM
  • SGLang
  • Ollama


Hat Dir der Beitrag gefallen? Lass es andere wissen!

One thought on “Windows Server Summit 2026 | Teil 11: KI-Workloads in Windows Server