# KI in deinen Notebooks

Press `s` for Speakers View!

## TL;DR

Läuft Ollama in der VM?

In [None]:
%%bash
curl --silent http://127.0.0.1:11434

Wir nutzen die Bibliothek https://github.com/ollama/ollama-python

In [None]:
from ollama import Client

und erstellen einen Client.

In [None]:
client = Client(
  host='http://127.0.0.1:11434'
)

und bauen so KI in unsere Notebooks ein:

In [None]:
# Message senden
response = client.chat(
    model='gemma3:270m', 
    messages=[
        {'role': 'user', 'content': 'Why is the sky usually blue and sometimes red?'},
    ]
)

# Antwort komplett ausgeben
print(response.message.content)

Wenn du die Ausgabe Zeile für Zeile möchtest, setze den Parameter `stream = True`. Das sieht dann so aus:

In [None]:
# Eingabe mit ENTER abschliessen
mein_prompt = input("Prompt:")

In [None]:
# Noch eine Nachricht senden
stream = client.chat(
    model='gemma3:270m',
    messages=[
        {'role': 'user', 'content': mein_prompt}
    ],
    stream=True,
)

# Diesmal die Antwort Zeile für Zeile ausgeben:
for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

## Ollama in der JupyterHub-VM

Für kleine Modelle genügt die in der VM eingebaute Ollama-Instanz. Die verfügbaren Modelle lässt du dir so anzeigen:

In [None]:
%%bash
ollama list

Informationen zu einem einzelnen Modell, bspw. seine Grösse, erhälts du so:

In [None]:
%%bash
ollama show gemma3:270m

Welche Modelle gerade ausgeführt werden, zeigt dir

In [None]:
%%bash
ollama ps

Neue Modelle lädst du, indem du unter https://ollama.com/search dir eines aussuchst - bspw. `qwen3:0.6b` - und dann mit diesem Befehl herunterlädst:

In [None]:
%%bash
ollama pull qwen3:0.6b

Achtung, schau dir **VORHER** auf https://ollama.com/search genau an, wie gross ein Modell ist. Modelle über 1 GB werden in der VM kaum performant laufen. Wenn du ein grösseres Modell laufen lassen willst, nutze dazu ein Ollama auf (d)einem Host-Rechner, wie weiter unten gezeigt wird.

Du löschst ein Modell mit diesem Befehl:

In [None]:
%%bash
ollama rm NAME

Für NAME setze einen der Namen ein, den dir

In [None]:
%%bash
ollama list

angezeigt hat.

## Ollama-Server vom Host nutzen

Du willst grössere Modell nutzen, die nicht in der VM laufen? Kein Problem!

**Wenn**

- [Ollama](https://ollama.com/download) auf dem VM-Host oder einem externen Server läuft.
  - Vorteile: mehr RAM, CPU-Kerne und SSD-Speicher sowie Hardwarebeschleunigung durch eine GPU.
- **Und** du unter Settings "Expose Ollama to the Network" aktiviert hast.
- **Und** unter VirtualBox oder UTM eine passende Port-Weiterleitungs-Regel existiert.

**Dann**
- kannst du aus Jupyter unter der URL `http://10.0.2.2:11434` auf Ollama auf dem Host zugreifen.

Überprüfe ggf. die Weiterleitungsregeln in der VM unter: `Ändern -> Netzwerk -> Port Weiterleitung`

|Name|Protokoll|Host-IP|Host-Port|Gast-IP|Gast-Port|
|--|--|--|--|--|--|
|ollama-ext|TCP|10.0.2.2|11434|127.0.0.1|11434|

Setze für Gast-IP die Adresse des externen Ollama-Servers ein. `127.0.0.1` bedeutet, dass Ollama auf dem VM-Host, also deinem Computer, läuft.

![virtual-box-port-forwarding-rules.png](attachment:78ea54cf-f1b5-40eb-85ea-4811f659abb8.png)

So testest du, ob der externe Ollama-Server erreichbar ist:

In [None]:
%%bash
curl --silent http://10.0.2.2:11434

So nutzt du ein LLM, das nicht in der VM selbst läuft, sondern extern:

In [None]:
from ollama import Client

In [None]:
# http://127.0.0.1:11434 - Ollama läuft in der JupyterHub-VM
# http://10.0.2.2:11434 - Ollama läuft auf dem Host

client = Client(
  host='http://10.0.2.2:11434'
)

Welche Modelle gibt es auf dem externen Ollama-Server?

Da Ollama nicht mehr in der VM läuft, können wir `ollama` via `%%bash` nicht mehr verwenden, sondern müssen den `client` nutzen.

In [None]:
client.list()

Das ist ja sehr unübersichtlich! Deshalb schreiben wir uns eine kleine Hilfsfunktion.

In [None]:
def show_models_from_(output):
    """Zeigt die Modelle in einer ollama-python-client-Ausgabe an"""
    for entry in output['models']:
        print(entry["model"])

und verwenden diese Hilfsfunktion mit der Ausgabe von `client.list()`

In [None]:
show_models_from_(client.list())

Neue Modelle installierst du auf dem Server von Jupyter aus so:

In [None]:
client.pull('gemma3:270m')

Jetzt kannst du wie gewohnt die Abfragen ausführen:

In [None]:
response = client.chat(model='gemma3:270m', messages=[
  {
    'role': 'user',
    'content': 'What is the best Programming Language??',
  },
])

und die Antwort komplett ausgeben

In [None]:
print(response.message.content)

Teste auch diesen Befehl, der dir die gerade auf dem Server laufenden Modelle anzeigt:

In [None]:
show_models_from_(client.ps())

was lediglich eine mit unserer kleinen Hilfsfunktion formatierte Ausgabe dieses Befehls ist:

In [None]:
client.ps()

Teste ggf. auch das Löschen eines (kleinen) Modells:

In [None]:
show_models_from_(client.list())

In [None]:
client.delete('NAME')

In [None]:
show_models_from_(client.list())

Schau dir die [Dokumentation](https://github.com/ollama/ollama-python?tab=readme-ov-file#api) der Bibliothek `ollama` an, um deine Möglichkeiten zu erkunden.