# Session 2.1: LLMs, Ollama, virtuelle Umgebung und IDE mit Kernel aufsetzen

## Quellen

- Wie funktionieren LLMs?
    - Youtube "Deep Dive into LLMs like ChatGPT (Andrej Karpathy)": https://www.youtube.com/watch?v=7xTGNNLPyMI&t=11715s
    - Youtube "Create a Large Language Model from Scratch with Python – Tutorial (freeCodeCamp)": https://www.youtube.com/watch?v=UU1WVnMk4E8
        - Github-Resource dazu: https://github.com/Infatoshi/fcc-intro-to-llms
    - Github LLMs-from-scratch https://github.com/rasbt/LLMs-from-scratch

- Ollama: https://ollama.com/ (Github https://github.com/ollama/ollama)


## Praxis

### Ollama als lokales Model Serving aufsetzen und Models pullen

- Windows -> besser WSL als Powershell!
- Ollama installieren: https://github.com/ollama/ollama
    - Windows: OllamaSetup.exe
    - MacOS: Ollama-darwin.zip oder z.B. brew install ollama

**Ollama Models**

![Ollama Models](assets/image09_ollama-models.png)

- Starten von ollama mit Befehl 'ollama serve' - API nun lokal vorhanden (Default: Listening on 127.0.0.1:11434, Basis-Endpunkt: http://localhost:11434/v1)
- In einem neuen Terminal-Tab erstes Modell pullen und damit experimentieren: 'ollama run llama3.2:3b', Größe 2GB (https://ollama.com/library/llama3.2:3b)
- Alternativ nur Modell pullen mit 'ollama pull llama3.2:3b'
- Modell wieder löschen mit 'ollama rm llama3.2:3b'
- Mit 'ollama list' sehen, welche Models lokal zur Verfügung stehen
- Mit 'ollama show' Modell-Spezifika sehen
- Die besten Generierungsmodelle für Deutsch empfohlen von einer:m Reddit-User:in: https://www.reddit.com/r/LocalLLaMA/comments/1gayvch/what_are_the_best_models_for_use_with_german/ -> Mistral Nemo 12b
    - *'mistral-nemo 12b'* auf Ollama: https://ollama.com/library/mistral-nemo
- Das beste Embedding-Modell für Deutsch laut Leaderboard (https://huggingface.co/spaces/mteb/leaderboard) -> *'multilingual-e5-large-instruct'*
    - *'multilingual-e5-large-instruct'* auf Ollama: https://ollama.com/jeffh/intfloat-multilingual-e5-large-instruct

```
USER% ollama list
NAME                                                 ID              SIZE      MODIFIED
jeffh/intfloat-multilingual-e5-large-instruct:f32    1ae6fc952be9    2.2 GB    ... ago   # embedding
mistral-nemo:latest                                  994f3b8b7801    7.1 GB    ... ago   # generation
llava:latest                                         8dd30f6b0cb1    4.7 GB    ... ago   # generation (vision)
llama3.2:latest                                      a80c4f17acd5    2.0 GB    ... ago   # generation
deepseek-r1:14b                                      ea35dfe18182    9.0 GB    ... ago   # generation with reasoning
```

```
USER% df -h ~/.ollama
Filesystem      Size    Used   Avail Capacity iused ifree %iused  Mounted on
/dev/disk3s1   460Gi    80Gi   350Gi    19%    598k  3.7G    0%   /System/Volumes/Data
```

### Virtuelle Umgebung aufsetzen

- 'uv' Python Package und Project Manager (in Rust geschrieben) installieren: https://github.com/astral-sh/uv
- sicher gehen, dass PATH-Variable den Pfad der uv-Installation berücksichtigt
  - ```michaelpfeiffer@Michaels-MacBook-Pro ~ % which uv```
      ```/Users/michaelpfeiffer/.local/bin/uv```
  - ```export PATH="$HOME/.local/bin:$PATH"```
  - alternativ diese Zeile noch in bshrc oder zshrc hinzufügen : ```nano ~/.zshrc```
- Ordner "aiworkshop" im Repo- bzw. Projekte-Folder anlegen, in diesen Ordner gehen und 'uv init' ausführen
- Im File .python-version die Version auf 3.11 setzen bzw. einfach Command 'uv python pin 3.11'
- Im File pyproject.toml requires-python auf ">=3.11" setzen und diese Dependencies hinzufügen:

```
dependencies = [
  "asyncio",
  "numpy",
  "requests",
  "pymilvus",
  "openai",
  "openai-agents",
  "duckduckgo-search",
  "nest-asyncio",
  "pydantic",
  "httpx",
  "jupyterlab",
  "python-dotenv",
  "pip",
  "setuptools",
  "wheel"
]
```

- im Terminal in diesem Ordner dann 'uv sync' ausführen: kreiert virtuelle Umgebung mit einem .venv Ordner
- falls kein venv-Ordner kreiert wurde -> 'uv venv'
- Wie das Venv aktivieren? 'source .venv/bin/activate' im Terminal, deaktivieren mit 'deactivate'
- Sehen, welche Venvs durch 'uv' erstellt worden sind: 'find ~/Projects -name ".venv" -type d'
- Sehen, wie groß eine Venv ist: 'du -sh /Users/michaelpfeiffer/Projects/personal/aiworkshop/.venv' -> z.B. 1.3G
- Venv entfernen durch 'uv remove'

### IDE mit Kernel für Notebooks aufsetzen

- VSC oder Jupyter oder gewünschte IDE
- VSC-Extensions installieren: Jupyter Extension, Markdown Preview Mermaid Support
- wenn gewünscht, Git konfigurieren und lokal commiten
- Kernel registrieren im VSC-Terminal mit 'python -m ipykernel install --user --name=aiworkshop --display-name "Python (aiworkshop)"'
- VSC neu starten
- venv des uv-Managers aktivieren im VSC-Terminal ('source .venv/bin/activate', wenn man sich im Projektordner befindet)
- Kernel in Notebook auswählen
- wenn eine Dependency dazukommt, einfach mit 'uv sync' aktualisieren

### aiworkshop_utils Module erstellen

- __init__.py
- config.py
- custom_utils.py
- docling_imports.py
- embedders.py
- jupyter_imports.py
- openai_imports.py
- standardlib_imports.py
- thirdparty_imports.py

### 🏋️ **[Teil-ÜBUNG 2.1.01]** Im Terminal mit Ollama Model chatten (nicht Abgabe-relevant)

Fragen:

- Generell
    - Welche verschiedenen Model-Arten gibt es? Was ist z.B. ein Reasoning-Modell mit der CoT (Chain-of-Thought) Methode?
    - In welchen Dateiformaten werden diese Modelle abgespeichert (z.B. GGUF) und woraus bestehen sie (z.B. Weights und Biases, was noch?)?

- Ollama-bezogen
    - Welche Models werden auf Ollama angeboten? Bringt man jedes Modell von Huggingface z.B. auf Ollama?
    - Kann man über Ollama Models auch selbst finetunen?
    - Welche Optionen gibt es nach 'run' (mit '/?' anzeigen)?
    - Werden alle Messages im Kontext gespeichert?
    - Was ist "Wordwrap", "Format json" und "Verbose"?
    - Was kann man mit dem Ollama Modelfile machen, welchen Zweck hat es?
    - Wohin werden die Ollama Models geladen, welche Größen haben die Models ca.?

- Performance
    - Wieviel GPU / CPU wird bei Benützung genutzt? Logging mit Test?

![Ollama Terminal](assets/image10_ollama-terminal.png)