# Python: Virtual Environments

## Was ist ein virtuelles Environment?

Eine virtuelle Umgebung in Python ist ein isolierter Arbeitsbereich, in dem  eine eigene Python-Installation mit separaten Abhängigkeiten (Bibliotheken) erstellt wird. Dadurch kannst du verschiedene Projekte mit unterschiedlichen Versionen von Bibliotheken oder Python selbst verwalten, ohne dass es zu Konflikten zwischen den Projekten kommt.

Das Hauptziel einer virtuellen Umgebung ist es, sicherzustellen, dass Abhängigkeiten eines Projekts nicht mit denen eines anderen Projekts kollidieren. Wenn du zum Beispiel für ein Projekt Bibliothek A in Version 1.0 und für ein anderes Projekt dieselbe Bibliothek in Version 2.0 benötigst, kannst du für jedes Projekt eine eigene virtuelle Umgebung einrichten, um beide Versionen parallel zu nutzen, ohne das Konflikte zwischen Paketen oder Paketen und Python entstehen.

# Warum sollte ein virtuelles Environment genutzt werden?

Ein virtuelles Environment in Python bietet mehrere Vorteile, die es zu einem wichtigen Werkzeug machen, insbesondere bei der Arbeit an mehreren Projekten:

1. **Isolierung von Abhängigkeiten**: Projekte können unterschiedliche Versionen von Bibliotheken benötigen (Ggf. auch zwei Versionen einer Bibliothek gleichzeitig). Ein virtuelles Environment verhindert Konflikte, indem es die Bibliotheken eines Projekts von denen anderer Projekte trennt.
2. **Vermeidung von Systemänderungen**: Ohne ein virtuelles Environment werden Python-Pakete oft global installiert, was zu ungewollten Änderungen an der Systemkonfiguration führen kann. Virtuelle Umgebungen schützen das System vor solchen Änderungen.
3. **Kompatibilität:** Unterschiedliche Projekte können unterschiedliche Versionen von Python oder Bibliotheken benötigen. Ein virtuelles Environment erlaubt es, diese parallel laufen zu lassen.
4. **Reproduzierbarkeit**: Ein virtuelles Environment erleichtert es, dieselbe Entwicklungsumgebung auf verschiedenen Rechnern oder Servern einzurichten, was die Zusammenarbeit im Team vereinfacht.
 

# Poetry

Poetry bietet eine benutzerfreundliche und intuitives dependency management und packaging tool, dass den Prozess des Abhängigkeitsmanagements erheblich vereinfacht. Die automatische Erstellung und Verwaltung von Lock-Dateien stellt sicher, dass Umgebungen reproduzierbar sind und eine stabile Versionsverwaltung gewährleistet wird. Darüber hinaus sorgen isolierte Umgebungen dafür, dass Bibliotheken und deren Versionen nicht zwischen Projekten in Konflikt geraten, was die Sicherheit und Konsistenz der Projekte erhöht.

Poetry bietet gegenüber virtualenv verschiedene Vorteile:

- Integriertes Abhängigkeitsmanagement: Poetry verwaltet sowohl Umgebungen als auch Abhängigkeiten in einer `pyproject.toml`, während virtualenv nur Umgebungen erstellt. 
- Automatische Abhängigkeitsauflösung: Poetry löst Bibliothekskonflikte automatisch, virtualenv nicht.
- Lock-Datei: Poetry erzeugt eine poetry.lock, um Umgebungen reproduzierbar zu halten, was virtualenv nicht bietet.
- Einfache Veröffentlichung: Poetry erleichtert das Veröffentlichen von Projekten auf PyPI, während virtualenv keine Veröffentlichungstools integriert hat.

In [None]:
#!pip install poetry

In einem weiteren Schritt initialisieren wir Poetry:

In [1]:
!poetry init

Der Befehl `init` initialisiert ein bestehendes Verzeichnis und erstellt eine `pyproject.toml`, die Ihr Projekt und seine Abhängigkeiten verwaltet. Im hiesigen Fall:

```
[tool.poetry]
name = "future-skill-classification"
version = "0.1.0"
description = ""
authors = ["Malte Hückstädt <deaddatascientists@gmail.com>"]
readme = "README.md"

[tool.poetry.dependencies]
python = "^3.12"


[build-system]
requires = ["poetry-core"]
build-backend = "poetry.core.masonry.api"
```

Nun werden die für den Classifier nötigen Pakete zum Enviorment hinzugefügt:

In [2]:
!poetry add datasets sentence-transformers setfit pandas scikit-learn transformers torch numpy unidecode


Using version ^3.0.1 for datasets
Using version ^3.2.0 for sentence-transformers
Using version ^1.1.0 for setfit
Using version ^2.2.3 for pandas
Using version ^1.5.2 for scikit-learn
Using version ^4.45.2 for transformers
Using version ^2.4.1 for torch
Using version ^2.1.2 for numpy
Using version ^1.3.8 for unidecode

Updating dependencies
Resolving dependencies...

Package operations: 54 installs, 0 updates, 0 removals

  - Installing certifi (2024.8.30)
  - Installing charset-normalizer (3.4.0)
  - Installing colorama (0.4.6)
  - Installing frozenlist (1.4.1)
  - Installing idna (3.10)
  - Installing multidict (6.1.0)
  - Installing propcache (0.2.0)
  - Installing urllib3 (2.2.3)
  - Installing aiohappyeyeballs (2.4.3)
  - Installing aiosignal (1.3.1)
  - Installing attrs (24.2.0)
  - Installing filelock (3.16.1)
  - Installing fsspec (2024.6.1)
  - Installing markupsafe (3.0.1)
  - Installing mpmath (1.3.0)
  - Installing packaging (24.1)
  - Installing pyyaml (6.0.2)
  - Installin

Creating virtualenv future-skill-classification--ys6-NbF-py3.12 in C:\Users\Hueck\AppData\Local\pypoetry\Cache\virtualenvs


Nutzenzusammenhang der Pakete:

- `datasets`: Zum Laden und Verwalten von Datensätzen aus der Hugging Face-Datasets-Bibliothek.
- `sentence-transformers`: Für Satztransformer-Modelle und die CosineSimilarityLoss.
- `setfit`: Für Few-Shot Learning mit SetFit-Modellen.
- `pandas`: Für Datenmanipulation und Analyse.
- `scikit-learn`: Für verschiedene Machine-Learning-Funktionen, wie z.B. Label-Encoding und Train-Test-Splits.
- `transformers`: Für Modelle und Trainingsargumente der Hugging Face-Bibliothek.
- `torch`: PyTorch, um die GPU zu nutzen und Tensoren zu verarbeiten.
- `numpy`: Für numerische Berechnungen.
- `unidecode`: Zum Entfernen von Sonderzeichen und Umwandeln in ASCII.

Nachdem die Pakete zum Enviorment hinzugefügt wurden, werden sie mit dem folgenden Befehl installiert:

In [5]:
!poetry install

Installing dependencies from lock file

No dependencies to install or update


Zunächst musst du sicherstellen, dass ipykernel (für Jupyter-Kernel) in deiner Poetry-Umgebung installiert ist. Führe folgenden Befehl in deinem Poetry-Projektverzeichnis aus:

In [7]:
!poetry add ipykernel

Using version ^6.29.5 for ipykernel

Updating dependencies
Resolving dependencies...

Package operations: 23 installs, 0 updates, 0 removals

  - Installing asttokens (2.4.1)
  - Installing executing (2.1.0)
  - Installing parso (0.8.4)
  - Installing platformdirs (4.3.6)
  - Installing pure-eval (0.2.3)
  - Installing pywin32 (308)
  - Installing traitlets (5.14.3)
  - Installing wcwidth (0.2.13)
  - Installing decorator (5.1.1)
  - Installing jedi (0.19.1)
  - Installing jupyter-core (5.7.2)
  - Installing matplotlib-inline (0.1.7)
  - Installing prompt-toolkit (3.0.48)
  - Installing pygments (2.18.0)
  - Installing pyzmq (26.2.0)
  - Installing stack-data (0.6.3)
  - Installing tornado (6.4.1)
  - Installing comm (0.2.2)
  - Installing debugpy (1.8.7)
  - Installing ipython (8.28.0)
  - Installing jupyter-client (8.6.3)
  - Installing nest-asyncio (1.6.0)
  - Installing ipykernel (6.29.5)

Writing lock file


In [10]:
!poetry run python -m ipykernel install --user --name=Poetry_FS_Env --display-name "Poetry Future Skills Enviorment"

Installed kernelspec Poetry_FS_Env in C:\Users\Hueck\AppData\Roaming\jupyter\kernels\poetry_fs_env
