# üìö Tech-Glossar: Data Science f√ºr Entwickler
 
> üöÄ **Dein technisches Cheat-Sheet:**
> 
> Dieses Glossar ist mehr als eine Wortliste. Es √ºbersetzt Data-Science-Konzepte in die Sprache von Software-Entwicklern (Java/JS) und erkl√§rt, was "unter der Haube" passiert.
 
**Wie nutze ich dieses Notebook?**
 
Lass dieses Notebook w√§hrend des Kurses offen. Wenn du Begriffe wie *Vektorisierung*, *Session State* oder *Cgroups* h√∂rst, findest du hier die technische Definition.

> üí° **Tipp:** Mit `Strg+F` (Windows) oder `Cmd+F` (Mac) kannst du gezielt nach Begriffen suchen!

 
---

## üêç Python: Mapping f√ºr Java/JS Entwickler

| Konzept | Java/JS Analogie | Python-Besonderheit | Beispiel |
|---|---|---|---|
| **Dynamic Typing** | `var` / `let` | Typen werden zur Laufzeit bestimmt, aber stark typisiert (kein impliziter Cast). | `x = 5` (statt `int x = 5;`) |
| **List** | `ArrayList` / Array | Ver√§nderbar, geordnet, gemischte Typen. | `items = [1, "A", 3.0]` |
| **Dictionary** | `HashMap` / Object | Key-Value Store, extrem performant (Hash-Table). | `d = {"key": "val"}` |
| **List Comprehension** | `.map()` / `.filter()` | Kompakte Syntax f√ºr Schleifen/Filterung. | `[x*2 for x in nums]` |
| **f-String** | Template Literals `${}` | String Interpolation (seit Python 3.6). | `f"Hallo {name}"` |
| **pip** | `npm` / `maven` | Paket-Manager. L√§dt von PyPI. | `pip install pandas` |
| **venv** | `node_modules` (lokal) | Isolierte Umgebung f√ºr Abh√§ngigkeiten pro Projekt. | `python -m venv .venv` |
| **GIL** | - | **Global Interpreter Lock:** Verhindert echtes Multithreading f√ºr CPU-Tasks in CPython. | Wichtig bei Performance! |
| **Jupyter** | REPL / Console | Interaktive Umgebung, speichert State zwischen Zellen. | Ideal f√ºr Exploration |

## üìä Data Science Stack (Under the Hood)

| Paket | Rolle | Technischer Hintergrund |
|---|---|---|
| **NumPy** | Das Fundament | Basiert auf **C-Arrays**. Speichert Daten im RAM als zusammenh√§ngenden Block (Contiguous Memory). Erm√∂glicht **Vektorisierung** (SIMD-Operationen). |
| **Pandas** | Die Datenbank | Baut auf NumPy auf. Nutzt **Columnar Storage** (Spalten-basiert), was Analysen auf Spalten extrem schnell macht. |
| **Matplotlib** | Das Backend | Low-Level Plotting Library. Basiert auf einer State-Machine. M√§chtig, aber viel Boilerplate-Code. |
| **Plotly** | Das Frontend | Erzeugt JSON-Objekte, die von der `plotly.js` Engine im Browser gerendert werden. Interaktiv (Zoom/Hover). |
| **Scikit-learn** | Die Werkstatt | Standardisierte API (`.fit()`, `.predict()`) f√ºr klassische ML-Algorithmen. Basiert auf NumPy/SciPy. |

## ü§ñ Machine Learning

### Algorithmen & Begriffe

| Begriff | Abk√ºrzung | Erkl√§rung | Anwendung |
|---------|-----------|-----------|----------|
| **Machine Learning** | ML | Computer lernen aus Daten | Vorhersagen treffen |
| **Artificial Intelligence** | AI/KI | Computersysteme mit menschen√§hnlicher Intelligenz | Spracherkennung, Bildanalyse |
| **Deep Learning** | DL | ML mit k√ºnstlichen neuronalen Netzen | Bilderkennung, NLP |
| **Neural Network** | NN | Gehirn-inspiriertes Rechenmodell | Muster in komplexen Daten |
| **Natural Language Processing** | NLP | Verarbeitung menschlicher Sprache | Textanalyse, √úbersetzung |
| **Computer Vision** | CV | Bildanalyse und -verst√§ndnis | Objekterkennung |

### Algorithmus-Typen

| Algorithmus | Typ | Zweck | Beispiel |
|-------------|-----|-------|----------|
| **Linear Regression** | Supervised | Zahlen vorhersagen | Hauspreis sch√§tzen |
| **Logistic Regression** | Supervised | Kategorien vorhersagen | E-Mail: Spam oder nicht? |
| **Decision Tree** | Supervised | Entscheidungen modellieren | Kredit genehmigen? |
| **Random Forest** | Supervised | Viele Entscheidungsb√§ume | Robuste Vorhersagen |
| **K-Means** | Unsupervised | Gruppen finden | Kundensegmentierung |
| **K-Nearest Neighbors** | KNN | √Ñhnlichkeit nutzen | Empfehlungssysteme |

## üì¶ ML-Bibliotheken

| Bibliothek | Zweck | St√§rken | Import |
|------------|-------|---------|--------|
| **scikit-learn** | Klassisches ML | Einfach zu verwenden, gut dokumentiert | `from sklearn import ...` |
| **TensorFlow** | Deep Learning | Google-entwickelt, sehr m√§chtig | `import tensorflow as tf` |
| **PyTorch** | Deep Learning | Facebook-entwickelt, flexibel | `import torch` |
| **Keras** | Deep Learning | High-Level API f√ºr TensorFlow | `from tensorflow import keras` |
| **XGBoost** | Gradient Boosting | Sehr gute Performance bei tabellarischen Daten | `import xgboost as xgb` |
| **LightGBM** | Gradient Boosting | Schnell und speichereffizient | `import lightgbm as lgb` |

## üåê Web-Entwicklung

| Begriff | Zweck | Rolle in unserem Kurs |
|---------|-------|----------------------|
| **Streamlit** | Python Web-Apps | Haupttool f√ºr unsere ML-Apps |
| **Flask** | Web-Framework | Alternative zu Streamlit |
| **FastAPI** | API-Framework | F√ºr REST APIs |
| **HTML** | Markup-Sprache | Grundlage jeder Webseite |
| **CSS** | Styling | Design und Layout |
| **JavaScript** | Frontend-Programmierung | Interaktivit√§t im Browser |
| **REST API** | Schnittstelle | Daten zwischen Systemen austauschen |
| **JSON** | Datenformat | Leichtgewichtiger Datenaustausch |

## ‚òÅÔ∏è Cloud & Deployment

| Service | Anbieter | Zweck | Kosten |
|---------|----------|-------|--------|
| **Streamlit Cloud** | Streamlit | Streamlit-Apps hosten | Kostenlos f√ºr √∂ffentliche Apps |
| **Heroku** | Salesforce | Allgemeine App-Plattform | Begrenzte kostenlose Stufe |
| **AWS** | Amazon | Vollst√§ndige Cloud-Plattform | Pay-per-use |
| **Google Cloud** | Google | Cloud-Services | Kostenlose Stufe verf√ºgbar |
| **Azure** | Microsoft | Microsoft Cloud | Student-Rabatte |
| **GitHub Pages** | GitHub | Statische Websites | Kostenlos |
| **Colab** | Google | Kostenlose Jupyter Notebooks | Kostenlos mit GPU! |

## üê≥ Docker & Containerisierung (Deep Dive)

| Begriff | Erkl√§rung | Warum wichtig? |
|---|---|---|
| **Container** | Isolierter Prozess im User-Space. Nutzt den Kernel des Host-OS. | Leichter als VM, startet in Millisekunden. |
| **Image** | Read-only Template (vergleichbar mit einer **Klasse** in OOP). | Bauplan f√ºr beliebig viele Container (Instanzen). |
| **Dockerfile** | Textdatei mit Bauanweisungen. | Infrastructure as Code (IaC). Reproduzierbar. |
| **Namespaces** | Linux-Kernel-Feature: Isoliert, was der Prozess *sieht* (PID, Netzwerk, Mounts). | Container denkt, er ist allein auf dem System. |
| **Cgroups** | Linux-Kernel-Feature: Limitiert, was der Prozess *nutzen darf* (CPU, RAM). | Verhindert, dass ein Container den Server lahmlegt. |
| **UnionFS** | Layered Filesystem. √Ñnderungen werden als neue Schicht (Copy-on-Write) gespeichert. | Effiziente Speichernutzung, schnelles Bauen. |
| **Volume** | Persistenter Speicher au√üerhalb des UnionFS. | Daten √ºberleben den Neustart/L√∂schen des Containers. |

## üìä Datenformate & Datenbanken

| Format | Erweiterung | Zweck | Pandas-Befehl |
|--------|-------------|-------|---------------|
| **CSV** | .csv | Einfache Tabellen | `pd.read_csv()` |
| **Excel** | .xlsx | Spreadsheets | `pd.read_excel()` |
| **JSON** | .json | Strukturierte Daten | `pd.read_json()` |
| **Parquet** | .parquet | Komprimierte Spalten | `pd.read_parquet()` |
| **SQL** | .sql | Datenbankabfragen | `pd.read_sql()` |
| **HDF5** | .h5 | Gro√üe Datens√§tze | `pd.read_hdf()` |

### Datenbanken

| Typ | Beispiele | Verwendung |
|-----|-----------|------------|
| **SQL** | PostgreSQL, MySQL | Strukturierte Daten |
| **NoSQL** | MongoDB | Dokumente und JSON |
| **Big Data** | Hadoop, Spark | Riesige Datens√§tze |

## üîÑ ML-Workflow Begriffe

| Begriff | Erkl√§rung | Beispiel |
|---------|-----------|----------|
| **EDA** | Exploratory Data Analysis | Daten verstehen und visualisieren |
| **Feature Engineering** | Merkmals-Erstellung | Neue Spalten aus bestehenden Daten |
| **Training** | Modell lernen lassen | `model.fit(X_train, y_train)` |
| **Validation** | Modell testen | `model.score(X_test, y_test)` |
| **Cross-Validation** | Mehrfach-Validierung | Robuste Modell-Bewertung |
| **Hyperparameter** | Modell-Einstellungen | Learning Rate, Anzahl B√§ume |
| **Overfitting** | Modell lernt Trainingsdaten auswendig | Schlechte Performance auf neuen Daten |
| **Underfitting** | Modell ist zu einfach | Kann auch Trainingsdaten nicht gut vorhersagen |

## üìà Evaluation Metriken

### Klassifikation (Kategorien vorhersagen)

| Metrik | Formel | Wann verwenden? |
|--------|--------|----------------|
| **Accuracy** | (TP+TN)/(TP+TN+FP+FN) | Ausgewogene Datens√§tze |
| **Precision** | TP/(TP+FP) | Falsch-Positive vermeiden |
| **Recall** | TP/(TP+FN) | Alle Positive finden |
| **F1-Score** | 2√ó(Precision√óRecall)/(Precision+Recall) | Balance zwischen Precision und Recall |
| **AUC-ROC** | Area Under Curve | Ranking-Qualit√§t |

**Legende**: TP=True Positive, TN=True Negative, FP=False Positive, FN=False Negative

### Regression (Zahlen vorhersagen)

| Metrik | Bedeutung | Einheit |
|--------|-----------|--------|
| **MAE** | Mean Absolute Error | Durchschnittlicher absoluter Fehler |
| **MSE** | Mean Squared Error | Durchschnittlicher quadratischer Fehler |
| **RMSE** | Root Mean Squared Error | Wurzel aus MSE |
| **R¬≤** | Coefficient of Determination | Anteil erkl√§rter Varianz (0-1) |

## üéØ Streamlit Architektur & Execution Model

| Konzept | Erkl√§rung | Developer-Analogie |
|---|---|---|
| **Rerun-Loop** | Bei *jeder* Interaktion (Klick, Tippen) wird das **gesamte Python-Skript** von oben nach unten neu ausgef√ºhrt. | Wie ein Game-Loop oder ein React-Render-Cycle. |
| **Immediate Mode** | UI wird deklarativ im Code definiert. Streamlit berechnet das Delta und sendet es an das Frontend. | React (deklarativ) vs. jQuery (imperativ). |
| **Session State** | Ein Dictionary (`st.session_state`), das Werte √ºber Reruns hinweg beh√§lt. | Wie `Redux Store` oder `HttpSession` im Backend. |
| **Caching** | `@st.cache_data`: Speichert R√ºckgabewerte von Funktionen basierend auf Inputs. | Memoization. Essenziell f√ºr Performance. |
| **Widget** | Interaktives Element (Slider, Button). L√∂st Rerun aus und gibt aktuellen Wert zur√ºck. | HTML Input + Event Listener in einem. |

## üîç H√§ufige Fehler & L√∂sungen

| Fehlermeldung | Problem | L√∂sung |
|---------------|---------|--------|
| `ModuleNotFoundError` | Paket nicht installiert | `pip install paketname` |
| `KeyError` | Spalte existiert nicht | DataFrame-Spalten pr√ºfen |
| `IndexError` | Index au√üerhalb des Bereichs | List/Array-L√§nge pr√ºfen |
| `ValueError` | Falscher Datentyp | Datentyp konvertieren |
| `FileNotFoundError` | Datei nicht gefunden | Pfad korrigieren |
| `MemoryError` | Zu wenig RAM | Kleinere Datens√§tze verwenden |
| `StreamlitAPIException` | Streamlit-Problem | `streamlit run` neu starten |

## üöÄ N√ºtzliche Abk√ºrzungen & Tastenk√ºrzel

### Jupyter Notebooks
- **Shift + Enter**: Zelle ausf√ºhren und zur n√§chsten
- **Ctrl + Enter**: Zelle ausf√ºhren (bleiben)
- **A**: Neue Zelle oberhalb
- **B**: Neue Zelle unterhalb
- **M**: Zu Markdown √§ndern
- **Y**: Zu Code √§ndern
- **DD**: Zelle l√∂schen

### Pandas Abk√ºrzungen
- **df**: DataFrame (Standard-Name)
- **s**: Series (Standard-Name)
- **head()**: Erste 5 Zeilen
- **tail()**: Letzte 5 Zeilen
- **info()**: DataFrame-Informationen
- **describe()**: Statistische Zusammenfassung

## üìö Weiterf√ºhrende Ressourcen

### Offizielle Dokumentationen
- [Python](https://docs.python.org/3/)
- [Pandas](https://pandas.pydata.org/docs/)
- [Streamlit](https://docs.streamlit.io/)
- [Scikit-learn](https://scikit-learn.org/stable/)
- [Docker](https://docs.docker.com/)

### Tutorials & Kurse
- [Kaggle Learn](https://www.kaggle.com/learn) - Kostenlose ML-Kurse
- [Streamlit Gallery](https://streamlit.io/gallery) - Inspiration f√ºr Apps
- [Python for Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) - Kostenloses Buch

### Communities
- [Stack Overflow](https://stackoverflow.com/) - F√ºr alle Programming-Fragen
- [Reddit r/MachineLearning](https://www.reddit.com/r/MachineLearning/)
- [Streamlit Community](https://discuss.streamlit.io/)

---
