# Data Science Projekte Übersicht

## Übersicht über aktuelle Data Science Projekte

Dieses Notebook bietet eine strukturierte Übersicht über drei Projekte die ich betreut oder entwickelt habe im Fußball Data Science Bereich, welche sich auf verschiedene Aspekte der Datenanalyse und -modellierung konzentrieren und auf die Datendomäne von VELI transferieren lassen.

1. **In-Play Modellierung** - Zeitreihen-basierte Gewinnwahrscheinlichkeiten
2. **Trading Data Anomalie Detection** - Fraud Detection und Anomalieerkennung  
3. **High Frequency Trading Models** - Streaming Data Processing

---

### Technologie Stack / Bereits benutzte Technologien mit denen ich gearbeitet habe / Präferierte Pakete
- **Data Streaming**: Apache Kafka, Spark, FastAPI, Allgemein Rest APIs, erster Erfahrungen mit RabbitMQ
- **Data Storage**: Amazon S3, MySQL, PostgreSQL, MongoDB, erfahren mit sql
- **Data Processing**: Pandas, NumPy, dplyr Universe, dbt
- **Analytics**: Python, R
- **Machine Learning**: Scikit-learn, TensorFlow, PyTorch
- **Visualization**: Matplotlib, Seaborn, Plotly, ggplot2




### Produkt Ideen für VELI:
- Audio Auswertung - Normale Geräusche? Schreie? 
- Demenzerkennung - Ungewöhnliche Muster im Tagesablauf, Veränderte Routinen, Herd oft angelassen?



## 1. Technologie Stack & Tools

### Verwendete Technologien:
- **Data Analysis**: Pandas, NumPy für Datenmanipulation
- **Visualization**: Matplotlib, Seaborn, Plotly für Datenvisualisierung  
- **Machine Learning**: Scikit-learn, TensorFlow, PyTorch
- **Time Series**: (S)ARIMA, Klassisch ACF, LSTM, Seasonal Decomposition, Trend vs. Saisonalität?
- **Database**: MySQL, SQLAlchemy für Datenbankverbindungen
- **Streaming**: Apache Kafka für Echtzeit-Datenverarbeitung
- **Cloud Storage**: Amazon S3 für Data Lake Architektur, dbt für Datenbankmanagement
- **Deployment**: Docker 

---

## 2. In-Play Modellierung - Gewinnwahrscheinlichkeiten (Zeitreihe)

### Projektbeschreibung
Entwicklung von Echtzeit-Modellen zur Vorhersage von Gewinnwahrscheinlichkeiten während laufender Sportereignisse.

Grundlage: Fußball Spiel hat 90 Minuten, in denen sich die Gewinnwahrscheinlichkeiten dynamisch ändern. Ziel ist es, diese Wahrscheinlichkeiten in Echtzeit zu berechnen und anzupassen. Es gibt 3 Ausgänge: Heimsieg, Unentschieden, Auswärtssieg.



### Kernkomponenten
1. **Datenakquisition**: Live-Sport-Feeds über APIs
2. **Feature Engineering**: Zeitreihen-Features, Rolling Statistics, Aktuelle Statistiken vs. Live Stats - z.B. Ballbesitz, Torschüsse, Ecken - Anomalie Detection - Was läuft schief?
3. **Modellierung**: ARIMA, LSTM, Ensemble Methods, (Hidden) Markov Ketten
4. **Deployment**: Real-time Prediction API -> Anomalie? Place Trades



---

## 3. Trading Data Anomalie Detection (Fraud Detection)

### Projektbeschreibung
Entwicklung von Machine Learning Algorithmen zur Erkennung anomaler Handelsaktivitäten und potentieller Betrugsfälle in Kooperation mit einem Buchmacher.

### Anwendungsbereiche
- **Market Manipulation Detection**: Erkennung von Pump & Dump Schemes - z.B. hohe Aktivität vs. ungewöhntlich Hohe aktivität
- **Unusual Trading Patterns**: Identifikation verdächtiger Handelsvolumen
- **Account Anomalies**: Abweichende Nutzerverhalten
- **Price Anomalies**: Ungewöhnliche Preisbewegungen

### Methodiken
1. **Statistical Methods**: Z-Score, IQR-basierte Outlier Detection
2. **Machine Learning**: Isolation Forest, One-Class SVM, Autoencoders
3. **Time Series Anomalies**: Change Point Detection, Seasonal Decomposition
4. **Graph Analytics**: Netzwerk-basierte Anomalieerkennung

### Implementierung

---

## 4. Transfer auf VELI Hausnotrufsysteme - Anwendung der Erfahrungen

### VELI Kontext: Smarte Hausnotrufsysteme aus Energiedaten - ähnlich wie im Fußball wo wir über 200 Variablen pro Spiel haben, haben wir in den Haushaltsdaten sehr viele heterogene Variabelen, die wir in Echtzeit analysieren können. Challenge: Signal vs. Noise - Trennung von Signalen - Was ist der Kühlschrank, was ist Herd und was ist das Licht? 

---

## Transfer Fußball Projekte auf VELI -> Zeitreihenbasierte Anomalieerkennung 

###  **1. In-Play Modellierung → Echtzeit-Verhaltensmuster-Erkennung in Energiedaten**

**Übertragung:**
- **Statt Sportereignisse**: Haushalts-Energieverbrauch über 24h/7 Tage Zyklen -> Dauerhaftes Streaming von Smart Meter Daten
- **Statt Gewinnwahrscheinlichkeiten**: Wahrscheinlichkeit für Notfall/normale Aktivität -> Anomalie Definition wichtig
- **Zeitreihen-Features**: Tägliche Routinen, Wochenmuster, saisonale Schwankungen

-> Modelle? Markov Ketten, LSTM, Ensemble Methoden. Wichtig Daten sauber zu haben, glätten, rauschen entfernen.

**Konkrete Anwendung:**
- **Baseline-Modellierung**: Normale Energiemuster pro Haushalt (Küche, Beleuchtung, TV)
- **Anomalie-Scores**: Abweichungen von gewohnten Mustern in Echtzeit
- **Adaptive Modelle**: Lernen individueller Gewohnheiten (Frühaufsteher vs. Nachtaktiv)
- **Alarm-Trigger**: Gradueller Alarm bei anhaltenden Abweichungen

---

### 🚨 **2. Anomalie Detection → Notfall-Früherkennung**

**Übertragung:**
- **Statt Trading-Betrug**: Ungewöhnliche Energiemuster als Notfall-Indikatoren
- **Statt Market Manipulation**: Plötzliche Aktivitäts-Stopps oder ungewöhnliche Spitzen
- **Multi-variate Analyse**: Kombination verschiedener Geräte-Signaturen

**Konkrete Anwendung:**
- **Sturz-Erkennung**: Plötzlicher Stopp aller Aktivitäten nach normalem Muster
- **Medizinische Notfälle**: Ungewöhnlich lange Inaktivität oder nächtliche Aktivität
- **Verhaltensänderungen**: Graduelle Verschiebung der Routinen (Krankheit, Depression)
- **False-Positive Minimierung**: Unterscheidung Urlaub vs. Notfall durch Muster-Analyse




---

### Weitere (Fußball bezogene Projekte):
- Scouting Matching Algorithmus

---


---

### 🔧 **Technische Implementierung bei VELI**

**Data Pipeline:**
```
Smart Meter → Kafka Streams → Feature Engineering → ML Models → Alert System
     ↓
   S3 Data Lake ← Historical Patterns ← User Behavior Learning
```

**Machine Learning Architektur:**
- **Personalisierte Modelle**: Ein Modell pro Haushalt für individuelle Muster
- **Ensemble Approach**: Kombination verschiedener Anomalie-Detection Methoden
- **Online Learning**: Kontinuierliche Anpassung an sich ändernde Gewohnheiten
- **Explainable AI**: Nachvollziehbare Begründung für Alarme

**Skalierbarkeit:**
- **Multi-Tenant Architecture**: Tausende Haushalte parallel überwachen
- **Edge Computing**: Lokale Vorverarbeitung für Datenschutz
- **Cloud Integration**: Zentrale Modell-Updates und Überwachung



---

## Challenges & Herausforderungen in der Praxis

### **Labelling**

- **Labeling von Anomalien**: Schwierigkeit, echte Notfälle von normalen Abweichungen zu unterscheiden
- Automatisierte Labeling-Strategien: Nutzung von Expertenwissen, historische Daten und Nutzer-Feedback 
- Manuelle Validierung: Kostspielig 

###  **Datenqualität & Preprocessing**
- **Schlechte Datenqualität**: Missing Values, inkonsistente Zeitstempel, Sensor-Ausfälle
- **Rauschen in Energiedaten**: Elektrische Interferenzen, Messungenauigkeiten
- **Heterogene Datenquellen**: Verschiedene Smart Meter Typen, unterschiedliche Sampling-Raten
- **Datenvolumen**: Terabytes an kontinuierlichen Zeitreihendaten pro Tag
- **Datenschutz (DSGVO)**: Anonymisierung vs. Personalisierung Balance

###  **Technische Infrastruktur**
- **Latenz-Anforderungen**: Sub-Sekunden Reaktionszeiten für Notfälle
- **Skalierbarkeit**: Tausende Haushalte gleichzeitig überwachen
- **Ausfallsicherheit**: 99.99% Verfügbarkeit für kritische Systeme
- **Edge vs. Cloud**: Lokale Verarbeitung vs. zentrale Intelligenz
- **Bandbreiten-Limitierungen**: Ländliche Gebiete mit schlechter Internetverbindung

### **Machine Learning Herausforderungen**
- **Concept Drift**: Sich ändernde Gewohnheiten über Zeit (Jahreszeiten, Alter, Gesundheit) - Saisonalität vs. Trends?
- **Class Imbalance**: Sehr wenige echte Notfälle vs. normale Aktivität
- **False Positive Rate**: Balance zwischen Sicherheit und Fehlalarmen -> Richtige Evalueriungsmethoden wählen - PR-AUC Precision Recall Kurve, F1?
- **Explainable AI**: Nachvollziehbare Begründung für Alarme (Regulatorik)

###  **Nutzer & Domänen-spezifisch**
- **Individuelle Unterschiede**: Jeder Haushalt hat einzigartige Muster
- **Generationsspezifik**: Ältere Menschen vs. Tech-affine Nutzer
- **Saisonale Variationen**: Heizung im Winter, Klimaanlage im Sommer
- **Lebensumstände**: Single-Haushalt vs. Mehrgenerationen-Familie
- **Akzeptanz**: Privatsphäre-Bedenken vs. Sicherheitsbedürfnis

###  **Operationelle Herausforderungen**
- **Kontinuierliches Monitoring**: 24/7 Systemüberwachung
- **Model Maintenance**: Regelmäßige Updates und Retraining - Engineering Department?
- **Incident Response**: Schnelle Reaktion bei System-Ausfällen - Wie ist das bisher geregelt? Gibts da SLA Vereinbarungen mit den Nutzern? Rechtliche Absicherung?
- **Quality Assurance**: Testing von ML-Modellen in produktiver Umgebung -> DevOps optimieren.
- **Compliance**: Medizintechnik-Regulierung und Zertifizierungen

###  **Lösungsansätze **
- **Robuste Preprocessing-Pipelines**: Automated Data Cleaning und Validation -> dbt nutzen
- **Ensemble Methods**: Mehrere Modelle für erhöhte Zuverlässigkeit
- **Graduelle Alarmierung**: Soft Alerts → Family → Emergency Services
- **Continuous Learning**
- **A/B Testing**: Kontinuierliche Optimierung der Algorithmen
