# Data Science Projekte √úbersicht

## √úbersicht √ºber aktuelle Data Science Projekte

Dieses Notebook bietet eine strukturierte √úbersicht √ºber drei Projekte die ich betreut oder entwickelt habe im Fu√üball Data Science Bereich, welche sich auf verschiedene Aspekte der Datenanalyse und -modellierung konzentrieren und auf die Datendom√§ne von VELI transferieren lassen.

1. **In-Play Modellierung** - Zeitreihen-basierte Gewinnwahrscheinlichkeiten
2. **Trading Data Anomalie Detection** - Fraud Detection und Anomalieerkennung  
3. **High Frequency Trading Models** - Streaming Data Processing

---

### Technologie Stack / Bereits benutzte Technologien mit denen ich gearbeitet habe / Pr√§ferierte Pakete
- **Data Streaming**: Apache Kafka, Spark, FastAPI, Allgemein Rest APIs, erster Erfahrungen mit RabbitMQ
- **Data Storage**: Amazon S3, MySQL, PostgreSQL, MongoDB, erfahren mit sql
- **Data Processing**: Pandas, NumPy, dplyr Universe, dbt
- **Analytics**: Python, R
- **Machine Learning**: Scikit-learn, TensorFlow, PyTorch
- **Visualization**: Matplotlib, Seaborn, Plotly, ggplot2




### Produkt Ideen f√ºr VELI:
- Audio Auswertung - Normale Ger√§usche? Schreie? 
- Demenzerkennung - Ungew√∂hnliche Muster im Tagesablauf, Ver√§nderte Routinen, Herd oft angelassen?



## 1. Technologie Stack & Tools

### Verwendete Technologien:
- **Data Analysis**: Pandas, NumPy f√ºr Datenmanipulation
- **Visualization**: Matplotlib, Seaborn, Plotly f√ºr Datenvisualisierung  
- **Machine Learning**: Scikit-learn, TensorFlow, PyTorch
- **Time Series**: (S)ARIMA, Klassisch ACF, LSTM, Seasonal Decomposition, Trend vs. Saisonalit√§t?
- **Database**: MySQL, SQLAlchemy f√ºr Datenbankverbindungen
- **Streaming**: Apache Kafka f√ºr Echtzeit-Datenverarbeitung
- **Cloud Storage**: Amazon S3 f√ºr Data Lake Architektur, dbt f√ºr Datenbankmanagement
- **Deployment**: Docker 

---

## 2. In-Play Modellierung - Gewinnwahrscheinlichkeiten (Zeitreihe)

### Projektbeschreibung
Entwicklung von Echtzeit-Modellen zur Vorhersage von Gewinnwahrscheinlichkeiten w√§hrend laufender Sportereignisse.

Grundlage: Fu√üball Spiel hat 90 Minuten, in denen sich die Gewinnwahrscheinlichkeiten dynamisch √§ndern. Ziel ist es, diese Wahrscheinlichkeiten in Echtzeit zu berechnen und anzupassen. Es gibt 3 Ausg√§nge: Heimsieg, Unentschieden, Ausw√§rtssieg.



### Kernkomponenten
1. **Datenakquisition**: Live-Sport-Feeds √ºber APIs
2. **Feature Engineering**: Zeitreihen-Features, Rolling Statistics, Aktuelle Statistiken vs. Live Stats - z.B. Ballbesitz, Torsch√ºsse, Ecken - Anomalie Detection - Was l√§uft schief?
3. **Modellierung**: ARIMA, LSTM, Ensemble Methods, (Hidden) Markov Ketten
4. **Deployment**: Real-time Prediction API -> Anomalie? Place Trades



---

## 3. Trading Data Anomalie Detection (Fraud Detection)

### Projektbeschreibung
Entwicklung von Machine Learning Algorithmen zur Erkennung anomaler Handelsaktivit√§ten und potentieller Betrugsf√§lle in Kooperation mit einem Buchmacher.

### Anwendungsbereiche
- **Market Manipulation Detection**: Erkennung von Pump & Dump Schemes - z.B. hohe Aktivit√§t vs. ungew√∂hntlich Hohe aktivit√§t
- **Unusual Trading Patterns**: Identifikation verd√§chtiger Handelsvolumen
- **Account Anomalies**: Abweichende Nutzerverhalten
- **Price Anomalies**: Ungew√∂hnliche Preisbewegungen

### Methodiken
1. **Statistical Methods**: Z-Score, IQR-basierte Outlier Detection
2. **Machine Learning**: Isolation Forest, One-Class SVM, Autoencoders
3. **Time Series Anomalies**: Change Point Detection, Seasonal Decomposition
4. **Graph Analytics**: Netzwerk-basierte Anomalieerkennung

### Implementierung

---

## 4. Transfer auf VELI Hausnotrufsysteme - Anwendung der Erfahrungen

### VELI Kontext: Smarte Hausnotrufsysteme aus Energiedaten - √§hnlich wie im Fu√üball wo wir √ºber 200 Variablen pro Spiel haben, haben wir in den Haushaltsdaten sehr viele heterogene Variabelen, die wir in Echtzeit analysieren k√∂nnen. Challenge: Signal vs. Noise - Trennung von Signalen - Was ist der K√ºhlschrank, was ist Herd und was ist das Licht? 

---

## Transfer Fu√üball Projekte auf VELI -> Zeitreihenbasierte Anomalieerkennung 

###  **1. In-Play Modellierung ‚Üí Echtzeit-Verhaltensmuster-Erkennung in Energiedaten**

**√úbertragung:**
- **Statt Sportereignisse**: Haushalts-Energieverbrauch √ºber 24h/7 Tage Zyklen -> Dauerhaftes Streaming von Smart Meter Daten
- **Statt Gewinnwahrscheinlichkeiten**: Wahrscheinlichkeit f√ºr Notfall/normale Aktivit√§t -> Anomalie Definition wichtig
- **Zeitreihen-Features**: T√§gliche Routinen, Wochenmuster, saisonale Schwankungen

-> Modelle? Markov Ketten, LSTM, Ensemble Methoden. Wichtig Daten sauber zu haben, gl√§tten, rauschen entfernen.

**Konkrete Anwendung:**
- **Baseline-Modellierung**: Normale Energiemuster pro Haushalt (K√ºche, Beleuchtung, TV)
- **Anomalie-Scores**: Abweichungen von gewohnten Mustern in Echtzeit
- **Adaptive Modelle**: Lernen individueller Gewohnheiten (Fr√ºhaufsteher vs. Nachtaktiv)
- **Alarm-Trigger**: Gradueller Alarm bei anhaltenden Abweichungen

---

### üö® **2. Anomalie Detection ‚Üí Notfall-Fr√ºherkennung**

**√úbertragung:**
- **Statt Trading-Betrug**: Ungew√∂hnliche Energiemuster als Notfall-Indikatoren
- **Statt Market Manipulation**: Pl√∂tzliche Aktivit√§ts-Stopps oder ungew√∂hnliche Spitzen
- **Multi-variate Analyse**: Kombination verschiedener Ger√§te-Signaturen

**Konkrete Anwendung:**
- **Sturz-Erkennung**: Pl√∂tzlicher Stopp aller Aktivit√§ten nach normalem Muster
- **Medizinische Notf√§lle**: Ungew√∂hnlich lange Inaktivit√§t oder n√§chtliche Aktivit√§t
- **Verhaltens√§nderungen**: Graduelle Verschiebung der Routinen (Krankheit, Depression)
- **False-Positive Minimierung**: Unterscheidung Urlaub vs. Notfall durch Muster-Analyse




---

### Weitere (Fu√üball bezogene Projekte):
- Scouting Matching Algorithmus

---


---

### üîß **Technische Implementierung bei VELI**

**Data Pipeline:**
```
Smart Meter ‚Üí Kafka Streams ‚Üí Feature Engineering ‚Üí ML Models ‚Üí Alert System
     ‚Üì
   S3 Data Lake ‚Üê Historical Patterns ‚Üê User Behavior Learning
```

**Machine Learning Architektur:**
- **Personalisierte Modelle**: Ein Modell pro Haushalt f√ºr individuelle Muster
- **Ensemble Approach**: Kombination verschiedener Anomalie-Detection Methoden
- **Online Learning**: Kontinuierliche Anpassung an sich √§ndernde Gewohnheiten
- **Explainable AI**: Nachvollziehbare Begr√ºndung f√ºr Alarme

**Skalierbarkeit:**
- **Multi-Tenant Architecture**: Tausende Haushalte parallel √ºberwachen
- **Edge Computing**: Lokale Vorverarbeitung f√ºr Datenschutz
- **Cloud Integration**: Zentrale Modell-Updates und √úberwachung



---

## Challenges & Herausforderungen in der Praxis

### **Labelling**

- **Labeling von Anomalien**: Schwierigkeit, echte Notf√§lle von normalen Abweichungen zu unterscheiden
- Automatisierte Labeling-Strategien: Nutzung von Expertenwissen, historische Daten und Nutzer-Feedback 
- Manuelle Validierung: Kostspielig 

###  **Datenqualit√§t & Preprocessing**
- **Schlechte Datenqualit√§t**: Missing Values, inkonsistente Zeitstempel, Sensor-Ausf√§lle
- **Rauschen in Energiedaten**: Elektrische Interferenzen, Messungenauigkeiten
- **Heterogene Datenquellen**: Verschiedene Smart Meter Typen, unterschiedliche Sampling-Raten
- **Datenvolumen**: Terabytes an kontinuierlichen Zeitreihendaten pro Tag
- **Datenschutz (DSGVO)**: Anonymisierung vs. Personalisierung Balance

###  **Technische Infrastruktur**
- **Latenz-Anforderungen**: Sub-Sekunden Reaktionszeiten f√ºr Notf√§lle
- **Skalierbarkeit**: Tausende Haushalte gleichzeitig √ºberwachen
- **Ausfallsicherheit**: 99.99% Verf√ºgbarkeit f√ºr kritische Systeme
- **Edge vs. Cloud**: Lokale Verarbeitung vs. zentrale Intelligenz
- **Bandbreiten-Limitierungen**: L√§ndliche Gebiete mit schlechter Internetverbindung

### **Machine Learning Herausforderungen**
- **Concept Drift**: Sich √§ndernde Gewohnheiten √ºber Zeit (Jahreszeiten, Alter, Gesundheit) - Saisonalit√§t vs. Trends?
- **Class Imbalance**: Sehr wenige echte Notf√§lle vs. normale Aktivit√§t
- **False Positive Rate**: Balance zwischen Sicherheit und Fehlalarmen -> Richtige Evalueriungsmethoden w√§hlen - PR-AUC Precision Recall Kurve, F1?
- **Explainable AI**: Nachvollziehbare Begr√ºndung f√ºr Alarme (Regulatorik)

###  **Nutzer & Dom√§nen-spezifisch**
- **Individuelle Unterschiede**: Jeder Haushalt hat einzigartige Muster
- **Generationsspezifik**: √Ñltere Menschen vs. Tech-affine Nutzer
- **Saisonale Variationen**: Heizung im Winter, Klimaanlage im Sommer
- **Lebensumst√§nde**: Single-Haushalt vs. Mehrgenerationen-Familie
- **Akzeptanz**: Privatsph√§re-Bedenken vs. Sicherheitsbed√ºrfnis

###  **Operationelle Herausforderungen**
- **Kontinuierliches Monitoring**: 24/7 System√ºberwachung
- **Model Maintenance**: Regelm√§√üige Updates und Retraining - Engineering Department?
- **Incident Response**: Schnelle Reaktion bei System-Ausf√§llen - Wie ist das bisher geregelt? Gibts da SLA Vereinbarungen mit den Nutzern? Rechtliche Absicherung?
- **Quality Assurance**: Testing von ML-Modellen in produktiver Umgebung -> DevOps optimieren.
- **Compliance**: Medizintechnik-Regulierung und Zertifizierungen

###  **L√∂sungsans√§tze **
- **Robuste Preprocessing-Pipelines**: Automated Data Cleaning und Validation -> dbt nutzen
- **Ensemble Methods**: Mehrere Modelle f√ºr erh√∂hte Zuverl√§ssigkeit
- **Graduelle Alarmierung**: Soft Alerts ‚Üí Family ‚Üí Emergency Services
- **Continuous Learning**
- **A/B Testing**: Kontinuierliche Optimierung der Algorithmen
