# **Kapitel 3: Data Preparation**

Die Datenvorbereitungsphase umfasst alle Aktivitäten zur Erstellung des endgültigen Datensatzes oder der endgültigen Datenauswahl, die in die Modellierungssoftware zur Analyse geladen wird. Der Schwerpunkt liegt dabei auf der Auswahl von Tabellen, Einträgen und Attributen sowie insbesondere auf der Transformation und Bereinigung der Daten. Im Folgenden werden die Schritte der Datenaufbereitung beschrieben:

## **3.1 Auswahl der Daten**
Die Auswahl der Daten für das Data Mining hängt stark von den definierten Projektzielen ab. Dabei spielen die Datenqualität und die technischen Gegebenheiten eine entscheidende Rolle. Folgende Auswahlkriterien wurden angewendet:
- **Relevante Spalten:** Es wurden nur die Spalten beibehalten, die für die Analyse wichtig sind (z. B. `title`, `type`, `director`, `cast`, `listed_in`, `rating`, `duration`).
- **Datenbereinigung:** Duplikate wurden entfernt, und inkonsistente oder unvollständige Einträge wurden überprüft.
- **Selektion nach Plattform:** Die Daten wurden je nach Plattform (Netflix, Disney+) getrennt verarbeitet, um gezieltere Analysen zu ermöglichen.

Am Ende dieses Prozesses wurde sichergestellt, dass nur die relevanten Daten für die Analyse verwendet werden.

## **3.2 Bereinigung der Daten**
Die Bereinigung der Daten ist essenziell, um ein erfolgreiches Data Mining-Projekt zu gewährleisten. Folgende Bereinigungsmaßnahmen wurden durchgeführt:
- **Umgang mit fehlenden Werten:**
  - `director` und `cast`: Fehlende Werte wurden als "Unknown" markiert.
  - `country`: Falls das Produktionsland fehlte, wurde es durch "Unknown" ersetzt.
  - `rating`: Falsche Werte wie Laufzeiten in der Rating-Spalte wurden in die korrekte Spalte verschoben.
- **Duplikate:**
  - Keine doppelten Titel innerhalb der Plattformen, um Mehrfachzählungen zu vermeiden.
- **Standardisierung:**
  - Unterschiedliche Genre-Bezeichnungen wurden vereinheitlicht.
  - Altersfreigaben wurden auf eine einheitliche Notation gebracht.

## **3.3 Transformation und Integration der Daten**
Damit die Daten in einer brauchbaren Darstellungsform für die Modellierung vorliegen, wurden folgende Schritte durchgeführt:
- **Kodierung von Textmerkmalen:**
  - Genres wurden mittels One-Hot-Encoding kodiert.
  - Schauspieler und Regisseure wurden numerisch umgewandelt, indem IDs zugewiesen wurden.
- **Aggregation von Daten:**
  - Anzahl der Staffeln bei Serien wurde standardisiert.
  - Laufzeiten von Filmen wurden in Minuten konvertiert.
- **Erweiterung durch neue Features:**
  - Ein Feature wurde erstellt, das Filme nach Anlass (z. B. "Halloween", "Date Night") kategorisiert.
  - Beliebtheit basierend auf IMDb-Bewertungen (falls verfügbar) wurde als Feature integriert.

## **3.4 Anpassung des Datenformats**
Einige Spalten mussten für die Modellierung angepasst werden:
- **Datentypen wurden konvertiert:**
  - `release_year` wurde in einen numerischen Wert umgewandelt.
  - `duration` wurde in Minuten gespeichert.
- **Speicherung des finalen Datensatzes:**
  - Die bereinigten und transformierten Daten wurden in einer CSV-Datei gespeichert.
  
Durch diese Vorbereitungen sind die Daten nun in einer strukturierten und bereinigten Form für die Modellierung bereit.

