
# **Kapitel 2: Datenverständnis**  

Nachdem die analytischen Ziele des Projekts definiert wurden, erfolgt nun die Auswahl und Analyse der relevanten Datenbestände. Ziel dieser Phase ist es, ein tiefgehendes Verständnis der Daten zu entwickeln, eventuelle Qualitätsprobleme zu identifizieren und interessante Zusammenhänge zu erkennen.  

## **2.1 Datensammlung**  

Für dieses Projekt wurden Datensätze aus verschiedenen Quellen verwendet, die hauptsächlich aus Streaming-Plattformen wie Netflix und Disney+ stammen. Die Datensätze enthalten Informationen über Filme und Serien, einschließlich Metadaten wie Titel, Regisseur, Besetzung, Produktionsland, Altersfreigabe und Genres.  

Die relevanten Datensätze sind:  

- **Originaler Netflix-Datensatz:** Enthält 8.807 Einträge mit 12 Spalten.  
- **Bearbeiteter Datensatz:** Enthält 10.204 Einträge mit 11 Spalten, wobei einige Spalten entfernt oder ergänzt wurden.  

Während der Datensammlung wurden folgende Herausforderungen dokumentiert:  
- **Verschiedene Formate:** Ursprüngliche Daten lagen in unterschiedlichen Formaten vor und mussten vereinheitlicht werden.  
- **Fehlende Werte:** Einige Einträge hatten unvollständige Metadaten, insbesondere bei Regisseur und Besetzung.  
- **Unterschiedliche Namenskonventionen:** Die Altersfreigaben unterschieden sich je nach Quelle und mussten harmonisiert werden.  

## **2.2 Datenbeschreibung**  

Die vorhandenen Daten enthalten verschiedene Merkmale, die für die Analyse relevant sind. Die wichtigsten Spalten sind:  

| Spalte       | Datentyp  | Beschreibung | Relevanz |
|-------------|----------|--------------|----------|
| show_id     | Absolut  | Eindeutige ID der Show | Nein |
| type        | Nominal  | Film oder Serie | Ja |
| title       | Nominal  | Titel der Show | Ja |
| director    | Nominal  | Regisseur | Ja |
| cast        | Nominal  | Besetzung | Ja |
| country     | Nominal  | Produktionsland | Ja |
| agerating   | Ordinal  | Altersfreigabe | Ja |
| duration    | Interval | Laufzeit (Minuten/Staffeln) | Ja |
| listed_in   | Nominal  | Genres | Ja |
| description | Nominal  | Kurzbeschreibung | Ja |
| platform    | Nominal  | Netflix oder Disney+ | Ja |

Die Daten liegen in tabellarischer Form vor und enthalten sowohl kategoriale als auch numerische Variablen. Für die Analyse sind vor allem die Spalten **„type“, „agerating“, „duration“ und „listed_in“** von Interesse.  

## **2.3 Untersuchung der Daten**  

Erste Analysen der Daten haben gezeigt, dass:  
- **Altersfreigaben unterschiedlich kategorisiert sind**, was eine Vereinheitlichung erfordert (z. B. „TV-14“ vs. „PG-13“).  
- **Bestimmte Genres dominieren**, insbesondere Action, Drama und Komödie.  
- **Die meisten Filme aus den USA stammen**, während Serien eine größere internationale Verteilung aufweisen.  
- **Die Dauer von Inhalten variiert stark**, Serien haben meist eine Staffellänge als Angabe, während Filme eine Minutenzahl enthalten.  

Um diese Erkenntnisse zu visualisieren, wurden verschiedene Diagramme und Tabellen erstellt, darunter Scatter-Plots und Balkendiagramme zur Darstellung der Genre-Verteilung und Altersfreigaben.  

## **2.4 Bewertung der Daten**  

Die Datenqualität wurde anhand folgender Kriterien bewertet:  

- **Vollständigkeit:** Einige Felder wie „director“ und „cast“ haben fehlende Werte, die durch „unbekannt“ ersetzt wurden.  
- **Konsistenz:** Die Plattform-Spalte wurde überprüft, um doppelte oder fehlerhafte Einträge zu bereinigen.  
- **Relevanz:** Nicht relevante Spalten wie „show_id“ wurden entfernt, da sie keinen Mehrwert für die Analyse bieten.  
- **Eindeutigkeit:** Doppeleinträge wurden überprüft und bereinigt.  

Zusammenfassend ist der Datensatz für die Analyse geeignet, erfordert jedoch **eine sorgfältige Vorverarbeitung**, insbesondere in Bezug auf die Altersfreigaben und die Harmonisierung der Kategorien.  
