<a href="https://pandas.pydata.org/"><img src=https://pandas.pydata.org/static/img/pandas.svg width="200" alt="pandas logo"></a>

# Lernmodul zum Datenimport und zur Datenvorbereitung mit pandas

Bei Pandas handelt es sich um eine der beliebtesten Python Library zur Datenanalyse. Diese stellt verschiedene Funktionalitäten zum Datenimport, zur Datenanalyse und zur Datenmanipulation zur Verfügung. Mithilfe dieses Lernmoduls soll der Umgang mit Pandas erlernt und geübt werden. Dabei wird der Fokus auf den Datenimport und die Datenvorbereitung gelegt, indem die dafür zur Verfügung stehenden grundlegenden Funktionalitäten erläutert werden. Es wird empfohlen die Aufgaben zwischen den einzelnen Inhalten zu bearbeiten, nachdem die Erläuterungen gelesen wurden. Am Ende des Lernmoduls kann das gesammelte Wissen in einem kleinen Projekt nochmal vertieft werden.

**Übersicht über die Lerninhalte:**

- Grundlagen zu Pandas
- Daten importieren und extrahieren
- Daten analysieren
- Daten bereinigen
- Daten transformieren

**Lernziele:**

Die Teilnehmer erwerben Grundkenntnisse im Umgang mit der Library Pandas. Sie kennen die grundlegenden Datenstrukturen in Pandas und können Daten aus diversen Quellen (z. B. Datenbank, csv-Datei) importieren. Zudem sind sie in der Lage die Daten zu untersuchen und für die weitere Verarbeitung in z. B. ML Modellen vorzubereiten. Dafür beherrschen sie diverse Methoden zur Bereinigung und zur Transformation der Daten, die von Pandas zur Verfügung gestellt werden.

**Voraussetzungen:**
- Grundlegende Python Kenntnisse
- Umgang mit Jupyter Notebooks


SETUP

In [8]:
from taskreview.learningModule import LearningModule

# Lernmodul-Instanz erstellen
pandas_lm = LearningModule('data/lernmodul_pandas.db')

<div style="background-color: #150458 ; padding: 5px; "></div>

## **1** Grundlagen zu Pandas

### Pandas installieren

Pandas kann entweder mit Anaconda oder Miniconda installiert werden oder mithilfe von pip:

- Anaconda/ Miniconda: conda install Pandas

- pip: pip install pandas


### **1.1** Pandas importieren

Nachdem pandas installiert wurde, kann es in einer Datei importiert werden. Der Import findet mithilfe folgender Codezeile statt:

In [11]:
import pandas as pd

### **1.2** Erläuterungen der Datenstrukturen

Es gibt zwei grundlegende Datenobjekte in pandas: den DataFrame und die Series. Im Folgenden werden diese beiden kurz vorgestellt.

**DataFrame**

Bei einem DataFrame handelt es sich um eine Tabelle mit verschiedenen Einträgen. Ein DataFrame besteht aus drei Bestandteilen: Daten, Spalten und Zeilen. Die Daten können von einem beliebigen Datentyp sein (zum Beispiel Integer, String, Date, Float, Boolean, usw.) und werden mithilfe der Spalten und Zeilen gegliedert. 

In der Praxis werden DataFrames erzeugt, indem Daten aus externen Speichern eingelesen werden, zu diesen Speichermedien gehören: Datenbanken, csv Dateien und Excel Dateien (siehe Abschnitt *2 Datenimport und -export*). DataFrames können allerdings auch aus zum Beispiel Listen oder Dictonaries erzeugt werden. Dafür wird der Konstruktur `pd.DataFrame()` genutzt. Beispielhaft wird dies im Folgenden mithilfe eines Dictonary von Listen gezeigt. Dabei bilden die Keys des Dictionary die Spaltennamen und die Values beinhalten eine Liste mit Einträgen.

In [12]:
data = {'Vorname': ['Max', 'Lisa'], 'Nachname': ['Mustermann', 'Musterfrau'], 'Alter': [20, 23], 'Lieblingsfilm': ['Star Wars', 'Titanic']}
 
# Erzeugen eines DataFrames mithilfe des Konstruktors
df = pd.DataFrame(data)
df

Unnamed: 0,Vorname,Nachname,Alter,Lieblingsfilm
0,Max,Mustermann,20,Star Wars
1,Lisa,Musterfrau,23,Titanic


In manchen Fällen ist es gewünscht anstatt einer aufsteigenden Nummer als Zeilenbeschriftungen eigene Beschriftungen festzulegen. Die Liste der Zeilenbeschriftungen wird Index genannt. Mithilfe des `index` Parameters des Konstruktors können eigene Beschriftungen übergeben werden.

In [13]:
df = pd.DataFrame(data, index=['Person 1', 'Person 2'])
df

Unnamed: 0,Vorname,Nachname,Alter,Lieblingsfilm
Person 1,Max,Mustermann,20,Star Wars
Person 2,Lisa,Musterfrau,23,Titanic


**Series**

Eine Series ist ein eindimensionaler gelabelter Array, das jegliche Datentypen beinhalten kann. Sie kann als eine einzelnen Spalte einer Tabelle angesehen werden. Auch hier können Zeilenbeschriftungen mithilfe des index Parameters hinzugefügt werden. Eine Series hat allerdings keinen Spaltennamen, sondern einen Gesamtnamen. Dieser kann über den Parameter `name` festgelegt werden. Zur Erzeugung einer Series kannn zum Beispiel eine Liste oder ein Dictonary genutzt werden. Im Folgenden wird dies beispielhaft mit einer Liste demonstriert.

In [14]:
# Liste mit Daten
list = ['Max', 'Lisa', 'Sandra', 'Daniel']
# Zeilenbeschriftungen
index = ['Person 1', 'Person 2', 'Person 3', 'Person 4']
  
# Series aus einer Liste erzeugen
ser = pd.Series(list, index, name='Vorname')
print(ser)

Person 1       Max
Person 2      Lisa
Person 3    Sandra
Person 4    Daniel
Name: Vorname, dtype: object


<div style="background-color: #150458 ; padding: 5px; "></div>

## **2** Datenimport und -export

In den meisten Fällen werden Daten nicht händisch erzeugt, wie im vorherigen Abschnitt. Die meisten Zeit werden Daten genutzt, die bereits existieren. Diese Daten müssen dafür allerdings zunächst importiert werden. Im folgenden Abschnitt wird der Datenimport aus einer Datenbank oder einer csv Datei näher betrachtet. Aus den importierten Daten soll ein DataFrame erzeugt werden, um die Daten mit pandas für weitere Schritte vorbereiten zu können. Nachdem diese Vorbereitung stattgefunden hat sollen die Daten zwischengespeichert werden. Dafür wird der Datenexport genauer unter die Lupe genommen.

### **2.1** Importieren von Daten aus einer Datenbank

Zum Herstellung einer Datenbankverbindung muss ein entsprechendes Package passend zu der Datenbank installiert und importiert werden.
Im Folgenden wird dies am Beispiel einer SQLite Datenbank gezeigt. Um die Verbindung herzustellen, muss der `connect` Methode des importierten sqlite3 Package der Pfad zu der Datenbank übergeben werden. Mithilfe der Methode `read_sql_query` können dann diverse SQL Abfragen ausgeführt werden. Der Methode werden dafür die SQL Abfrage und die Datenbankverbindung übergeben. Die abgefragten Daten werden automatisch in einen DataFrame gespeichert. Nach Beendigung der Abfragen sollte die Datenbankverbindung wieder geschlossen werden.

In [15]:
import sqlite3

# Herstellen der Datenbankverbindung
con = sqlite3.connect('data/lernmodul_pandas.db')
# Auslesen der Daten aus der Datenbank und Speicherung der Daten in einem DataFrame
netflix_titles_df = pd.read_sql_query('SELECT * from netflix_titles', con)

# Schließen der Datenbankverbindung
con.close()

Zum Verifizieren, dass die Daten importiert und in dem DataFrame gespeichert wurden, kann zum Beispiel die Anzahl der Tabellenzeilen abgefragt werden. Dafür kann die Python Funktion `len()` genutzt werden.

**2.1.1 Nutze die Funktion len(), um zu verifizieren, dass Daten importiert wurden. Wie viele Zeilen sind in dem importieren Daten enthalten?**

In [16]:
# Platz für Code
len(netflix_titles_df)

6234

In [20]:
# TODO Single Choice
pandas_lm.show_task(211)

Output()

Output()

Output()

### **2.2** Importieren von Daten aus einer csv Datei

Mithilfe der pandas Methode `read_csv` können Daten aus einer csv Datei als pandas DataFrame importiert werden. 

In [21]:
netflix_titles_df = pd.read_csv('data/netflix_titles.csv')

Durch die Methode `head` eines DataFrames werden die ersten 5 Zeilen des DataFrames angezeigt. Dies kann auch zur Verifizierung genutzt werden, ob der Import der Daten geklappt hat.

**2.2.2 Nutze die Methode `head`, um den Datenimport zu verifizieren. Welchen Titel trägt der Film in der zweiten Zeile?**

In [29]:
# Platz für Code
df_head = netflix_titles_df.head()

In [30]:
#TODO Single Choice
pandas_lm.show_task(212, df_head)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,247747,Movie,Amar Akbar Anthony,Manmohan Desai,"Vinod Khanna, Rishi Kapoor, Amitabh Bachchan, ...",India,"December 31, 2019",1977,TV-14,172 min,"Action & Adventure, Classic Movies, Comedies","Abandoned in a park by their father, Amar, Akb..."
1,269880,Movie,Bad Boys,Michael Bay,"Will Smith, Martin Lawrence, Téa Leoni, Tchéky...",United States,"October 1, 2019",1995,R,119 min,"Action & Adventure, Comedies","In this fast-paced actioner, two Miami narcoti..."
2,281550,Movie,La Bamba,Luis Valdez,"Lou Diamond Phillips, Esai Morales, Rosanna De...",United States,"January 1, 2020",1987,PG-13,109 min,"Classic Movies, Dramas, Music & Musicals",The plane crash that killed Buddy Holly also t...
3,284890,Movie,Barsaat,Rajkumar Santoshi,"Twinkle Khanna, Bobby Deol, Danny Denzongpa, R...",India,"April 1, 2018",1995,TV-PG,166 min,"Action & Adventure, International Movies, Musi...",A naïve young man and a rich city girl fall in...
4,292118,Movie,Beavis and Butt-head Do America,Mike Judge,"Mike Judge, Bruce Willis, Demi Moore, Cloris L...",United States,"November 20, 2019",1996,PG-13,81 min,"Comedies, Cult Movies","After realizing that their boob tube is gone, ..."


Output()

Output()

### **2.3** Zusammenführen von Daten

Manchmal sind nicht alle Daten in einer einzigen Datenquelle vorhanden, um denoch alle relevanten Informationen in einem DataFrame vorliegen zu haben, müssen die einzelnen DataFrames mithilfe der `merge` Methode eines DataFrames zusammengeführt werden. 

In dem DataFrame `liebingsshow_df` ist jeweils die Lieblingsshow von unterschiedlichen Personen eingetragen. Leider ist aus der ID der Show nicht direkt ersichtlich, um welche es sich genau handelt. Um diese Information zu erhalten muss in dem vorherigen erstellten DataFrame `netflix_titles_df` nachgesehen werden. In diesem Fall macht es Sinn die beiden DataFrames zu mergen. Damit zwei DataFrames miteinander gemerged werden können ist es wichtig, dass ein eindeutiger Identifier vorliegt, über den die beiden DataFrames verbunden werden können. In dem Beispiel wäre das die Spalte `show_id`.


In [49]:
lieblingsshows = {'ID': [1, 2, 3, 4], 'Name': ['Lisa', 'Dirk', 'Jan', 'Verena'], 'show_id': [80057969, 80117902, 70234439, 70196145]}
lieblingsshows_df = pd.DataFrame.from_dict(lieblingsshows)

# on - Spaltennamen durch die die beiden DataFrames gemerged werden sollen
# how - auf welche Art und Weise die DataFrames gemerged werden sollen (left, right, outer, inner)
merged_df = lieblingsshows_df.merge(netflix_titles_df, how= 'left', on='show_id')

In [50]:
merged_df

Unnamed: 0,ID,Name,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,1,Lisa,80057969,Movie,Love,Gaspar Noé,"Karl Glusman, Klara Kristin, Aomi Muyock, Ugo ...","France, Belgium","September 8, 2017",2015,NR,135 min,"Cult Movies, Dramas, Independent Movies",A man in an unsatisfying marriage recalls the ...
1,2,Dirk,80117902,TV Show,Fire Chasers,,,United States,"September 8, 2017",2017,TV-MA,1 Season,"Docuseries, Science & Nature TV","As California's 2016 fire season rages, brave ..."
2,3,Jan,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,4,Verena,70196145,TV Show,New Girl,,"Zooey Deschanel, Jake Johnson, Max Greenfield,...",United States,"April 11, 2019",2017,TV-14,7 Seasons,"Romantic TV Shows, TV Comedies","Still rebounding from a breakup, Jessica Day m..."


### **2.4** Export von Daten in eine Datenbank

Im Folgenden wird gezeigt, wie ein DataFrame wieder als Datenbanktabelle exportiert werden kann. Dafür wird erneut die SQLite Datenbank genutzt. Nachdem wie Verbindung zu der Datenbank hergestellt wurde, kann mithilfe der DataFrame Methode `to_sql` der jeweilige DataFrame als Datenbanktabelle exportiert werden. Dafür müssen als Parameter der Name der zu erstellenden Datenbanktabelle sowie die Datenbankverbindung übergeben werden. Optional kann zum Beispiel verhindert werden, dass der Index mit exportiert wird. Ein DataFrame kann defaultmäßig nur einmal in dieselbe Datenbanktabelle exportiert werden, d. h. bei der zweiten Ausführung würde eine Exception geworfen werden, weil die Datenbanktabelle bereits existiert. In diesem Fall kann mithilfe des Parameters `if_exist` festgelegt werden, dass die existierende Tabelle überschrieben werden soll.

In [40]:
# Herstellen der Datenbankverbindung
con = sqlite3.connect('data/lernmodul_pandas.db')

# Erzeugen einer Datenbanktabelle auf der Basis eines DataFrames
merged_df.to_sql('lieblingsshows', con, index = False, if_exists="replace")

# Auslesen der Daten aus der Datenbank zur Überprüfung, ob die Tabelle erstellt wurde
db_export_df = pd.read_sql_query('SELECT * from lieblingsshows', con)

# Schließen der Datenbankverbindung
con.close()

db_export_df

Unnamed: 0,ID,Name,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,1,Lisa,80057969,Movie,Love,Gaspar Noé,"Karl Glusman, Klara Kristin, Aomi Muyock, Ugo ...","France, Belgium","September 8, 2017",2015,NR,135 min,"Cult Movies, Dramas, Independent Movies",A man in an unsatisfying marriage recalls the ...
1,2,Dirk,80117902,TV Show,Fire Chasers,,,United States,"September 8, 2017",2017,TV-MA,1 Season,"Docuseries, Science & Nature TV","As California's 2016 fire season rages, brave ..."
2,3,Jan,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,4,Verena,70196145,TV Show,New Girl,,"Zooey Deschanel, Jake Johnson, Max Greenfield,...",United States,"April 11, 2019",2017,TV-14,7 Seasons,"Romantic TV Shows, TV Comedies","Still rebounding from a breakup, Jessica Day m..."


### **2.5** Export von Daten in eine csv Datei

Alternativ zur Datenbanktabelle können die Daten auch als csv Datei exportiert werden. Hierfür wird die DataFrame Methode `to_csv` benötigt. Der Methode wird dann der Dateiname der zu erstellenden csv-Datei übergeben. Optional kann auch ein Dateipfad angegeben werden, wenn die Datei nicht in dem aktuellen Verzeichnis erstellt werden soll. Mithilfe des Parameters `index` kann festgelegt werden, ob der Index des DataFrames auch exportiert werden soll.

In [48]:
# Export des DataFrames als csv-Datei
merged_df.to_csv('data/export_test.csv', index=False)

# Import der csv-Datei, um die Erstellung der Datei zu verifizieren
csv_export_df = pd.read_csv('data/export_test.csv')

csv_export_df

Unnamed: 0,ID,Name,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,1,Lisa,80057969,Movie,Love,Gaspar Noé,"Karl Glusman, Klara Kristin, Aomi Muyock, Ugo ...","France, Belgium","September 8, 2017",2015,NR,135 min,"Cult Movies, Dramas, Independent Movies",A man in an unsatisfying marriage recalls the ...
1,2,Dirk,80117902,TV Show,Fire Chasers,,,United States,"September 8, 2017",2017,TV-MA,1 Season,"Docuseries, Science & Nature TV","As California's 2016 fire season rages, brave ..."
2,3,Jan,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,4,Verena,70196145,TV Show,New Girl,,"Zooey Deschanel, Jake Johnson, Max Greenfield,...",United States,"April 11, 2019",2017,TV-14,7 Seasons,"Romantic TV Shows, TV Comedies","Still rebounding from a breakup, Jessica Day m..."


<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### **2.6** Übungsteil

**2.6.1 Importiere die Spalten xxx aus der Datenbanktabelle "netflix_titles" (Pfad zur Datenbank: data/lernmodul_pandas.db) in einen DataFrame.**

In [None]:
#TODO

**2.6.2 Importiere zusätzlich die Spalten xxx aus der Datenbanktabelle "netflix_titles" in einen DataFrame. Mergen Sie den DataFrame mit dem in Aufgabe 1 entstandenen DataFrame.**

In [None]:
#TODO
# Absicherung, dass nicht einfach die jeweiligen Spalten ausgelesen werden!

**2.6.3 Exportiere den in Aufgabe 1 und 2 entstandenen DataFrame in die Datanbanktabelle "netflix_titles_2" der Datenbank lernmodul_pandas.db.**

In [None]:
#TODO

<div style="background-color: #150458 ; padding: 5px; "></div>

## **3** Datenanalyse

### **3.1** Anzeigen der Daten

In einem Jupyter Notebook kann ein DataFrame einfach angezeigt werden, indem der Name des DataFrames in eine Zelle geschrieben und diese ausgeführt wird.

In [51]:
netflix_titles_df

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,247747,Movie,Amar Akbar Anthony,Manmohan Desai,"Vinod Khanna, Rishi Kapoor, Amitabh Bachchan, ...",India,"December 31, 2019",1977,TV-14,172 min,"Action & Adventure, Classic Movies, Comedies","Abandoned in a park by their father, Amar, Akb..."
1,269880,Movie,Bad Boys,Michael Bay,"Will Smith, Martin Lawrence, Téa Leoni, Tchéky...",United States,"October 1, 2019",1995,R,119 min,"Action & Adventure, Comedies","In this fast-paced actioner, two Miami narcoti..."
2,281550,Movie,La Bamba,Luis Valdez,"Lou Diamond Phillips, Esai Morales, Rosanna De...",United States,"January 1, 2020",1987,PG-13,109 min,"Classic Movies, Dramas, Music & Musicals",The plane crash that killed Buddy Holly also t...
3,284890,Movie,Barsaat,Rajkumar Santoshi,"Twinkle Khanna, Bobby Deol, Danny Denzongpa, R...",India,"April 1, 2018",1995,TV-PG,166 min,"Action & Adventure, International Movies, Musi...",A naïve young man and a rich city girl fall in...
4,292118,Movie,Beavis and Butt-head Do America,Mike Judge,"Mike Judge, Bruce Willis, Demi Moore, Cloris L...",United States,"November 20, 2019",1996,PG-13,81 min,"Comedies, Cult Movies","After realizing that their boob tube is gone, ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
6229,81224868,TV Show,Robot Trains,,"Bill Rogers, Carrie Savage, Ken Spassione, Ang...",South Korea,"December 31, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows",Keeping peace and safety in Train World is no ...
6230,81227195,Movie,Kalushi: The Story of Solomon Mahlangu,Mandla Dube,"Thabo Rametsi, Thabo Malema, Welile Nzuza, Jaf...",South Africa,"November 29, 2019",2016,TV-MA,107 min,"Dramas, International Movies",The life and times of iconic South African lib...
6231,81228864,Movie,Blitz Patrollie,Andrew Wessels,"Joey Rasdien, David Kau, David Kibuuka, Chris ...",South Africa,"December 27, 2019",2013,TV-MA,102 min,"Action & Adventure, Comedies, International Mo...",Caught between family pressures and small-time...
6232,81235603,TV Show,Sym-Bionic Titan,,"Tara Strong, Kevin Thoms, Brian Posehn, John D...",United States,"December 15, 2019",2010,TV-PG,1 Season,Kids' TV,"Aliens fleeing their planet land on Earth, pos..."


Mit den Methoden `head` und `tail` können jeweils die ersten oder letzten Datenreihen eines Dataframes angezeigt werden. Defaultmäßig werden 5 Datenreihen zurückgegeben. Sollen mehr Datenreihen angezeigt werden kann die Anzahl der gewünschten Reihen der Methode als Parameter übergeben werden.

In [52]:
netflix_titles_df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,247747,Movie,Amar Akbar Anthony,Manmohan Desai,"Vinod Khanna, Rishi Kapoor, Amitabh Bachchan, ...",India,"December 31, 2019",1977,TV-14,172 min,"Action & Adventure, Classic Movies, Comedies","Abandoned in a park by their father, Amar, Akb..."
1,269880,Movie,Bad Boys,Michael Bay,"Will Smith, Martin Lawrence, Téa Leoni, Tchéky...",United States,"October 1, 2019",1995,R,119 min,"Action & Adventure, Comedies","In this fast-paced actioner, two Miami narcoti..."
2,281550,Movie,La Bamba,Luis Valdez,"Lou Diamond Phillips, Esai Morales, Rosanna De...",United States,"January 1, 2020",1987,PG-13,109 min,"Classic Movies, Dramas, Music & Musicals",The plane crash that killed Buddy Holly also t...
3,284890,Movie,Barsaat,Rajkumar Santoshi,"Twinkle Khanna, Bobby Deol, Danny Denzongpa, R...",India,"April 1, 2018",1995,TV-PG,166 min,"Action & Adventure, International Movies, Musi...",A naïve young man and a rich city girl fall in...
4,292118,Movie,Beavis and Butt-head Do America,Mike Judge,"Mike Judge, Bruce Willis, Demi Moore, Cloris L...",United States,"November 20, 2019",1996,PG-13,81 min,"Comedies, Cult Movies","After realizing that their boob tube is gone, ..."


In [53]:
netflix_titles_df.tail(8)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
6226,81224128,TV Show,The Repair Shop,,,United Kingdom,"December 1, 2019",2018,PG,2 Seasons,"British TV Shows, Reality TV",Expert artisans restore timeworn family heirlo...
6227,81224811,TV Show,Pucca: Love Recipe,,"Jeonghwa Yang, Yongwoo Shin, Doug Erholtz, Mel...",,"December 31, 2019",2018,TV-Y7,1 Season,"Kids' TV, Korean TV Shows",Faced with a threat to the survival of her fam...
6228,81224839,TV Show,Rainbow Ruby,,"Alyssya Swales, Shannon Chan-Kent, Brian Drumm...","South Korea, Canada, United States, China","December 31, 2019",2016,TV-Y,1 Season,Kids' TV,Ruby makes magical journeys with her teddy bea...
6229,81224868,TV Show,Robot Trains,,"Bill Rogers, Carrie Savage, Ken Spassione, Ang...",South Korea,"December 31, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows",Keeping peace and safety in Train World is no ...
6230,81227195,Movie,Kalushi: The Story of Solomon Mahlangu,Mandla Dube,"Thabo Rametsi, Thabo Malema, Welile Nzuza, Jaf...",South Africa,"November 29, 2019",2016,TV-MA,107 min,"Dramas, International Movies",The life and times of iconic South African lib...
6231,81228864,Movie,Blitz Patrollie,Andrew Wessels,"Joey Rasdien, David Kau, David Kibuuka, Chris ...",South Africa,"December 27, 2019",2013,TV-MA,102 min,"Action & Adventure, Comedies, International Mo...",Caught between family pressures and small-time...
6232,81235603,TV Show,Sym-Bionic Titan,,"Tara Strong, Kevin Thoms, Brian Posehn, John D...",United States,"December 15, 2019",2010,TV-PG,1 Season,Kids' TV,"Aliens fleeing their planet land on Earth, pos..."
6233,81235729,Movie,Jezebel,Numa Perrier,"Tiffany Tenille, Numa Perrier, Stephen Barring...",United States,"January 16, 2020",2019,TV-MA,86 min,"Dramas, Independent Movies","During the internet's infancy, a vulnerable wo..."


### **3.2** Erstellen einer Kopie der Daten

An manchen Stellen kann es sinnvoll sein, eine Kopie des DataFrames zu erstellen, um zum Beispiel die originalen Daten noch in einem DataFrame zu behalten. Dafür gibt es die DataFrame Methode `copy`. Wird eine Kopie eines DataFrames berarbeitet werden ausschließlich die Daten der Kopie verändert.

In [54]:
netflix_titles_copy = netflix_titles_df.copy()

### **3.3** Umbenennen von Spaltennamen

### **3.4** Beschreiben der Daten

In [62]:
# netflix_titles_df.shape

### **3.5** Datentypen der Spalten

### **3.6** Zugriff auf Datenwerte

### **3.7** Untersuchen der Daten

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### **3.8** Übungsteil

<div style="background-color: #150458 ; padding: 5px; "></div>

## **4** Datenbereinigung

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### Übungsteil

<div style="background-color: #150458 ; padding: 5px; "></div>

## **5** Datenmanipulation

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### Übungsteil

<div style="background-color: #E70488 ; padding: 5px; "></div>

## **6** Abschlussaufgabe