<a href="https://pandas.pydata.org/"><img src=https://pandas.pydata.org/static/img/pandas.svg width="200" alt="pandas logo"></a>

# Lernmodul zum Datenimport und zur Datenvorbereitung mit pandas

Bei Pandas handelt es sich um eine der beliebtesten Python Library zur Datenanalyse. Diese stellt verschiedene Funktionalitäten zum Datenimport, zur Datenanalyse und zur Datenmanipulation zur Verfügung. Mithilfe dieses Lernmoduls soll der Umgang mit Pandas erlernt und geübt werden. Dabei wird der Fokus auf den Datenimport und die Datenvorbereitung gelegt, indem die dafür zur Verfügung stehenden grundlegenden Funktionalitäten erläutert werden. Es wird empfohlen die Aufgaben zwischen den einzelnen Inhalten zu bearbeiten, nachdem die Erläuterungen gelesen wurden. Am Ende des Lernmoduls kann das gesammelte Wissen in einem kleinen Projekt nochmal vertieft werden.

**Übersicht über die Lerninhalte:**

- Grundlagen zu Pandas
- Daten importieren und extrahieren
- Daten analysieren
- Daten bereinigen
- Daten transformieren

**Lernziele:**

Die Teilnehmer erwerben Grundkenntnisse im Umgang mit der Library Pandas. Sie kennen die grundlegenden Datenstrukturen in Pandas und können Daten aus diversen Quellen (z. B. Datenbank, csv-Datei) importieren. Zudem sind sie in der Lage die Daten zu untersuchen und für die weitere Verarbeitung in z. B. ML Modellen vorzubereiten. Dafür beherrschen sie diverse Methoden zur Bereinigung und zur Transformation der Daten, die von Pandas zur Verfügung gestellt werden.

**Voraussetzungen:**
- Grundlegende Python Kenntnisse
- Umgang mit Jupyter Notebooks


<div style="background-color: #150458 ; padding: 5px; "></div>

## 1) Grundlagen zu Pandas

### Pandas installieren

Pandas kann entweder mit Anaconda oder Miniconda installiert werden oder mithilfe von pip:

- Anaconda/ Miniconda: conda install Pandas

- pip: pip install pandas


### Pandas importieren

Nachdem pandas installiert wurde, kann es in einer Datei importiert werden. Der Import findet mithilfe folgender Codezeile statt:

In [1]:
import pandas as pd

### Erläuterungen der Datenstrukturen

Es gibt zwei grundlegende Datenobjekte in pandas: den DataFrame und die Series. Im Folgenden werden diese beiden kurz vorgestellt.

**DataFrame**

Bei einem DataFrame handelt es sich um eine Tabelle mit diversen Einträgen. Diese Einträge werden mithilfe von Spalten und Zeilen gegliedert und können von einem beliebigen Datentyp sein (zum Beispiel Integer, String, Date, Float, Boolean, usw.).


In [2]:
#TODO Erläuterungen

**Series**

In [3]:
# TODO Erläuterungen

<div style="background-color: #150458 ; padding: 5px; "></div>

## 2) Datenimport und -export

Im folgenden Abschnitt wird der Datenimport aus einer Datenbank oder einer csv Datei näher betrachtet. Aus den importierten Daten soll ein DataFrame erzeugt werden, um die Daten mit pandas für weitere Schritte vorbereiten zu können. Nachdem diese Vorbereitung stattgefunden hat sollen die Daten zwischengespeichert werden. Dafür wird der Datenexport genauer unter die Lupe genommen.

### 2.1) Importieren von Daten aus einer Datenbank

Zum Herstellung einer Datenbankverbindung muss ein entsprechendes Package passend zu der Datenbank installiert und importiert werden.
Im Folgenden wird dies am Beispiel einer SQLite Datenbank gezeigt. Um die Verbindung herzustellen, muss der `connect()` Methode des importierten sqlite3 Package der Pfad zu der Datenbank übergeben werden. Mithilfe der Methode `read_sql_query()` können dann diverse SQL Abfragen ausgeführt werden. Der Methode werden dafür die SQL Abfrage und die Datenbankverbindung übergeben. Die abgefragten Daten werden automatisch in einen DataFrame gespeichert. Nach Beendigung der Abfragen sollte die Datenbankverbindung wieder geschlossen werden.

In [4]:
import sqlite3

# Herstellen der Datenbankverbindung
con = sqlite3.connect('data/lernmodul_pandas.db')
# Auslesen der Daten aus der Datenbank und Speicherung der Daten in einem DataFrame
df = pd.read_sql_query('SELECT * from netflix_titles', con)

# Schließen der Datenbankverbindung
con.close()

Zum Verifizieren, dass die Daten importiert und in dem DataFrame gespeichert wurden, kann zum Beispiel die Anzahl der Tabellenzeilen abgefragt werden. Dafür kann die Python Funktion `len()` genutzt werden.

**2.1.1) Nutzen Sie die Funktion len(), um zu verifizieren, dass Daten importiert wurden. Wie viele Zeilen sind in dem importieren Daten enthalten?**

In [5]:
# Platz für Code

In [6]:
# TODO Single Choice

### 2.2) Importieren von Daten aus einer csv Datei

Mithilfe der pandas Methode `read_csv()` können Daten aus einer csv Datei als pandas DataFrame importiert werden. 

In [7]:
netflix_titles_df = pd.read_csv('data/netflix_titles.csv')

Durch die Methode `head()` eines DataFrames werden die ersten 5 Zeilen des DataFrames angezeigt. Dies kann auch zur Verifizierung genutzt werden, ob der Import der Daten geklappt hat.

**2.2.2) Nutzen Sie die Methode `head()`, um den Datenimport zu verifizieren. Welchen Titel trägt der Film in der zweiten Zeile?**

In [8]:
# Platz für Code
netflix_titles_df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,80058654,TV Show,Transformers: Robots in Disguise,,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,TV-Y7,1 Season,Kids' TV,When a prison ship crash unleashes hundreds of...
4,80125979,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,99 min,Comedies,When nerdy high schooler Dani finally attracts...


In [10]:
#TODO Single Choice

### 2.3) Zusammenführen von Daten

Manchmal sind nicht alle Daten in einer einzigen Datenquelle vorhanden, um denoch alle relevanten Informationen in einem DataFrame vorliegen zu haben, müssen die einzelnen DataFrames mithilfe der `merge()` Methode eines DataFrames zusammengeführt werden. 

In dem DataFrame `liebingsshow_df` ist jeweils die Lieblingsshow von unterschiedlichen Personen eingetragen. Leider ist aus der ID der Show nicht direkt ersichtlich, um welche es sich genau handelt. Um diese Information zu erhalten muss in dem vorherigen erstellten DataFrame `netflix_titles_df` nachgesehen werden. In diesem Fall macht es Sinn die beiden DataFrames zu mergen. Damit zwei DataFrames miteinander gemerged werden können ist es wichtig, dass ein eindeutiger Identifier vorliegt, über den die beiden DataFrames verbunden werden können. In dem Beispiel wäre das die Spalte `show_id`.


In [11]:
liebingsshow = {'ID': [1, 2, 3, 4], 'Name': ['Lisa', 'Dirk', 'Jan', 'Verena'], 'show_id': [80057969, 80117902, 70234439, 70196145]}
df_lieblingsshow = pd.DataFrame.from_dict(liebingsshow)

# on - Spaltennamen durch die die beiden DataFrames gemerged werden sollen
# how - auf welche Art und Weise die DataFrames gemerged werden sollen (left, right, outer, inner)
df_lieblingsshow.merge(netflix_titles_df, how= 'left', on='show_id')

Unnamed: 0,ID,Name,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,1,Lisa,80057969,Movie,Love,Gaspar Noé,"Karl Glusman, Klara Kristin, Aomi Muyock, Ugo ...","France, Belgium","September 8, 2017",2015,NR,135 min,"Cult Movies, Dramas, Independent Movies",A man in an unsatisfying marriage recalls the ...
1,2,Dirk,80117902,TV Show,Fire Chasers,,,United States,"September 8, 2017",2017,TV-MA,1 Season,"Docuseries, Science & Nature TV","As California's 2016 fire season rages, brave ..."
2,3,Jan,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,4,Verena,70196145,TV Show,New Girl,,"Zooey Deschanel, Jake Johnson, Max Greenfield,...",United States,"April 11, 2019",2017,TV-14,7 Seasons,"Romantic TV Shows, TV Comedies","Still rebounding from a breakup, Jessica Day m..."


### 2.4) Export von Daten in eine Datenbank

### 2.5) Export von Daten in eine csv Datei

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### 2.6) Übungsteil

**2.6.1) Importieren Sie die Spalten xxx aus der Datenbanktabelle "netflix_titles" (Pfad zur Datenbank: data/lernmodul_pandas.db) in einen DataFrame.**

**2.6.2) Importieren Sie zusätzlich die Spalten xxx aus der Datenbanktabelle "netflix_titles" in einen DataFrame. Mergen Sie den DataFrame mit dem in Aufgabe 1 entstandenen DataFrame.**

In [None]:
# Absicherung, dass nicht einfach die jeweiligen Spalten ausgelesen werden!

**2.6.3) Exportieren Sie den in Aufgabe 1 und 2 entstandenen DataFrame in die Datanbanktabelle "netflix_titles_2" der Datenbank lernmodul_pandas.db.**

<div style="background-color: #150458 ; padding: 5px; "></div>

## 3) Datenanalyse

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### Übungsteil

<div style="background-color: #150458 ; padding: 5px; "></div>

## 4) Datenbereinigung

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### Übungsteil

<div style="background-color: #150458 ; padding: 5px; "></div>

## 5) Datenmanipulation

<div style="background-color: #FFCA00 ; padding: 5px; "></div>

### Übungsteil

<div style="background-color: #E70488 ; padding: 5px; "></div>

## 6) Abschlussaufgabe