![title](./pic/basics/erstellen/1_title.png)

In [3]:
import pandas as pd

In [4]:
pd.__version__

'1.2.1'

Das `Pandas` mit der Abkürzung `pd` angegeben ist, ist eine gängige **`Convention`**. Hierbei handelt es sich um keine Regel sondern lediglich um ein **best practice Konzept**. In vielen Foren und Tutorials wirst du diese Abkürzung so wiederfinden. Natürlich kannst du die Abkürzung auch weglassen und in deinem Code mit `pandas.` auch die Funktionalität von `Pandas` zugreifen, wovon ich dir jedoch abraten würde. 

---

# Pandas: Series

Eine Pandas-`Series` ist eine **eindimensionale, beschriftete Datenstruktur**, die Daten wie Strings, Ganzzahlen und sogar andere Python-**Objekte** enthalten kann. Sie baut auf `numpy arrays` auf und ist die primäre Datenstruktur, um eindimensionale Daten in `Pandas` zu speichern.

Sehen wir uns einmal folgendes Beispiel an. Grafisch dargestellt sieht eine `Series` genau so (siehe Abbildung) aus. In der ersten Spalte findest du immer den `Key`. Und in der zweiten Spalte den passenden `Value` zum `Key`. So kannst du also immer mithilfe des `Keys` auf den entsprechenden `Value` zugreifen.

![title](./pic/basics/erstellen/2_series.png)

<br>

### Leere `pd.Series` erstellen

Eine `Series` muss nicht zwangsweise mit Daten befüllt sein. Oft kommt es vor, dass du eine leere `Series` deklarierst und diese erst zu einem späteren Zeitpunkt initilisierst. 

In [5]:
ser_empty = pd.Series()

  """Entry point for launching an IPython kernel.


In [6]:
ser_empty

Series([], dtype: float64)

<br>

### `pd.Series` mit Werte befüllt erstellen

Natürlich kannst du das `Series` auch direkt beim deklarieren mit echten Werten befüllen... 

In [7]:
ser_simple_single = pd.Series([1])

In [8]:
ser_simple_single

0    1
dtype: int64

...order mit mehreren Einträgen

In [9]:
ser_simple_multi = pd.Series([1, 2, 3, 4, 5])
ser_simple_multi

Zudem ist es möglich einen individuellen index anzugeben welchen das `Series` verwenden soll

In [11]:
ser_index = pd.Series([30, 35, 40], index=['2015', '2016', '2017'], name='Bananenverkauf')

In [12]:
ser_index

2015    30
2016    35
2017    40
Name: Bananenverkauf, dtype: int64

---

## Pandas: DataFrame

Die grundlegende Idee von `DataFrame` basiert auf **Tabellen**. Wir können die Daten-Struktur eines `DataFrame` als tabellarisch und tabellenähnlich sehen. Ein `Dataframe` beinhaltet eine geordnete Sammlung von Spalten. Jede Spalte besteht aus einem <u>eindeutigen Daten-Typen</u>, aber verschiedene Spalten haben verschiedene Typen, z.B. könnte die erste Spalte vom Typ `Integer` sein, während die zweite Spalte vom Typ `Boolean` ist, usw.

Ein `DataFrame` hat einen **Zeilen- und ein Spalten-Index**. Es ist wie ein `Dictionary` aus `Series` mit einem normalen Index.

![title](./pic/basics/erstellen/3_df1.png)

![title](./pic/basics/erstellen/4_df2.png)

### Leeres `pd.DataFrame` erstellen

Wie es auch bereits bei der `Series` der Fall war, kannst du ein `DataFrame` zuerst ohne Werte deklarieren. Praktisch wird das zu einem späteren Zeitpunkt, wenn aufgrund von Bedingungen das leere `DataFrame` mit Einträgen befüllt wird.

In [13]:
df_empty = pd.DataFrame()
df_empty

<br>

### Leeres `pd.DataFrame` mit vordefinierten Spalten erstellen

Wenn du bereits weißt, welche Spalten dein `DataFrame` vorweisen soll, jedoch nicht welche `Values` dazu passen bzw. die `Values` erst nachträglich initialisiert werden, kannst du ein leeres `DataFrame` mit bereits vordefinierten Spalten erstellen.

In [27]:
df_empty_col_single = pd.DataFrame(columns=['A'])
df_empty_col_single

Unnamed: 0,A


In [28]:
df_empty_col_multi = pd.DataFrame(columns=['A', 'B', 'C', 'D'])
df_empty_col_multi

Unnamed: 0,A,B,C,D


<br>

### `pd.DataFrame` mit vordefinierten Spalten und Inhalt erstellen

In [15]:
df_num = pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
df_num

Unnamed: 0,Yes,No
0,50,131
1,21,2


<br>

Dem `DataFrame` können nicht nur Zahlen übergeben werden, sondern auch z.B. `Strings` oder andere `Python Objekte` angehängt werden. Wichtig ist hier jedoch erneut zu betonen, dass eine Spalte aus genau einem Datentypen besteht. Eine Zeile kann hingegen mehrere Datentypen beinhalten.

![title](./pic/basics/erstellen/5_df3.png)

In [16]:
df_cat = pd.DataFrame({'Bob': ['Gefällt mir gut', 
                               'Nicht sonderlich gut'], 
                       'Sue': ['Ist ok', 
                               'Spitze']})

In [17]:
df_cat

Unnamed: 0,Bob,Sue
0,Gefällt mir gut,Ist ok
1,Nicht sonderlich gut,Spitze


Sowohl **jede einzelne Spalte**, als auch **jede einzelne Zeile**, ist an und für sich eine eigene **`Series`** im `DataFrame`. Das heißt, ein `DataFrame` besteht aus vielen einzelnen `Series` und könnte ohne diese `Series` nicht existieren.

Wir lernen den `.loc` Befehl zwar erst zu einem späteren Zeitpunkt, ich will ihn aber bereits hier kurz verwenden um dir das mit den `Series` genauer zu zeigen, da es essentiell wichtig für das Verständnis von `Pandas` ist. 

Mit dem ersten Befehl `.loc[0]` greifen wir auf die erste Zeile zu, also `[0, "Gefällt mir gut", "Ist ok"]`. Mit dem `.type()` Befehl, lassen wir uns den Typ dieser Zeile ausgeben.
mit `['Bob']` greifen wir auf die komplette Spalte Bob zu, wobei wir uns mit `.type()` wieder den Typ dieser Spalte ausgeben lassen können.

In [18]:
type(df_cat.loc[0])

pandas.core.series.Series

In [19]:
type(df_cat['Bob'])

pandas.core.series.Series

<br>

Zudem kann der **Index** des `DataFrames` geändert werden. Das kommt jedoch nicht so oft vor.

In [20]:
product = pd.DataFrame({'Bob': ['Gefällt mir gut', 'Nicht sonderlich gut'], 
                        'Sue': ['Ist ok', 'Spitze']},
                       index=['Product A', 'Product B'])
product

Unnamed: 0,Bob,Sue
Product A,Gefällt mir gut,Ist ok
Product B,Nicht sonderlich gut,Spitze


<br>

Aktuell haben wir die einzelnen Einträge im `DataFrames` in `vertikaler`-Austrichtung angelegt. Das ist in der Praxis so nicht üblich und wurde nur zur Einführung verwendet. Normal ist ein `DataFrame` `horizontal` ausgerichtet. Das heißt, **ein Objekt** bzw. eine Obeservation wird **pro Zeile** dargestellt. Ein Feature dieser Observation wird dann pro Spalte abgebildet. So kann jede Zeile für sich betrachtet und analysiert werden.

Im folgenden Beispiel erstellen wir eine Geburtstagsdatenbank unserer Freunde:

![title](./pic/basics/erstellen/6_df4.png)

In [21]:
friends = pd.DataFrame({'Name': ['Max', 
                                 'Anna', 
                                 'Hannes'
                                ], 
                        'Geburtstag': ['01.03.1992', 
                                       '02.07.2001', 
                                       '23.10.1989'
                                      ]})

In [22]:
friends

Unnamed: 0,Name,Geburtstag
0,Max,01.03.1992
1,Anna,02.07.2001
2,Hannes,23.10.1989


---

## DataFrame Achsen vertauschen mit `.transpose()`

Die Funktion `.transpose()` spiegelt den Index und die Spalten des `DataFrames`. Sie **spiegelt** das `DataFrame` über seine **Hauptdiagonale**, indem sie Zeilen als Spalten und umgekehrt schreibt. Sollte dir also einmal ein `DataFrame` mit umgekehrten Achsen vorliegen, kannst du einfach die `.transpose()` Funktion auf dieses anwenden, um wieder zur gewohnten Darstellung zu kommen.

Vorher...

In [23]:
product

Unnamed: 0,Bob,Sue
Product A,Gefällt mir gut,Ist ok
Product B,Nicht sonderlich gut,Spitze


...Nachher

In [24]:
product.transpose()

Unnamed: 0,Product A,Product B
Bob,Gefällt mir gut,Nicht sonderlich gut
Sue,Ist ok,Spitze
