# Python Grundlagen 10
## Pandas
***
In diesem Notebook wird behandelt:
- Das Dateiformat Pandas DataFrame
- Lesen und erstellen von DataFrames
- Statistische Methoden mit DataFrames
***

## Einführung

 Das Modul `pandas` wurde entwickelt, um `Python` mit den wichtigsten Funktionen für die Handhabung und Untersuchung großer Datensätze auszustatten. <br>

 In `pandas` wird die Klasse **`DataFrame`** eingeführt, die als array-ähnliche Datenstruktur dient und über die Möglichkeiten von `numpy`-Arrays hinausgeht, um eine fortgeschrittenere Datenmanipulation und -exploration zu ermöglichen. <br>

 Die wichtigsten Funktionen von `pandas` umfassen: <br>
 * Das Einlesen von Daten aus verschiedenen Dateiformaten (CSV, Excel-Tabellen, etc.). <br>
 * Die Verwaltung dieser Daten (einschließlich Löschen, Hinzufügen, Ändern, statistische Visualisierung, etc.). <br>

 Diese Lektion hat folgende Lernziele: <br>
 * Die Struktur eines `DataFrame` verstehen. <br>
 * Einen ersten `DataFrame` erstellen. <br>
 * Eine erste Erkundung eines Datensatzes mit der `DataFrame`-Klasse durchführen. <br>

#### Aufgaben:
> (a) Importiere das Modul `pandas` unter dem Namen `pd`. <br>

In [14]:
# Deine Lösung:




#### Lösung:

In [2]:
import pandas as pd

## 1. Struktur eines DataFrame

 Ein `DataFrame` hat die Form einer **Matrix** mit eindeutigen Zeilen- und Spaltenindizes. Im Allgemeinen sind die Spalten mit Namen beschriftet, während die Zeilen eindeutige Kennungen haben. <br>

 Ein `DataFrame` ähnelt Tabellen in einer **Datenbank**. Die verschiedenen **Datensätze** in Datenbanktabellen (wie Personen, Tiere, Objekte, etc.) entsprechen den **Zeilen**, und ihre **Eigenschaften** bilden die **Spalten**: <br>

  |  |  Name   |  Geschlecht |  Größe |Alter|
  |--|--------|-------|--------|---|
  |**0** |  Robert|   M   |   174  |23 |
  |**1** |  Mark  |   M   |   182  |40 |
  |**2** |  Aline |   W   |   169  |56 |

 * Der obige `DataFrame` fasst Informationen über **3 Personen** zusammen: der `DataFrame` hat daher **3 Zeilen**. <br>
 * Für jede dieser Personen gibt es **4 Variablen** (Name, Geschlecht, Größe und Alter): der `DataFrame` hat daher **4 Spalten**. <br>

 Die Spalte mit der **Zeilennummerierung** wird als **Index** bezeichnet und wird anders verwaltet als die übrigen Spalten des `DataFrame`. Der Index kann standardmäßig gesetzt werden (folgt der Zeilennummerierung), durch eine (oder mehrere) Spalten des `DataFrame` definiert werden oder sogar mit einer von uns angegebenen Liste festgelegt werden. <br>

 **Beispiel:** Standardindexierung (Zeilennummerierung), hier muss nichts angegeben werden: <br>

  |  |  Name   |  Geschlecht |  Größe |Alter|
  |--|--------|-------|--------|---|
  |**0** |  Robert|   M   |   174  |23 |
  |**1** |  Mark  |   M   |   182  |40 |
  |**2** |  Aline |   W   |   169  |56 |

 **Beispiel:** Indexierung nach der Spalte `'Name'`: <br>

  |        |  Geschlecht |  Größe |Alter|
  |--------|-------|--------|---|
  |**Robert** |  M   |   174  |23 |
  |**Mark** |  M   |   182  |40 |
  |**Aline** | W   |   169  |56 |

 **Beispiel:** Indexierung mit der Liste `['person_1', 'person_2', 'person_3']`: <br>

  |  |  Name   |  Geschlecht |  Größe |Alter|
  |--|--------|-------|--------|---|
  |**person_1** |  Robert|   M   |   174  |23 |
  |**person_2** |  Mark  |   M   |   182  |40 |
  |**person_3** |  Aline |   W   |   169  |56 |

 Wie man den Index beim Erstellen eines `DataFrame` definiert, werden wir später im Detail besprechen. <br>

 Die `DataFrame`-Klasse hat mehrere Vorteile gegenüber einem `numpy`-Array: <br>

 * Visuell ist ein `DataFrame` viel **lesbarer** dank der eindeutigeren Spalten- und Zeilenindizierung. <br>
 * Während Elemente innerhalb einer Spalte vom gleichen Typ sind, können die **Typen der Elemente** von Spalte zu Spalte variieren, eine Fähigkeit, die in `numpy`-Arrays nicht vorhanden ist, da diese nur Daten vom gleichen Typ unterstützen. <br>
 * Die `DataFrame`-Klasse bietet eine größere Auswahl an Methoden für die Handhabung und Vorverarbeitung von Datenbankobjekten (z.B. Tabellen), während `numpy` auf optimierte Berechnungen spezialisiert ist. <br>

## 2. Erstellen eines DataFrame aus einem NumPy-Array

 Es ist möglich, direkt einen `DataFrame` aus einem `numpy`-Array mit dem `DataFrame()`-Konstruktor zu erstellen. Dies ist jedoch nicht sehr praktisch, da die Datentypen für alle Spalten gleich sein müssen. <br>

 Schauen wir uns den Kopf dieses Konstruktors genauer an. <br>

```python
pd.DataFrame(data, index, columns, ...)
```

 * Der Parameter `data` enthält die zu formatierenden **Daten** (`numpy`-Array, Liste, Dictionary oder ein anderer `DataFrame`). <br>
 * Der Parameter `index` muss, falls angegeben, eine **Liste** mit den **Indizes der Einträge** sein. <br>
 * Der Parameter `columns` muss, falls angegeben, eine **Liste** mit den **Namen der Spalten** sein. <br>

 Für weitere Parameter kannst du die Python [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) konsultieren. <br>

 **Beispiel:** <br>

```python
# Erstellen eines NumPy-Arrays mit 3 Zeilen und 4 Spalten
array = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])

# Instanziierung eines DataFrame
df = pd.DataFrame(data=array,  # Die zu formatierenden Daten
                 index=['i_1', 'i_2', 'i_3'],  # Die Indizes der Einträge
                 columns=['A', 'B', 'C', 'D'])  # Die Namen der Spalten
```

 Dies erzeugt den folgenden `DataFrame`: <br>

  | | A | B | C | D |
  | --------- | --- | ---- | ---- | ---- |
  |**i_1**| 1 |2| 3 |4|
  |**i_2**| 5 | 6 | 7 | 8 |
  |**i_3**|9 | 10 | 11 | 12 |

## 3. Erstellen eines DataFrame aus einem Dictionary

 Eine weitere Möglichkeit, einen `DataFrame` zu erstellen, ist die Verwendung eines Dictionaries. Mit einem Dictionary können die Spalten unterschiedliche Typen haben und ihre Namen sind bereits bei der Erstellung des `DataFrame` festgelegt. <br>

 **Beispiel:** <br>

```python
# Erstellen eines Dictionary
dictionary = {'A': [1, 5, 9],
              'B': [2, 6, 10],
              'C': [3, 7, 11],
              'D': [4, 8, 12]}

# Instanziierung eines DataFrame
df = pd.DataFrame(data=dictionary,
                 index=['i_1', 'i_2', 'i_3'])
```

 Dies erzeugt den gleichen `DataFrame` wie zuvor: <br>

  | | A | B | C | D |
  | --------- | --- | ---- | ---- | ---- |
  |**i_1**| 1 |2| 3 |4|
  |**i_2**| 5 | 6 | 7 | 8 |
  |**i_3**|9 | 10 | 11 | 12 |

 #### 3.1 Aufgaben:
 
 Der Leiter eines Lebensmittelgeschäfts hat folgenden Bestand an Lebensmitteln: <br>

 1. **100** Gläser Honig mit einem Verfallsdatum vom **08.10.2025** und einem Wert von je **2 €**. <br>
 2. **55** Packungen Mehl mit Verfallsdatum **25.09.2024** und einem Preis von je **3 €**. <br>
 3. **1800** Flaschen Wein zum Preis von **10 €** pro Einheit und Verfallsdatum **15.10.2023**. <br>


> (a) Erstelle aus einem **Dictionary** einen `DataFrame` **`df`** und zeige ihn an. Er soll **für jedes Produkt** folgende Informationen enthalten: <br>
>
> * Seinen Namen <br>
>
> * Sein Verfallsdatum <br>
>
> * Seine Menge <br>
>
> * Seinen Preis pro Einheit <br>
>
> Du kannst relevante Spaltennamen wählen und der Index kann der Standard-Index sein (in diesem Fall geben wir den Parameter `index` nicht an). <br>

In [13]:
# Deine Lösung:





#### Lösung:

In [53]:
dictionary = {"Product"          : ['honey', 'flour', 'wine'],
              "Expiration date"  : ['10/08/2025', '25/09/2024', '15/10/2023'],
              "Quantity"         : [100, 55, 1800], 
              "Price per unit"   : [2, 3, 10]}

df2 = pd.DataFrame(dictionary)

print(df2)


  Product Expiration date  Quantity  Price per unit
0   honey      10/08/2025       100               2
1   flour      25/09/2024        55               3
2    wine      15/10/2023      1800              10


## 4. Erstellen eines DataFrame aus einer Datei

 Normalerweise wird ein `DataFrame` direkt aus einer Datei erstellt, die die gewünschten Daten enthält. Das Dateiformat kann CSV, Excel, txt, etc. sein. <br>

 Das häufigste Format ist das CSV-Format, was für *Comma-Separated Values* (kommagetrennte Werte) steht. Es ist eine tabellenähnliche Datei, deren Werte durch Kommas getrennt sind. <br>

 Hier ist ein Beispiel: <br>

```
A, B, C, D,
1, 2, 3, 4,
5, 6, 7, 8,
9, 10, 11, 12
```

 In diesem Format: <br>
 * **Enthält die erste Zeile die Namen der Spalten**, aber manchmal sind die Spaltennamen **nicht ausgefüllt**. <br>
 * Jede **Zeile** entspricht einem **Datensatz**. <br>
 * Die Werte werden durch ein **Trennzeichen** getrennt. In diesem Beispiel ist es `','`, aber es könnte auch ein `';'` sein. <br>

 Um die Daten in einen `DataFrame` zu importieren, müssen wir die Funktion `read_csv()` von `pandas` verwenden: <br>

```python
pd.read_csv(filepath_or_buffer, sep=',', header=0, index_col=0 ...)
```

 Die **wichtigsten Argumente** der Funktion `pd.read_csv()`, die man kennen sollte, sind: <br>

 * **`filepath_or_buffer`**: Der **Pfad** der .csv-Datei relativ zur Ausführungsumgebung. <br>
   * Wenn sich die Datei im gleichen Ordner wie die Python-Umgebung befindet, einfach den Namen der Datei eingeben. <br>
   * Dieser Pfad muss als **Zeichenkette** eingegeben werden. <br>

 * **`sep`**: Das Zeichen, das in der .csv-Datei verwendet wird, um die verschiedenen Spalten **zu trennen**. <br>
   * Dieses Argument muss als **Zeichen** angegeben werden. <br>

 * **`header`**: Die **Nummer der Zeile**, die die **Namen** der Spalten enthält. <br>
   * Wenn zum Beispiel die Spaltennamen in der **ersten** Zeile der `.csv`-Datei stehen, dann müssen wir **`header = 0`** angeben. <br>
   * Wenn die Namen **nicht enthalten** sind, setzen wir **`header = None`**. <br>

 * **`index_col`**: Der **Name oder die Nummer der Spalte**, die die **Indizes** der Datenbank enthält. <br>
   * Wenn die Datenbankeinträge durch die erste Spalte indiziert sind, muss **`index_col = 0`** eingegeben werden. <br>
   * Alternativ, wenn die Einträge durch eine Spalte mit dem Namen *`"Id"`* indiziert sind, können wir **`index_col = "Id"`** angeben. <br>

 Diese Funktion gibt ein Objekt vom Typ `DataFrame` zurück, das alle Daten der Datei enthält. <br>

#### 4.1 Aufgaben:
> (a) Lade die Daten aus der Datei **`transactions.csv`** in einen `DataFrame` mit dem Namen **`transactions`**: <br>
>
> * Die Datei befindet sich im **gleichen Ordner** wie die Umgebung dieses Notebooks. <br>
>
> * Die Spalten sind durch **Kommas** getrennt. <br>
>
> * Die Namen der Spalten stehen in der **ersten Zeile** der Datei. <br>
>
> * Die Zeilen des *`DataFrame`* sind durch die Spalte **"transaction_id"** indiziert, die auch die **erste Spalte** ist. <br>



In [27]:
# Deine Lösung:




#### Lösung:

In [61]:
# Man kann den Namen der Spalte mit den Indexen festlegen
dateipfad = '../data/transactions.csv'

transactions = pd.read_csv(filepath_or_buffer = dateipfad, # Dateipfad
                           sep = ',',                               # Zeichen, das die Werte separiert
                           header = 0,                              # Zahl der Reihe, die die Spaltennamen enthält
                           index_col = [ 'transaction_id'])            # Name der Spalte mit den Eintragsindexen


# Man kann auch direkt die Nummer der Spalte mit den Eintragsindexen eingeben

transactions = pd.read_csv(filepath_or_buffer = dateipfad,
                           sep = ',',
                           header = 0,
                           index_col = -1) # Zahl der Spalte mit den Eintragsindexen


#### 
 Wir haben die Datei `transactions.csv` in den `DataFrame` **`transactions`** geladen, der einen Verlauf von Transaktionen zwischen 2011 und 2014 zusammenfasst. Im nächsten Abschnitt werden wir diesen Datensatz untersuchen. <br>

## 5. Erste Erkundung eines Datensatzes mit der `DataFrame`-Klasse

 Der Rest dieser Lektion stellt die wichtigsten **Methoden** der `DataFrame`-Klasse vor, die uns eine schnelle Analyse unseres Datensatzes ermöglichen, wie zum Beispiel: <br>

 * Einen kurzen **Überblick über die Daten** zu bekommen (`head`-Methode, `columns`- und `shape`-Attribute). <br>
 * **Werte** im `DataFrame` **auszuwählen** (`loc`- und `iloc`-Methoden). <br>
 * Eine schnelle **statistische Analyse** unserer Daten durchzuführen (`describe`- und `value_counts`-Methoden). <br>

 **Zur Erinnerung:** Um eine Methode auf ein Objekt in Python anzuwenden (wie zum Beispiel einen DataFrame), musst du die Methode als Suffix des Objekts hinzufügen. <br>
 **Beispiel:** `mein_objekt.meine_methode()` <br>

## 6. Visualisierung eines `DataFrame`: `head`-Methode, `columns`- und `shape`-Attribute

 * Du kannst eine Vorschau deines DataFrame erhalten, indem du **nur die ersten Zeilen** des `DataFrame` anzeigst. <br>

 Dafür müssen wir die **`head()`**-Methode verwenden und als Argument **die Anzahl der Zeilen** angeben, die wir anzeigen möchten (standardmäßig 5). <br>

 Es ist auch möglich, die **letzten Zeilen** mit der **`tail()`**-Methode anzuzeigen, die auf die gleiche Weise angewendet wird: <br>

```python
# Anzeige der ersten 10 Zeilen von my_dataframe
my_dataframe.head(10)
```

#### 6.1 Aufgaben:
> (a) Zeige die ersten **20 Zeilen** des `transactions` `DataFrame` an. <br>

In [41]:
# Deine Lösung:





#### Lösung:

In [50]:
transactions.head(20)

Unnamed: 0_level_0,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type,transaction_id
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,28-02-2014,1.0,1,3,399.0,83.79,1280.79,e-Shop,29258453508
270384,28-02-2014,5.0,3,2,799.0,167.79,1765.79,e-Shop,51750724947
273420,28-02-2014,6.0,5,1,1299.0,272.79,1571.79,TeleShop,93274880719
271509,28-02-2014,11.0,6,4,249.0,52.29,1048.29,e-Shop,51750724947
273420,27-02-2014,6.0,5,2,599.0,125.79,1323.79,TeleShop,93274880719
156789,27-02-2014,3.0,2,5,179.0,37.59,932.59,MobileSales,45678912345
234567,27-02-2014,8.0,4,1,2499.0,524.79,3023.79,e-Shop,56789123456
345678,27-02-2014,2.0,1,3,299.0,62.79,959.79,TeleShop,67891234567
456789,26-02-2014,4.0,2,2,899.0,188.79,1987.79,e-Shop,78912345678
567890,26-02-2014,7.0,4,4,199.0,41.79,837.79,MobileSales,89123456789


#### 
> (b) Zeige die letzten **10 Zeilen** des `transactions` `DataFrame` an. <br>

In [43]:
# Deine Lösung:





#### Lösung:

In [44]:
transactions.tail(10)

Unnamed: 0_level_0,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type,transaction_id
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
901234,18-02-2014,1.0,1,2,999.0,209.79,2207.79,MobileSales,34567890126
123456,18-02-2014,5.0,3,3,699.0,146.79,2244.79,e-Shop,45678901237
234567,18-02-2014,3.0,2,4,249.0,52.29,1048.29,TeleShop,56789012348
345678,18-02-2014,8.0,4,1,1799.0,377.79,2176.79,MobileSales,67890123459
456789,17-02-2014,2.0,1,5,179.0,37.59,932.59,e-Shop,78901234570
567890,17-02-2014,6.0,5,2,899.0,188.79,1987.79,TeleShop,89012345671
678901,17-02-2014,4.0,2,3,499.0,104.79,1601.79,MobileSales,90123456782
789012,17-02-2014,7.0,4,4,299.0,62.79,1259.79,e-Shop,12345678905
890123,16-02-2014,9.0,5,1,2199.0,461.79,2660.79,TeleShop,23456789016
901234,16-02-2014,10.0,6,5,149.0,31.29,776.29,MobileSales,34567890127


#### 
 Du kannst die **Namen der Spalten** eines `DataFrame` mit dem **`columns`**-Attribut abrufen. <br>

```python
# Erstellen eines DataFrame df aus einem Dictionary
dictionary = {'A': [1, 5, 9],
              'B': [2, 6, 10],
              'C': [3, 7, 11],
              'D': [4, 8, 12]}

df = pd.DataFrame(data=dictionary, index=['i_1', 'i_2', 'i_3'])
```

 Diese Anweisungen erzeugen den gleichen `DataFrame` wie zuvor: <br>

  | | A | B | C | D |
  | --------- | --- | ---- | ---- | ---- |
  |**i_1**| 1 | 2 | 3 | 4 |
  |**i_2**| 5 | 6 | 7 | 8 |
  |**i_3**| 9 | 10 | 11 | 12 |

```python
# Anzeige der Spalten des DataFrame df
print(df.columns)
>>> ['A', 'B', 'C', 'D']
```

 Die Liste der Spaltennamen kann verwendet werden, um in einer Schleife über die Spalten eines `DataFrame` zu iterieren. <br>

 Wenn du wissen möchtest, wie viele Transaktionen (Zeilen) und wie viele Merkmale (Spalten) der Datensatz enthält, kannst du das **`shape`**-Attribut verwenden. Dies zeigt die **Dimensionen** unseres `DataFrame` in Form eines Tupels an (Anzahl der Zeilen, Anzahl der Spalten): <br>

```python
# Anzeige der Dimensionen von df
print(df.shape)
>>> (3,4)
```

> (c) Zeige die **Dimensionen** des `DataFrame` `transactions` sowie **den Namen der 5. Spalte** an. Denk daran, dass in Python die Indizes bei 0 beginnen. <br>

In [45]:
# Deine Lösung:





#### Lösung:

In [46]:
print(transactions.shape)
print(transactions.columns[4])

(50, 9)
Rate


## 7. Auswählen von Spalten aus einem `DataFrame`

 Das Extrahieren von Spalten aus einem `DataFrame` ist fast identisch mit dem Extrahieren von Daten aus einem Dictionary. <br>

 Um eine **Spalte** aus einem `DataFrame` zu extrahieren, müssen wir nur **in eckigen Klammern** den **Namen** der zu extrahierenden Spalte angeben. Um **mehrere** Spalten zu extrahieren, müssen wir in eckigen Klammern **die Liste der Namen** der zu extrahierenden Spalten angeben: <br>

```python
# Anzeige der 'cust_id'-Spalte
print(transactions['cust_id'])

# Extraktion der Spalten 'cust_id' und 'Qty' aus transactions
cust_id_qty = transactions[["cust_id", "Qty"]]
```

 `cust_id_qty` ist ein neuer **`DataFrame`**, der nur die Spalten `'cust_id'` und `'Qty'` enthält. <br>

 Die Anzeige der ersten 3 Zeilen von **`cust_id_qty`** ergibt: <br>

  | transactions_id | cust_id | Qty |
  | ----------------------------- | --------- | ----- |
  |**80712190438**| 270351 | -5 |
  |**29258453508**| 270384 | -5 |
  |**51750724947**| 273420 | -2 |

 Bei der Vorbereitung eines Datensatzes für die spätere Verwendung ist es besser, die **kategorialen** Variablen von den **quantitativen** Variablen zu **trennen**: <br>

 * Eine *kategoriale* Variable ist eine Variable, die nur eine endliche **Anzahl** von *Kategorien* annimmt. <br>
   * Die kategorialen Variablen des `DataFrame` `transactions` sind: `['cust_id', 'tran_date', 'prod_subcat_code', 'prod_cat_code', 'Store_type']`. <br>

 * Eine *quantitative* Variable ist eine Variable, die eine Menge misst, die **unendlich** viele Werte annehmen kann. <br>
   * Die quantitativen Variablen von `transactions` sind: `['Qty', 'Rate', 'Tax', 'total_amt']`. <br>

 Diese Unterscheidung ist wichtig, da bestimmte grundlegende Operationen, wie die Berechnung eines Durchschnitts, nur auf quantitative Variablen anwendbar sind. <br>

#### 7.1 Aufgaben:
> (a) Speichere die **kategorialen** Variablen von `transactions` in einem `DataFrame` mit dem Namen **`cat_vars`**. <br>
>
> (b) Speichere die **quantitativen** Variablen von `transactions` in einem `DataFrame` mit dem Namen **`num_vars`**. <br>
>
> (c) Zeige die ersten 5 Zeilen jedes `DataFrame` an. <br>

In [47]:
# Deine Lösung:





#### Lösung:

In [62]:
# Extraktion der kategorialen Variablen
cat_var_names = [ 'cust_id', 'tran_date', 'prod_subcat_code', 'prod_cat_code' , 'Store_type']
cat_vars = transactions[cat_var_names]

# Extraktion der quantitativen Variablen
num_var_names = ['Qty', 'Rate', 'Tax', 'total_amt']
num_vars = transactions[num_var_names]

# Ausgabe der ersten 5 Reihen jedes DataFrames
print ("Kategoriale Variablen: \n")
print (cat_vars.head(), "\n \n")

print ("Quantitative Variablen: \n")
print (num_vars.head())


Kategoriale Variablen: 

                    cust_id   tran_date  prod_subcat_code  prod_cat_code  \
transaction_id                                                             
29258453508     80712190438  28-02-2014               1.0              1   
51750724947          270384  28-02-2014               5.0              3   
93274880719          273420  28-02-2014               6.0              5   
51750724947          271509  28-02-2014              11.0              6   
93274880719          273420  27-02-2014               6.0              5   

               Store_type  
transaction_id             
29258453508        e-Shop  
51750724947        e-Shop  
93274880719      TeleShop  
51750724947        e-Shop  
93274880719      TeleShop   
 

Quantitative Variablen: 

                Qty    Rate     Tax  total_amt
transaction_id                                
29258453508       3   399.0   83.79    1280.79
51750724947       2   799.0  167.79    1765.79
93274880719       1  1299.0 

## 8. Auswählen von Zeilen eines `DataFrame`: `loc`- und `iloc`-Methoden

 Um eine oder mehrere **Zeilen** aus einem `DataFrame` zu extrahieren, verwenden wir die **`loc`**-Methode. `loc` ist eine besondere Art von Methode, da die Argumente **in eckigen Klammern** und nicht in runden Klammern angegeben werden. Die Verwendung dieser Methode ähnelt sehr der Indizierung von Listen. <br>

 Um die Zeile mit dem Index `i` eines `DataFrame` abzurufen, müssen wir nur `i` als Argument der `loc`-Methode eingeben: <br>

```python
# Wir rufen die Zeile mit dem Index 80712190438 des num_vars DataFrame ab
print(num_vars.loc[80712190438])
```

```
                 Rate    Tax  total_amt
transaction_id                         
80712190438    -772.0  405.3    -4265.3
80712190438     772.0  405.3     4265.3
```

 Um **mehrere Zeilen** abzurufen, können wir entweder: <br>
 * Eine **Liste von Indizes** eingeben. <br>
 * Einen **Slice** eingeben, indem wir Start- und Endindizes des Slice angeben. Um **Slicing** mit `loc` zu verwenden, müssen die Indizes **eindeutig** sein, was bei `transactions` nicht der Fall ist. <br>

```python
# Wir rufen die Zeilen mit den Indizes 80712190438, 29258453508 und 51750724947 aus dem transactions DataFrame ab
transactions.loc[[80712190438, 29258453508, 51750724947]]
```

 `loc` kann auch eine Spalte oder **Liste von Spalten** als Argument nehmen, um die Datenextraktion zu verfeinern: <br>

```python
# Wir extrahieren die Spalten 'Tax' und 'total_amt' aus den Zeilen mit Index 80712190438 und 29258453508
transactions.loc[[80712190438, 29258453508], ['Tax', 'total_amt']]
```

 Diese Anweisung erzeugt den folgenden `DataFrame`: <br>

  | transaction_id | Tax     | total_amt |
  |---------------|---------|-----------|
  |**80712190438**| 405,300 | -4265,300 |
  |**80712190438**| 405,300 | 4265,300  |
  |**29258453508**| 785,925 | -8270,925 |
  |**29258453508**| 785,925 | 8270,925  |

 Die **`iloc`**-Methode wird verwendet, um einen `DataFrame` **genau wie ein numpy-Array** zu indizieren: indem nur die **numerischen** Indizes der Zeilen und Spalten angegeben werden. Dies ermöglicht die Verwendung von Slicing ohne Einschränkungen: <br>

```python
# Extraktion der ersten 4 Zeilen und der ersten 3 Spalten von transactions
transactions.iloc[0:4, 0:3]
```

 Dieser Code erzeugt den folgenden `DataFrame`: <br>

  | transaction_id | cust_id | tran_date  | prod_subcat_code |
  |---------------|---------|------------|------------------|
  |**80712190438**| 270351  | 28.02.2014 | 1,0              |
  |**29258453508**| 270384  | 27.02.2014 | 5,0              |
  |**51750724947**| 273420  | 24.02.2014 | 6,0              |
  |**93274880719**| 271509  | 24.02.2014 | 11,0             |

 Wenn der DataFrame die Standard-Zeilenindizierung verwendet, sind die Methoden `loc` und `iloc` **äquivalent**. <br>

## 9. Bedingte Indizierung eines `DataFrame`

 Wie bei `numpy-Arrays` können wir **bedingte Indizierung** verwenden, um Zeilen aus einem `DataFrame` zu extrahieren, die eine bestimmte Bedingung erfüllen. <br>

 In der folgenden Abbildung wählen wir die Zeilen des `DataFrame` `df` aus, **bei denen die Spalte `col 2` gleich 3 ist**. <br>

 <br>

 <img src="../imgs/indexation_cond_final.png" style='height:200px'> <br>

 <br>

 Es gibt zwei Schreibweisen für die bedingte Indizierung eines `DataFrame`: <br>

```python
# Wir wählen die Zeilen des DataFrame df aus, bei denen die Spalte 'col 2' gleich 3 ist.
df[df['col 2'] == 3]

df.loc[df['col 2'] == 3]
```

 Wenn wir diesen Einträgen einen **neuen Wert** zuweisen wollen, müssen wir unbedingt die **`loc`**-Methode verwenden. <br>

 Die Indizierung mit der Syntax `df[df['col 2'] == 3]` gibt nur eine **Kopie** dieser Einträge zurück und ermöglicht keinen Zugriff auf den Speicherort der Daten. <br>

 Der Manager der im **`transactions`** `DataFrame` aufgelisteten Transaktionen möchte Zugriff auf die **Kennungen** der Kunden haben, die einen **Online-Kauf** getätigt haben (d.h. in einem `"e-Shop"`), sowie auf **das Datum der entsprechenden Transaktion**. <br>

 Wir haben folgende Informationen über die Spalten von `transactions`: <br>

  | Spaltenname      | Beschreibung                                        |
  |:-----------------|:---------------------------------------------------|
  | `'cust_id'`      | Die **Kennung** des Kunden                         |
  | `'Store_type'`   | Der **Typ des Geschäfts**, wo die Transaktion stattfand |
  | `'tran_date'`    | Das **Datum** der Transaktion                      |

#### 9.1 Aufgaben:
> (a) Speichere die Transaktionen, die in einem Geschäft vom Typ `"e-Shop"` stattfanden, in einem `DataFrame` mit dem Namen **`transactions_eshop`**. <br>
>
> (b) Speichere in einem weiteren `DataFrame` mit dem Namen **`transactions_id_date`** die **Kundenkennungen** und das **Transaktionsdatum** des `transactions_eshop` `DataFrame`. <br>
>
> (c) Zeige die ersten 5 Zeilen von `transactions_id_date` an. <br>

In [13]:
# Deine Lösung:





#### Lösung:

In [63]:
# Erstellen von transactions_eshop mit Bedingtem Indizieren
transactions_eshop = transactions.loc[transactions['Store_type'] == 'e-Shop']

# Extraction der Kindenkennungs-Spalten 'cust_ id' und des Transaktionsdatums-Spalten 'tran _date' 
transactions_id_date = transactions_eshop[['cust_id', 'tran_date']]

# Ausgabe der ersten 5 Zeilen von transactions_id_date
transactions_id_date.head()


Unnamed: 0_level_0,cust_id,tran_date
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1
29258453508,80712190438,28-02-2014
51750724947,270384,28-02-2014
51750724947,271509,28-02-2014
56789123456,234567,27-02-2014
78912345678,456789,26-02-2014


#### 
Nun möchte der Manager Zugriff auf die Transaktionen haben, die von dem Kunden mit der Kennung `268819` durchgeführt wurden. <br>

> (d) Speichere alle Transaktionen mit der Kundenkennung `268819` in einem `DataFrame` mit dem Namen **`transactions_client_268819`**. <br>
>
> (e) Über eine Spalte in einem `DataFrame` kann genau wie über eine Liste mit einer Schleife iteriert werden (`for value in df['column']:`). Berechne und zeige mithilfe einer `for`-Schleife über die Spalte `'total_amt'` den Gesamttransaktionsbetrag für den Kunden mit der Kennung `268819` an. <br>

In [14]:
# Deine Lösung:





#### Lösung:

In [75]:
# Extraction der Transaktionen des Kunden mit der Kundenkennung 268819
transactions_client_268819 = transactions[transactions['cust_id'] == 567890]


# Berechnung des Gesamtkostenbetrages
total = 0

# Für jede Menge in der Spalte 'total_amt'
for amount in transactions_client_268819['total_amt']:
    # Addieren wir die Menge
    total += amount
    
print(total)

# Oder auch deutlich simpler ohne for-Schleife:
print(sum(transactions_client_268819['total_amt']))

9155.45
9155.45


## 10. Schnelle statistische Analyse der Daten in einem `DataFrame`

 Die **`describe()`**-Methode eines `DataFrame` liefert eine Zusammenfassung der **deskriptiven Statistiken** (Minimum, Maximum, Mittelwert, Quantile,...) seiner **quantitativen** Variablen. Sie ist daher ein sehr nützliches Werkzeug für einen ersten Einblick in Art und Verteilung dieser Variablen. <br>

 Zur Analyse der **kategorialen** Variablen kannst du zunächst die **`value_counts()`**-Methode verwenden, die die **Anzahl der Vorkommen** für jede Kategorie dieser Variablen zurückgibt. Die `value_counts()`-Methode kann nicht direkt auf einem `DataFrame` verwendet werden, sondern nur auf den Spalten des `DataFrame`, die Objekte der **`pd.Series`**-Klasse sind. <br>

#### 10.1 Aufgaben:
> (a) Verwende die `describe`-Methode des `DataFrame` `transactions`. <br>
>
> (b) Die quantitativen Variablen von `transactions` sind `'Qty'`, `'Rate'`, `'Tax'` und `'total_amt'`. Werden die Statistiken der `describe`-Methode standardmäßig **nur** für die quantitativen Variablen berechnet? <br>
>
> (c) Zeige die Anzahl der Vorkommen jeder Kategorie der Spalte `Store_type` mit der `value_counts`-Methode an. <br>

In [65]:
# Deine Lösung:





#### Lösung:

In [66]:
transactions.describe()

transactions['Store_type'].value_counts()

Store_type
e-Shop         19
TeleShop       16
MobileSales    15
Name: count, dtype: int64

#### 
 Die `describe`-Methode hat Statistiken für die Variablen `cust_id`, `prod_subcat_code` und `prod_cat_code` berechnet, obwohl dies **kategoriale** Variablen sind. <br>

 Diese Statistiken ergeben natürlich **keinen Sinn**. Die `describe`-Methode hat diese Variablen als quantitativ behandelt, weil die Kategorien, die sie annehmen, numerischer Art sind. <br>

 Deshalb musst du auf die von der `describe`-Methode zurückgegebenen Ergebnisse achten und dir immer wieder vor Augen führen, was die Variablen eigentlich widerspiegeln. <br>

 Der Manager möchte einen schnellen Bericht über die Eigenschaften des `transactions` `DataFrame` erstellen: Insbesondere möchte er den **durchschnittlich ausgegebenen Betrag** sowie die **maximale** gekaufte Menge wissen. <br>

> (d) Wie hoch ist der **durchschnittliche** Gesamtbetrag? Wir interessieren uns für die Spalte `'total_amt'` von `transactions`. <br>
>
> (e) Was ist die **maximale** gekaufte Menge? Wir schauen uns die Spalte `'Qty'` von `transactions` an. <br>


In [67]:
# Deine Lösung:





#### Lösung:

In [68]:
# Wende die describe Methode auf den transactions DataFrame an
transactions.describe()

# Der durchschnittlich ausgegeben Betrag ist €1632,60.
# Die maximale gekaufte Menge ist 5. 


Unnamed: 0,cust_id,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt
count,50.0,50.0,50.0,50.0,50.0,50.0,50.0
mean,1614765000.0,5.46,3.3,2.88,820.2,172.242,1632.602
std,11414350000.0,2.894118,1.693324,1.423419,781.154666,164.04248,700.190704
min,123456.0,1.0,1.0,1.0,149.0,31.29,776.29
25%,273420.0,3.0,2.0,2.0,261.5,54.915,1101.165
50%,567890.0,5.5,3.5,3.0,499.0,104.79,1455.29
75%,789012.0,8.0,5.0,4.0,899.0,188.79,1987.79
max,80712190000.0,11.0,6.0,5.0,2999.0,629.79,3628.79


#### 
Einige Transaktionen haben **negative** Beträge. <br>

 Dies sind Transaktionen, die storniert und dem Kunden erstattet wurden. Diese Beträge stören die Verteilung der Beträge, was uns **schlechte Schätzungen** des Mittelwerts und der Quantile der Variable `total_amt` liefert. <br>

> (f) Wie hoch ist der durchschnittliche Betrag der Transaktionen mit **positiven** Beträgen? <br>

In [69]:
# Deine Lösung:





#### Lösung:

In [70]:
transactions[transactions['total_amt'] > 0].describe()

# Der durchschnittlich ausgegeben Betrag ist immernoch €1632,60.
# Das heißt, es gab keine Rückerstattungen!


Unnamed: 0,cust_id,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt
count,50.0,50.0,50.0,50.0,50.0,50.0,50.0
mean,1614765000.0,5.46,3.3,2.88,820.2,172.242,1632.602
std,11414350000.0,2.894118,1.693324,1.423419,781.154666,164.04248,700.190704
min,123456.0,1.0,1.0,1.0,149.0,31.29,776.29
25%,273420.0,3.0,2.0,2.0,261.5,54.915,1101.165
50%,567890.0,5.5,3.5,3.0,499.0,104.79,1455.29
75%,789012.0,8.0,5.0,4.0,899.0,188.79,1987.79
max,80712190000.0,11.0,6.0,5.0,2999.0,629.79,3628.79


## Fazit und Zusammenfassung

 Die `DataFrame`-Klasse des `pandas`-Moduls wird deine bevorzugte Datenstruktur sein, wenn du Datensätze und Datenbanken erkunden, analysieren und verarbeiten möchtest. <br>

 In dieser kurzen Einführung hast du gelernt: <br>

 * Einen *`DataFrame`* aus einem *`numpy`*-Array und einem Dictionary mit dem **`pd.DataFrame`**-Konstruktor zu erstellen. <br>

 * Einen *`DataFrame`* aus einer *`.csv`*-Datei mit der Funktion **`pd.read_csv`** zu erstellen. <br>

 * Die ersten und letzten Zeilen eines *`DataFrame`* mit den Methoden **`head`** und `tail` anzuzeigen. <br>

 * Eine oder mehrere Spalten eines `DataFrame` auszuwählen, indem du ihre Namen wie bei einem Dictionary in eckigen Klammern eingibst. <br>

 * Eine oder mehrere Zeilen eines *`DataFrame`* auszuwählen, indem du ihre Indizes mit den Methoden **`loc`** und **`iloc`** angibst. <br>

 * Die Zeilen eines *`DataFrame`* auszuwählen, die eine bestimmte Bedingung erfüllen, indem du **bedingte Indizierung** verwendest. <br>

 * Eine schnelle statistische Analyse der quantitativen Variablen eines *`DataFrame`* mit der Methode **`describe`** durchzuführen. <br>

 Der von uns verwendete Datensatz `transactions` ist sehr sauber. Die Variablen sind ordentlich gefüllt und enthalten keine fehlenden Werte. In der Praxis ist dies **selten** der Fall. Deshalb werden wir in der nächsten Lektion sehen, wie man Datensätze mit `pandas` bereinigt. <br>