# **Tabellen**
- **"Pandas"** ist eine Python **Erweiterung** (Bibliothek), die das Arbeiten mit Tabellen (bzw. DataFrames) ermöglicht und viele **vordefinierte Funktionen** mit sich bringt
- so können Excel-Dateien **eingelesen**, **bearbeitet** und **geschrieben** werden
- pandas zählt 19 Mio. Downloads pro Woche
- Weitere Bibliotheken sind z.B.:
    - "openpyxl", zur Erstellung/Anpassung von Excel-Dateien
    - "xlwings", zur Steuerung von Excel-Dateien
    - "matplotlib", zur Erstellung von Grafiken
- viele Bibliotheken sind vorinstalliert und können durch den Befehl **"import"** geladen werden

In [None]:
import pandas as pd  # Die Bibliothek pandas wird geladen und als "pd" benannt

## **Daten einlesen**
Mit der Funktion **"pd.read_excel()"** können **Excel-Tabellen eingelesen** und in DataFrames umgewandelt werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **io**            ->  Dateipfad zur Excel-Datei
- **sheet_name**    ->  Name des Tabellenblatts
- **skiprows**      ->  legt fest, ab welcher Zeile die Daten eingelesen werden sollen
- **usecols**       ->  legt fest, welche Spalten eingelesen werden sollen    

In [None]:
kundendaten = pd.read_excel(io = 'Kundendaten.xlsx', sheet_name = 'Kundendaten', skiprows = 1, usecols = 'A:F')
kundendaten

## **Spalten hinzufügen**

In [None]:
kundendaten['Kenner'] = 'x'
kundendaten

In [None]:
# Ihr könnt bei der Bildung einer neuen Spalte auch auf bestehende Spalten referenzieren
kundendaten['Name'] = kundendaten['Vorname'] + ' ' + kundendaten['Nachname']
kundendaten

## **Spalten filtern**

In [None]:
# 2 Möglichkeiten, um Spalten zu Filtern 
kundendaten_kopie = kundendaten.copy()

# 1. Möglichkeit
kundendaten = kundendaten[['Kunden-ID', 'Nachname', 'Wohnort', 'Bestellungen']]
print(kundendaten)

# 2. Möglichkeit
kundendaten_kopie = kundendaten_kopie.drop(columns = ['Vorname', 'Straße/Hausnummer', 'Kenner', 'Name'])
print(kundendaten_kopie)

## **Spalten umbenennen** 

In [None]:
kundendaten = kundendaten.rename(columns={'Bestellungen': 'Anzahl Bestellungen'})
kundendaten

## **Daten schreiben**
Mit der Funktion **"df.to_excel()"** können aus DataFrames Excel-Dateien erstellt werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **"excel_writer"**    ->  Speicherort und Name der Datei
- **"sheet_name"**      ->  Name des Tabellenblattes 
- **"index"**           ->  legt fest, ob die Index-Spalte bleiben soll 

In [None]:
kundendaten.to_excel(excel_writer = 'Kundendaten_2.xlsx', sheet_name = 'Kundendaten_2', index = False)  # durch "index = False" wird der Zeilenindex nicht mit in die Excel-Datei geschrieben

## **Zeilen filtern**
Mit **"df.loc[df[Spaltenname] == x]"** können DateFrames nach x gefiltert werden:

In [None]:
kundendaten_a = kundendaten.loc[kundendaten['Anzahl Bestellungen'] >= 100]
kundendaten_a

Mit **"df.loc[df[Spaltenname] == x, 'Neuer Spaltenname'] = Wert"** können DataFrames gefiltert und Werte in einer neuen Spalte eingefügt werden:

In [None]:
kundendaten.loc[kundendaten['Anzahl Bestellungen'] >= 100, 'Kategorie'] = 'A'
kundendaten

> **Aufgabe:** Weise den restlichen Kunden (Anzahl Bestellungen < 100) die Kategorie "B" zu.


Wir haben die **Aufgabe** bekommen **Abzugleichen**, ob unsere **Kunden umgezogen** sind und wie sich die Anzahl der **Bestellungen entwickelt** hat. Veränderungen sollen übersichtlich dargestellt werden.

In [None]:
# benötigte Daten einlesen
kundendaten_aktuell = pd.read_excel('Kundendaten.xlsx', sheet_name = 'Kundendaten', skiprows = 1, usecols = 'A, C, D, F')
kundendaten_vorjahr = pd.read_excel('Kundendaten_Vorjahr.xlsx', sheet_name = 'Kundendaten_Vorjahr', skiprows = 1, usecols = 'A, C, D, F')

print(kundendaten_aktuell)
print(kundendaten_vorjahr)

## **DataFrames zusammenführen**
Mittels der Funktion **"pd.merge()"** können zwei DataFrames **zusammengeführt** werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **"left"**    ->  linkes DataFrame
- **"right"**   ->  rechtes DataFrame
- **"how"**     ->  left / right / inner / outer (left entspricht dem SVERWEIS)
- **"on"**      ->  Suchkriterium 
- **"suffixes** ->  Endung für Spaltennamen, die im linken und rechten DataFrame vorkommen

In [None]:
kundendaten_abgleich = pd.merge(left = kundendaten_aktuell,
                                right = kundendaten_vorjahr,
                                how = 'outer',
                                on = 'Kunden-ID',
                                suffixes = ('_Aktuell', '_Vorjahr'))             
kundendaten_abgleich

In [None]:
# Spalte "Wohnort_Veränderung" einfügen
kundendaten_abgleich.loc[kundendaten_abgleich['Wohnort_Aktuell'] != kundendaten_abgleich['Wohnort_Vorjahr'], 'Wohnort_Veränderung'] = kundendaten_abgleich['Wohnort_Vorjahr'] + '  ->  ' + kundendaten_abgleich['Wohnort_Aktuell']
kundendaten_abgleich

In [None]:
# Saplte mit prozentualer und absoluter Entwicklung der Bestellungen anfügen
kundendaten_abgleich['absolut'] = kundendaten_abgleich['Bestellungen_Aktuell'] - kundendaten_abgleich['Bestellungen_Vorjahr']
kundendaten_abgleich['prozentual'] = (kundendaten_abgleich['Bestellungen_Aktuell'] - kundendaten_abgleich['Bestellungen_Vorjahr']) / kundendaten_abgleich['Bestellungen_Vorjahr'] * 100
kundendaten_abgleich

> **Aufgabe:** Finde heraus, ob sich die "Straße/Hausnummer" unsere Kunden verändert hat und stelle die Veränderung übersichtlich dar.

**1. Daten einlesen** (nur die Spalten: "Kunden-ID", "Nachname" und "Straße/Hausnummer")

**2. Daten zusammenführen**

**3. Spalte "Straße/Hausnummer_Veränderung" anfügen** (Inhalt: "Straße/Hausnummer_alt  ->  Straße/Hausnummer_neu")

# **Backup**

**Gruppieren**: Mit der Funktion **"df.groupby(['Zu gruppierende Spalte 1', 'zu gruppierende Spalte 2', ...]).agg({'zu aggregierende Spalte 1': 'Aggregationsmethode', 'zu aggregierende Spalte 2': 'Aggregationsmethode', ...})"** können DataFrames gruppiert werden.

**Beispiel:**

In [None]:
kundendaten_abgleich['Gesamt pro Ort'] = kundendaten_abgleich['Bestellungen_Vorjahr'].groupby(kundendaten_abgleich['Wohnort_Vorjahr']).transform('sum')

In [None]:
kundendaten_abgleich