# **Tabellen**
- **"Pandas"** ist eine Python **Erweiterung** (Bibliothek), die das arbeiten mit Tabellen (bzw. DataFrames) ermöglicht und viele **vordefinierte Funktionen** mit sich bringt
- so können Excel-Dateien **eingelesen**, **bearbeitet** und **geschrieben** werden
- pändas zählt 19 Mio. Downloads pro Woche
- Weitere Bibliotheken sind z.B.:
    - "openpyxl", zur Erstellung/Anpassung von Excel-Dateien
    - "xlwings", zur Steuerung von Excel-Dateien
    - "matplotlib", zur Erstellung von Grafiken
- viele Bibliotheken sind vorinstalliert und können durch den Befehl **"import"** geladen werden

In [2]:
import pandas as pd  # Die Bibliothek pandas wird geladen und als "pd" benannt

## **Daten einlesen**
Mit der Funktion **"pd.read_excel()"** können **Excel-Tabellen eingelesen** und in DataFrames umgewandelt werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **io**            ->  Dateipfad zur Excel-Datei
- **sheet_name**    ->  Name des Tabellenblatts
- **skiprows**      ->  legt fest, ab welcher Zeile die Daten eingelesen werden sollen
- **usecols**       ->  legt fest, welche Spalten eingelesen werden sollen    

In [3]:
kundendaten = pd.read_excel(io = 'Kundendaten.xlsx', sheet_name = 'Kundendaten', skiprows = 1, usecols = 'A:F')
kundendaten

Unnamed: 0,Kunden-ID,Vorname,Nachname,Wohnort,Straße/Hausnummer,Bestellungen
0,3902,Manuel,Neuer,München,Cocacolaallee 77,30
1,3254,Lukas,Podolski,Köln,Kranstraße 34,93
2,1543,Kleopatra,Schmitz,Bochum,Pyramidenweg 54a,68
3,1546,Dirk,Nowitzki,Buxtehude,Dribbelgasse 4,145
4,2466,Walter,Röhrl,Nürburg,Fuchsröhrenweg 17,4
5,1354,Angela,Merkel,Berlin,Kanzlerstraße 158,170
6,3564,Birgit,Bohle,Bonn,Personalallee 45,89
7,2386,Tim,Höttges,Bonn,Magentagasse 18,211
8,3456,Andrea,Python,Cloud,Pandaweg 77,9


## **Spalten hinzufügen**

In [4]:
kundendaten['Kenner'] = 'x'
kundendaten

Unnamed: 0,Kunden-ID,Vorname,Nachname,Wohnort,Straße/Hausnummer,Bestellungen,Kenner
0,3902,Manuel,Neuer,München,Cocacolaallee 77,30,x
1,3254,Lukas,Podolski,Köln,Kranstraße 34,93,x
2,1543,Kleopatra,Schmitz,Bochum,Pyramidenweg 54a,68,x
3,1546,Dirk,Nowitzki,Buxtehude,Dribbelgasse 4,145,x
4,2466,Walter,Röhrl,Nürburg,Fuchsröhrenweg 17,4,x
5,1354,Angela,Merkel,Berlin,Kanzlerstraße 158,170,x
6,3564,Birgit,Bohle,Bonn,Personalallee 45,89,x
7,2386,Tim,Höttges,Bonn,Magentagasse 18,211,x
8,3456,Andrea,Python,Cloud,Pandaweg 77,9,x


In [5]:
# Ihr könnt bei der Bildung einer neuen Spalte auch auf bestehende Spalten referenzieren
kundendaten['Name'] = kundendaten['Vorname'] + ' ' + kundendaten['Nachname']
kundendaten

Unnamed: 0,Kunden-ID,Vorname,Nachname,Wohnort,Straße/Hausnummer,Bestellungen,Kenner,Name
0,3902,Manuel,Neuer,München,Cocacolaallee 77,30,x,Manuel Neuer
1,3254,Lukas,Podolski,Köln,Kranstraße 34,93,x,Lukas Podolski
2,1543,Kleopatra,Schmitz,Bochum,Pyramidenweg 54a,68,x,Kleopatra Schmitz
3,1546,Dirk,Nowitzki,Buxtehude,Dribbelgasse 4,145,x,Dirk Nowitzki
4,2466,Walter,Röhrl,Nürburg,Fuchsröhrenweg 17,4,x,Walter Röhrl
5,1354,Angela,Merkel,Berlin,Kanzlerstraße 158,170,x,Angela Merkel
6,3564,Birgit,Bohle,Bonn,Personalallee 45,89,x,Birgit Bohle
7,2386,Tim,Höttges,Bonn,Magentagasse 18,211,x,Tim Höttges
8,3456,Andrea,Python,Cloud,Pandaweg 77,9,x,Andrea Python


## **Spalten filtern**

In [6]:
# 2 Möglichkeiten, um Spalten zu Filtern 
kundendaten_kopie = kundendaten.copy()

# 1. Möglichkeit
kundendaten = kundendaten[['Kunden-ID', 'Nachname', 'Wohnort', 'Bestellungen']]
print(kundendaten)

# 2. Möglichkeit
kundendaten_kopie = kundendaten_kopie.drop(columns = ['Vorname', 'Straße/Hausnummer', 'Kenner', 'Name'])
print(kundendaten_kopie)

   Kunden-ID   Nachname     Wohnort  Bestellungen
0       3902      Neuer     München            30
1       3254   Podolski        Köln            93
2       1543    Schmitz      Bochum            68
3       1546  Nowitzki   Buxtehude            145
4       2466      Röhrl     Nürburg             4
5       1354     Merkel      Berlin           170
6       3564      Bohle        Bonn            89
7       2386    Höttges        Bonn           211
8       3456     Python       Cloud             9
   Kunden-ID   Nachname     Wohnort  Bestellungen
0       3902      Neuer     München            30
1       3254   Podolski        Köln            93
2       1543    Schmitz      Bochum            68
3       1546  Nowitzki   Buxtehude            145
4       2466      Röhrl     Nürburg             4
5       1354     Merkel      Berlin           170
6       3564      Bohle        Bonn            89
7       2386    Höttges        Bonn           211
8       3456     Python       Cloud             9


## **Spalten umbenennen** 

In [7]:
kundendaten = kundendaten.rename(columns={'Bestellungen': 'Anzahl Bestellungen'})
kundendaten

Unnamed: 0,Kunden-ID,Nachname,Wohnort,Anzahl Bestellungen
0,3902,Neuer,München,30
1,3254,Podolski,Köln,93
2,1543,Schmitz,Bochum,68
3,1546,Nowitzki,Buxtehude,145
4,2466,Röhrl,Nürburg,4
5,1354,Merkel,Berlin,170
6,3564,Bohle,Bonn,89
7,2386,Höttges,Bonn,211
8,3456,Python,Cloud,9


## **Daten schreiben**
Mit der Funktion **"df.to_excel()"** können aus DataFrames Excel-Dateien erstellt werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **"excel_writer"**    ->  Speicherort und Name der Datei
- **"sheet_name"**      ->  Name des Tabellenblattes 
- **"index"**           ->  legt fest, ob die Index-Spalte bleiben soll 

In [1]:
kundendaten.to_excel(excel_writer = 'Kundendaten_2.xlsx', sheet_name = 'Kundendaten_2', index = False)  # durch "index = False" wird der Zeilenindex nicht mit in die Excel-Datei geschrieben

NameError: name 'kundendaten' is not defined

## **Zeilen filtern**
Mit **"df.loc[df[Spaltenname] == x]"** können DateFrames nach x gefiltert werden:

In [9]:
kundendaten_a = kundendaten.loc[kundendaten['Anzahl Bestellungen'] >= 100]
kundendaten_a

Unnamed: 0,Kunden-ID,Nachname,Wohnort,Anzahl Bestellungen
3,1546,Nowitzki,Buxtehude,145
5,1354,Merkel,Berlin,170
7,2386,Höttges,Bonn,211


Mit **"df.loc[df[Spaltenname] == x, 'Neuer Spaltenname'] = Wert"** können DataFrames gefiltert und Werte in einer neuen Spalte eingefügt werden:

In [2]:
kundendaten.loc[kundendaten['Anzahl Bestellungen'] >= 100, 'Kategorie'] = 'A'
kundendaten

NameError: name 'kundendaten' is not defined

> **Aufgabe:** Weise den restlichen Kunden (Anzahl Bestellungen < 100) die Kategorie "B" zu.


Wir haben die **Aufgabe** bekommen **Abzugleichen**, ob unsere **Kunden umgezogen** sind und wie sich die Anzahl der **Bestellungen entwickelt** hat. Veränderungen sollen übersichtlich dargestellt werden.

In [11]:
# benötigte Daten einlesen
kundendaten_aktuell = pd.read_excel('Kundendaten.xlsx', sheet_name = 'Kundendaten', skiprows = 1, usecols = 'A, C, D, F')
kundendaten_vorjahr = pd.read_excel('Kundendaten_Vorjahr.xlsx', sheet_name = 'Kundendaten_Vorjahr', skiprows = 1, usecols = 'A, C, D, F')

print(kundendaten_aktuell)
print(kundendaten_vorjahr)

   Kunden-ID   Nachname     Wohnort  Bestellungen
0       3902      Neuer     München            30
1       3254   Podolski        Köln            93
2       1543    Schmitz      Bochum            68
3       1546  Nowitzki   Buxtehude            145
4       2466      Röhrl     Nürburg             4
5       1354     Merkel      Berlin           170
6       3564      Bohle        Bonn            89
7       2386    Höttges        Bonn           211
8       3456     Python       Cloud             9
   Kunden-ID   Nachname     Wohnort  Bestellungen
0       3902      Neuer     München            35
1       3254   Podolski   Trosidorf            70
2       1543    Schmitz      Bochum           130
3       1546  Nowitzki   Buxtehude             99
4       2466      Röhrl     Nürburg            60
5       1354     Merkel      Berlin           250
6       3564      Bohle        Bonn            50
7       2386    Höttges        Bonn           180
8       3456     Python    Computer            25


## **DataFrames zusammenführen**
Mittels der Funktion **"pd.merge()"** können zwei DataFrames **zusammengeführt** werden. Dabei müssen/können der Funktion **Argumente** übergeben werden, wie z.B.:
- **"left"**    ->  linkes DataFrame
- **"right"**   ->  rechtes DataFrame
- **"how"**     ->  left / right / inner / outer (left entspricht dem SVERWEIS)
- **"on"**      ->  Suchkriterium 
- **"suffixes** ->  Endung für Spaltennamen die im linken und rechten DataFrame vorkommen

In [12]:
kundendaten_abgleich = pd.merge(left = kundendaten_aktuell,
                                right = kundendaten_vorjahr,
                                how = 'outer',
                                on = 'Kunden-ID',
                                suffixes = ('_Aktuell', '_Vorjahr'))             
kundendaten_abgleich

Unnamed: 0,Kunden-ID,Nachname_Aktuell,Wohnort_Aktuell,Bestellungen_Aktuell,Nachname_Vorjahr,Wohnort_Vorjahr,Bestellungen_Vorjahr
0,3902,Neuer,München,30,Neuer,München,35
1,3254,Podolski,Köln,93,Podolski,Trosidorf,70
2,1543,Schmitz,Bochum,68,Schmitz,Bochum,130
3,1546,Nowitzki,Buxtehude,145,Nowitzki,Buxtehude,99
4,2466,Röhrl,Nürburg,4,Röhrl,Nürburg,60
5,1354,Merkel,Berlin,170,Merkel,Berlin,250
6,3564,Bohle,Bonn,89,Bohle,Bonn,50
7,2386,Höttges,Bonn,211,Höttges,Bonn,180
8,3456,Python,Cloud,9,Python,Computer,25


In [13]:
# Spalte "Wohnort_Veränderung" einfügen
kundendaten_abgleich.loc[kundendaten_abgleich['Wohnort_Aktuell'] != kundendaten_abgleich['Wohnort_Vorjahr'], 'Wohnort_Veränderung'] = kundendaten_abgleich['Wohnort_Vorjahr'] + '  ->  ' + kundendaten_abgleich['Wohnort_Aktuell']
kundendaten_abgleich

Unnamed: 0,Kunden-ID,Nachname_Aktuell,Wohnort_Aktuell,Bestellungen_Aktuell,Nachname_Vorjahr,Wohnort_Vorjahr,Bestellungen_Vorjahr,Wohnort_Veränderung
0,3902,Neuer,München,30,Neuer,München,35,
1,3254,Podolski,Köln,93,Podolski,Trosidorf,70,Trosidorf -> Köln
2,1543,Schmitz,Bochum,68,Schmitz,Bochum,130,
3,1546,Nowitzki,Buxtehude,145,Nowitzki,Buxtehude,99,
4,2466,Röhrl,Nürburg,4,Röhrl,Nürburg,60,
5,1354,Merkel,Berlin,170,Merkel,Berlin,250,
6,3564,Bohle,Bonn,89,Bohle,Bonn,50,
7,2386,Höttges,Bonn,211,Höttges,Bonn,180,
8,3456,Python,Cloud,9,Python,Computer,25,Computer -> Cloud


In [14]:
# Saplte mit prozentualer und absoluter Entwicklung der Bestellungen anfügen
kundendaten_abgleich['absolut'] = kundendaten_abgleich['Bestellungen_Aktuell'] - kundendaten_abgleich['Bestellungen_Vorjahr']
kundendaten_abgleich['prozentual'] = (kundendaten_abgleich['Bestellungen_Aktuell'] - kundendaten_abgleich['Bestellungen_Vorjahr']) / kundendaten_abgleich['Bestellungen_Vorjahr'] * 100
kundendaten_abgleich

Unnamed: 0,Kunden-ID,Nachname_Aktuell,Wohnort_Aktuell,Bestellungen_Aktuell,Nachname_Vorjahr,Wohnort_Vorjahr,Bestellungen_Vorjahr,Wohnort_Veränderung,absolut,prozentual
0,3902,Neuer,München,30,Neuer,München,35,,-5,-14.285714
1,3254,Podolski,Köln,93,Podolski,Trosidorf,70,Trosidorf -> Köln,23,32.857143
2,1543,Schmitz,Bochum,68,Schmitz,Bochum,130,,-62,-47.692308
3,1546,Nowitzki,Buxtehude,145,Nowitzki,Buxtehude,99,,46,46.464646
4,2466,Röhrl,Nürburg,4,Röhrl,Nürburg,60,,-56,-93.333333
5,1354,Merkel,Berlin,170,Merkel,Berlin,250,,-80,-32.0
6,3564,Bohle,Bonn,89,Bohle,Bonn,50,,39,78.0
7,2386,Höttges,Bonn,211,Höttges,Bonn,180,,31,17.222222
8,3456,Python,Cloud,9,Python,Computer,25,Computer -> Cloud,-16,-64.0


> **Aufgabe:** Finde heraus, ob sich die "Straße/Hausnummer" unsere Kunden verändert hat und stelle die Veränderung übersichtlich dar.

**1. Daten einlesen** (nur die Spalten: "Kunden-ID", "Nachname" und "Straße/Hausnumemr")

**2. Daten zusammenführen**

**3. Spalte "Straße/Hausnummer_Veränderung" anfügen** (Inhalt: "Straße/Hausnummer_alt  ->  Straße/Hausnummer_neu")

# **Backup**

**Gruppieren**: Mit der Funktion **"df.groupby(['Zu gruppierende Spalte 1', 'zu gruppierende Spalte 2', ...]).agg({'zu aggregierende Spalte 1': 'Aggregationsmethode', 'zu aggregierende Spalte 2': 'Aggregationsmethode', ...})"** können DataFrames gruppiert werden.

**Beispiel:**

In [17]:
kundendaten_abgleich['Gesamt pro Ort'] = kundendaten_abgleich.groupby(['Wohnort_Vorjahr']).agg({'Bestellungen_Vorjahr': 'sum'})