<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTDiDpm8v8Nl2dB2tMxHY7SKFnp2-S71Q6hnQ&usqp=CAU'/>

# Pandas

- 3rd Party Bibliothek zur Verarbeitung  tabellarischer Daten
- basiert auf NumPy
- Datenstrukturen: Series, Dataframe

#### Installation

In [1]:
%%capture
!pip install pandas

#### Zusätzliches Paket für Excel (werden wir erst installieren falls zwingend benötigt)

In [2]:
%%capture
# !pip install xlrd

#### Informationen zum Pandas-Modul

In [3]:
!pip show pandas

Name: pandas
Version: 2.2.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: 
Author-email: The Pandas Development Team <pandas-dev@python.org>
License: BSD 3-Clause License

Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.

Copyright (c) 2011-2023, Open source contributors.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

* Neither the name of the copyright holder nor the names of its
  contributors may be u

#### Pandas Dokumentation

findet man hier: https://pandas.pydata.org/

#### Pandas importieren

es üblich, dass man Pandas in pd umbennent:

In [5]:
import pandas as pd

### Pandas Datenstrukturen

- Series: eine eindimensionale Darstellung von Daten (ähnlich wie NumPy Arrays)
- DataFrame: eine zweidimensionale (tabellarisch: Reihen und Spalten) Darstellung von Daten


#### Series

<img src='https://pandas.pydata.org/docs/_images/01_table_series.svg' width='150px;'>

Ein Series-Objekt kann man wie die Spalte in einer Excel-Tabelle plus dem zugehörigen Index sehen. Anders ausgedrückt: Eine Series ist ein eindimensionales Array-ähnliches Objekt mit einem Index. Während bei einem Array der Index den natürlichen Zahlen von 0
bis zur Länge des Arrays (exklusive) entspricht, kann der Index einer Series beliebig sein.
  
Sowohl der Index als auch die Werte einer Series müssen einen einheitlichen Datentyp aufweisen, also beispielsweise nur Integers, Floats, Strings usw.  

Eine Series kann als eine Datenstruktur mit zwei Arrays angesehen werden: Ein Array fungiert als Index, d.h. als Bezeichner (Label), und ein Array beinhaltet die aktuellen Daten
(Werte).

Series wurden ursprünglich zur Analyse von Zeitreihen (engl. time series) entwickelt.  
  
Series sind _explizit_ indiziert (flexibler als NumPy Arrays: _implizit indiziert_)



In [6]:
import numpy as np

arr = np.array([10,20,30])
arr # in der Ausgabe sehen wir nur die Elemente des Arrayobjekts

array([10, 20, 30])

In [7]:
ser = pd.Series(index=range(3),  # Indizes
                data=[10,20,30]) # Elemente
ser

0    10
1    20
2    30
dtype: int64

Im Folgenden lernen wir:

- Ein Series-Objekt erstellen
- Zugriff auf Elemente (Einzel)
- Zugriff auf einen Teilbereich (Slicing)
- Gruppieren (engl. groupby)
- Abfragen erstellen
- Weitere Funktion, Methoden und Attribute für Series

#### Ein Series-Objekt erstellen

Series sind Objekte der Klasse `pandas.Series`

In [41]:
#help(pd.Series)

##### Series mit nummerischen Indizes 

In [9]:
ser = pd.Series(index = range(5),         # Indizes
                data = [10,22,32,41,52],  # Daten
                dtype = float)            # Datentypen (optional)

ser

0    10.0
1    22.0
2    32.0
3    41.0
4    52.0
dtype: float64

##### Series mit nicht-nummerischen Indizes
- Bei solchen Series spricht man dann von Index-Labels.
- Duplikate in Index-Labels sind erlaubt.

In [10]:
labled = pd.Series(index = ('x', 'y', 'z', 'z'), # Index-Labels
                   data = [10, 20, 30, 40]       # Daten
                  )
labled

x    10
y    20
z    30
z    40
dtype: int64

##### Series mit Multi-Indizes
Dazu findet man Informationen in Pandas Dokumentation [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html)

##### Series-Objekte aus Python-Objekten
- Listen oder NumPy-Arrays
- Dictionary

In [11]:
# Beispiel: Dictionary aus Lehrenden mit ihren Fächern
teachers = {
    'Martin':'Mathe',
    'Julia':'Englisch',
    'Tom':'Physik',
    'Christine':'Informatik'
}

In [12]:
t = pd.Series(teachers)

In [13]:
t # keys: Indel-Labels und values: Daten

Martin            Mathe
Julia          Englisch
Tom              Physik
Christine    Informatik
dtype: object

#### Zugriff auf Elemente (Einzel)

geschieht mit Hilfe von Indizes bzw. Index-Labels

In [14]:
ser

0    10.0
1    22.0
2    32.0
3    41.0
4    52.0
dtype: float64

In [15]:
ser[2] # Element mit Index 2 aufrufen

np.float64(32.0)

In [16]:
# ser[-1] # KeyError: für Series ist negative Indizierung nicht definiert

Für den Zugriff auf einen einzelnen Element in Series hat Pandas ein spezifisches Attribut: 
- `.iloc[]` (nummerische Indizes) und 
- `.loc[]` (für nicht-nummerische Indizes).

In [17]:
ser.iloc[2]

np.float64(32.0)

In [18]:
t

Martin            Mathe
Julia          Englisch
Tom              Physik
Christine    Informatik
dtype: object

In [19]:
t.iloc[2]

'Physik'

In [20]:
#t.loc[2] # Fehler! denn iloc[] akzeptiert keine Zahlen als Index, sondern Labels

In [21]:
t.loc['Tom']

'Physik'

#### Zugriff auf einen Teilbereich (Slicing)

Slicing in Series geschieht ähnlich wie bei Listen oder NumPy Arrays:

- `.iloc[start:end:step]` Ähnlich wie Listen und Arrays: das letzte Element `end` exkludiert
- `.loc[start:end:step]` Hier ist das letzte Element `end` im Teilbereich mitdabei


In [22]:
ser

0    10.0
1    22.0
2    32.0
3    41.0
4    52.0
dtype: float64

In [23]:
ser.iloc[:3] # Elemente mit Indizes 0,1 und 2

0    10.0
1    22.0
2    32.0
dtype: float64

In [24]:
labled

x    10
y    20
z    30
z    40
dtype: int64

In [25]:
labled.loc['y':'z'] # Hier sind die Endelemente mit Indexlabel 'z' auch mitdabei

y    20
z    30
z    40
dtype: int64

In [26]:
labled.iloc[1:3] # bei iloc[] ist das letzte Element nicht mitdabei im Teilbereich

y    20
z    30
dtype: int64

In [27]:
t

Martin            Mathe
Julia          Englisch
Tom              Physik
Christine    Informatik
dtype: object

In [28]:
t.loc['Julia':'Christine':2] # mit einer Schrittweite von 2

Julia          Englisch
Christine    Informatik
dtype: object

#### Gruppieren (engl. groupby)

Wenn wir eine Spalte in einer Tabelle als ein Series betrachten, dann gibt es oft Spalten, in denen Kategorien gespeichert sind (binäre Kategorien: 0, 1 oder mehrfache: 0, 1, 2, etc.) 

- Wie viele /welche Kategorien sind überhaupt in der Spalte?
- Wie viele Einträge (Datensätze) gibt es unter jeder Kategorie

In [39]:
k = pd.Series(index=range(5),
              data=[21,31,42,59,16])
k

0    21
1    31
2    42
3    59
4    16
dtype: int64

In [30]:
k.values

array([21, 31, 42, 59, 16])

In [31]:
k.index

RangeIndex(start=0, stop=5, step=1)

Wir können die Zahlen im o.g. Seriesobjekt in 2 Kategorien einteilen: Gerade und ungerade Zahlen.
Wir können mit Hilfe von `%` beweisen, ob eine Zahl gerade oder ungerade ist:

```python
gerade % 2 == 0 # True
ungerade % 2 == 1 # True
```

Mit Hilfe der Methoden `groupby()` können wir dann diese Gruppen identifizieren:

In [32]:
gruppen = k.groupby(lambda x: x % 2 == 0)

In [33]:
for gruppe in gruppen:
    print(gruppe[0])
    print(gruppe[1])

False
1    31
3    59
dtype: int64
True
0    21
2    42
4    16
dtype: int64


Wir haben ein `groupby` Objekt erzeugt. Dieses Objekt hat eigene Methoden, u.a. `get_group()`:

In [34]:
gruppen.get_group(False)

1    31
3    59
dtype: int64

In [35]:
gruppen.get_group(True)

0    21
2    42
4    16
dtype: int64

In dem o.g. Beispiel hat die Methode `groupby()` die Indizes berücksichtigt (anstatt Values)!

In [36]:
# help(pd.Series.groupby)

### Recherche-Aufgabe
Wie kann `groupby()` auf Values anstelle von Indizes zugreifen?
Das heißt eine Lösung mit `groupby()`, die gerade und ungerade Zahlen aus `ser` zurückliefert, ohne die Indexspalte vertauschen zu müssen

In [37]:
# Recherche-Aufgabe
ser = pd.Series(index=range(5),
                data=[21,31,42,59,16],
                name='Numbers')
ser

0    21
1    31
2    42
3    59
4    16
Name: Numbers, dtype: int64

In [38]:
# Musterlösung


#### Abfragen erstellen

In [42]:
# Beispiel aus Pandas Doku
ser = pd.Series([390., 350., 30., 20.],
                index=['mercedes', 'audi', 'trabi', 'fiat'], 
                name="Max Speed")
ser

mercedes    390.0
audi        350.0
trabi        30.0
fiat         20.0
Name: Max Speed, dtype: float64

Wir suchen alle Objekte in Series, die eine Geschwindigkeit über 100 haben.

In [43]:
ser.name # Serienobjekt hat einen internen Namen

'Max Speed'

In [44]:
ser[ser>100] # alle Objekte aus 'ser' deren Value größer ist als 100

mercedes    390.0
audi        350.0
Name: Max Speed, dtype: float64

#### Weitere Funktion, Methoden und Attribute für Series

In [45]:
ser

mercedes    390.0
audi        350.0
trabi        30.0
fiat         20.0
Name: Max Speed, dtype: float64

Datentyp von Elementen ermitteln:

In [46]:
ser.dtype

dtype('float64')

Die Gestaltung (Form) eines Seriesobjekts: die Anzahl der Elemente

In [47]:
ser.shape # ähnlich wie len()

(4,)

In [48]:
len(ser)

4

Wichtige statistische Eckdaten ermitteln

In [49]:
ser.describe()

count      4.000000
mean     197.500000
std      199.895806
min       20.000000
25%       27.500000
50%      190.000000
75%      360.000000
max      390.000000
Name: Max Speed, dtype: float64

Für diese Angaben gibt es noch individuelle Methoden

In [50]:
ser.min() # minimum

np.float64(20.0)

In [51]:
ser.max() # max

np.float64(390.0)

In [52]:
ser.mean() # Durchschnitt

np.float64(197.5)

In [53]:
ser.median() # Median

np.float64(190.0)

In [54]:
ser.count() # die Anzahl der Elemente

np.int64(4)

In [55]:
ser.sum() # die Summe

np.float64(790.0)

All diese Attribute und Funktionen sind auch für Pandas Dataframes gültig.  

Im Prinzip und theoretisch kann man jede beliebige Funktion auf ein Series-Objekt anwenden.

Dazu muss die Methode `.apply()` eingesetzt werden.

In [56]:
ser.apply(np.log)

mercedes    5.966147
audi        5.857933
trabi       3.401197
fiat        2.995732
Name: Max Speed, dtype: float64

In [57]:
ser.apply(lambda x: x%2)

mercedes    0.0
audi        0.0
trabi       0.0
fiat        0.0
Name: Max Speed, dtype: float64

In [58]:
ser_class = ser.apply(lambda x: x%2)

In [59]:
ser_class.unique() # Kategorien in Series ermitteln

array([0.])

In [60]:
# help(pd.Series.unique)