### Pandas

**pandas** ist eine Python-Bibliothek für Datenanalyse und Datenmanipulation. pandas macht es sehr einfach, strukturierte Daten (wie Excel-Tabellen) in Python zu bearbeiten.



In [1]:
import pandas as pd

Die zwei wichtigsten Datenstrukturen sind

- Series
- Dataframes


1. Series (eindimensional)
Eine Series ist wie eine Spalte in Excel:

In [2]:
# Series erstellen
noten = pd.Series([1.5, 2.0, 1.7, 2.3, 1.9])
print(noten)

0    1.5
1    2.0
2    1.7
3    2.3
4    1.9
dtype: float64


Der Spalte können wir einen Namen geben, der taucht dann auf, wenn wir die Series in ein dataframe umwandeln.

In [13]:
noten.name = 'Note'

Wir können den Index verändern.

In [14]:
noten.index = ['Anna', 'Ben', 'Clara', 'David', 'Emma']

In [15]:
noten

Anna     1.5
Ben      2.0
Clara    1.7
David    2.3
Emma     1.9
Name: Note, dtype: float64

Eine Series können wir uns vorstellen wie ein dictionary, das für die Datenanalyse zusätzliche Funktionen hat.

#### Dataframe

Ein DataFrame ist wie eine komplette Excel-Tabelle.

In [60]:
# DataFrame aus Dictionary erstellen
schuelerdaten = {
    'Name': ['Anna', 'Ben', 'Clara', 'David', 'Emma'],
    'Alter': [16, 17, 16, 17, 16],
    'Mathe': [1.5, 2.0, 1.7, 2.3, 1.9],
    'Deutsch': [2.1, 1.8, 1.5, 2.0, 1.7]
}
df = pd.DataFrame(schuelerdaten)
df

Unnamed: 0,Name,Alter,Mathe,Deutsch
0,Anna,16,1.5,2.1
1,Ben,17,2.0,1.8
2,Clara,16,1.7,1.5
3,David,17,2.3,2.0
4,Emma,16,1.9,1.7


### Die wichtigsten Funktionen

#### Dateien laden und speichern

In [61]:
# csv-Datei laden
df = pd.read_csv('noten.csv')
df

Unnamed: 0,Name,Alter,Klasse,Mathe,Deutsch,Englisch,Lieblingsfach
0,Anna,16,11a,1.5,2.1,1.8,Mathe
1,Ben,17,11a,2.0,1.8,2.2,Deutsch
2,Clara,16,11b,1.7,1.5,1.3,Englisch
3,David,17,11a,2.3,2.0,1.9,Sport
4,Emma,16,11b,1.9,1.7,2.0,Mathe
5,Felix,17,11b,2.8,2.2,2.5,Kunst
6,Greta,16,11a,1.3,1.9,1.6,Mathe
7,Hannah,17,11b,2.1,1.4,1.7,Deutsch
8,Igor,16,11a,1.8,2.3,2.1,Informatik
9,Julia,17,11b,2.4,1.6,1.9,Biologie


Die Ziffern in der ersten Spalte (den Index) wollen wir nicht speichern.

In [62]:
df.to_csv('noten_neu.csv', index=False)

#### Daten erkunden

In [63]:
# Erste/letzte Zeilen anzeigen
df.head()        # Erste 5 Zeilen
df.tail(3)       # Letzte 3 Zeilen

# Grundlegende Informationen
df.info()        # Datentypen und fehlende Werte
df.describe()    # Statistische Zusammenfassung
df.shape         # Anzahl Zeilen und Spalten
df.columns       # Spaltennamen

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Name           10 non-null     object 
 1   Alter          10 non-null     int64  
 2   Klasse         10 non-null     object 
 3   Mathe          10 non-null     float64
 4   Deutsch        10 non-null     float64
 5   Englisch       10 non-null     float64
 6   Lieblingsfach  10 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 692.0+ bytes


Index(['Name', 'Alter', 'Klasse', 'Mathe', 'Deutsch', 'Englisch',
       'Lieblingsfach'],
      dtype='object')

#### Daten auswählen

In [64]:
# Spalte auswählen
df['Name']                   # Eine Spalte
df[['Name', 'Alter']]        # Mehrere Spalten

# Zeilen auswählen
df.iloc[0]                   # Erste Zeile (nach Position)
df.loc[0]                    # Erste Zeile (nach Index)
df.iloc[0:3]                 # Erste 3 Zeilen

Unnamed: 0,Name,Alter,Klasse,Mathe,Deutsch,Englisch,Lieblingsfach
0,Anna,16,11a,1.5,2.1,1.8,Mathe
1,Ben,17,11a,2.0,1.8,2.2,Deutsch
2,Clara,16,11b,1.7,1.5,1.3,Englisch


#### Unterschied zwischen iloc und loc

- iloc - Position wird ab 0 wie bei einer Liste bestimmt
- loc - Position wird wie bei einem Dictionary über den Label des Index bestimmt. 

In [65]:

# DataFrame erstellen
df = pd.DataFrame({
    'Name': ['Anna', 'Ben', 'Clara', 'David'],
    'Alter': [16, 17, 16, 17],
    'Note': [1.5, 2.0, 1.7, 2.3]
}, index=['A', 'B', 'C', 'D'])  

df

Unnamed: 0,Name,Alter,Note
A,Anna,16,1.5
B,Ben,17,2.0
C,Clara,16,1.7
D,David,17,2.3


In [66]:
df.iloc[1]

Name     Ben
Alter     17
Note     2.0
Name: B, dtype: object

In [67]:
df.loc['B']

Name     Ben
Alter     17
Note     2.0
Name: B, dtype: object

#### Daten filtern

In [68]:
df = pd.read_csv('noten.csv')

# Nach Werten filtern
df[df['Mathe'] < 2.0]

# Mehrere Bedingungen
df[(df['Alter'] >= 17) & (df['Mathe'] <= 2.0)]

# Sortieren
df.sort_values('Mathe')                    # Aufsteigend
df.sort_values('Mathe', ascending=False)   # Absteigend
df.sort_values(['Alter', 'Mathe'])         # Nach mehreren Spalten

Unnamed: 0,Name,Alter,Klasse,Mathe,Deutsch,Englisch,Lieblingsfach
6,Greta,16,11a,1.3,1.9,1.6,Mathe
0,Anna,16,11a,1.5,2.1,1.8,Mathe
2,Clara,16,11b,1.7,1.5,1.3,Englisch
8,Igor,16,11a,1.8,2.3,2.1,Informatik
4,Emma,16,11b,1.9,1.7,2.0,Mathe
1,Ben,17,11a,2.0,1.8,2.2,Deutsch
7,Hannah,17,11b,2.1,1.4,1.7,Deutsch
3,David,17,11a,2.3,2.0,1.9,Sport
9,Julia,17,11b,2.4,1.6,1.9,Biologie
5,Felix,17,11b,2.8,2.2,2.5,Kunst


#### Neue Spalte erstellen

In [69]:
# Neue Spalte berechnen
df['Notendurchschnitt'] = ((df['Mathe'] + df['Deutsch'] + df['Englisch']) / 3).round(2)

# Bedingte Spalte
df['Bestanden'] = df['Notendurchschnitt'] <= 4.0

In [70]:
df

Unnamed: 0,Name,Alter,Klasse,Mathe,Deutsch,Englisch,Lieblingsfach,Notendurchschnitt,Bestanden
0,Anna,16,11a,1.5,2.1,1.8,Mathe,1.8,True
1,Ben,17,11a,2.0,1.8,2.2,Deutsch,2.0,True
2,Clara,16,11b,1.7,1.5,1.3,Englisch,1.5,True
3,David,17,11a,2.3,2.0,1.9,Sport,2.07,True
4,Emma,16,11b,1.9,1.7,2.0,Mathe,1.87,True
5,Felix,17,11b,2.8,2.2,2.5,Kunst,2.5,True
6,Greta,16,11a,1.3,1.9,1.6,Mathe,1.6,True
7,Hannah,17,11b,2.1,1.4,1.7,Deutsch,1.73,True
8,Igor,16,11a,1.8,2.3,2.1,Informatik,2.07,True
9,Julia,17,11b,2.4,1.6,1.9,Biologie,1.97,True


#### Statistische Funktionen

In [71]:
# Grundlegende Statistiken
df['Mathe'].mean()      # Durchschnitt
df['Mathe'].median()    # Median
df['Mathe'].std()       # Standardabweichung
df['Mathe'].min()       # Minimum
df['Mathe'].max()       # Maximum

# Häufigkeiten zählen
df['Alter'].value_counts()

Alter
16    5
17    5
Name: count, dtype: int64

#### Daten gruppieren

In [72]:
# Nach Alter gruppieren
nach_alter = df.groupby('Alter')
nach_alter['Mathe'].mean()    # Durchschnittsnote Mathe nach Alter gruppiert

Alter
16    1.64
17    2.32
Name: Mathe, dtype: float64

#### Dataframes verknüpfen

Mit *merge* können wir zwei Dataframes verknüpfen. 'how'=left bedeutet, dass alle Datensätze der linken Tabelle übernommen werden, auch wenn rechts keine Schlüssel gefunden werden.

In [73]:
df = pd.read_csv('namen.csv')
df

Unnamed: 0,Vorname,Nachname,Klasse
0,Anna,Schmidt,8c
1,Ben,Müller,7a
2,Clara,Meier,7a
3,David,Schneider,8b
4,Eva,Fischer,8c


In [74]:
email = pd.read_csv('email.csv')
email

Unnamed: 0,Vorname,Nachname,E-Mail
0,Anna,Schmidt,anna.schmidt@schule.de
1,Ben,Müller,ben.mueller@schule.de
2,Clara,Meier,clara.meier@schule.de
3,David,Schneider,david.schneider@schule.de
4,Eva,Fischer,eva.fischer@schule.de
5,N,N,n.n@schule.de


In [75]:
df = df.merge(email,on=['Vorname','Nachname'],how='left')
df

Unnamed: 0,Vorname,Nachname,Klasse,E-Mail
0,Anna,Schmidt,8c,anna.schmidt@schule.de
1,Ben,Müller,7a,ben.mueller@schule.de
2,Clara,Meier,7a,clara.meier@schule.de
3,David,Schneider,8b,david.schneider@schule.de
4,Eva,Fischer,8c,eva.fischer@schule.de
