# Pandas Grundlagen

## Was ist pandas?
Pandas ist eine der mächtigsten Bibliotheken für Python. Sie erlaubt es uns Daten sehr einfach zu strukturieren und zu analysiseren. Außerdem bietet es viele nützliche Funktionen, um bspw. "ungünstige" Datensätze zu bereinigen, oder statistische Grundfunktionalitäten auf einen Datensatz anzuwenden.\
Dieses Tutorial basiert im Wesentlichen auf:
- https://levelup.gitconnected.com/pandas-basics-cheat-sheet-2023-python-for-data-science-b59fb7786b4d
- https://www.w3schools.com/python/pandas/pandas_intro.asp

In [1]:
import pandas as pd

Es gibt zwei grundlegende Datenstrukuren in pandas:
- `Series`
- `DataFrame`

Series sind eindimensionale Arrays, während ein DataFrame eine zweidimensionale Tabelle darstellt. Man kann es sich ein bisschen wie eine Excel-Tabelle vorstellen.

In [2]:
# 'index' lässt uns einen eigenen Index benennen, standardmäßig würde es von 0
# an hochzählen
s = pd.Series([5, 1, -7, 8], index = ['a','b','c','d'])
print(s)

a    5
b    1
c   -7
d    8
dtype: int64


In [3]:
# ein Dictionary mit beliebigen Daten
data = {
    "Bundesland": ["Niedersachsen", "Bayern", "Berlin"],
    "Hauptstadt": ["Hannover", "München", None],
    "Einwohner": [8.03, 13.18, 3.68]
  }
# dataframe erstellen
df = pd.DataFrame(data)
print(df)

      Bundesland Hauptstadt  Einwohner
0  Niedersachsen   Hannover       8.03
1         Bayern    München      13.18
2         Berlin       None       3.68


In [4]:
# Information über den DataFrame ausgeben
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Bundesland  3 non-null      object 
 1   Hauptstadt  2 non-null      object 
 2   Einwohner   3 non-null      float64
dtypes: float64(1), object(2)
memory usage: 200.0+ bytes
None


### Mit Daten arbeiten

In [9]:
# excel tabelle einlesen
df = pd.read_excel("AW_Sales_Europe.xlsx")

In [10]:
# csv einlesen
data = pd.read_csv('Übungen/studenten_datensatz.csv', delimiter=';')
data.head()

Unnamed: 0,Name,Vorname,Matrikelnummer,Studienfach,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
0,Peterson,Peter,72940,Literaturgeschichte,Bachelor,lila,1.3,23
1,Hanson,Hans,97294,Politikwissenschaften,Bachelor,rot,2.7,34
2,Johannson,Johann,15384,Biochemie,Master,gelb,1.6,26
3,Maxson,Max,68536,Mathematik,Bachelor,rot,1.9,21
4,Peterson,Stefanie,57284,Erziehungswissenschaften,Bachelor,blau,2.1,24


Die deskriptiven Statistiken natürlich mit Vorsicht genießen. In diesem Fall ergibt ein Mittelwert für `ProductKey` natürlich keinen Sinn.

In [3]:
# deskriptive Statistiken
df.describe()

Unnamed: 0,ProductKey,OrderQuantity,UnitPrice,SalesAmount,TotalProductCost,DiscountAmount,ResellerKey,CustomerKey,Profit,NumberEmployees,AnnualSales,AnnualRevenue,YearOpened
count,17909.0,17909.0,17909.0,17909.0,17909.0,17909.0,4473.0,17909.0,17909.0,4473.0,4473.0,4473.0,4473.0
mean,428.041152,1.931599,58.770763,106.411749,80.724383,0.586768,359.665996,14510.934837,25.687355,56.011402,2022938.0,202293.762575,1992.27476
std,124.516658,2.522439,249.370337,428.802344,389.597002,10.612237,195.452192,9384.509691,109.938505,33.66477,1027814.0,102781.384349,8.178784
min,213.0,1.0,1.33,1.37,0.8565,0.0,14.0,14.0,-2876.142,3.0,300000.0,30000.0,1974.0
25%,237.0,1.0,4.99,7.95,2.9733,0.0,176.0,11238.0,3.1237,19.0,800000.0,80000.0,1987.0
50%,479.0,1.0,22.79,28.99,10.8423,0.0,355.0,15692.0,12.4177,67.0,3000000.0,300000.0,1991.0
75%,529.0,1.0,34.99,53.99,38.4923,0.0,535.0,21869.0,21.9037,87.0,3000000.0,300000.0,1998.0
max,606.0,36.0,3578.27,13535.8,15155.14,762.9024,687.0,29480.0,1487.8356,100.0,3000000.0,300000.0,2005.0


In [4]:
# prüfen, ob es fehlende Werte gibt
df.isna().any()

SalesOrderNumber      False
ProductKey            False
OrderQuantity         False
UnitPrice             False
SalesAmount           False
TotalProductCost      False
OrderDate             False
ShipDate              False
City                  False
StateProvinceCode     False
CountryRegionCode     False
PostalCode            False
DiscountAmount        False
Sales Type            False
ResellerKey            True
CustomerKey           False
ProductName           False
ProductSubcategory    False
ProductCategory       False
Profit                False
ResellerName           True
NumberEmployees        True
OrderFrequency         True
AnnualSales            True
AnnualRevenue          True
YearOpened             True
Region                False
StoreAge               True
dtype: bool

In [5]:
# aus einer Gruppe alle einzigartigen Werte erhalten
df["City"].unique()

array(['Frankfurt am Main', 'London', 'Warrington', 'Roncq', 'Berlin',
       'Gloucestershire', 'Verrieres Le Buisson', 'Muehlheim',
       'Courbevoie', 'Essen', 'Milton Keynes', 'Pantin', 'Duesseldorf',
       'Wokingham', 'Saint Ouen', 'Colombes', 'Liverpool', 'Paris',
       'Oxon', 'Orleans', 'Münster', 'W. York', 'Colomiers', 'Lieusaint',
       'München', 'Lancaster', 'Bad Soden', 'Basingstoke Hants', 'Orly',
       'Sulzbach Taunus', 'Grevenbroich', 'High Wycombe',
       'Roissy en Brie', 'Reading', 'Offenbach', 'Abingdon', 'Bobigny',
       'Paris La Defense', 'Stuttgart', 'West Sussex', 'York',
       'Berkshire', 'Hamburg', 'Kiel', 'Birmingham', 'Hannover',
       'Bracknell', 'Woolston', 'Saarbrücken', 'Maidenhead', 'Eilenburg',
       'Berks', 'Cergy', 'Paderborn', 'Boulogne-sur-Mer', 'Braunschweig',
       'Leipzig', 'Morangis', 'Augsburg', 'Cambridge', 'Frankfurt',
       'Croix', 'Sèvres', 'Suresnes', 'Solingen', 'Watford', 'Les Ulis',
       'Versailles', 'Esher-Mole

### Daten filtern

In [13]:
data_augsburg = df[df["City"] == "Augsburg"].copy()

In [14]:
data_augsburg.head()

Unnamed: 0,SalesOrderNumber,ProductKey,OrderQuantity,UnitPrice,SalesAmount,TotalProductCost,OrderDate,ShipDate,City,StateProvinceCode,...,ProductCategory,Profit,ResellerName,NumberEmployees,OrderFrequency,AnnualSales,AnnualRevenue,YearOpened,Region,StoreAge
3945,SO58902,548,1,48.59,48.59,35.9596,2019-03-22,2019-01-27,Augsburg,BY,...,Components,12.6344,Rustic Bike Store,12.0,S,800000.0,80000.0,1980.0,EU,veryold
3946,SO71834,548,1,48.59,48.59,35.9596,2019-09-18,2019-07-28,Augsburg,BY,...,Components,12.6344,Rustic Bike Store,12.0,S,800000.0,80000.0,1980.0,EU,veryold
3947,SO71834,554,1,54.94,54.94,40.6571,2019-09-18,2019-07-28,Augsburg,BY,...,Components,14.2849,Rustic Bike Store,12.0,S,800000.0,80000.0,1980.0,EU,veryold
3948,SO53516,557,1,153.89,153.89,113.8816,2018-12-18,2018-10-29,Augsburg,BY,...,Components,40.0124,Rustic Bike Store,12.0,S,800000.0,80000.0,1980.0,EU,veryold
3949,SO58902,558,1,242.99,242.99,179.8156,2019-03-22,2019-01-27,Augsburg,BY,...,Components,63.1784,Rustic Bike Store,12.0,S,800000.0,80000.0,1980.0,EU,veryold


In [11]:
# Filtern nach einer spezifischen Bedingung (zweites Beispiel)
filtered_data = data[data['Abschlussnote'] < 2.0]

### Indizierung in DataFrames

In [12]:
# Zugriff auf eine spezifische Spalte
data['Studienfach']
# Zugriff auf mehrere Spalten
data[['Name', 'Vorname', 'Abschlussnote']]

Unnamed: 0,Name,Vorname,Abschlussnote
0,Peterson,Peter,1.3
1,Hanson,Hans,2.7
2,Johannson,Johann,1.6
3,Maxson,Max,1.9
4,Peterson,Stefanie,2.1
5,Müller,Franziska,1.2
6,Schmitt,Hannelore,1.5
7,Gustavson,Gustav,3.1
8,Meyer,Andrea,2.4
9,Baerbock,Annalena,1.2


### Gruppieren von Daten

In [13]:
# Daten gruppieren nach Stadt, Produktkategorie und Produktname
# und nur relevante Spalten anzeigen und den Mittelwert berechnen
df.groupby(["City", "ProductCategory", "ProductName"])[["SalesAmount", "TotalProductCost", "Profit"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,SalesAmount,TotalProductCost,Profit
City,ProductCategory,ProductName,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Abingdon,Clothing,"Racing Socks, L",29.67,18.49265,11.17435
Augsburg,Clothing,"Short-Sleeve Classic Jersey, XL",226.76,291.00610,-64.24810
Augsburg,Clothing,"Women's Mountain Shorts, S",125.98,78.52890,47.45310
Augsburg,Components,Front Derailleur,54.89,40.62160,14.27240
Augsburg,Components,HL Crankset,242.99,179.81560,63.17840
...,...,...,...,...,...
York,Clothing,"Women's Mountain Shorts, L",69.99,26.17630,43.81370
York,Clothing,"Women's Mountain Shorts, M",69.99,26.17630,43.81370
York,Clothing,"Women's Mountain Shorts, S",69.99,26.17630,43.81370
York,Components,HL Touring Handlebars,109.88,81.31420,28.56980


In [14]:
# Gruppieren nach 'Studienfach' und Berechnung des Durchschnitts der Noten
grouped_data = data.groupby('Studienfach')['Abschlussnote'].mean()
grouped_data

Studienfach
Agrarwirtschaft             1.20
Biochemie                   1.90
Erziehungswissenschaften    2.10
Literaturgeschichte         1.85
Mathematik                  1.90
Politikwissenschaften       2.90
Romanistik                  1.50
Name: Abschlussnote, dtype: float64

### iloc vs loc

`iloc` steht für "integer location" und wird verwendet, um auf Daten über deren numerischen Index zuzugreifen. Es verwendet nur ganzzahlige Indizes zur Auswahl und funktioniert ähnlich wie die Indizierung in Python-Listen. Hier sind einige Beispiele für die Verwendung von `iloc`:<br>
    - `data.iloc[0]` gibt die erste Zeile des DataFrames zurück.<br>
    - `data.iloc[:, 1]` gibt die zweite Spalte des DataFrames zurück.<br>
    - `data.iloc[1:5]` gibt die Zeilen von Index 1 bis 4 (ausschließlich 5) zurück.<br>
    - `data.iloc[1:5, 0:2]` gibt die Zeilen von Index 1 bis 4 und die Spalten von Index 0 bis 1 zurück.<br>

`loc` hingegen steht für "location" und wird verwendet, um auf Daten über deren Label oder Namen zuzugreifen. Es kann Indizes basierend auf dem Namen der Zeilen- oder Spaltenlabel verwenden. Hier sind einige Beispiele, wie `loc` benutzt werden kann:<br>
    - `data.loc[0]` gibt die Zeile zurück, deren Index-Label 0 ist (dies muss nicht die erste Zeile sein, falls der Index nicht standardmäßig von 0 an aufsteigend ist).<br>
    - `data.loc[:, 'Name']` gibt die Spalte Name zurück.<br>
    - `data.loc['a':'b']` gibt Zeilen zurück, deren Index-Label zwischen a und b einschließlich liegt.<br>
    - `data.loc[data['Alter'] > 20]` gibt Zeilen zurück, in denen das Alter über 20 ist.<br>
    - `data.loc[1:5, ['Name', 'Alter']]` gibt die Zeilen von 1 bis 5 und die Spalten Name und Alter zurück.<br>