# <span style="color:rgb(160,0,86)">Datenmanipulation mit Python</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie wissen was eine statistische Einheit ist und können ihre Merkmale bezüglich ihrer Ausprägungen unterscheiden.
- Sie kennen die Python Module *numpy* und *pandas*.  
- Sie können Daten laden und einfache Operationen ausführen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine statistische Einheit?</span>

- Eine **statistische Einheit** ist Träger von Informationen und Eigenschaften, die für eine statistische Untersuchung von Interesse ist.
- Eine Eigenschaft einer statistischen Einheit, die von Interesse ist, heisst **statistisches Merkmal**.  

#### <span style="color:rgb(160,0,86)">Beispiele:</span>

- In einer Notenstatistik für das Modul ASTAT ist jede Studentin und jeder Student des Moduls eine statistische Einheit. Das statistische Merkmal ist die Abschlussnote an der MEP.
- In einer schweizer Unfallstatistik im Jahr 2024 ist jeder Verkehrsunfall auf schweizer Strassen in diesem Jahr eine statistische Einheit. Statistische Merkmale können zum Beispiel Anzahl Todesopfer, Unfallkosten, Unfallstelle etc. sein.

***

### <span style="color:rgb(160,0,86)">Welche Typen von Merkmalen gibt es?</span>

- **Nominale Merkmale**: Die Ausprägungen des Merkmals können lediglich auf *Gleichheit* ($=$) oder *Ungleichheit* ($\neq$) untersucht werden. <br> Zum Beispiel das Geschlecht, die Nationalität oder der Beruf einer Person.
- **Ordinale Merkmale**: Die Ausprägungen des Merkmals haben zu der *Gleichheit* und *Ungleichheit* eine natürliche *Reihenfolge* ($>$, $<$). <br> Zum Beispiel das Gesamtprädikat eines Hochschulabschlusses mit den Auspägungen *ungenügend*, *genügend*, *befriedigend*, *gut*, *sehr gut* und *ausgezeichnet*. 
- **Metrische Merkmale**: Die Ausprägungen des Merkmals sind Zahlen. Neben dem Betrachen von *Gleichheit*, *Ungleichheit* und *Reihenfolge* kann mit diesen Ausprägungen auch *gerechnet* werden ($+\;$, $\,-\;$, $\,\cdot\;$, $\,/\;$ usw.). <br> Zum Beispiel die Temperatur (beliebige reelle Zahlen), der Umsatz (gerundete nicht negative reelle Zahlen), die Anzahl Mausklicks (nicht negative ganze Zahlen).


### <span style="color:rgb(160,0,86)">Wie werden statistische Einheiten zusammengefasst?</span>

Häufig werden statistische Einheiten mit ihren Merkmalen in einem rechteckigen Schema (einer Matrix, einer Tabelle) zusammengefasst. Die Einheiten werden über die Zeilen und ihre Merkmale in den Spalten erfasst. Zum Beispiel: 

$$\begin{bmatrix}
\text{Anna}&1981&w&176\\
\text{Beat}&2005&m&181\\
\text{Cary}&2011& &169\\
\text{Dana}&1991&w&165\\
\text{Edin}&1964&m&194
\end{bmatrix}$$


### <span style="color:rgb(160,0,86)">Sind Listen in Python eine passende Datenstruktur?</span>


In [None]:
Person_1 = [5.0,5.0,5.5]
Person_2 = [4.5,4.0,4.5]

In [None]:
Person_1 + Person_2

In [None]:
Person_1 * Person_2

Nein, mit **NumPy** (Numerical Python) geht das besser! Das NumPy-Modul bietet eine Sammlung mathematischer Operationen für mehrdimensionale Arrays.


In [None]:
import numpy as np
P_1 = np.array(Person_1)
P_2 = np.array(Person_2)

In [None]:
(P_1 + P_2)/2

In [None]:
Noten = np.array([P_1,P_2])
Noten

In [None]:
Noten.shape

In [None]:
Noten.dtype

In [None]:
Noten[0,2]

In [None]:
Noten[1,:]

In [None]:
Noten[:,2]

In [None]:
Noten[0:2,1:3]

In [None]:
Noten[0,:].max()

In [None]:
Noten[:,2].min()

In [None]:
Noten[1,:].sum()

In [None]:
Noten.min()

In [None]:
Noten.sum(axis=0)

In [None]:
Noten.sum(axis=1)

In [None]:
Noten.sum()

In [None]:
Noten.mean()

In [None]:
Noten.mean(axis=0)

In [None]:
Noten.mean(axis=1)

In [None]:
np.unique(Noten)

In [None]:
np.unique(Noten,return_counts=True)

In [None]:
np.unique(Noten,return_counts=True,axis=0)

In [None]:
marks = np.array([Person_1,Person_1,Person_1,Person_2])
np.unique(marks,return_counts=True,axis=0)

In [None]:
marks

### <span style="color:rgb(160,0,86)">Wie können grosse Datenmengen verarbeitet werden?</span>

Häufige Formate für Daten in Matrix-Form sind:

- **csv**-Dateien (Tabulator-,Komma- oder Spalten getrennte Textdateien)
- **ods**-, **xls**-, **xlsx**-, **mdb**-Dateien (Tabellendokumente)
- **sav**-Dateien für SPSS
- **dta**-Dateien für STATA

**Pandas** (Panel Data) ist ein Python-Modul, das schnelle und flexible Datenstrukturen bereitstellt, die das Arbeiten mit Daten in Matrix-Form einfach und intuitiv macht.

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Wir wollen die folgenden Daten mit Pandas verarbeiten:

$$\begin{bmatrix}
\text{Greater London}&8663300&1572\\
\text{Tokyo}&9272565&627\\
\text{Paris}&2229621&105\\
\text{New York}&8491079&784\\
\end{bmatrix}$$

In [None]:
names = ["Greater London","Tokyo","Paris","New York"]
population = [8663300,9272565,2229621,8491079]
area = [1572,627,105,784]


In [None]:
import pandas as pd

df = pd.DataFrame({"cities":names,"population":population,"area":area})

In [None]:
df.head(2)

In [None]:
df.tail(2)

In [None]:
df

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.info()

In [None]:
df.columns

In [None]:
df["population"][2:4]

In [None]:
df[["cities","area"]][0:1]

In [None]:
# Eigene Index Namen setzen
df.set_index("cities",inplace=True) # inplace=True -> direkt im df

In [None]:
df

In [None]:
df.loc["Tokyo"]

In [None]:
df.loc["Tokyo","population"]

In [None]:
df["pop_density"] = df["population"]/df["area"]
df

In [None]:
gla_cities = pd.read_csv("Daten/GLA_World_Cities_2016.csv")

gla_cities.head(3)

In [None]:
gla_cities.shape

In [None]:
gla_cities.dropna(how="all")

In [None]:
gla_cities.shape

In [None]:
gla_cities.dropna(how="all",inplace=True)

In [None]:
gla_cities.shape

In [None]:
renamecols = {"Inland area in km2":"Area km2"}
gla_cities.rename(columns=renamecols,inplace=True)
gla_cities.columns

In [None]:
gla_cities["pop_density"] = \
gla_cities["Population"]/gla_cities["Area km2"]

In [None]:
gla_cities["Population"] = \
gla_cities["Population"].str.replace(",","").astype(float)
gla_cities.head(3)

In [None]:
gla_cities["Area km2"] = \
gla_cities["Area km2"].str.replace(",","").astype(float)
gla_cities["Dwellings"] = \
gla_cities["Dwellings"].str.replace(",","").astype(float)

In [None]:
gla_cities["pop_density"] = \
gla_cities["Population"]/gla_cities["Area km2"]
gla_cities["pop_density"].head(3)

In [None]:
gla_cities["Population (M)"] = gla_cities["Population"]/1000000 
gla_cities.head(3)

In [None]:
def city_size(x):
    if x < 1.5:
        s = "Small"
    elif 1.5 <= x < 3:
        s = "Medium"
    elif 3 <= x < 5:
        s = "Large"
    else:
        s = "Mega"
    return s

In [None]:
gla_cities["City Size"] = \
gla_cities["Population (M)"].apply(city_size)
gla_cities.head(3)

In [None]:
gla_cities[gla_cities["City Size"]=="Small"]

In [None]:
gla_cities[["City","Population (M)"]][gla_cities["Population (M)"]>8]

In [None]:
gla_grouped = gla_cities.groupby("City Size")
gla_grouped.size()

In [None]:
gla_grouped["Population (M)"].mean()

In [None]:
gla_grouped["Population (M)"].min()

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Diese Aufgabe befasst wir uns mit dem Datensatz **weather.csv** im Ordner Daten.

- Laden Sie den Datensatz und speichern Sie diesen unter der Variable **data**.
- Wählen Sie den Wert der zweiten Zeile und dritten Spalte aus.
- Wählen Sie die 4. Zeile aus.
- Wählen Sie die 1. und die 4. Spalte aus.
- Ersetzen Sie den Spaltennamen Basel durch Genf.
- Bestimmen Sie die mittleren Temperaturen aller Städte.
- Bestimmen Sie die mittleren Temperaturen aller Monate.
- Ergänzen Sie eine Spalte mit den mittleren monatlichen Temperaturen.

***

### <span style="color:rgb(160,0,86)">Lösungsvorschlag</span>

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv("Daten/weather.csv")
data.shape

(6, 4)

In [2]:
data.columns

Index(['Luzern', 'Basel', 'Chur', 'Zurich'], dtype='object')

In [3]:
data.index

Index(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'], dtype='object')

Die Zeilen und Spalten sind durch Namen gegeben. 

In [4]:
data.loc["Feb","Chur"]

1

In [70]:
data.loc["Apr",:]

Luzern    16
Basel     12
Chur      14
Zurich    17
Name: Apr, dtype: int64

In [71]:
data.loc[:,["Luzern","Zurich"]]

Unnamed: 0,Luzern,Zurich
Jan,2,4
Feb,5,0
Mar,10,8
Apr,16,17
May,21,20
Jun,25,27


Wenn wir trotzdem **mit Indizes** auf die Daten zugreiffen wollen, können wir mit 


```python
iloc[zeilenIndex,spaltenIndex]
```


arbeiten: 

In [5]:
data.iloc[1,2]

1

In [72]:
data.iloc[3,:]

Luzern    16
Basel     12
Chur      14
Zurich    17
Name: Apr, dtype: int64

In [7]:
data.iloc[:,[0,3]]

Unnamed: 0,Luzern,Zurich
Jan,2,4
Feb,5,0
Mar,10,8
Apr,16,17
May,21,20
Jun,25,27


In [8]:
data.rename(columns={"Basel":"Genf"},inplace=True)
data.columns

Index(['Luzern', 'Genf', 'Chur', 'Zurich'], dtype='object')

In [9]:
data.mean(axis=0)

Luzern    13.166667
Genf      13.000000
Chur      11.500000
Zurich    12.666667
dtype: float64

In [10]:
data.mean(axis=1)

Jan     2.00
Feb     3.00
Mar    10.50
Apr    14.75
May    21.25
Jun    24.00
dtype: float64

In [11]:
data["Mittlere Temperatur"] = data.mean(axis=1)
data.head(3)

Unnamed: 0,Luzern,Genf,Chur,Zurich,Mittlere Temperatur
Jan,2,5,-3,4,2.0
Feb,5,6,1,0,3.0
Mar,10,11,13,8,10.5


***

### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Das Dataframe **d.fuel** im Ordner Daten enthält die Daten verschiedener Fahrzeuge aus einer amerikanischen Untersuchung der 80er-Jahre. Jede Zeile enthält die Daten eines
Fahrzeuges (ein Fahrzeug entspricht einer statistischen Einheit).

- Laden Sie das Dataframe.
- Beschreiben Sie die Ausprägung der Merkmale.
- Wählen Sie die fünfte Zeile des Dataframe aus. Welche Werte stehen in der fünften Zeile?
- Wählen Sie die erste bis fünfte Beobachtung des Dataframes aus.
- Zeigen Sie gleichzeitig die 1. bis 3. und die 57. bis 60. Beobachtung des Dataframes an.
- Berechnen Sie den Mittelwert der Reichweiten aller Autos in Miles/Gallon.
- Berechnen Sie den Mittelwert der Reichweiten der Autos 7 bis 22.
- Ergänzen Sie eine Spalte **t.kml**, die alle Reichweiten in km/l, und
eine Spalte **t.kg**, die alle Gewichte in kg enthält.
- Berechnen Sie den Mittelwert der Reichweiten in km/l und denjenigen der Fahrzeuggewichte in kg.
- Bestimmen Sie das mittlere Gewicht der Sportwagen (*Sporty*).

***

### <span style="color:rgb(160,0,86)">Lösungsvorschlag</span>

- Laden Sie das Dataframe.

In [12]:
import pandas as pd
import numpy as np

df_fuel = pd.read_csv("Daten/d.fuel.dat")
df_fuel.head(3)

Unnamed: 0,X,weight,mpg,type
0,1,2560,33,Small
1,2,2345,33,Small
2,3,1845,37,Small


- Beschreiben Sie die Ausprägung der Merkmale.

In [13]:
df_fuel.apply(np.unique)

X         [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...
weight    [1845, 1900, 2075, 2170, 2260, 2275, 2285, 229...
mpg       [18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 2...
type           [Compact, Large, Medium, Small, Sporty, Van]
dtype: object

Die Ausprägungen der Merkmale sind
- X: **numerisch** (*eine positive ganze Zahl*)
- weight: **numerisch** (*eine nicht negative Zahl*)
- mpg: **numerisch** (*eine nicht negative Zahl*)
- type: **nominal** (*Compact*, *Large*, *Medium*, *Small*, *Sporty*, *Van*) 

- Wählen Sie die fünfte Zeile des Dataframe aus. Welche Werte stehen in der fünften Zeile?

In [14]:
df_fuel.set_index("X",inplace=True)
df_fuel.index

Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
       19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36,
       37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54,
       55, 56, 57, 58, 59, 60],
      dtype='int64', name='X')

In [15]:
df_fuel.loc[5,:]

weight     2440
mpg          32
type      Small
Name: 5, dtype: object

- Wählen Sie die erste bis fünfte Beobachtung des Dataframes aus.

In [16]:
df_fuel.loc[1:5,:]

Unnamed: 0_level_0,weight,mpg,type
X,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2560,33,Small
2,2345,33,Small
3,1845,37,Small
4,2260,32,Small
5,2440,32,Small


- Zeigen Sie gleichzeitig die 1. bis 3. und die 57. bis 60. Beobachtung des Dataframes an.

In [17]:
df_fuel.loc[[1,2,3,57,58,59,60],:]

Unnamed: 0_level_0,weight,mpg,type
X,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2560,33,Small
2,2345,33,Small
3,1845,37,Small
57,3735,19,Van
58,3415,20,Van
59,3185,20,Van
60,3690,19,Van


- Berechnen Sie den Mittelwert der Reichweiten aller Autos in Miles/Gallon.

In [18]:
df_fuel.loc[:,"mpg"].mean()

24.583333333333332

- Berechnen Sie den Mittelwert der Reichweiten der Autos 7 bis 22.

In [19]:
df_fuel.loc[7:22,"mpg"].mean()

27.75

- Ergänzen Sie eine Spalte **t.kml**, die alle Reichweiten in km/l, und
eine Spalte **t.kg**, die alle Gewichte in kg enthält.

Für die amerikanischen Einheiten gelten:
- Ein **Pound** entspricht **0.453592 Kilogramm**
- Eine **Gallone** entspricht **3.78541 Liter**
- Eine **Meile** entspricht **1.60934 Kilometer**

Wenn ein Fahrzeut eine Reichweite von $x$ mpg hat, fährt es $x$ Meilen mit einer Gallone.<br>

Das heisst, es fährt $x\cdot 1.60934$ Kilometer mit einer Gallone.<br>

Also fährt das Fahrzeug $\displaystyle\frac{x\cdot 1.60934}{3.78541}$ Kilometer mit einem Liter.

In [20]:
df_fuel["t.kml"] = df_fuel["mpg"] * 1.60934 / 3.78541
df_fuel["t.kg"]  = df_fuel["weight"] * 0.453592
df_fuel.head(3)

Unnamed: 0_level_0,weight,mpg,type,t.kml,t.kg
X,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,2560,33,Small,14.029714,1161.19552
2,2345,33,Small,14.029714,1063.67324
3,1845,37,Small,15.730285,836.87724


- Berechnen Sie den Mittelwert der Reichweiten in km/l und denjenigen der Fahrzeuggewichte in kg.

In [21]:
df_fuel.loc[:,["t.kml","t.kg"]].mean()

t.kml      10.451428
t.kg     1315.794793
dtype: float64

- Bestimmen Sie das mittlere Gewicht der Sportwagen (*Sporty*).

In [22]:
df_fuel.loc[df_fuel.loc[:,"type"]=="Sporty",["t.kml","t.kg"]].mean()

t.kml      11.053714
t.kg     1269.553609
dtype: float64

Oder mit der Methode `groupby`:

In [23]:
df_fuel_grouped = df_fuel.groupby("type")
df_fuel_grouped[["t.kml","t.kg"]].mean()

Unnamed: 0_level_0,t.kml,t.kg
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Compact,10.260114,1279.583032
Large,8.644571,1667.706587
Medium,9.255033,1449.575357
Small,13.179428,1024.071169
Sporty,11.053714,1269.553609
Van,8.016979,1595.347863


***
![HSLU](Bilder/LogoHSLU.png)