# <span style="color:rgb(160,0,86)">Datenmanipulation mit Python</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie wissen was eine statistische Einheit ist und können ihre Merkmale bezüglich ihrer Ausprägungen unterscheiden.
- Sie kennen die Python Module *numpy* und *pandas*.  
- Sie können Daten laden und einfache Operationen ausführen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine statistische Einheit?</span>

- Eine **statistische Einheit** ist Träger von Informationen und Eigenschaften, die für eine statistische Untersuchung von Interesse ist.
- Eine Eigenschaft einer statistischen Einheit, die von Interesse ist, heisst **statistisches Merkmal**.  

#### <span style="color:rgb(160,0,86)">Beispiele:</span>

- In einer Notenstatistik für das Modul ASTAT ist jede Studentin und jeder Student des Moduls eine statistische Einheit. Das statistische Merkmal ist die Abschlussnote an der MEP.
- In einer schweizer Unfallstatistik im Jahr 2024 ist jeder Verkehrsunfall auf schweizer Strassen in diesem Jahr eine statistische Einheit. Statistische Merkmale können zum Beispiel Anzahl Todesopfer, Unfallkosten, Unfallstelle etc. sein.

***

### <span style="color:rgb(160,0,86)">Welche Typen von Merkmalen gibt es?</span>

- **Nominale Merkmale**: Die Ausprägungen des Merkmals können lediglich auf *Gleichheit* ($=$) oder *Ungleichheit* ($\neq$) untersucht werden. <br> Zum Beispiel das Geschlecht, die Nationalität oder der Beruf einer Person.
- **Ordinale Merkmale**: Die Ausprägungen des Merkmals haben zu der *Gleichheit* und *Ungleichheit* eine natürliche *Reihenfolge* ($>$, $<$). <br> Zum Beispiel das Gesamtprädikat eines Hochschulabschlusses mit den Auspägungen *ungenügend*, *genügend*, *befriedigend*, *gut*, *sehr gut* und *ausgezeichnet*. 
- **Metrische Merkmale**: Die Ausprägungen des Merkmals sind Zahlen. Neben dem Betrachen von *Gleichheit*, *Ungleichheit* und *Reihenfolge* kann mit diesen Ausprägungen auch *gerechnet* werden ($+\;$, $\,-\;$, $\,\cdot\;$, $\,/\;$ usw.). <br> Zum Beispiel die Temperatur (beliebige reelle Zahlen), der Umsatz (gerundete nicht negative reelle Zahlen), die Anzahl Mausklicks (nicht negative ganze Zahlen).


### <span style="color:rgb(160,0,86)">Wie werden statistische Einheiten zusammengefasst?</span>

Häufig werden statistische Einheiten mit ihren Merkmalen in einem rechteckigen Schema (einer Matrix, einer Tabelle) zusammengefasst. Die Einheiten werden über die Zeilen und ihre Merkmale in den Spalten erfasst. Zum Beispiel: 

$$\begin{bmatrix}
\text{Anna}&1981&w&176\\
\text{Beat}&2005&m&181\\
\text{Cary}&2011& &169\\
\text{Dana}&1991&w&165\\
\text{Edin}&1964&m&194
\end{bmatrix}$$


### <span style="color:rgb(160,0,86)">Sind Listen in Python eine passende Datenstruktur?</span>


Wir definieren zwei Listen:

In [None]:
Person_1 = [5.0,5.0,5.5]
Person_2 = [4.5,4.0,4.5]

Die Summe $+$ hängt die zwei Listen zusammen (Konkatenation).  

In [None]:
Person_1 + Person_2

Das Produkt $\,\ast\,$ liefert eine Fehlermeldung.  

In [None]:
Person_1 * Person_2

Nein, mit **NumPy** (Numerical Python) geht das besser! Das NumPy-Modul bietet eine Sammlung mathematischer Operationen für mehrdimensionale Arrays.

- Mit dem Befehl $\;\mathtt{import}\;\mathtt{ModulName}\;$ können wir ganze Module in das Programm laden und mit dem **Punktoperator** $\;\cdot\;$ Attribute, Funktionen und Methoden aufrufen. Zum Beispiel $$\mathtt{numpy.array([1,2,3])}$$
- Oft ist es übersichtlicher, wenn wir mit dem Befehl $\;\mathtt{as}\; \mathtt{Kurzname}\;$ dem Modul ein Alias zuweisen. Dann können wir Attribute, Funktionen und Methoden über dieses Alias aufrufen. Zum Beispiel $$\mathtt{np.array([1,2,3])}$$

Wir machen aus den Listen **numpy arrays**:

In [None]:
import numpy as np
P_1 = np.array(Person_1)
P_2 = np.array(Person_2)

Nun können wir **elementweise** rechnen:

In [None]:
(P_1 + P_2)/2

Aus verschachtelten Listen entstehen **zwei dimensionale Arrays**:

In [None]:
Noten = np.array([P_1,P_2])
Noten

Mit dem **Attribut** $\,\mathtt{shape}\,$ können wir die Anzahl **Zeilen** und **Spalten** als Paar ausgeben:

In [None]:
Noten.shape

Oder mit dem **Indexoperator** $\pmb{[\;\;]}$ direkt die Anzahl **Zeilen** bzw. die **Spalten**:

In [None]:
print("Anzahl Zeilen:",Noten.shape[0])
print("Anzahl Spalten:",Noten.shape[1])

Mit dem **Indexoperator** können wir auch ein Elemente im Array ausgeben:

In [None]:
Noten[0,2]

Mit der **Slicing-Operation** $\pmb{[\;,\;]}$ können wir einen Teil im Array ausschneiden:

In [None]:
Noten[1,:] # 2. Zeile

In [None]:
Noten[:,2] # 3. Spalte

In [None]:
Noten[0:2,1:3] # 1. und 2. Zeile mit 2. und 3. Spalte 

Für numpy Arrays gibt es viele **Methoden** $\;\mathtt{methodenName()}\;$, die mit dem **Punkt-Operator** $\pmb{\;\cdot\;}$ aufgerufen werden:

In [None]:
Noten[0,:].max()

In [None]:
Noten[:,2].min()

In [None]:
Noten[1,:].sum()

In [None]:
Noten.min()

In [None]:
Noten.sum()

In [None]:
Noten.mean()

Mit dem **Parameter** $\;\mathtt{axis}\;$ können wir angeben, ob die Methode entlang der Spalten (Wert 0) oder entlang der Zeilen (Wert 1) angewendet werden soll:

In [None]:
Noten.sum(axis=0)

In [None]:
Noten.sum(axis=1)

In [None]:
Noten.mean(axis=0)

In [None]:
Noten.mean(axis=1)

Mit der numpy **Funktion** $\;\mathtt{unique}\;$ können wir ausgeben, was für Elemente im Array vorhanden sind. Der Array-Elemente werden in einem eindimensionalen Array ohne Dublikate zurückgegeben:

In [None]:
np.unique(Noten)

Wenn wir zusätzlich dem Parameter $\;\mathtt{return\_counts}\;$ den Wert $\;\mathtt{True}\;$ zuweisen, erhalten wir in einem weiteren Array die Angaben, wie oft die entsprechenden Elemente vorkommen:   

In [None]:
np.unique(Noten,return_counts=True)

Wenn wir in der **Funktion** $\;\mathtt{unique}\;$ auch noch den Parameter $\;\mathtt{axis}\;$ auf 0 bzw. 1 setzen, können wir alle unterschiedlichen Zeilen bzw. alle Spalten ausgeben:

In [None]:
Noten

In [None]:
np.unique(Noten,axis=0)

In [None]:
np.unique(Noten,axis=1)

Mit den Parameter $\;\mathtt{return\_counts}\;$ wird dann auch noch zurückgegeben, wie oft die Zeilen bzw. Spalten vorkommen.

Damit wir das demonstrieren können, machen wir zuerst einen grösseren Array: 

In [None]:
marks = np.array([Person_1,Person_1,Person_1,Person_2])
marks

In [None]:
np.unique(marks,return_counts=True,axis=0)

In [None]:
np.unique(marks,return_counts=True,axis=1)

### <span style="color:rgb(160,0,86)">Wie können grosse Datenmengen verarbeitet werden?</span>

Häufige Formate für Daten in Matrix-Form sind:

- **csv**-Dateien (Tabulator-,Komma- oder Spalten getrennte Textdateien)
- **ods**-, **xls**-, **xlsx**-, **mdb**-Dateien (Tabellendokumente)
- **sav**-Dateien für SPSS
- **dta**-Dateien für STATA

**Pandas** (Panel Data) ist ein Python-Modul, das schnelle und flexible Datenstrukturen bereitstellt, die das Arbeiten mit Daten in Matrix-Form einfach und intuitiv macht.

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Wir wollen die folgenden Daten mit Pandas verarbeiten:

$$\begin{bmatrix}
\text{Greater London}&8663300&1572\\
\text{Tokyo}&9272565&627\\
\text{Paris}&2229621&105\\
\text{New York}&8491079&784\\
\end{bmatrix}$$

Zuerste definieren wir drei Arrays mit den Werten der Spalten:

In [None]:
names = ["Greater London","Tokyo","Paris","New York"]
population = [8663300,9272565,2229621,8491079]
area = [1572,627,105,784]

Nun laden wir das Modul $\;\mathtt{pandas}\;$ unter dem Alias
$\;\mathtt{pd}\;$: 

In [None]:
import pandas as pd

Mit der $\;\mathtt{pandas}\;$ Funktion $\;\mathtt{DataFrame}\;$ können wir die drei Spalten zu einem **Datenrahmen** (eine zweidimensionale, tabellarische Datenstruktur) zusammenfassen: 

In [None]:
df = pd.DataFrame({"cities":names,"population":population,"area":area})
df

Mit den Methoden $\;\mathtt{head()}\;$ bzw. $\;\mathtt{tail()}\;$ können wir den Anfang bzw. das Ende des Datenrahmens anzeigen: 

In [None]:
df.head(2)

In [None]:
df.tail(2)

Auch die $\;\mathtt{DataFrame}\;$ Objekte haben das Attribut $\;\mathtt{shape}\,$: 

In [None]:
df.shape

Die Namen der Spalten können wir mit dem Attribut $\;\mathtt{columns}\;$ ausgeben:

In [None]:
df.columns

Über die **Namen der Spalten** und dem üblichen **Slicing** können wir Teile des Datenrahmens ausgeben:

In [None]:
df[["population"]][2:4]

In [None]:
df[["cities","area"]][0:1]

Standardmässig werden die Zeilen mit einem **Index** numeriert. Wir können aber mit der Methode $\;\mathtt{set\_index()}\;$ einen eigenen Index setzen:

In [None]:
df.set_index("cities")

Allerdings wird dieser Index im Datenrahmen **nicht fix** festgesetzt. Die Methode $\;\mathtt{set\_index()}\;$ wird nur für die einmalige Ausgabe angewendet:  

In [None]:
df

Erst wenn wir den Parameter $\;\mathtt{inplace}\;$ auf $\;\mathtt{True}\;$ setzen, bleibt der neue Index erhalten:

In [None]:
df.set_index("cities",inplace=True)

In [None]:
df

Mit der Methode $\;\mathtt{loc}[\mathtt{Zeilen},\mathtt{Spalten}]\;$ können wir Zeilen und Spalten **anhand von Labels** (also den Indexwerten und Spaltennamen) auszuwählen:

In [None]:
df.loc["Tokyo"] # Rückgabe ist ein Series

In [None]:
df.loc[["Tokyo","Paris"]] # Rückkgabe ist ein DataFrame

In [None]:
df.loc["Tokyo","population"] # Rückgabe ist ein int64

Über den Index-Operator können wir direkt neue Spalten erstellen:

In [None]:
df["pop_density"] = df["population"]/df["area"]
df

Meistens werden wir die Daten nicht selbst als Arrays definieren und dann ein Datenrahmen über die Spalten und Spaltennamen aufbauen. Oft werden wir Daten aus eine Datei einlesen.

Mit der **Funktion** $\;\mathtt{read\_csv()}\;$ können wir zum Beispiel $\;\mathtt{csv}$-Dateien einlesen. Als **Argument** braucht diese Funktion den **Dateipfad als Zeichenkette**:

In [None]:
gla_cities = pd.read_csv("Daten/GLA_World_Cities_2016.csv")
gla_cities.head(3)

In [None]:
gla_cities.shape

Wenn in einer Datei in Zeilen oder Spalten Werte fehlen (fehlende Werte = **Not Available**), können wir diese mit der Methode $\;\mathtt{dropna()}\;$ aus dem Datenrahmen löschen. 

Mit dem Parameter $\;\mathtt{how}\;$ können angeben, ob nur Zeilen bzw. Spalten gelöscht werden sollen, in denen alle Werte fehlen (Leerzeilen bzw. Leerspalten):
- "$\mathtt{any}$"$\;$: Löscht alle Zeilen/Spalten, die mindestens einen NaN-Wert enthalten
- "$\mathtt{all}$"$\;$ : Löscht nur Zeilen/Spalten, die nur aus NaN-Werten bestehen

In [None]:
gla_cities.dropna(how="all")

In [None]:
gla_cities.shape

Auch hier müssen wir den Parameter $\;\mathtt{inplace}\;$ auf $\;\mathtt{True}\;$ setzen, wenn wir die Zeilen bzw. Spalten fix löschen wollen:

In [None]:
gla_cities.dropna(how="all",inplace=True)

In [None]:
gla_cities.shape

Die Namen der Spalten können wir mit der Methode $\;\mathtt{rename()}\;$ ändern:

In [None]:
gla_cities.columns

In [None]:
renamecols = {"Inland area in km2":"Area km2"}
gla_cities.rename(columns=renamecols,inplace=True)
gla_cities.columns

Nun ergänzen wir im Datenrahmen eine Spalten ***pop_density*** für die Populationsdichte:

In [None]:
gla_cities["pop_density"] = gla_cities["Population"]/gla_cities["Area km2"]

Dabei entsteht eine Fehlermeldung, weil die Werte in den Spalten ***Population*** und ***Area km2*** Zeichenketten sind.
- Den Tausenderstrich $\,\pmb{,}\,$ können wir mit der Methode $\;\mathtt{str.replace()}\;$ durch eine leere Zeichenkette ersetzen
- Den Typ String können wir mit der Methode $\;\mathtt{astype()}\;$ in eine Kommazahl umwandeln

In [None]:
gla_cities["Population"] = gla_cities["Population"].str.replace(",","").astype(float)
gla_cities.head(3)

In [None]:
gla_cities["Area km2"] = gla_cities["Area km2"].str.replace(",","").astype(float)
gla_cities["Dwellings"] = gla_cities["Dwellings"].str.replace(",","").astype(float)

In [None]:
gla_cities["pop_density"] = gla_cities["Population"]/gla_cities["Area km2"]
gla_cities["pop_density"].head(3)

Oft ist es auch sinnvoll Werte in eine besser geeignete Einheit umzurechen:

In [None]:
gla_cities["Population (M)"] = gla_cities["Population"]/1000000 
gla_cities.head(3)

Mit der Methode $\;\mathtt{apply()}\;$ können wir bestehende oder selbst definierte Funktion auf die Werte einer Spalte anwenden: 

In [None]:
def city_size(x):
    if x < 1.5:
        s = "Small"
    elif 1.5 <= x < 3:
        s = "Medium"
    elif 3 <= x < 5:
        s = "Large"
    else:
        s = "Mega"
    return s

In [None]:
gla_cities["City Size"] = gla_cities["Population (M)"].apply(city_size)
gla_cities.head(3)

Mit der Syntax $\;\mathtt{dataFrame}[\mathtt{Bedingung}]\;$ können Zeilen im Datenrahmen **filtern**:

In [None]:
gla_cities[gla_cities["City Size"]=="Small"]

Auch die Kombination von **Spaltenwahl und Zeilenfiltern** in einer Zeile ist möglich:

In [None]:
gla_cities[["City","Population (M)"]][gla_cities["Population (M)"]>8]

Mit der Methode $\;\mathtt{groupby()}\;$ können wir einen Datenrahmen über die Werte einer Spalte **gruppieren** und dann in den Gruppen eine Anwendung auf die Werte ausführen:

In [None]:
gla_grouped = gla_cities.groupby("City Size")
gla_grouped.size() # Grösse der Gruppen

In [None]:
gla_grouped["Population (M)"].mean() # Mittelwerte der Gruppen

In [None]:
gla_grouped["Population (M)"].min() # Kleinste Werte in den Gruppen

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Diese Aufgabe befasst wir uns mit dem Datensatz **weather.csv** im Ordner Daten.

- Laden Sie den Datensatz und speichern Sie diesen unter der Variable **data**.
- Wählen Sie den Wert der zweiten Zeile und dritten Spalte aus.
- Wählen Sie die 4. Zeile aus.
- Wählen Sie die 1. und die 4. Spalte aus.
- Ersetzen Sie den Spaltennamen Basel durch Genf.
- Bestimmen Sie die mittleren Temperaturen aller Städte.
- Bestimmen Sie die mittleren Temperaturen aller Monate.
- Ergänzen Sie eine Spalte mit den mittleren monatlichen Temperaturen.

In [None]:
# To do!

### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Das Dataframe **d.fuel** im Ordner Daten enthält die Daten verschiedener Fahrzeuge aus einer amerikanischen Untersuchung der 80er-Jahre. Jede Zeile enthält die Daten eines
Fahrzeuges (ein Fahrzeug entspricht einer statistischen Einheit).

- Laden Sie das Dataframe.
- Beschreiben Sie die Ausprägung der Merkmale.
- Wählen Sie die fünfte Zeile des Dataframe aus. Welche Werte stehen in der fünften Zeile?
- Wählen Sie die erste bis fünfte Beobachtung des Dataframes aus.
- Zeigen Sie gleichzeitig die 1. bis 3. und die 57. bis 60. Beobachtung des Dataframes an.
- Berechnen Sie den Mittelwert der Reichweiten aller Autos in Miles/Gallon.
- Berechnen Sie den Mittelwert der Reichweiten der Autos 7 bis 22.
- Ergänzen Sie eine Spalte **t.kml**, die alle Reichweiten in km/l, und
eine Spalte **t.kg**, die alle Gewichte in kg enthält.
- Berechnen Sie den Mittelwert der Reichweiten in km/l und denjenigen der Fahrzeuggewichte in kg.
- Bestimmen Sie das mittlere Gewicht der Sportwagen (*Sporty*).

In [None]:
# To do!

![HSLU](Bilder/LogoHSLU.png)