# <span style="color:rgb(160,0,86)">Datenmanipulation mit Python</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie wissen was eine statistische Einheit ist und können ihre Merkmale bezüglich ihrer Ausprägungen unterscheiden.
- Sie kennen die Python Module *numpy* und *pandas*.  
- Sie können Daten laden und einfache Operationen ausführen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine statistische Einheit?</span>

- Eine **statistische Einheit** ist Träger von Informationen und Eigenschaften, die für eine statistische Untersuchung von Interesse ist.
- Eine Eigenschaft einer statistischen Einheit, die von Interesse ist, heisst **statistisches Merkmal**.  

#### <span style="color:rgb(160,0,86)">Beispiele:</span>

- In einer Notenstatistik für das Modul ASTAT ist jede Studentin und jeder Student des Moduls eine statistische Einheit. Das statistische Merkmal ist die Abschlussnote an der MEP.
- In einer schweizer Unfallstatistik im Jahr 2024 ist jeder Verkehrsunfall auf schweizer Strassen in diesem Jahr eine statistische Einheit. Statistische Merkmale können zum Beispiel Anzahl Todesopfer, Unfallkosten, Unfallstelle etc. sein.

***

### <span style="color:rgb(160,0,86)">Welche Typen von Merkmalen gibt es?</span>

- **Nominale Merkmale**: Die Ausprägungen des Merkmals können lediglich auf *Gleichheit* ($=$) oder *Ungleichheit* ($\neq$) untersucht werden. <br> Zum Beispiel das Geschlecht, die Nationalität oder der Beruf einer Person.
- **Ordinale Merkmale**: Die Ausprägungen des Merkmals haben zu der *Gleichheit* und *Ungleichheit* eine natürliche *Reihenfolge* ($>$, $<$). <br> Zum Beispiel das Gesamtprädikat eines Hochschulabschlusses mit den Auspägungen *ungenügend*, *genügend*, *befriedigend*, *gut*, *sehr gut* und *ausgezeichnet*. 
- **Metrische Merkmale**: Die Ausprägungen des Merkmals sind Zahlen. Neben dem Betrachen von *Gleichheit*, *Ungleichheit* und *Reihenfolge* kann mit diesen Ausprägungen auch *gerechnet* werden ($+\;$, $\,-\;$, $\,\cdot\;$, $\,/\;$ usw.). <br> Zum Beispiel die Temperatur (beliebige reelle Zahlen), der Umsatz (gerundete nicht negative reelle Zahlen), die Anzahl Mausklicks (nicht negative ganze Zahlen).


### <span style="color:rgb(160,0,86)">Wie werden statistische Einheiten zusammengefasst?</span>

Häufig werden statistische Einheiten mit ihren Merkmalen in einem rechteckigen Schema (einer Matrix, einer Tabelle) zusammengefasst. Die Einheiten werden über die Zeilen und ihre Merkmale in den Spalten erfasst. Zum Beispiel: 

$$\begin{bmatrix}
\text{Anna}&1981&w&176\\
\text{Beat}&2005&m&181\\
\text{Cary}&2011& &169\\
\text{Dana}&1991&w&165\\
\text{Edin}&1964&m&194
\end{bmatrix}$$


### <span style="color:rgb(160,0,86)">Sind Listen in Python eine passende Datenstruktur?</span>


In [2]:
Person_1 = [5.0, 5.0, 5.5]
Person_2 = [4.5, 4.0, 4.5]

In [3]:
Person_1 + Person_2

[5.0, 5.0, 5.5, 4.5, 4.0, 4.5]

In [4]:
Person_1 * Person_2

TypeError: can't multiply sequence by non-int of type 'list'

Nein, mit **NumPy** (Numerical Python) geht das besser! Das NumPy-Modul bietet eine Sammlung mathematischer Operationen für mehrdimensionale Arrays.


In [43]:
import numpy as np

P_1 = np.array(Person_1)
P_2 = np.array(Person_2)

In [44]:
(P_1 + P_2) / 2

array([4.75, 4.5 , 5.  ])

In [45]:
noten = np.array([P_1, P_2])
noten

array([[5. , 5. , 5.5],
       [4.5, 4. , 4.5]])

In [46]:
noten.shape

(2, 3)

In [47]:
noten.dtype

dtype('float64')

In [48]:
noten[0, 1]

np.float64(5.0)

In [49]:
noten[1, :]

array([4.5, 4. , 4.5])

In [50]:
noten[:, 2]

array([5.5, 4.5])

In [51]:
noten[0:2, 1:3]

array([[5. , 5.5],
       [4. , 4.5]])

In [52]:
noten[0, :].max()

np.float64(5.5)

In [53]:
noten[:, 2].min()

np.float64(4.5)

In [54]:
noten[1, :].sum()

np.float64(13.0)

In [55]:
noten.sum()

np.float64(28.5)

In [56]:
noten.sum(axis=0)

array([ 9.5,  9. , 10. ])

In [57]:
noten.sum(axis=1)

array([15.5, 13. ])

In [58]:
noten.mean()

np.float64(4.75)

In [59]:
noten.mean(axis=0)

array([4.75, 4.5 , 5.  ])

In [60]:
noten.mean(axis=1)

array([5.16666667, 4.33333333])

In [61]:
np.unique(noten)

array([4. , 4.5, 5. , 5.5])

In [62]:
np.unique(noten, return_counts=True)

(array([4. , 4.5, 5. , 5.5]), array([1, 2, 2, 1]))

In [63]:
np.unique(noten, return_counts=True, axis=0)

(array([[4.5, 4. , 4.5],
        [5. , 5. , 5.5]]),
 array([1, 1]))

In [64]:
marks = np.array([Person_1, Person_1, Person_1, Person_2])
np.unique(marks, return_counts=True, axis=0)

(array([[4.5, 4. , 4.5],
        [5. , 5. , 5.5]]),
 array([1, 3]))

### <span style="color:rgb(160,0,86)">Wie können grosse Datenmengen verarbeitet werden?</span>

Häufige Formate für Daten in Matrix-Form sind:

- **csv**-Dateien (Tabulator-,Komma- oder Spalten getrennte Textdateien)
- **ods**-, **xls**-, **xlsx**-, **mdb**-Dateien (Tabellendokumente)
- **sav**-Dateien für SPSS
- **dta**-Dateien für STATA

**Pandas** (Panel Data) ist ein Python-Modul, das schnelle und flexible Datenstrukturen bereitstellt, die das Arbeiten mit Daten in Matrix-Form einfach und intuitiv macht.

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Wir wollen die folgenden Daten mit Pandas verarbeiten:

$$\begin{bmatrix}
\text{Greater London}&8663300&1572\\
\text{Tokyo}&9272565&627\\
\text{Paris}&2229621&105\\
\text{New York}&8491079&784\\
\end{bmatrix}$$

In [65]:
names = ["Greater London", "Tokyo", "Paris", "New York"]
population = [8663300, 9272565, 2229621, 8491079]
area = [1572, 627, 105, 784]


In [66]:
import pandas as pd

df = pd.DataFrame({"cities": names, "population": population, "area": area})

In [67]:
df.head(2)

Unnamed: 0,cities,population,area
0,Greater London,8663300,1572
1,Tokyo,9272565,627


In [68]:
df.tail(2)

Unnamed: 0,cities,population,area
2,Paris,2229621,105
3,New York,8491079,784


In [69]:
df.shape

(4, 3)

In [70]:
df.dtypes

cities        object
population     int64
area           int64
dtype: object

In [71]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   cities      4 non-null      object
 1   population  4 non-null      int64 
 2   area        4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes


In [72]:
df.columns

Index(['cities', 'population', 'area'], dtype='object')

In [73]:
df["population"][2:4]

2    2229621
3    8491079
Name: population, dtype: int64

In [74]:
df[["cities", "area"]][0:1]

Unnamed: 0,cities,area
0,Greater London,1572


In [75]:
# Eigene Index Namen setzen 0,1,2 -> "Greater London", "Tokyo", "Paris" etc.
df.set_index("cities", inplace=True)  # inplace=True -> direkt im df

In [76]:
df.loc["Tokyo"]

population    9272565
area              627
Name: Tokyo, dtype: int64

In [77]:
df.loc["Tokyo", "population"]

np.int64(9272565)

In [78]:
df["pop_density"] = df["population"] / df["area"]
df

Unnamed: 0_level_0,population,area,pop_density
cities,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Greater London,8663300,1572,5511.005089
Tokyo,9272565,627,14788.779904
Paris,2229621,105,21234.485714
New York,8491079,784,10830.457908


In [79]:
gla_cities = pd.read_csv("Daten/GLA_World_Cities_2016.csv")

gla_cities.head(3)

Unnamed: 0,City,Country,Population,Inland area in km2,Density in people per hectare,Dwellings,Density in dwellings per hectare,People per dwelling,Approx city radius km,Main topographical constraint,Constraint
0,,,,,,,,,,,
1,Greater London,England,8663300.0,1572.0,55.0,3454490.0,22.0,2.5,23.0,Rivers,4%
2,Inner London,England,3439700.0,319.0,108.0,1460840.0,46.0,2.4,10.0,Rivers,5%


In [80]:
gla_cities.shape

(18, 11)

In [81]:
gla_cities.dropna(how="all")

Unnamed: 0,City,Country,Population,Inland area in km2,Density in people per hectare,Dwellings,Density in dwellings per hectare,People per dwelling,Approx city radius km,Main topographical constraint,Constraint
1,Greater London,England,8663300,1572,55.0,3454490,22.0,2.5,23.0,Rivers,4%
2,Inner London,England,3439700,319,108.0,1460840,46.0,2.4,10.0,Rivers,5%
3,Outer London,England,5223500,1254,42.0,1993660,16.0,2.6,,,
4,Paris,France,2229621,105,212.0,1336209,127.0,1.7,8.0,Rivers,2%
5,Lyon,France,500715,48,105.0,265599,55.0,1.9,7.0,Rivers,5%
6,Berlin,Germany,3469849,892,39.0,1892000,21.0,1.8,16.0,Rivers,6%
7,Madrid (City),Spain,3141991,606,52.0,1320531,22.0,2.4,13.0,Mountains,12%
8,Barcelona,Spain,1604555,98,163.0,684078,70.0,2.3,6.0,Coast and mountains,75%
9,Sevilla,Spain,693878,141,49.0,268435,19.0,2.6,7.0,Rivers,3%
10,New York (City),United States,8491079,784,108.0,3371062,43.0,2.5,14.0,Coast and rivers,40%


In [82]:
gla_cities.shape

(18, 11)

In [83]:
#wenn inplace=False wird die Zeile zwar nicht mehr gezeigt, aber nicht gelöscht. Mit inplace=True wird sie gelöscht.
gla_cities.dropna(how="all", inplace=True)

In [84]:
gla_cities.shape

(17, 11)

In [85]:
renamecols = {"Inland area in km2": "Area km2"}
gla_cities.rename(columns=renamecols, inplace=True)
gla_cities.columns

Index(['City', 'Country', 'Population', 'Area km2',
       'Density in people per hectare', 'Dwellings',
       'Density in dwellings per hectare', 'People per dwelling',
       'Approx city radius km', 'Main topographical constraint', 'Constraint'],
      dtype='object')

In [86]:
# \ = multiline
gla_cities["pop_density"] = \
    gla_cities["Population"] / gla_cities["Area km2"]

TypeError: unsupported operand type(s) for /: 'str' and 'str'

In [87]:
gla_cities["Population"] = \
    gla_cities["Population"].str.replace(",", "").astype(float)
gla_cities.head(3)

Unnamed: 0,City,Country,Population,Area km2,Density in people per hectare,Dwellings,Density in dwellings per hectare,People per dwelling,Approx city radius km,Main topographical constraint,Constraint
1,Greater London,England,8663300.0,1572,55.0,3454490,22.0,2.5,23.0,Rivers,4%
2,Inner London,England,3439700.0,319,108.0,1460840,46.0,2.4,10.0,Rivers,5%
3,Outer London,England,5223500.0,1254,42.0,1993660,16.0,2.6,,,


In [88]:
gla_cities["Area km2"] = \
    gla_cities["Area km2"].str.replace(",", "").astype(float)
gla_cities["Dwellings"] = \
    gla_cities["Dwellings"].str.replace(",", "").astype(float)

In [89]:
gla_cities["pop_density"] = \
    gla_cities["Population"] / gla_cities["Area km2"]
gla_cities["pop_density"].head(3)

1     5511.005089
2    10782.758621
3     4165.470494
Name: pop_density, dtype: float64

In [90]:
gla_cities["Population (M)"] = gla_cities["Population"] / 1000000

In [91]:
def city_size(x):
    if x < 1.5:
        s = "Small"
    elif 1.5 <= x < 3:
        s = "Medium"
    elif 3 <= x < 5:
        s = "Large"
    else:
        s = "Mega"
    return s

In [92]:
gla_cities["City Size"] = \
    gla_cities["Population (M)"].apply(city_size)
gla_cities.head(3)

Unnamed: 0,City,Country,Population,Area km2,Density in people per hectare,Dwellings,Density in dwellings per hectare,People per dwelling,Approx city radius km,Main topographical constraint,Constraint,pop_density,Population (M),City Size
1,Greater London,England,8663300.0,1572.0,55.0,3454490.0,22.0,2.5,23.0,Rivers,4%,5511.005089,8.6633,Mega
2,Inner London,England,3439700.0,319.0,108.0,1460840.0,46.0,2.4,10.0,Rivers,5%,10782.758621,3.4397,Large
3,Outer London,England,5223500.0,1254.0,42.0,1993660.0,16.0,2.6,,,,4165.470494,5.2235,Mega


In [93]:
gla_cities[gla_cities["City Size"] == "Small"]

Unnamed: 0,City,Country,Population,Area km2,Density in people per hectare,Dwellings,Density in dwellings per hectare,People per dwelling,Approx city radius km,Main topographical constraint,Constraint,pop_density,Population (M),City Size
5,Lyon,France,500715.0,48.0,105.0,265599.0,55.0,1.9,7.0,Rivers,5%,10431.5625,0.500715,Small
9,Sevilla,Spain,693878.0,141.0,49.0,268435.0,19.0,2.6,7.0,Rivers,3%,4921.120567,0.693878,Small
12,Boston,United States,617594.0,125.0,49.0,272481.0,22.0,2.3,6.0,Coast,30%,4940.752,0.617594,Small


In [94]:
gla_cities[["City", "Population (M)"]][gla_cities["Population (M)"] > 8]

Unnamed: 0,City,Population (M)
1,Greater London,8.6633
10,New York (City),8.491079
16,Tokyo (Special Wards Area),9.272565


In [95]:
gla_grouped = gla_cities.groupby("City Size")
gla_grouped.size()

City Size
Large     4
Medium    5
Mega      5
Small     3
dtype: int64

In [96]:
gla_grouped["Population (M)"].mean()

City Size
Large     3.488563
Medium    2.324692
Mega      7.625415
Small     0.604062
Name: Population (M), dtype: float64

In [97]:
gla_grouped["Population (M)"].max()

City Size
Large     3.902710
Medium    2.722389
Mega      9.272565
Small     0.693878
Name: Population (M), dtype: float64

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Diese Aufgabe befasst wir uns mit dem Datensatz **weather.csv** im Ordner Daten.

- Laden Sie den Datensatz und speichern Sie diesen unter der Variable **data**.
- Wählen Sie den Wert der zweiten Zeile und dritten Spalte aus.
- Wählen Sie die 4. Zeile aus.
- Wählen Sie die 1. und die 4. Spalte aus.
- Ersetzen Sie den Spalten Basel durch Genf.
- Bestimmen Sie die mittleren Temperaturen aller Städte.
- Bestimmen Sie die mittleren Temperaturen aller Monate.
- Ergänzen Sie eine Spalte mit den mittleren monatlichen Temperaturen.

In [98]:
data = pd.read_csv("Daten/weather.csv")
data

Unnamed: 0,Luzern,Zurich
0,2,4
1,5,0
2,10,8
3,16,17
4,21,20
5,25,27


In [99]:
data[1:3]

Unnamed: 0,Luzern,Zurich
1,5,0
2,10,8


In [100]:
data[0:1] 

Unnamed: 0,Luzern,Zurich
0,2,4


In [101]:
data.loc[[0,3], :]

Unnamed: 0,Luzern,Zurich
0,2,4
3,16,17


In [102]:
data.mean(axis = 0)

Luzern    13.166667
Zurich    12.666667
dtype: float64

In [103]:
data.mean(axis = 1)

0     3.0
1     2.5
2     9.0
3    16.5
4    20.5
5    26.0
dtype: float64

In [104]:
data["mean_temperature"] = data.mean(axis = 1)
data

Unnamed: 0,Luzern,Zurich,mean_temperature
0,2,4,3.0
1,5,0,2.5
2,10,8,9.0
3,16,17,16.5
4,21,20,20.5
5,25,27,26.0


### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Das Dataframe **d.fuel** im Ordner Daten enthält die Daten verschiedener Fahrzeuge aus einer amerikanischen Untersuchung der 80er-Jahre. Jede Zeile enthält die Daten eines
Fahrzeuges (ein Fahrzeug entspricht einer statistischen Einheit).

- Laden Sie das Dataframe.
- Beschreiben Sie die Ausprägung der Merkmale.
- Wählen Sie die fünfte Zeile des Dataframe aus.
- Welche Werte stehen in der fünften Zeile?
- Wählen Sie die erste bis fünfte Beobachtung des Dataframes aus.
- Zeigen Sie gleichzeitig die 1. bis 3. und die 57. bis 60. Beobachtung des Dataframes an.
- Ergänzen Sie eine Spale mit den Mittelwert der Reichweiten aller Autos in Miles/Gallon.
- Berechnen Sie den Mittelwert der Reichweite der Autos 7 bis 22.
- Ergänzen Sie eine Spalte **t.kml**, die alle Reichweiten in km/l, und
eine Spalte **t.kg**, der alle Gewichte in kg enthält.
- Berechnen Sie den Mittelwert der Reichweiten in km/l und denjenigen der Fahrzeuggewichte in kg.
- Bestimmen Sie das mittlere Gewicht der Sportwagen (*Sporty).

In [105]:
fuel_dta = pd.read_csv("Daten/d.fuel.dat", delimiter=",")
fuel_dta

Unnamed: 0,X,weight,mpg,type
0,1,2560,33,Small
1,2,2345,33,Small
2,3,1845,37,Small
3,4,2260,32,Small
4,5,2440,32,Small
5,6,2285,26,Small
6,7,2275,33,Small
7,8,2350,28,Small
8,9,2295,25,Small
9,10,1900,34,Small


In [106]:
fuel_dta.loc[4]

X             5
weight     2440
mpg          32
type      Small
Name: 4, dtype: object

In [107]:
fuel_dta[0:5]

Unnamed: 0,X,weight,mpg,type
0,1,2560,33,Small
1,2,2345,33,Small
2,3,1845,37,Small
3,4,2260,32,Small
4,5,2440,32,Small


![HSLU](Bilder/LogoHSLU.png)