# Einführung Data Science - Praktikum 04 - Chess


## Bibliotheken importieren

In [None]:
import os

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns # data visualization library  
import matplotlib.pyplot as plt

## Data laden
**Diesmal nicht so einfach --> Parsing nötig!**

Die Daten stammen von der Fédération Internationale des Échecs (FIDE, französisch für Internationaler Schachverband): https://ratings.fide.com/download.phtml

Hier wollen wir mit dem Datensatz "**Standard ratings**" arbeiten. Die Hausaufgabe dazu war, diese Daten (in Form einer .XML-Datei) zu importieren.
Dies geht nicht direkt mit Pandas, sondern die Daten müssen erst eingelesen und in ein Python Dictionary (oder eine Liste) umgewandelt werden. Infos zu dem Schach-Rating, der sogenannten ELO-Zahl: https://de.wikipedia.org/wiki/Elo-Zahl.

Wird die Datei in einem Editor geöffnet, schaut sie so aus:
```
<playerslist>
<player>
<fideid>25121731</fideid>
<name>A C J John</name>
<country>IND</country>
<sex>M</sex>
<title></title>
<w_title></w_title>
<o_title></o_title>
<foa_title></foa_title>
<rating>1063</rating>
<games>0</games>
<k>40</k>
<birthday>1987</birthday>
<flag>i</flag>
</player>
<player>
<fideid>35077023</fideid>
…
```

## Parser schreiben
Es gibt mehrere Möglichkeiten einen sogennanten "Parser" zu schreiben um die Datein einzulesen.

XML-Dateien können auch verschiedene Arten importiert werden. Grundlegend kann entweder (1) ein völlig eigenständiger Parser geschrieben werden, der Zeile für Zeile die Datei einliest und interpretiert. Das ist aber recht aufwendig. Einfach ist es oft, existierende Python-Bibliotheken zu nutzen, z.B. `xml` oder `xmltodict`.

Andere Quellen:

- https://www.geeksforgeeks.org/xml-parsing-python/
- https://www.w3schools.com/xml/xml_parser.asp
- https://www.delftstack.com/de/howto/python/python-xml-parser/


## Lösung mit `xmltodict`

In [None]:
import xmltodict

# wenn im selben Ordner
file_xml = "standard_rating_list.xml"
with open(file_xml) as file:
    doc = xmltodict.parse(file.read())

### Umwandeln in Pandas DataFrame
Mit xmltodoc wird der Inhalt in ein verschachteltes Dictionary umgewandelt.

In [None]:
type(doc["playerslist"]["player"])

In [None]:
doc["playerslist"]["player"][:2]

In [None]:
data = pd.DataFrame(doc["playerslist"]["player"])

# (1) Erste Datenerkundung
- Wie viele und welche Spalten gibt es? --> `data.columns`
- Gibt es fehlende Werte? --> `.info()`
- erster Überblick und: Gibt es merkwürdige Einträge --> `.describe()`

### Ausfüllen:
- Anzahl der Spalten: ...
- Gibt es fehlende Werte und wenn ja, welche? ...

In [None]:
data.columns

In [None]:
data.head()

In [None]:
data.describe()

In [None]:
data.info()

# (2) Data cleaning

Die Daten können nun für unsere Zwecke etwas vereinfacht werden, indem wir nur die für uns relevanten Feature/Variablen behalten.

Cleanen Sie das DataFrame, indem Sie nur die Spalten `"name", "country", "sex", "rating", "birthday"` behalten.

In [None]:
keep_columns = ["name", "country", "sex", "rating", "birthday"]
data = # your code here

Einträge mit fehlenden Werten entfernen (`.dropna()`)

In [None]:
data = # your code here

Wo nötig Strings in Zahlen umwandeln, z.B. mit `data.xyz = data.xyz.astype(int)`.

In [None]:
data.rating = # your code here
data.birthday = # your code here

Die aufgereinigten Daten noch einmal anschauen mit `.head()`, `.info()` sowie `.describe()`. **TIPP**: Um alle Spalten anzuzeigen können wir am besten `.describe(include="all")` ausführen!

In [None]:
data.head()

In [None]:
data.describe(include="all")

In [None]:
data.info()

Wie viele verschiedene Länder sind im Datensatz enthalten? (Antwort: ...)

In [None]:
# your code here

In welchem Zahlbereich (range/Spannweite) liegen die Werte für `rating`? (Antwort: ...)

In [None]:
# your code here

Wie alt ist der/die älteste Spieler\*In? (Antwort: ...)

In [None]:
# your code here

Wie alt ist der/die jüngste Spieler\*In? (Antwort: ...)

In [None]:
# your code here

---
# (3) Analysen


## Pandas Wiederholung:

### Kategorialer Variablen anschauen
Mit Pandas können wir uns sehr schnell und einfach anschauen welche Kategorien wie oft vorkommen, nämlich mit `.value_counts("hier_name_der_spalte")`.

### Grafisches Darstellen:
Mit Pandas können wir Ergebnisse oft sehr schnell grafisch darstellen, z.B. über `.plot(kind="hist")`. Hierbei können wir aus vielen Typen wählen, etwa `hist`, `pie`, `scatter`, `bar`, `barh`.

### Sortieren
Um die Tabelle nach Werten zu sortieren nutzen wir `.sort_values("name_der_spalte")`. Dies sortiert die Tabelle nach der gewünschten Spalte, allerdings in aufsteigender Richtung. Für die umgekehrte Sortierung nehmen wir `.sort_values("name_der_spalte", ascending=False)`.

### Auswählen von Daten mittels Maske:
Wir können einen Teil der Daten mit einer Maske auswählen, nach dem Muster

```python
mask = (data[spalten_name_hier] == ... )  # <, >, ==, >=,...
data[mask]
```

Mehrere Masken können angewendet werden durch z.B.

```python
mask1 = (data[spalten_name_hier] == ... )  # <, >, ==, >=,...
mask2 = (data[spalten_name_hier] > ... )  
data[mask1 & mask2]
```

## (3.1) Gender-gap und beste Spieler\*Innen analysieren

Wie viele männliche und weibliche Spieler\*Innen sind im Datensatz enthalten?

In [None]:
# your code here

---
Wie ist die Prozentuale Verteilung (männlich vs. weiblich)?

In [None]:
f_vs_m = # your code here
ratio = # your code here
f"Anteil Frauen: {(ratio*100):.2f} %."

---
Erstellen Sie einen Pie-Plot zu dieser Verteilung.

In [1]:
# your code here

---
Wie sind die Geburtsjahrgänge bei Männern und Frauen verteilt? Gibt es hier deutliche Unterschiede oder eher nicht?

Erstellen Sie jeweils ein Histogramm für Frauen und für Männer. 

In [None]:
mask_f = # your code here
data[mask_f]["birthday"].plot(kind="hist", bins=30, rwidth=0.8)

In [None]:
mask_m = # your code here
data[mask_m]["birthday"].plot(kind="hist", bins=30, rwidth=0.8)

Vergleichbarkeit verbessern: Normieren auf Wert 1 und mit Transparenz überlappen.

In [None]:
# Create masks for each gender
mask_f = # your code here
mask_m = # your code here

# Calculate weights for each gender
male_weights = np.ones_like(data[mask_m]['birthday']) / len(data[mask_m]['birthday'])
female_weights = np.ones_like(data[mask_f]['birthday']) / len(data[mask_f]['birthday'])

# Plot the histograms
ax = data[mask_m]['birthday'].plot(kind='hist', bins=30, rwidth=0.8, alpha=0.5, label='Male', weights=male_weights)
data[mask_f]['birthday'].plot(kind='hist', bins=30, rwidth=0.8, alpha=0.5, label='Female', ax=ax, weights=female_weights)

# Customize the plot
ax.legend()
ax.set_xlabel('Birthday')
ax.set_ylabel('Proportion')

Schauen Sie sich erneut die prozentuale Verteilung weiblich vs. männlich an. Diesmal jedoch nur für Personen die nach 1999 geboren sind.

In [None]:
mask_birthday_2000 = # your code here
f_vs_m = # your code here

ratio = # your code here
f"Anteil Frauen: {(ratio*100):.2f} %."

Was sind die 10, 20, 50, oder 100 besten Spieler\*Innen?

In [None]:
# your code here

Wie sieht die Verteilung Männer vs. Frauen aus in den Top100?

In [None]:
# Männer/Frauen in Top100
top100 = # your code here
top100.value_counts("sex")

## (3.2) ELO-Verteilungen analysieren

- Wiederholen sie die Aufgabe aber fügen sie diesmal auch noch eine weitere Auswahlmaske hinzu um die Geburtsjahrgänge einzuschränken. Probieren sie z.B. `< 2002` oder `< 1992`.

Stellen sie die Verteilungen der ELO-Ratings dar für drei Fälle: (1) Alle Spieler\*Innen, (2) männliche Spieler, (3) weibliche Spielerinnen.  

(1) Alle Spieler\*Innen

In [None]:
# your code here

(2) männliche Spieler und (3) weibliche Spielerinnen.

In [None]:
mask_f = # your code here
mask_m = # your code here
mask_birthday = # your code here

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(10,8))
data[mask_m & mask_birthday]["rating"].plot(kind="hist", bins=40, rwidth=0.8,
                                    ax=ax1)
data[mask_f & mask_birthday]["rating"].plot(kind="hist", bins=40, rwidth=0.8,
                                    ax=ax2)

Nochmal normieren und überlappen:

In [None]:
mask_birthday = data["birthday"] < 2002
data_m = data[mask_m & mask_birthday]
data_f = data[mask_f & mask_birthday]


bins = 30

weights_m = np.ones_like(data_m["rating"]) / len(data_m)
weights_f = np.ones_like(data_f["rating"]) / len(data_f)

plt.hist(data_m["rating"], bins=bins, rwidth=0.8, alpha=0.5, label='Male', weights=weights_m)
plt.hist(data_f["rating"], bins=bins, rwidth=0.8, alpha=0.5, label='Female', weights=weights_f)

plt.xlabel('Rating')
plt.ylabel('Frequency')
plt.title('Rating distribution')
plt.legend(loc='upper right')

**Nächster Schritt:** Ein Land herausgreifen.

## Welches Land untersuchen?
Wir können schauen in welchen Ländern viele weibliche Spielerinnen registriert sind, indem wir die Daten vorfiltern (nur Frauen) und dann mit `.value_counts("country")` nach Ländern zählen.

In [None]:
mask_f = # your code here
data_female_per_country = # your code here
# sortiert
# your code here

Für ein besseres Bild auch für die Männer betrachten.

In [None]:
mask_m = # your code here
data_male_per_country = # your code here
# sortiert
# your code here

Nun schauen wir nach Ländern mit einer repräsentativen Anzahl an Frauen. Wir filtern weiter und schauen in welchem Land mindestens 500 Spielerinnen registriert sind.

In [None]:
mask_f_count_500 = # your code here
# gefilterte Daten ausgeben
# your code here

Es ist jedoch nicht nur eine Mindestanzahl ausschlaggebend. Wir suchen darüberhinaus ein möglichst ausgeglichenes Verhältnis von Frauen zu Männern. Wir erstellen eine Liste mit allen Ländern, indem wir uns von `data_female_per_country` den Index ausgeben lassen: 

In [None]:
countries_with_500_females = data_female_per_country[mask_f_count_500].index
countries_with_500_females

Statt einer Maske zu nutzen, können wir auch die `.isin()` - Methode benutzen, welcher wir unsere Länderliste `countries_with_500_females` übergeben können. Dies können wir nun auf `data_male` anwenden.

In [None]:
data_male = data[mask_m]

mask_filtered_data_m = # your code here
filtered_data_m = # your code here
data_male_per_country = # your code here

In [None]:
print(data_male_per_country)

In [None]:
print(data_female_per_country)

Möchte man von einem Pandas `Series`-Objekt den Index und die Werte auslesen, kann man die Methode `.iteritems()` benutzen. Zur Demonstartion nutzen wir diese in einer For-Schleife zur besseren Veranschaulichung (in der Konsole) der bisher gefilterten Daten. Aufhübschungs mit f-Strings und einer "gebastelten" Tabelle:

In [None]:
print(f"{'Country':^10}|{'Male':^10}|{'Female':^10}")
print("-" * 32)

for idx, value in data_male_per_country.iteritems():
    female_value = data_female_per_country.loc[idx]
    print(f"{idx:^10}|{value:^10}|{female_value:^10}")

Nun berechnen wir noch die prozentuale Frauenanteile pro Land.

In [None]:
ratios = # your code here
print(ratios.sort_values(ascending=False))

Wir fügen die Verhältnisse der Tabelle hinzu.

In [None]:
print(f"{'Country':^10}|{'Male':^10}|{'Female':^10}|{'Ratio':^10}")
print("-" * 43)

for idx, value in data_male_per_country.iteritems():
    female_value = data_female_per_country.loc[idx]
    ratio = f"{ratios.loc[idx] * 100:.2f} %"
    print(f"{idx:^10}|{value:^10}|{female_value:^10}|{ratio:^10}")

Schauen wir uns ELO-Rating Verteilungen für Frauen in potentiell "gut zu untersuchenden" Ländern an nach den Kriterien "möglichst viele Personen und möglichst ausgeglichenes Verhältnis".

Hierfür wollen wir uns wieder zwei überlappte Barplots ansehen mit normierten ELO-Ratings.

In [None]:
mask_birthday = # your code here
mask_country = # your code here
data_m = data[mask_m & mask_country & mask_birthday]
data_f = data[mask_f & mask_country & mask_birthday]

weights_m = np.ones_like(data_m["rating"]) / len(data_m)
weights_f = np.ones_like(data_f["rating"]) / len(data_f)

bins = 30

data_m["rating"].plot(kind="hist", bins=bins, rwidth=0.8, alpha=0.5, label='Male', weights=weights_m, legend=True)
data_f["rating"].plot(kind="hist", bins=bins, rwidth=0.8, alpha=0.5, label='Female', weights=weights_f, legend=True)

plt.xlabel('Rating')
plt.ylabel('Frequency')
plt.title('Rating distribution')
plt.legend(loc='upper right')

### BEISPIEL - Alternative Möglichkeit des Plots für Männer/Frauen aus Indien (Geburtsjahrgänge < 2002)

In [None]:
mask_year = data["birthday"] < 2002
mask_country = data["country"] == "IND"


a, b = np.histogram(data[mask_f & mask_year & mask_country]["rating"], bins= 50)
c, d = np.histogram(data[mask_m & mask_year & mask_country]["rating"], bins= 50)

fig, ax = plt.subplots(figsize=(10, 6))
delta_bin_F = b[1] - b[0]
delta_bin_M = d[1] - d[0]

ax.plot(b[1:] - delta_bin_F/2, a/np.sum(a), ".--", label="Frauen")
ax.plot(d[1:] - delta_bin_M/2, c/np.sum(c), ".--", label="Männer")

ax.set_xlabel("ELO rating")
ax.set_ylabel("Fraction")
plt.legend()
plt.title("Compare chess players form India, born before 2000")