# Übungsaufgaben

In [None]:
import pyreadstat
import pandas as pd
import plotly.express as px

from tui_rvds.uebung1 import *

pd.set_option('display.max_columns', None)

## Inhaltsverzeichnis
- [Aufgabe 1: Daten laden](#Aufgabe-1-Daten-laden)
- [Aufgabe 2: Reduktion und Bereiche](#Aufgabe-2-Reduktion-und-Bereiche)
  - [Projektion](#Projektion)
  - [Datentypen](#Datentypen)
  - [Wertebereiche](#Wertebereiche)
- [Aufgabe 3: Behandlung spezieller Werte](#Aufgabe-3-Behandlung-spezieller-Werte)
  - [Diskretisierung](#Diskretisierung)
- [Aufgabe 4: Datenfehler suchen und erkennen](#Aufgabe-4-Datenfehler-suchen-und-erkennen)
  - [Fehlende Werte](#Fehlende-Werte)
  - [Geringe Bearbeitungsdauer](#Geringe-Bearbeitungsdauer)
  - [weiß nicht](#weiß-nicht)
- [Aufgabe 5: Visuelle Zusammenhangsanalyse](#Aufgabe-5-Visuelle-Zusammenhangsanalyse)

## Aufgabe 1: Daten laden
Verwenden Sie `pyreadstat`, um den Datensatz `welle1_daten.sav` in Form eines Pandas DataFrame (`df`) zu laden. (Diese Daten wurden mit [SPSS](https://www.ibm.com/de-de/products/spss-statistics) gespeichert und müssen daher zunächst konvertiert werden.)

In [None]:
raw_df, _ = pyreadstat.read_sav('')

In [None]:
aufgabe1_1(raw_df)

Die Spalten sind durchnummeriert und daher schlecht auswertbar. Die Datei `welle1_spalten.txt` enthält die korrekten Spaltennamen in der Form `<Alter Name>: <Neuer Name>`. Laden Sie diese Datei und verwenden Sie die enthaltenen Namen zur Umbenennung.

In [None]:
new_column_names = {}

with open('', 'r', encoding='utf-8') as file:
    for line in file:
        source, target = line.strip().split(': ')
        new_column_names[source] = target

In [None]:
df = raw_df.rename(columns=...)
df

In [None]:
aufgabe1_2(df)

## Aufgabe 2: Reduktion und Bereiche

### Projektion
Während der Befragung wurden eine Vielzahl von Parametern erfasst, die wir in dieser Übung nicht benötigen. Belassen Sie nur die folgenden Spalten im DataFrame:

1. `duration1`
1. `age1`
1. `sex1`
1. `edu1`
1. `federalstate1`
1. `location1`
1. `region1`
1. `int_pol1`
1. `int_enccpol1`
1. `int_ccresearch1`
1. `int_techdevre1`
1. `int_techdevhyd1`

In [None]:
df = df[[
    'erste Spalte',
    'zweite Spalte',
    '...'
]]

df

In [None]:
aufgabe2_1(df)

### Datentypen
Alle Spalten werden als Gleitkommazahlen (`float64`) eingelesen. In der erste Übersicht liegt allerdings der Verdacht nahe, dass ganze Zahlen ausreichen. Prüfen Sie für jede Spalte, ob Nachkommastellen vorhanden sind. Wenn das nicht der Fall ist, konvertieren Sie die entsprechende Spalte zu ganzen Zahlen (`int64`).

In [None]:
(df['duration1'] % 1 == 0).all()

In [None]:
df['duration1'] = df['duration1'].astype(int)

In [None]:
# TODO: 'age1', 'sex1', 'edu1', 'federalstate1', 'int_pol1', 'int_enccpol1', 'int_ccresearch1', 'int_techdevre1', 'int_techdevhyd1'

In [None]:
aufgabe2_2(df)

### Wertebereiche
Verschaffen Sie sich einen Überblick über die Wertebereiche aller Variablen und achten Sie auf widersprüchliche Werte.

In [None]:
df['duration1'].describe()

In [None]:
px.histogram(df['duration1'])

In [None]:
df['age1'].describe()

In [None]:
px.histogram(df['age1'])

In [None]:
df['sex1'].describe()

In [None]:
px.histogram(df['sex1'])

In [None]:
df['edu1'].describe()

In [None]:
px.histogram(df['edu1'])

In [None]:
df['federalstate1'].describe()

In [None]:
px.histogram(df['federalstate1'])

In [None]:
df['int_pol1'].describe()

In [None]:
px.histogram(df['int_pol1'])

In [None]:
df['int_enccpol1'].describe()

In [None]:
px.histogram(df['int_enccpol1'])

In [None]:
df['int_ccresearch1'].describe()

In [None]:
px.histogram(df['int_ccresearch1'])

In [None]:
df['int_techdevre1'].describe()

In [None]:
px.histogram(df['int_techdevre1'])

In [None]:
df['int_techdevhyd1'].describe()

In [None]:
px.histogram(df['int_techdevhyd1'])

## Aufgabe 3: Behandlung spezieller Werte

Bei der Befragung konnte die Frage nach dem Geschlecht ausgelassen werden. Der Wert ist dann entweder $-77$ oder $3$. Ersetzen Sie beide Fälle mit `NaN`.

In [None]:
df['sex1'] = df['sex1'].replace([], None)

In [None]:
aufgabe3_1(df)

Die Spalte `federalstate1` enthält das Bundesland als Zahl kodiert. Der Wert soll einer der fünf nachfolgenden Regionen zugeordnet und in der Spalte `region1` gespeichert werden. Dabei gilt die folgende Kodierung:
- NRW: $10$
- Nord: $5, 6, 9, 15$
- Mitte: $11, 12, 7$
- Süd: $1, 2$
- Ost: $3, 4, 8, 13, 14, 16$

In [None]:
df['region1'] = df['federalstate1'].replace({
    10: 'NRW',
    5: 'Nord',
    ...: ...
})

df

In [None]:
aufgabe3_2(df)

### Diskretisierung
Verwenden Sie die `cut`-Funktion, damit die Ordnung der Werte erhalten bleibt.

Die Spalte `age1` enthält das Alter. Zur besseren Vergleichbarkeit sollen die Werte in vier Gruppen eingeteilt und in die neue Spalte `age1_grp` gespeichert werden.
- Minimum bis 19
- 20 bis 29
- 30 bis 49
- 50 bis Maximum

In [None]:
df['age1'].describe()

In [None]:
df['age1_grp'] = pd.cut(
    df['age1'],
    bins=[...],
    labels=['14 bis 19-Jährige', '20 bis 29-Jährige', '30 bis 49-Jährige', '50 bis 65-Jährige'],
    include_lowest=True, right=False
)
df

In [None]:
aufgabe3_3(df)

Die Spalte `edu1` enthält das Bildungsniveau. $3$ steht dabei für ein mittleres Niveau, alles darunter für ein geringes und alles darüber für ein hohes. Speichern Sie diese Diskretisierung in eine Spalte `edu1_grp`.

In [None]:
df['edu1_grp'] = pd.cut(
    df['edu1'],
    bins=[...],
    labels=['niedrig', 'mittel', 'hoch'],
    include_lowest=True, right=False
)

df

In [None]:
aufgabe3_4(df)

Die Spalten `nt_pol1`, `int_enccpol1`, `int_ccresearch1`, `int_techdevre1` und `int_techdevhyd1` enthalten das Interesse bezüglich bestimmter Themenbereiche. Legen Sie für jedes der genannten Attribute eine Spalte mit dem Suffix `_grp` an und diskretisieren Sie die Werte nach dem folgenden Schema:
- $1,2$: geringes Interesse
- $3$: mittleres Interesse
- $4,5$: großes Interesse
- $99$: weiß nicht

In [None]:
df['int_pol1_grp'] = pd.cut(
    df['int_pol1'],
    bins=[...],
    labels=['geringes Interesse', 'mittleres Interesse', 'großes Interesse', 'weiß nicht'],
    include_lowest=True, right=False
)

In [None]:
df['int_enccpol1_grp'] = pd.cut(
    df['int_enccpol1'],
    bins=[...],
    labels=['geringes Interesse', 'mittleres Interesse', 'großes Interesse', 'weiß nicht'],
    include_lowest=True, right=False
)

In [None]:
df['int_ccresearch1_grp'] = pd.cut(
    df['int_ccresearch1'],
    bins=[...],
    labels=['geringes Interesse', 'mittleres Interesse', 'großes Interesse', 'weiß nicht'],
    include_lowest=True, right=False
)

In [None]:
df['int_techdevre1_grp'] = pd.cut(
    df['int_techdevre1'],
    bins=[...],
    labels=['geringes Interesse', 'mittleres Interesse', 'großes Interesse', 'weiß nicht'],
    include_lowest=True, right=False
)

In [None]:
df['int_techdevhyd1_grp'] = pd.cut(
    df['int_techdevhyd1'],
    bins=[...],
    labels=['geringes Interesse', 'mittleres Interesse', 'großes Interesse', 'weiß nicht'],
    include_lowest=True, right=False
)

In [None]:
df

In [None]:
aufgabe3_5(df)

## Aufgabe 4: Datenfehler suchen und erkennen

### Fehlende Werte
Suchen Sie nach Spalten und Zeilen, die ausschließlich fehlende Werte (`NaN`) enthalten. Entfernen Sie die betroffenen Spalten und Zeilen, falls sie existieren.

In [None]:
df.columns[df.isna().all()]

In [None]:
df[df.isna().all(axis=1)]

In [None]:
aufgabe4_1(df)

### Geringe Bearbeitungsdauer
Die Spalte `duration1` enthält die Bearbeitungszeit der Befragung. Steht dort $-1$ oder `NaN`, dann wurde das Ausfüllen zwischenzeitlich pausiert oder der Browser geschlossen und wieder geöffnet. Im Folgenden gehen wir davon aus, dass eine Bearbeitungszeit unter sechs Minuten nicht möglich ist und die Person demnach die Fragen nicht gewissenhaft beantwortet hat.

Entfernen Sie daher alle Zeilen mit eine Bearbeitungsdauer, die weniger als $360$ beträgt und weder $-1$ noch `NaN` ist.

In [None]:
df = df[df['duration1'].notna() & (df['duration1'] >= ...)]
df

In [None]:
aufgabe4_2(df)

### weiß nicht
In den Spalten `int_pol1_grp`, `int_enccpol1_grp`, `int_ccresearch1_grp`, `int_techdevre1_grp` und `int_techdevhyd1_grp` wurde einige Male mit *weiß nicht* geantwortet. Entfernen Sie alle Zeilen, in denen mindestens einmal *weiß nicht* gewählt wurde.

In [None]:
df = df[df['int_pol1_grp'] != 'weiß nicht']

df

In [None]:
aufgabe4_3(df)

## Aufgabe 5: Visuelle Zusammenhangsanalyse

# TODO Sortierung

In [None]:
px.scatter_matrix(df[['duration1', 'sex1', 'region1', 'age1_grp', 'edu1_grp', 'int_pol1_grp', 'int_enccpol1_grp', 'int_ccresearch1_grp', 'int_techdevre1_grp', 'int_techdevhyd1_grp']])