# Umfrage Teil II

Deskriptive Analyse

## Daten importieren

In [2]:
from pathlib import Path

PARENT_PATH = str(Path().resolve().parent) + "/"
PATH = "data/"
SUBPATH = "processed/"
FILE = "Fragebogen"
FORMAT = ".csv"

In [3]:
import pandas as pd

df = pd.read_csv(PARENT_PATH + PATH + SUBPATH + FILE + FORMAT)

## Daten vorbereiten

In [4]:
# Liste mit den noch enthaltenen Original-Spalten erstellen
list_drop = df.filter(like='_orig', axis=1).columns.tolist()

list_drop.append('zeit')

# Wir entfernen die Original-Spalten und die Variable zeit
df = df.drop(columns=list_drop)

# Liste mit Dummy-Variablen erstellen
list_dummy = df.filter(like='__', axis=1).columns

# Dummy-Variablen als Objekt-Daten speichern
for i in list_dummy:
    df[i] = df[i].astype("object")

In [5]:
import numpy as np

# Liste für metrische Daten
list_metric = df.select_dtypes(include=[np.number]).columns.tolist()

# Liste für kategoriale Daten
list_cat = df.select_dtypes(include=['object']).columns.tolist()

# Kategoriale Daten formatieren

for i in list_cat:
    df[i] = df[i].astype("category")

## Datenüberblick

In [6]:
df

Unnamed: 0,sport,fleissig,entmutigen,talente,einkommen,energie,megacity,geleebohnen,soziale_medien,studium,...,alter,geschlecht,buch__Ja,buch__Nein,geschlecht__Männlich,geschlecht__Weiblich,sport_qm,fleissig_qm,talente_qm,entmutigen_qm
0,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,42,4,3000,34,34,...,22,Männlich,1,0,1,0,3,4,1,4
1,trifft eher nicht zu,trifft eher nicht zu,trifft eher nicht zu,trifft eher zu,45,62,3,400,34,2,...,34,Weiblich,0,1,0,1,2,2,4,2
2,teils teils,trifft eher nicht zu,teils teils,trifft eher zu,34,82,5,4000,23,12,...,12,Männlich,1,0,1,0,3,2,4,3


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype   
---  ------                --------------  -----   
 0   sport                 3 non-null      category
 1   fleissig              3 non-null      category
 2   entmutigen            3 non-null      category
 3   talente               3 non-null      category
 4   einkommen             3 non-null      int64   
 5   energie               3 non-null      int64   
 6   megacity              3 non-null      int64   
 7   geleebohnen           3 non-null      int64   
 8   soziale_medien        3 non-null      int64   
 9   studium               3 non-null      int64   
 10  buch                  3 non-null      category
 11  alter                 3 non-null      int64   
 12  geschlecht            3 non-null      category
 13  buch__Ja              3 non-null      category
 14  buch__Nein            3 non-null      category
 15  geschlecht

## Deskriptive Analyse

Wir beginnnen mit der deskriptiven Analyse

### Kategoriale daten

In [8]:
df[list_cat].describe().T

Unnamed: 0,count,unique,top,freq
sport,3,2,teils teils,2
fleissig,3,2,trifft eher nicht zu,2
entmutigen,3,3,teils teils,1
talente,3,2,trifft eher zu,2
buch,3,2,Ja,2
geschlecht,3,2,Männlich,2
buch__Ja,3,2,1,2
buch__Nein,3,2,0,2
geschlecht__Männlich,3,2,1,2
geschlecht__Weiblich,3,2,0,2


In [9]:
for i in list_cat:
    print("-"*30)
    print(i, "\n", df[i].value_counts())


------------------------------
sport 
 teils teils             2
trifft eher nicht zu    1
Name: sport, dtype: int64
------------------------------
fleissig 
 trifft eher nicht zu    2
trifft eher zu          1
Name: fleissig, dtype: int64
------------------------------
entmutigen 
 teils teils             1
trifft eher nicht zu    1
trifft eher zu          1
Name: entmutigen, dtype: int64
------------------------------
talente 
 trifft eher zu               2
trifft überhaupt nicht zu    1
Name: talente, dtype: int64
------------------------------
buch 
 Ja      2
Nein    1
Name: buch, dtype: int64
------------------------------
geschlecht 
 Männlich    2
Weiblich    1
Name: geschlecht, dtype: int64
------------------------------
buch__Ja 
 1    2
0    1
Name: buch__Ja, dtype: int64
------------------------------
buch__Nein 
 0    2
1    1
Name: buch__Nein, dtype: int64
------------------------------
geschlecht__Männlich 
 1    2
0    1
Name: geschlecht__Männlich, dtype: int64
-------

### Numerische Daten

In [10]:
df[list_metric].describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
einkommen,3.0,29.33,18.45,9.0,21.5,34.0,39.5,45.0
energie,3.0,62.0,20.0,42.0,52.0,62.0,72.0,82.0
megacity,3.0,4.0,1.0,3.0,3.5,4.0,4.5,5.0
geleebohnen,3.0,2466.67,1858.31,400.0,1700.0,3000.0,3500.0,4000.0
soziale_medien,3.0,30.33,6.35,23.0,28.5,34.0,34.0,34.0
studium,3.0,16.0,16.37,2.0,7.0,12.0,23.0,34.0
alter,3.0,22.67,11.02,12.0,17.0,22.0,28.0,34.0
sport_qm,3.0,2.67,0.58,2.0,2.5,3.0,3.0,3.0
fleissig_qm,3.0,2.67,1.15,2.0,2.0,2.0,3.0,4.0
talente_qm,3.0,3.0,1.73,1.0,2.5,4.0,4.0,4.0
