# Umfrage Teil II

Analyse

## Daten importieren

In [38]:
from pathlib import Path

PARENT_PATH = str(Path().resolve().parent) + "/"
PATH = "data/"
SUBPATH = "processed/"
FILE = "umfrage-20220917-1341"
FORMAT = ".csv"

In [39]:
import pandas as pd

df = pd.read_csv(PARENT_PATH + PATH + SUBPATH + FILE + FORMAT)

In [40]:
# Liste mit den noch enthaltenen Original-Spalten erstellen
list_orig = df.filter(like='_orig', axis=1).columns

# Wir entfernen die Original-Spalten
df = df.drop(columns=list_orig)

## Datenüberblick

In [41]:
df

Unnamed: 0,zeit,sport,fleissig,entmutigen,talente,einkommen,energie,megacity,geleebohnen,soziale_medien,studium,buch,alter,geschlecht,sport_qm,fleissig_qm,talente_qm,entmutigen_qm
0,2022/09/14 8:21:58 PM OEZ,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,100,4,3000,34,34,Ja,22,Männlich,3,4,1,4
1,2022/09/14 8:21:58 PM OEZ,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,100,4,3000,34,34,Ja,22,Männlich,3,4,1,4
2,2022/09/14 8:21:58 PM OEZ,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,100,4,3000,34,34,Ja,22,Männlich,3,4,1,4
3,2022/09/14 8:21:58 PM OEZ,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,100,4,3000,34,34,Ja,22,Männlich,3,4,1,4
4,2022/09/14 8:21:58 PM OEZ,teils teils,trifft eher zu,trifft eher zu,trifft überhaupt nicht zu,9,100,4,3000,34,34,Ja,22,Männlich,3,4,1,4


In [42]:
df.dtypes

zeit              object
sport             object
fleissig          object
entmutigen        object
talente           object
einkommen          int64
energie            int64
megacity           int64
geleebohnen        int64
soziale_medien     int64
studium            int64
buch              object
alter              int64
geschlecht        object
sport_qm           int64
fleissig_qm        int64
talente_qm         int64
entmutigen_qm      int64
dtype: object

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 18 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   zeit            5 non-null      object
 1   sport           5 non-null      object
 2   fleissig        5 non-null      object
 3   entmutigen      5 non-null      object
 4   talente         5 non-null      object
 5   einkommen       5 non-null      int64 
 6   energie         5 non-null      int64 
 7   megacity        5 non-null      int64 
 8   geleebohnen     5 non-null      int64 
 9   soziale_medien  5 non-null      int64 
 10  studium         5 non-null      int64 
 11  buch            5 non-null      object
 12  alter           5 non-null      int64 
 13  geschlecht      5 non-null      object
 14  sport_qm        5 non-null      int64 
 15  fleissig_qm     5 non-null      int64 
 16  talente_qm      5 non-null      int64 
 17  entmutigen_qm   5 non-null      int64 
dtypes: int64(11), 

## Daten anpassen

### Variablen anpassen

#### Nominale Variablen

In [44]:
# Liste mit nominalen Variablen erstellen
list_nominal = ["buch", "geschlecht"]

In [45]:
# Nominale Variablen als kategorial formatieren (category)
for i in list_nominal:
    df[i] = df[i].astype("category")

In [46]:
df[list_nominal].head()

Unnamed: 0,buch,geschlecht
0,Ja,Männlich
1,Ja,Männlich
2,Ja,Männlich
3,Ja,Männlich
4,Ja,Männlich


In [47]:
# Nominale Variablen anzeigen lassen
df[list_nominal].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   buch        5 non-null      category
 1   geschlecht  5 non-null      category
dtypes: category(2)
memory usage: 370.0 bytes


In [None]:
# Dummy-Variablen hinzufügen
df = df.join(dummy_nominal)

In [None]:
df

#### Ordinale Variablen

In [None]:
likert =["trifft überhaupt nicht zu",
         "trifft eher nicht zu",
         "teils teils",
         "trifft eher zu",
         "trifft völlig zu"]

list_ordinal = ["sport", "fleissig", "talente", "entmutigen"]

In [None]:
from pandas.api.types import CategoricalDtype

cat_type= CategoricalDtype(categories=likert, ordered=True)

df[list_ordinal] = df[list_ordinal].astype(cat_type)

#### Alle kategorialen Variablen

In [None]:
list_cat = list_nominal + list_ordinal

#### Numerische Variablen

In [None]:
list_num = ['einkommen', 'energie', 'megacity', 'geleebohnen', 
            'soziale_medien', 'studium', 'alter']

In [None]:
df[list_num].info()

#### Quasi-metrische Variablen

In [None]:
# Erstellung der Liste mit Hilfe von filter und regular expressions
list_qm = df.filter(regex='_qm').columns.to_list()

list_qm

In [None]:
df[list_qm].info()

#### Alle metrischen Variablen

In [None]:
list_metric = list_num + list_qm

## Deskriptive Analyse

Wir beginnnen mit der deskriptiven Analyse

### Kategoriale daten

In [None]:
df[list_cat].describe().T

In [None]:
for i in list_cat:
    print("-"*30)
    print(i, "\n", df[i].value_counts())


### Numerische Daten

In [None]:
df[list_metric].describe().round(2).T

### Numerisch gruppiert nach kategorial

In [None]:
# median
for i in list_cat:
    print(df[list_metric].groupby(i).median().round(2).T)