# Deskriptive mål & grupperinger

## Deskriptive mål

Én måde at udforske et datasæt er ved at se nærmere på forskellige deskriptive mål for variable i datasættet.

Metoden `.describe()` danner deskriptive mål for alle (kompatible) variable i datasættet:

In [1]:
import pandas as pd

ess2018 = pd.read_csv("https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_subset.csv")

In [2]:
ess2018.describe()

Unnamed: 0,idno,netustm,ppltrst,yrbrn,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
count,1572.0,1395.0,1568.0,1572.0,1559.0,1448.0,1502.0,820.0,274.0,1566.0
mean,110821.670483,232.204301,7.063138,1968.245547,13.67864,33.229282,36.171771,95986.54,63046.4,62.676884
std,26076.703893,193.175426,1.813012,19.18819,5.781205,10.568167,13.205436,293504.4,161675.9,24.774517
min,110.0,0.0,0.0,1929.0,0.0,0.0,0.0,0.0,0.0,17.0
25%,93622.75,90.0,6.0,1953.0,11.0,32.0,34.0,26000.0,28000.0,50.0
50%,112966.0,180.0,7.0,1967.0,14.0,37.0,37.0,33000.0,35000.0,59.0
75%,131429.75,330.0,8.0,1984.0,17.0,37.0,42.0,46000.0,40000.0,70.0
max,150446.0,1020.0,10.0,2003.0,40.0,80.0,168.0,5000000.0,1500000.0,613.0


Metoden fungerer også på enkeltvariable:

In [3]:
ess2018['wkhtot'].describe()

count    1502.000000
mean       36.171771
std        13.205436
min         0.000000
25%        34.000000
50%        37.000000
75%        42.000000
max       168.000000
Name: wkhtot, dtype: float64

`.describe()` danner følgende mål:
- `count`: Antal svar ekskl. missing
- `mean`: Middelværdien
- `std`: Standardafvigelsen
- `min`: Minimumværdien
- `25%`: 1. kvartil
- `50%`: 2. kvartil
- `75%`: 3. kvartil
- `max`: Maksimumværdien

Der knytter sig også en række metoder til at danne de enkelte deskriptive mål.

Herunder printes fx middelværdien, standardafvigelsen, minimums- og maksimumsværdien for variablen `weight`:

In [4]:
print(ess2018['wkhtot'].mean())
print(ess2018['wkhtot'].std())
print(ess2018['wkhtot'].min())
print(ess2018['wkhtot'].max())

36.17177097203729
13.20543573826518
0.0
168.0


Ovenstående værdier fortæller, at `wkhtot` indeholder værdier fra 0.0 til 168.0 med en middelværdi på 36.17 og en standardafvigelse på 13.21 (middelværdien af de afstande, som hver observation afviger fra middelværdien).

### Deskriptive mål og kategoriske variable

Sammenlignes outputtet fra `.describe()` med indholdet af datasættet ses, at der ikke udregnes deskriptive mål for alle variable. 

Når `.describe()` bruges på et hel dataframe, udregnes kun mål for numeriske variabeltyper; altså variable, der kun består af tal.

Metoden kan dog også bruges på en kategorisk variabel som `ppltrst`:

In [5]:
ess2018['vote'].describe()

count     1566
unique       3
top        Yes
freq      1332
Name: vote, dtype: object

## Grupperinger: Opsummeringer på gruppeniveau (groupby)

En effektiv måde at udforske og udføre indledende deskriptive analyser af sine data, er ved at undersøge de grupperinger, som data indeholder.

Her skal vi se på nogen forskellige måder, hvor der kan udregnes deskriptive mål og dannes visualiseringer for grupper i data

Vi starter med at indlæse de nødvendige pakker og data. Aldersvariablen (som også blev tilføjet i lektion 3) tilføjes igen:

### Brug af split-apply til at opsummere data

Metoden `.groupby()` grupperer datasæt efter de givne variable:

In [6]:
grouped_df = ess2018.groupby(['gndr'])

Selve objektet, som bliver dannet, indeholder ikke information, der bare kan kaldes frem direkte:

In [7]:
grouped_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fdf40179130>

Dog kan vi danne de samme deskriptive mål, som vi kan for hele datasættet, men hvor de opsummeres på gruppeniveauet:

In [8]:
grouped_df.mean()

Unnamed: 0_level_0,idno,netustm,ppltrst,yrbrn,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
gndr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Female,111135.282369,227.564669,7.140496,1967.834711,13.84701,31.93985,33.561404,53165.458689,45699.366667,64.078621
Male,110552.542553,236.069645,6.996437,1968.598109,13.534524,34.324393,38.354523,128033.880597,84030.717742,61.46849


Det samme kan gøres for enkeltvariable:

In [9]:
grouped_df['wkhtot'].mean()

gndr
Female    33.561404
Male      38.354523
Name: wkhtot, dtype: float64

En lang række metoder kan bruges på grupperede data. Se dem alle her: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html.

- `mean()`: Middelværdi for grupperne

- `size()`: Størrelse af grupperne

- `count()`: Tællinger inden for grupperne

- `describe()`: Deskriptive mål inden for grupperne

- `min()`: Minimum for grupperne

- `max()`: Maximum for grupperne

Metoden `value_counts()` kan bruges til at lave optællinger af kategoriske inden for grupperne.

Herunder laves optælling for variablen `vote` fordelt på køn:

In [10]:
grouped_df['vote'].value_counts()

gndr    vote                
Female  Yes                     626
        Not eligible to vote     63
        No                       34
Male    Yes                     706
        Not eligible to vote     77
        No                       60
Name: vote, dtype: int64

# ØVELSE 3: Deskriptive mål

1. Brug `.describe()` eller passende metoder til at finde ud af følgende:

- Hvor gammel er den yngste person i datasættet?
- Hvor gammel er den ældste person i datasættet?
- Hvad er gennemsnitsalderen i datasættet?

- *Husk at datasættet er fra 2018.*


2. Brug `.groupby()` til at finde ud af, om kvinderne eller mændende i datasættet har flest års uddannelse i gennemsnit.
