# Luokiteltu jakauma cut-funktiolla 

In [1]:
import pandas as pd
df = pd.read_excel('http://www.elisanet.fi/taanila/data1.xlsx',sheetname = 'Data')

In [2]:
#Tarkastelen aluksi ikäjakaumaa tunnuslukujen valossa
#Huomaan, että nuorin on 20-vuotias ja vanhin 61-vuotias
df['ikä'].describe()

count    82.000000
mean     37.951220
std       9.773866
min      20.000000
25%      31.000000
50%      37.500000
75%      44.000000
max      61.000000
Name: ikä, dtype: float64

In [3]:
#Asetan luokkarajat ja luokkien nimet
bins = [20, 30, 40, 50, 62]
group_names = ['20-29', '30-39', '40-49', '50-']

#Luon aineistoon uudet muuttujat 'luokkarajat' ja 'ikäluokka'
#Jos right=False, niin alarajat kuuluvat luokkaan, mutta ylärajat eivät
#Jotta saan 61-vuotiaankin mukaan, niin suurin bin pitää olla vähintään 62
df['luokkarajat'] = pd.cut(df['ikä'], bins,right = False)
df['ikäluokka'] = pd.cut(df['ikä'], bins, labels = group_names, right = False)

#Tarkistan luokkarajat: hakasulun vieressä oleva luku kuuluu luokkaan, kaarisulun vieressä oleva luku ei kuulu luokkaan
pd.crosstab(df['luokkarajat'], 'lkm')

col_0,lkm
luokkarajat,Unnamed: 1_level_1
"[20, 30)",17
"[30, 40)",30
"[40, 50)",23
"[50, 62)",12


In [4]:
#Lasken frekvenssit 'ikäluokka'-muuttujalle prosentteina
df1 = pd.crosstab(df['ikäluokka'], 'lkm', normalize = 'columns')
df1.style.format('{:.1%}')

col_0,lkm
ikäluokka,Unnamed: 1_level_1
20-29,20.7%
30-39,36.6%
40-49,28.0%
50-,14.6%


In [5]:
#Vaihdan häiritsevän 'col_0' -nimen tilalle tyhjän merkkijonon
df1.columns.name = ''
df1.style.format('{:.1%}')

Unnamed: 0_level_0,lkm
ikäluokka,Unnamed: 1_level_1
20-29,20.7%
30-39,36.6%
40-49,28.0%
50-,14.6%


In [6]:
#Määritän get_stats -funktion, joka laskee muutamia tunnuslukuja
def get_stats(group):
    return {'min': group.min(), 'max': group.max(), 'lkm': group.count(), 'keskiarvo': group.mean()}

#Lasken palkalle tunnuslukuja ikäluokittain get_stats -funktiolla
df2 = df['palkka'].groupby(df['ikäluokka']).apply(get_stats).unstack()

#Ilman seuraavaa tunnusluvut tulevat taulukkoon aakkosjärjestysessä (keskiarvo, lkm, max, min)
df2 = df2[['lkm', 'min', 'max', 'keskiarvo']]

#Jätän desimaalit pois näkyvistä
df2.style.format('{:.0f}')

Unnamed: 0_level_0,lkm,min,max,keskiarvo
ikäluokka,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20-29,17,1521,5225,2422
30-39,30,1559,5069,2455
40-49,23,1715,4874,2624
50-,12,1872,6278,2921


In [7]:
#Tulostan näkyviin df-dataframen. Kahdesta viimeisestä sarakkeesta löytyy 'luokkarajat' ja 'ikäluokka'
df

Unnamed: 0,nro,sukupuoli,ikä,perhe,koulutus,palvelusvuodet,palkka,tyytyväisyys johtoon,tyytyväisyys työtovereihin,tyytyväisyys työympäristöön,tyytyväisyys palkkaan,tyytyväisyys työtehtäviin,työterveyshuolto,lomaosake,kuntosali,hieroja,luokkarajat,ikäluokka
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,"[30, 40)",30-39
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,"[20, 30)",20-29
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,"[30, 40)",30-39
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,"[30, 40)",30-39
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,"[20, 30)",20-29
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,"[30, 40)",30-39
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,"[40, 50)",40-49
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,"[50, 62)",50-
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,"[40, 50)",40-49
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,"[30, 40)",30-39
