# Luokiteltu jakauma cut-funktiolla 

In [1]:
import pandas as pd

#Avaan Excel-datan dataframeen ja näytän viisi ensimmäistä riviä.
#Vanhemmissa pandas-versioissa 'sheet_name sijasta' täytyy käyttää 'sheetname'.
df = pd.read_excel('http://taanila.fi/data1.xlsx',sheet_name = 'Data')

In [2]:
#Tarkastelen aluksi ikäjakaumaa tunnuslukujen valossa.
#Huomaan, että nuorin on 20-vuotias ja vanhin 61-vuotias.
df['ikä'].describe()

count    82.000000
mean     37.951220
std       9.773866
min      20.000000
25%      31.000000
50%      37.500000
75%      44.000000
max      61.000000
Name: ikä, dtype: float64

In [3]:
#Asetan luokkarajat ja luokkien nimet
bins = [20, 30, 40, 50, 62]
group_names = ['20-29', '30-39', '40-49', '50-']

#Luon aineistoon uudet muuttujat 'luokkarajat' ja 'ikäluokka'
#Jos right=False, niin alarajat kuuluvat luokkaan, mutta ylärajat eivät
#Jotta saan 61-vuotiaankin mukaan, niin suurin bin pitää olla vähintään 62
df['luokkarajat'] = pd.cut(df['ikä'], bins, right = False)
df['ikäluokka'] = pd.cut(df['ikä'], bins, labels = group_names, right = False)

#Tarkistan luokkarajat: hakasulun vieressä oleva luku kuuluu luokkaan, 
#kaarisulun vieressä oleva luku ei kuulu luokkaan
pd.crosstab(df['luokkarajat'], 'lkm')

col_0,lkm
luokkarajat,Unnamed: 1_level_1
"[20, 30)",17
"[30, 40)",30
"[40, 50)",23
"[50, 62)",12


In [4]:
#Lasken frekvenssiprosentit 'ikäluokka'-muuttujalle prosentteina:
df1 = pd.crosstab(df['ikäluokka'], 'lkm', normalize = 'columns')

#Loppusilaus (suomenkielessä välilyönti prosenttiluvun ja %merkin välissä):
(df1*100).style.format('{:.1f} %')

col_0,lkm
ikäluokka,Unnamed: 1_level_1
20-29,20.7 %
30-39,36.6 %
40-49,28.0 %
50-,14.6 %


In [5]:
#Vaihdan häiritsevän 'col_0' -nimen tilalle tyhjän merkkijonon
df1.columns.name = ''
(df1*100).style.format('{:.1f} %')

Unnamed: 0_level_0,lkm
ikäluokka,Unnamed: 1_level_1
20-29,20.7 %
30-39,36.6 %
40-49,28.0 %
50-,14.6 %


In [6]:
#Määritän get_stats -funktion, joka laskee muutamia tunnuslukuja:
def get_stats(group):
    return {'min': group.min(), 'max': group.max(), 
            'lkm': group.count(), 'keskiarvo': group.mean()}

#Lasken palkalle tunnuslukuja ikäluokittain get_stats -funktiolla
df2 = df.groupby('ikäluokka')['palkka'].apply(get_stats).unstack()

#Ilman seuraavaa tunnusluvut tulevat taulukkoon aakkosjärjestysessä 
#(keskiarvo, lkm, max, min):
df2 = df2[['lkm', 'min', 'max', 'keskiarvo']]

#Jätän desimaalit pois näkyvistä
df2.style.format('{:.0f}')

Unnamed: 0_level_0,lkm,min,max,keskiarvo
ikäluokka,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20-29,17,1521,5225,2422
30-39,30,1559,5069,2455
40-49,23,1715,4874,2624
50-,12,1872,6278,2921


In [7]:
#Katson vielä, miltä 'luokkarajat' ja 'ikäluokka' näyttävät datassa:
df[['luokkarajat','ikäluokka']]

Unnamed: 0,luokkarajat,ikäluokka
0,"[30, 40)",30-39
1,"[20, 30)",20-29
2,"[30, 40)",30-39
3,"[30, 40)",30-39
4,"[20, 30)",20-29
5,"[30, 40)",30-39
6,"[40, 50)",40-49
7,"[50, 62)",50-
8,"[40, 50)",40-49
9,"[30, 40)",30-39
