<h2>Datan muunnokset</h2>

Dataan voi olla tarvetta tehdä monenlaisia muunnoksia:
<ul>
    <li>Muuttujien nimien muuttaminen (usein pitkiä nimiä muutetaan mukavuussyistä lyhyemmiksi)</li>
    <li>Tarpeettomien muuttujien poistaminen</li>
    <li>Indeksin korvaaminen jonkin muuttujan arvoilla</li>
    <li>Virheellisten arvojen korjaaminen</li>
    <li>Muuttujan arvojen uudelleenkoodaminen</li>
    <li>Muuttujan arvojen luokittelu</li>
    <li>Uusien muuttujien laskeminen olemassa olevien muuttujien perusteella</li>
    <li>Puuttuvia arvoja sisältävien rivien poistaminen (kuvailevasssa ja selittävässä analytiikassa tämä ei yleensä ole tarpeen paitsi korrelaatiokertoimen merkitsevyyden testauksessa)</li>
</ul>

In [1]:
# Data-analytiikan peruskirjaston tuonti
import pandas as pd

# Datan avaaminen dataframeen
df = pd.read_excel('http://taanila.fi/data1.xlsx')

# Varmistetaan, että koko data näytetään tulosteissa
pd.options.display.max_rows = df.shape[0]

In [2]:
# Muuttujien listaa voit hyödyntää, jos haluat muuttaa muuttujien nimiä
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

In [3]:
# Voit kopioida tähän edellisen solun muuttujalistan ja muuttaa haluamasi nimet
df.columns = ['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja']

# Tarkistetaan onnistuiko nimien muuttaminen (sukupuoli, perhesuhde)
df.columns

Index(['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv',
       'palkka', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv',
       'lomaosa', 'kuntosa', 'hieroja'],
      dtype='object')

In [4]:
# Voin vaihtaa muuttujien nimiä myös rename()-toiminnolla
# Huomaa sanakirjan (dictionary) käyttö {}
df = df.rename(columns = {'sukupuoli': 'sukup', 'perhesuhde': 'perhe'})

# Tarkistetaan onnistuiko nimien muuttaminen (sukup, perhe)
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

In [5]:
# Data, josta on poistettu muuttujia
df1 = df.drop(['työterv', 'lomaosa', 'kuntosa', 'hieroja'], axis=1)
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


In [6]:
# Muuttujan siirtäminen indeksiin
df = df.set_index('nro')
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


In [7]:
# Korjataan virheellinen ikä indeksinumeron 47 mukaiselta riviltä
df.loc[47, 'ikä'] = 42
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


In [8]:
# Uusi muuttuja 'sukup_str', jossa sukupuolet merkkijonona
# Huomaa sanakirjan (dictionary) käyttö {}
df['sukup_str'] = df['sukup'].replace({1 : 'Mies', 2 : 'Nainen'})
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies


In [9]:
# Luokkarajat ikäluokille
bins = [18, 28, 38, 48, 58, 68]

# Uusi muuttuja 'ikäluokka', jossa iät luokiteltuina ikäluokkiin
df['ikäluokka'] = pd.cut(df['ikä'], bins = bins)

df
# Esimerkiksi (28, 38] tarkoittaa luokkaa, johon 28-vuotias ei kuulu, mutta 38 vuotias kuuluu

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str,ikäluokka
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies,"(28, 38]"
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies,"(28, 38]"
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies,"(28, 38]"
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies,"(28, 38]"
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies,"(18, 28]"
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen,"(28, 38]"
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies,"(48, 58]"
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies,"(48, 58]"
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies,"(38, 48]"
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies,"(28, 38]"


In [10]:
# Lasken vastaajan "kokonaistyytyväisyyden" keskiarvona tyytyväisyyksistä eri osa-alueisiin
# axis=1 tarkoittaa keskiarvojen laskemista sivusuunnassa (riviltä)
df['tyytyväisyys'] = df[['johto','työtov','työymp','palkkat','työteht']].mean(axis=1)

df[['johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'tyytyväisyys']]

Unnamed: 0_level_0,johto,työtov,työymp,palkkat,työteht,tyytyväisyys
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,3,3.0,3,3,3,3.0
2,1,5.0,2,1,3,2.4
3,3,4.0,1,1,3,2.4
4,3,3.0,3,3,3,3.0
5,2,3.0,2,1,2,2.0
6,4,4.0,5,2,4,3.8
7,3,5.0,4,2,2,3.2
8,3,5.0,3,1,3,3.0
9,2,4.0,4,2,4,3.2
10,3,2.0,1,1,1,1.6


In [11]:
# Lasken käytettyjen etuisuuksien lukumäärän
df['käyttö'] = df[['työterv', 'lomaosa', 'kuntosa', 'hieroja']].count(axis=1)
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str,ikäluokka,tyytyväisyys,käyttö
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies,"(28, 38]",3.0,0
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies,"(28, 38]",2.4,0
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies,"(28, 38]",2.4,1
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies,"(28, 38]",3.0,1
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies,"(18, 28]",2.0,1
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen,"(28, 38]",3.8,2
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies,"(48, 58]",3.2,1
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies,"(48, 58]",3.0,1
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies,"(38, 48]",3.2,1
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies,"(28, 38]",1.6,1


In [12]:
df.count()
# koulutus, palveluv ja työtov sarakkeissa näyttäisi olevan puuttuvia arvoja

sukup           82
ikä             82
perhe           82
koulutus        81
palveluv        80
palkka          82
johto           82
työtov          81
työymp          82
palkkat         82
työteht         82
työterv         47
lomaosa         20
kuntosa          9
hieroja         22
sukup_str       82
ikäluokka       82
tyytyväisyys    82
käyttö          82
dtype: int64

In [13]:
# Poistan rivit, joilta puuttuu koulutus, palveluv tai työtov
df = df.dropna(subset=['koulutus', 'palveluv', 'työtov'])
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str,ikäluokka,tyytyväisyys,käyttö
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies,"(28, 38]",3.0,0
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies,"(28, 38]",2.4,0
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies,"(28, 38]",2.4,1
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies,"(28, 38]",3.0,1
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies,"(18, 28]",2.0,1
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen,"(28, 38]",3.8,2
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies,"(48, 58]",3.2,1
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies,"(48, 58]",3.0,1
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies,"(38, 48]",3.2,1
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies,"(28, 38]",1.6,1


In [14]:
df.count()
# Nyt datassa on enää 79 riviä

sukup           79
ikä             79
perhe           79
koulutus        79
palveluv        79
palkka          79
johto           79
työtov          79
työymp          79
palkkat         79
työteht         79
työterv         44
lomaosa         20
kuntosa          9
hieroja         20
sukup_str       79
ikäluokka       79
tyytyväisyys    79
käyttö          79
dtype: int64

In [15]:
# Halutessasi voit tallentaa muunnetun datan Excel-tiedostoon
df.to_excel('muunnettu.xlsx')