In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now()}')

Päivitetty 2021-10-07 19:58:46.062903


<h1>Datan muuntaminen</h1>

Dataan voi olla tarvetta tehdä monenlaisia muunnoksia:
<ul>
    <li>Muuttujien eli sarakkeiden nimien muuttaminen (usein pitkät nimet kannattaa mukavuussyistä muuttaa lyhyemmiksi)</li>
    <li>Tarpeettomien muuttujien poistaminen</li>
    <li>Indeksin korvaaminen jonkin muuttujan arvoilla</li>
    <li>Virheellisten arvojen korjaaminen</li>
    <li>Uusien muuttujien laskeminen olemassa olevien muuttujien perusteella</li>
    <li>Puuttuvia arvoja sisältävien rivien poistaminen (kuvailevasssa ja selittävässä analytiikassa tämä ei yleensä ole tarpeen paitsi korrelaatiokertoimen merkitsevyyden testauksessa)</li>
</ul>

In [2]:
# Data-analytiikan peruskirjaston tuonti
import pandas as pd

# Datan avaaminen dataframeen
df = pd.read_excel('http://taanila.fi/data1.xlsx')

# Varmistan että kaikki rivit näytetään tulosteissa
pd.options.display.max_rows = None

df

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


<h2>Muuttujien nimet</h2>

In [3]:
# Jos haluan muuttaa muuttujien nimiä, niin voin hyödyntää muuttujien listaa
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

<b>Lista</b> on tärkeä tietorakenne. Lista on aina hakasulkujen sisällä.

In [4]:
# Voin kopioida tähän muuttujien listan ja muuttaa haluamani nimet
df.columns = ['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja']

# Tarkistan onnistuiko nimien muuttaminen (sukupuoli, perhesuhde)
df.columns

Index(['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv',
       'palkka', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv',
       'lomaosa', 'kuntosa', 'hieroja'],
      dtype='object')

<b>Dictionary</b> eli sanakirja on myös tärkeä tietorakenne. 
<ul><li>Sanakirja on aina aaltosulkujen sisällä.</li> 
    <li>Sanakirja koostuu pareista ja parin jäsenet erotetaan toisistaan kaksoispisteellä.</li></ul>

In [5]:
# Voin vaihtaa muuttujien nimiä myös rename()-toiminnolla
# Huomaa sanakirjan (dictionary) käyttö
df = df.rename(columns = {'sukupuoli':'sukup', 'perhesuhde':'perhe'})

# Tarkistan onnistuiko nimien muuttaminen (sukup, perhe)
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

<h2>Muuttujien poistaminen</h2>

In [6]:
# drop()-toiminnolla voin poistaa muuttujia
# drop() poistaa oletuksena rivejä (axis = 0), mutta haluan poistaa sarakkeita (axis = 1)
df1 = df.drop(['työterv', 'lomaosa', 'kuntosa', 'hieroja'], axis = 1)
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


<h2>Indeksi</h2>

Dataframen indeksi (<b>index</b>) on vasemmanpuoleisin sarake. Oletuksena indeksi on juokseva järjestysnumero, joka alkaa nollasta. Voin halutessani siirtää jonkin muuttujista indeksiin.

In [7]:
# Muuttujan siirtäminen indeksiin (vasemmanpuoleisin lihavoitu sarake)
df = df.set_index('nro')
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


<h2>Virheellisen arvon korjaaminen</h2>

In [8]:
# Korjaan virheellisen iän indeksinumeron 47 mukaiselta riviltä
df.loc[47, 'ikä'] = 42
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


<h2>Uusien muuttujien laskeminen</h2>

In [9]:
# Luon uuden muuttujan 'sukup_str', jossa sukupuolet tekstinä eli merkkijonoina
# Huomaa sanakirjan (dictionary) käyttö {}
df['sukup_str'] = df['sukup'].replace({1:'Mies', 2:'Nainen'})
df

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies


In [10]:
# Luokkarajat ikäluokille
bins = [18, 28, 38, 48, 58, 68]

# Luon uuden muuttujan 'ikäluokka', jossa iät luokiteltuina ikäluokkiin
df['ikäluokka'] = pd.cut(df['ikä'], bins = bins)

df
# Esimerkiksi (28, 38] tarkoittaa luokkaa, johon 28-vuotias ei kuulu, mutta 38-vuotias kuuluu

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str,ikäluokka
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies,"(28, 38]"
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies,"(28, 38]"
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies,"(28, 38]"
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies,"(28, 38]"
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies,"(18, 28]"
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen,"(28, 38]"
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies,"(48, 58]"
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies,"(48, 58]"
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies,"(38, 48]"
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies,"(28, 38]"


In [11]:
# Lasken vastaajan "kokonaistyytyväisyyden" keskiarvona tyytyväisyyksistä eri osa-alueisiin
# axis = 1 tarkoittaa keskiarvojen laskemista sivusuunnassa (rivin keskiarvo)
df['tyytyväisyys'] = df[['johto','työtov','työymp','palkkat','työteht']].mean(axis = 1)

df[['johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'tyytyväisyys']]

Unnamed: 0_level_0,johto,työtov,työymp,palkkat,työteht,tyytyväisyys
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,3,3.0,3,3,3,3.0
2,1,5.0,2,1,3,2.4
3,3,4.0,1,1,3,2.4
4,3,3.0,3,3,3,3.0
5,2,3.0,2,1,2,2.0
6,4,4.0,5,2,4,3.8
7,3,5.0,4,2,2,3.2
8,3,5.0,3,1,3,3.0
9,2,4.0,4,2,4,3.2
10,3,2.0,1,1,1,1.6


In [12]:
# Lasken uuden muuttujan, jossa on käytettyjen etuisuuksien lukumäärä
df['käyttö'] = df[['työterv', 'lomaosa', 'kuntosa', 'hieroja']].count(axis = 1)
df[['työterv', 'lomaosa', 'kuntosa', 'hieroja', 'käyttö']]

Unnamed: 0_level_0,työterv,lomaosa,kuntosa,hieroja,käyttö
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,,,,,0
2,,,,,0
3,1.0,,,,1
4,1.0,,,,1
5,1.0,,,,1
6,1.0,1.0,,,2
7,,,1.0,,1
8,1.0,,,,1
9,,1.0,,,1
10,1.0,,,,1


In [13]:
# sukup_str on object-tyyppinen ja ikäluokka on category-tyyppinen!
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82 entries, 1 to 82
Data columns (total 19 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   sukup         82 non-null     int64   
 1   ikä           82 non-null     int64   
 2   perhe         82 non-null     int64   
 3   koulutus      81 non-null     float64 
 4   palveluv      80 non-null     float64 
 5   palkka        82 non-null     int64   
 6   johto         82 non-null     int64   
 7   työtov        81 non-null     float64 
 8   työymp        82 non-null     int64   
 9   palkkat       82 non-null     int64   
 10  työteht       82 non-null     int64   
 11  työterv       47 non-null     float64 
 12  lomaosa       20 non-null     float64 
 13  kuntosa       9 non-null      float64 
 14  hieroja       22 non-null     float64 
 15  sukup_str     82 non-null     object  
 16  ikäluokka     82 non-null     category
 17  tyytyväisyys  82 non-null     float64 
 18  käyttö      

<h2>Puuttuvia arvoja sisältävien rivien poistaminen</h2>

In [14]:
# Poistan rivit, joilta puuttuu koulutus, palveluv tai työtov
df2 = df.dropna(subset = ['koulutus', 'palveluv', 'työtov'])
df2

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja,sukup_str,ikäluokka,tyytyväisyys,käyttö
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,,Mies,"(28, 38]",3.0,0
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,,Mies,"(28, 38]",2.4,0
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,,Mies,"(28, 38]",2.4,1
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,,Mies,"(28, 38]",3.0,1
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,,Mies,"(18, 28]",2.0,1
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,,Nainen,"(28, 38]",3.8,2
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,,Mies,"(48, 58]",3.2,1
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,,Mies,"(48, 58]",3.0,1
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,,Mies,"(38, 48]",3.2,1
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,,Mies,"(28, 38]",1.6,1


In [15]:
df2.shape 
# Nyt datassa on enää 79 riviä (alunperin oli 82 riviä)

(79, 19)

In [16]:
# Halutessasi voit tallentaa muunnetun datan Excel-tiedostoon
df2.to_excel('muunnettu.xlsx')

<h2>Lisätietoa</h2>

Data-analytiikka Pythonilla: https://tilastoapu.wordpress.com/python/