In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now()}')

Päivitetty 2022-03-17 19:50:04.958249


# Datan muuntaminen

Dataan voi olla tarvetta tehdä monenlaisia muunnoksia:

* Sarakkeiden otsikoiden muuttaminen (usein pitkät otsikot kannattaa muuttaa lyhyemmiksi)
* Tarpeettomien sarkkeiden poistaminen
* Indeksin korvaaminen jonkin sarakkeen arvoilla
* Virheellisten arvojen korjaaminen
* Uusien muuttujien (sarakkeiden) laskeminen olemassa olevien sarakkeiden perusteella
* Puuttuvia arvoja sisältävien rivien poistaminen (kuvailevasssa ja selittävässä analytiikassa tämä ei yleensä ole tarpeen paitsi korrelaatiokertoimen merkitsevyyden testauksessa)

In [2]:
# Tuon data-analytiikan peruskirjaston
import pandas as pd

# Avaan datan
df = pd.read_excel('http://taanila.fi/data1.xlsx')

# Varmistan että kaikki rivit näytetään tulosteissa
pd.options.display.max_rows = None

df

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


## Sarakkeiden otsikot

In [3]:
# Jos haluan muuttaa sarakkeiden otsikoita, niin voin hyödyntää sarakeotsikoiden listaa
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

**Lista** on tärkeä tietorakenne. Lista on aina hakasulkujen sisällä.

In [4]:
# Voin kopioida tähän sarakeotsikoiden listan ja muuttaa haluamani otsikot
df.columns = ['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja']

# Tarkistan onnistuiko otsikoiden muuttaminen (sukupuoli, perhesuhde)
df.columns

Index(['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv',
       'palkka', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv',
       'lomaosa', 'kuntosa', 'hieroja'],
      dtype='object')

**Dictionary** eli sanakirja on myös tärkeä tietorakenne. 
* Sanakirja on aina aaltosulkujen sisällä.
* Sanakirja koostuu pareista ja parin jäsenet erotetaan toisistaan kaksoispisteellä.

In [5]:
# Voin vaihtaa sarakkeiden otsikoita myös rename()-toiminnolla
# Huomaa sanakirjan (dictionary) käyttö
df = df.rename(columns = {'sukupuoli':'sukup', 'perhesuhde':'perhe'})

# Tarkistan onnistuiko sarakeotsikoiden muuttaminen (sukup, perhe)
df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

## Muuttujien poistaminen

In [6]:
# drop-funktiolla voin poistaa sarakkeita
# drop poistaa oletuksena rivejä (axis=0), mutta haluan poistaa sarakkeita (axis=1)
df1 = df.drop(['työterv', 'lomaosa', 'kuntosa', 'hieroja'], axis=1)
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


## Indeksi

Tietokehikon (dataframe) indeksi (**index**) on vasemmanpuoleisin sarake. Oletuksena indeksi on juokseva järjestysnumero, joka alkaa nollasta. Voin halutessani siirtää jonkin muuttujista indeksiin.

In [7]:
# Sarakkeen siirtäminen indeksiin (vasemmanpuoleisin lihavoitu sarake)
df1 = df1.set_index('nro')
df1

Unnamed: 0_level_0,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
nro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


In [8]:
# Voin myös siirtää indeksiksi siirretyn takaisin tavalliseksi sarakkeeksi
df1 = df1.reset_index()
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


## Virheellisen arvon korjaaminen

In [9]:
# Korjaan virheellisen iän indeksinumeron 47 mukaiselta riviltä
df1.loc[47, 'ikä'] = 42
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1


## Uusien muuttujien laskeminen

In [10]:
# Luon uuden sarakkeen 'sukup_str', jossa sukupuolet tekstinä eli merkkijonoina
# Huomaa sanakirjan (dictionary) käyttö {}
df1['sukup_str'] = df1['sukup'].replace({1:'Mies', 2:'Nainen'})
df1

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,sukup_str
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,Mies
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,Mies
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,Mies
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,Mies
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,Mies
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,Nainen
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,Mies
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,Mies
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,Mies
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,Mies


In [11]:
# Luokkarajat ikäluokille
rajat = [19, 29, 39, 49, 59, 69]

# Luon uuden sarakkeen 'ikäluokka', jossa iät luokiteltuina ikäluokkiin
df1['ikäluokka'] = pd.cut(df1['ikä'], rajat)

df1
# Esimerkiksi (29, 39] tarkoittaa luokkaa, johon 29-vuotias ei kuulu, mutta 39-vuotias kuuluu

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,sukup_str,ikäluokka
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,Mies,"(29, 39]"
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,Mies,"(19, 29]"
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,Mies,"(29, 39]"
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,Mies,"(29, 39]"
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,Mies,"(19, 29]"
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,Nainen,"(29, 39]"
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,Mies,"(39, 49]"
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,Mies,"(49, 59]"
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,Mies,"(39, 49]"
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,Mies,"(29, 39]"


In [12]:
# Lasken vastaajan "kokonaistyytyväisyyden" keskiarvona tyytyväisyyksistä eri osa-alueisiin
# axis=1 tarkoittaa keskiarvojen laskemista sivusuunnassa (rivin keskiarvo)
df1['tyytyväisyys'] = df1[['johto','työtov','työymp','palkkat','työteht']].mean(axis=1)

df1[['johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'tyytyväisyys']]

Unnamed: 0,johto,työtov,työymp,palkkat,työteht,tyytyväisyys
0,3,3.0,3,3,3,3.0
1,1,5.0,2,1,3,2.4
2,3,4.0,1,1,3,2.4
3,3,3.0,3,3,3,3.0
4,2,3.0,2,1,2,2.0
5,4,4.0,5,2,4,3.8
6,3,5.0,4,2,2,3.2
7,3,5.0,3,1,3,3.0
8,2,4.0,4,2,4,3.2
9,3,2.0,1,1,1,1.6


In [13]:
# Lasken uuden sarakkeen, jossa on käytettyjen etuisuuksien lukumäärä
df['käyttö'] = df[['työterv', 'lomaosa', 'kuntosa', 'hieroja']].count(axis=1)
df[['työterv', 'lomaosa', 'kuntosa', 'hieroja', 'käyttö']]

Unnamed: 0,työterv,lomaosa,kuntosa,hieroja,käyttö
0,,,,,0
1,,,,,0
2,1.0,,,,1
3,1.0,,,,1
4,1.0,,,,1
5,1.0,1.0,,,2
6,,,1.0,,1
7,1.0,,,,1
8,,1.0,,,1
9,1.0,,,,1


In [14]:
# sukup_str on object-tyyppinen ja ikäluokka on category-tyyppinen!
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 15 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   nro           82 non-null     int64   
 1   sukup         82 non-null     int64   
 2   ikä           82 non-null     int64   
 3   perhe         82 non-null     int64   
 4   koulutus      81 non-null     float64 
 5   palveluv      80 non-null     float64 
 6   palkka        82 non-null     int64   
 7   johto         82 non-null     int64   
 8   työtov        81 non-null     float64 
 9   työymp        82 non-null     int64   
 10  palkkat       82 non-null     int64   
 11  työteht       82 non-null     int64   
 12  sukup_str     82 non-null     object  
 13  ikäluokka     82 non-null     category
 14  tyytyväisyys  82 non-null     float64 
dtypes: category(1), float64(4), int64(9), object(1)
memory usage: 9.4+ KB


## Puuttuvia arvoja sisältävien rivien poistaminen

In [15]:
# Poistan rivit, joilta puuttuu koulutus, palveluv tai työtov
df2 = df1.dropna(subset=['koulutus', 'palveluv', 'työtov'])
df2

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,sukup_str,ikäluokka,tyytyväisyys
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,Mies,"(29, 39]",3.0
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,Mies,"(19, 29]",2.4
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,Mies,"(29, 39]",2.4
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,Mies,"(29, 39]",3.0
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,Mies,"(19, 29]",2.0
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,Nainen,"(29, 39]",3.8
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,Mies,"(39, 49]",3.2
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,Mies,"(49, 59]",3.0
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,Mies,"(39, 49]",3.2
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,Mies,"(29, 39]",1.6


In [16]:
df2.shape 
# Nyt datassa on enää 79 riviä (alunperin oli 82 riviä)

(79, 15)

In [17]:
# Halutessasi voit tallentaa muunnetun dataframen Excel-tiedostoon
df2.to_excel('muunnettu.xlsx')

##  Luettelo muistiossa käytetyistä funktioista ja ominaisuuksista

* **pd.read_excel()** datan lukeminen Excel-tiedostsosta
* **pd.options.display.max_rows = None** dataframen kaikkien rivien näyttäminen
* **df.columns** sarakeotsikot
* **df.rename()** sarakeotsikoiden uudelleen nimeämiseen
* **df.drop()** rivien tai sarakkeiden poistamiseen
* **df.set_index()** sarakkeen siirtäminen indeksiin
* **df.reset_index()** indeksin siirtämiseen tavalliseksi sarakkeeksi (tilalle oletusindeksi)
* **df.loc[]** viittaminen dataframen "viipaleeseen"
* **df['sarake'].replace()** sarakkeen arvojen korvaaminen uusilla arvoilla
* **pd.cut()** arvojen luokittelu
* **df.mean()** keskiarvojen laskenta
* **df.count()** arvojen lukumäärien laskenta
* **df.info()** arvojen lukumäärät ja tietotyypit
* **df.dropna()** puuttuvia arvoja sisältävien rivien poistaminen
* **df.shape** datan rivien ja sarakkeiden lukumäärät
* **df.to_excel()** dataframen tallentaminen Excel-tiedostoon


## Lisätietoa

Data-analytiikka Pythonilla: https://tilastoapu.wordpress.com/python/