<h1>Datan valmistelu</h1>

Muistettavat funktiot ja ominaisuudet: <b>read_excel(), head(), tail(), shape, columns, rename(), count(), unique(), replace(), cut(), mean(), sum(), notnull(), isnull(), sort_values(), drop()</b> 

<h2>Ohjelmakirjastot</h2>

Aluksi tuodaan (<b>import</b>) tarvittavat kirjastot. Data-analytiikassa tarvitaan aina <b>pandas</b>-kirjastoa. Pandas sisältää <b>dataframe</b>-tietorakenteen, jota tarvitaan taulukkomuotoiselle datalle. Vakiintuneen tavan mukaan käytän pandas-kirjastosta lyhennettä <b>pd</b>.

In [None]:
import pandas as pd

<h2>Datan avaaminen</h2>

Excel-muotoisen datan voin lukea pandas-kirjaston <b>read_excel()</b>-funktiolla. <b>head()</b>-funktio tulostaa datan viisi ensimmäistä riviä, <b>tail()</b>-funktio tulostaa viisi viimeistä riviä ja <b>shape</b>-ominaisuus antaa datan rivien ja sarakkeiden lukumäärän.

In [None]:
df=pd.read_excel('http://taanila.fi/data1.xlsx', sheet_name='Data')
df.head()

In [None]:
df.tail()

In [None]:
df.shape

<h2>Sarakkeet</h2>

Sarakkeiden (muuttujien) nimilistan saan tulostamalla <b>columns</b>-ominaisuuden. Voin vaihtaa muuttujien nimiä sijoittamalla muutetun nimilistan columns-ominaisuuden arvoksi. Muuttujien nimiä voin vahtaa myös <b>rename()</b>-funktiolla.

Muuttujien arvojen lukumäärät selviävät <b>count()</b>-funktiolla.

In [None]:
df.columns

In [None]:
df.columns=['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja']
df.columns

In [None]:
#Vaihdan muuttujien nimiä
df.rename(columns = {'sukupuoli': 'sukup', 'perhesuhde': 'perhe'}, inplace = True)
df.head()

In [None]:
df.count()

<h2>Ainutkertaiset arvot</h2>

Muuttujan sisältämät ainutkertaiset arvot selviävät <b>unique()</b>-funktiolla. Seuraavassa käydään läpi kaikki muuttujat <b>for</b>-silmukalla.

In [None]:
for var in df:
    print(var, pd.unique(df[var]))

<h2>Uusien muuttujien laskeminen</h2>

<b>replace()</b>-funktiolla korvaan muuttujan arvoja uusilla arvoilla.
<b>cut()</b>-funktiolla voin luokittelen määrällisen muuttujan arvot luokkiin.
<b>mean()</b> ja <b>sum()</b> -funktioilla voin laskea keskiarvo- ja summamuuttujia (<b>axis=1</b> tarkoittaa laskemista rivien suuntaisesti).

In [None]:
#Uusi muuttuja 'sukup_teksti', jossa sukupuolet tekstiarvoina
df['sukup_teksti']=df['sukup'].replace({1 : 'Mies', 2 : 'Nainen'})
df.head(6)

In [None]:
#Uusi muuttuja 'ikäluokka', jossa iät luokiteltuina ikäluokkiin
bins = [18, 28, 38, 48, 58, 68]
df['ikäluokka'] = pd.cut(df['ikä'], bins = bins)
df.head()

In [None]:
df['tyytyväisyys']=df[['johto','työtov','työymp','palkkat','työteht']].mean(axis=1)
df[['sukup','ikä','tyytyväisyys']].head()

In [None]:
df['käyttö']=df[['työterv', 'lomaosa', 'kuntosa', 'hieroja']].sum(axis=1)
df.head(6)

<h2>Poimintaa ja suodatuksia</h2>

Voin muodostaa monimutkaisiakin poimintoja <b>&</b>- ja <b>|</b>-operaattoreita käyttäen.

<b>notnull()</b>- ja <b>isnull()</b>-funktioilla voin selvittää ei-tyhjät ja tyhjät.

<b>sort_values()</b>-funktio järjestää halutun muuttujan suhteen.

<b>drop()</b>-funktio pudottaa halutut muuttujat pois datasta.

In [None]:
df[4:6]

In [None]:
df[df['palkka']>4000]

In [None]:
df[(df['sukup']==2) & (df['palkkat']<3)]

In [None]:
df[(df['työterv'].notnull()) & (df['lomaosa'].notnull())]

In [None]:
df[(df['työterv'].isnull()) & (df['lomaosa'].isnull()) & (df['kuntosa'].isnull()) & (df['hieroja'].isnull())]

In [None]:
df[['tyytyväisyys','käyttö']][df['käyttö']>=3]

In [None]:
df[['palkka','palkkat']].sort_values(by='palkka').head()

In [None]:
df[['palkka','palkkat']].sort_values(by='palkka', ascending=False).head()

In [None]:
df.drop(['nro','ikä','palveluv','palkka'], axis=1).head()

<h2>Muutetun datan tallentaminen Excel-muotoon</h2>

Jos kansiossa on jo samanniminen tiedosto, niin menetät sen!

In [None]:
writer = pd.ExcelWriter('valmisteltu.xlsx', engine='xlsxwriter')
df.to_excel(writer)
writer.save()