In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2025-11-16 / Aki Taanila


# Datan analysointia helpottavia funktioita

Oletus: **ana.py** on tallennettu samaan hakemistoon kuin tämä muistio **ana.ipynb**. 

Oletus on täytetty, jos lataat omalle koneelle hakemiston (repository) https://github.com/taanila/ana. Jos et ole aikaisemmin ladannut hakemistoa githubista, niin lue [latausohje](https://tilastoapu.wordpress.com/2018/11/27/github-esimerkit-omalle-koneelle/).

Tässä muistiossa on esimerkkejä laatimani **ana.py** moduulin funktioiden käytöstä. Funktioiden avulla voit laskea keskeisimmät kuvailevan ja selittävän analytiikan tulokset nopeasti. Toiminnaltaan laajin funktio **ana_excel** laskee ja kirjoittaa Excel-tiedostoon omille taulukkovälilehdilleen siististi muotoiltuna
- kategoristen muuttujien frekvenssitaulukot
- kaikki mahdolliset kahden kategorisen muuttujan ristiintaulukoinnit ja khiin neliö -testit
- dikotomisten muuttujien yhteenvedon
- kaikkien kategoristen muuttujien ristiintaulukoinnit dikotomisten muuttujien kanssa
- kvantitatiivisten muuttujien tilastolliset tunnusluvut, kvantitatiivisten muuttujien tilastolliset tunnusluvut kategoristen muuttujien mukaan ryhmiteltynä ja kahden ryhmän vertailutestit (t-testit)
- korrelaatiokertoimet ja niiden merkitsevyyden testauksen.

Muut funktiot laskevat yksittäisiä kuvailevan ja selittävän analytiikan tuloksia suoraan jupyter-muistioon.

In [2]:
# Tarvittavat tuonnit:
import pandas as pd
import ana
#from xlwings import load

## Datan lataaminen

Datan voit ladata esimerkiksi paikalliselta koneelta, netistä tai auki olevasta Excelistä. Seuraavassa koodisolussa on kolme vaihtoehtoista tapaa ladata Excel-muotoinen tiedosto:
- ensimmäisessä vaihtoehdossa oletetaan että data on tallennettu samaan kansioon tämän muistion kanssa
- toisessa vaihtoehdossa data ladataan netistä
- kolmannessa vaihtoehdossa oletetaan että data on aktiivisena auki olevassa Excelissä. Tällöin ensimmäisen koodisolun komento `from xlwings import load` täytyy aktivoida poistamalla risuaita # -merkki komennon edestä).

Datan lataamisen jälkeen voit tutustua dataan esimerkiksi komennoilla `ana.df`, `ana.df.columns` ja `ana.df.info()`.

In [3]:
ana.df = pd.read_excel('data1.xlsx')
#ana.df = pd.read_excel('https://taanila.fi/data1.xlsx')
#ana.df = load()
ana.df.columns

Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')

## Alkutoimet

Listaa kategoriset, kvantitatiiviset ja dikotomiset muuttujat **ana.kategoriset**, **ana.kvantit** ja **ana.dikotomiset** listoina. Jos jokin muuttujatyyppi puuttuu datasta, niin jätä tyhjä lista (pelkät hakasulut). Voit lisätä saman muuttujan useampaan kuin yhteen listaan (esimerkiksi asteikolla mitatuille mielipiteille voit haluta käyttää sekä kategoristen että kvantitatiivisten muuttujien menetelmiä).

Jos data on numeromuotoista ja haluat antaa numeroille tekstimuotoiset vastineet, niin määrittele ne **ana.listat** sanakirjana. Tekstimuotoiset arvot täytyy listata vastaavien numeroarvojen mukaisessa numerojärjestyksessä. Jos et määrittele tekstimuotoisia vastineita, niin jätä kuitenkin tyhjä sanakirja (pelkät aaltosulut).

Usein on tarpeen tehdä muutoksia ja täydennyksiä dataan. Katso https://github.com/taanila/data/blob/main/muunna.ipynb

In [4]:
ana.kategoriset = ['sukup', 'perhe', 'koulutus', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht']
ana.kvantit = ['ikä', 'palveluv', 'palkka', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht']
ana.dikotomiset = ['työterv', 'lomaosa', 'kuntosa', 'hieroja']

# toiston välttämiseksi:
tyytyväisyys = ['Erittäin tyytymätön', 'Tyytymätön','Ei tyytymätön eikä tyytyväinen',
                'Tyytyväinen', 'Erittäin tyytyväinen']

ana.listat = {'sukup':['Mies', 'Nainen'],
         'perhe':['Perheetön', 'Perheellinen'],
         'koulutus':['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu'],
         'johto':tyytyväisyys,
         'työtov':tyytyväisyys,
         'työymp':tyytyväisyys,
         'palkkat':tyytyväisyys,
         'työteht':tyytyväisyys}

## Kategoristen muuttujien arvot

Kannattaa aina tarkistaa kategoristen ja dikotomisten muuttujien arvot.

In [5]:
ana.arvot()

sukup [1 2]
perhe [1 2]
koulutus [ 1.  2.  3.  4. nan]
johto [1 2 3 4 5]
työtov [ 2.  3.  4.  5. nan]
työymp [1 2 3 4 5]
palkkat [1 2 3 4 5]
työteht [1 2 3 4 5]
työterv [ 1. nan]
lomaosa [ 1. nan]
kuntosa [ 1. nan]
hieroja [ 1. nan]


## Tulokset Exceliin

Funktio **ana_excel** kirjoittaa Excel-tiedostoon keskeiset kuvailevan ja selittävän analytiikan tulkset siistissä muodossa.

Valitse nimi Excel-tiedostolle harkiten: jos hakemistossa on saman niminen Excel-tiedosto, niin se menetetään!

Funktion suoritus kestää hetken aikaa. Odota rauhassa ja avaa sen jälkeen Excel-tiedosto.

In [6]:
ana.ana_excel('tulokset.xlsx')

Tulokset löytyvät Excel-tiedostosta tulokset.xlsx.


## Frekvenssitaulukko

Funktio **frekv** laskee frekvenssitaulukon yksittäiselle muuttujalle. 

Anna lähtötietona yksittäisen kategorisen muuttujan nimi.

In [7]:
ana.frekv('johto')

Unnamed: 0,f,%
Erittäin tyytymätön,7,8.5 %
Tyytymätön,16,19.5 %
Ei tyytymätön eikä tyytyväinen,30,36.6 %
Tyytyväinen,23,28.0 %
Erittäin tyytyväinen,6,7.3 %
Yhteensä,82,100.0 %


## Dikotomisten muuttujien yhteenveto

Funktio **dikot** laskee dikotomisten muuttujien yhteenvedon. 

In [8]:
ana.dikot()

n = 82


Unnamed: 0,f,% vastaajista
työterv,47,57.3 %
hieroja,22,26.8 %
lomaosa,20,24.4 %
kuntosa,9,11.0 %


## Kvantitatiivisten muuttujien tilastolliset tunnusluvut

Funktio **tunnu** laskee kvantitatiivisten muuttujien tilastolliset tunnusluvut.

In [9]:
ana.tunnu()

Unnamed: 0,ikä,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
Lukumäärä,82.0,80.0,82.0,82.0,81.0,82.0,82.0,82.0
Keskiarvo,37.95122,12.175,2563.878049,3.060976,4.061728,3.219512,2.109756,3.195122
Keskihajonta,9.773866,8.807038,849.350302,1.058155,0.826826,1.154961,1.111179,1.047502
Pienin,20.0,0.0,1521.0,1.0,2.0,1.0,1.0,1.0
Alaneljännes,31.0,3.75,2027.0,2.0,4.0,3.0,1.0,3.0
Mediaani,37.5,12.5,2320.0,3.0,4.0,3.0,2.0,3.0
Yläneljännes,44.0,18.25,2808.0,4.0,5.0,4.0,3.0,4.0
Suurin,61.0,36.0,6278.0,5.0,5.0,5.0,5.0,5.0


## Kahden muuttujan välinen ristiintaulukointi

- Funktio **risti_lkm** laskee kahden muuttujan välisen ristiintaulukoinnin lukumäärinä. 
- Funktio **risti** laskee kahden muuttujan välisen ristiintaulukoinnin sarakeprosentteina (prosenttia sarakkeen kokonaislukumäärästä).
- Funktio **risti_khi** laskee khiin neliö -testin.

Anna lähtötietoina kahden kategorisen muuttujan nimet.

In [10]:
# lukumäärät
ana.risti_lkm('johto', 'sukup')

Unnamed: 0,Mies,Nainen,Yhteensä
Erittäin tyytymätön,7,0,7
Tyytymätön,15,1,16
Ei tyytymätön eikä tyytyväinen,23,7,30
Tyytyväinen,15,8,23
Erittäin tyytyväinen,3,3,6
Yhteensä,63,19,82


In [11]:
# sarakeprosentit
ana.risti('johto', 'sukup')

n-arvot: {'Mies': 63, 'Nainen': 19, 'Yhteensä': 82}


Unnamed: 0,Mies,Nainen,Yhteensä
Erittäin tyytymätön,11.1 %,0.0 %,8.5 %
Tyytymätön,23.8 %,5.3 %,19.5 %
Ei tyytymätön eikä tyytyväinen,36.5 %,36.8 %,36.6 %
Tyytyväinen,23.8 %,42.1 %,28.0 %
Erittäin tyytyväinen,4.8 %,15.8 %,7.3 %


In [12]:
# khiin neliö -testi
ana.risti_khi('johto', 'sukup')

Khiin neliö = 8.85, p-arvo = 0.065, vapausasteet = 4,
alle viiden suuruisia odotettuja frekvenssejä 40.0 %.

Odotetut frekvenssit:


Unnamed: 0,Mies,Nainen
Erittäin tyytymätön,5.378049,1.621951
Tyytymätön,12.292683,3.707317
Ei tyytymätön eikä tyytyväinen,23.04878,6.95122
Tyytyväinen,17.670732,5.329268
Erittäin tyytyväinen,4.609756,1.390244


## Muuttujan ristiintaulukointi dikotomisten muuttujien kanssa

Funktio **risti_dikot** ristiintaulukoi yksittäisen muuttujan dikotomisten muuttujien kanssa.

Anna lähtötietona yksittäisen kategorisen muuttujan nimi.

In [13]:
ana.risti_dikot('koulutus')

n-arvot: {'Peruskoulu': 27, '2. aste': 30, 'Korkeakoulu': 22, 'Ylempi korkeakoulu': 2}


Unnamed: 0,Peruskoulu,2. aste,Korkeakoulu,Ylempi korkeakoulu
työterv,70.4 %,60.0 %,36.4 %,50.0 %
lomaosa,22.2 %,16.7 %,36.4 %,50.0 %
kuntosa,0.0 %,16.7 %,13.6 %,50.0 %
hieroja,22.2 %,36.7 %,18.2 %,50.0 %


## Muuttujan ristiintaulukointi kvantitatiivisen muuttujan kanssa

Funktio **risti_tunnu** ristiintaulukoi yksittäisen muuttujan yksittäisen kvantitatiivisen muuttujan kanssa. Jos muuttuja on kaksiarvoinen, niin lisäksi lasketaan kahden riippumattoman otoksen t-testi (olettaen erisuuret varianssit).

Anna lähtötietona kategorisen muuttujan nimi ja kvantitatiivisen muuttujan nimi.

In [14]:
ana.risti_tunnu('sukup', 'palkka')

t = 3.06, p-arvo = 0.003.


Unnamed: 0,Mies,Nainen
Lukumäärä,63.0,19.0
Keskiarvo,2663.746032,2232.736842
Keskihajonta,930.06186,340.780451
Pienin,1521.0,1715.0
Alaneljännes,2086.0,1969.0
Mediaani,2417.0,2144.0
Yläneljännes,2925.0,2574.0
Suurin,6278.0,2729.0


## Korrelaatiokertoimet

- Funktio **korre** laskee kvantitatiivisten muuttujien väliset Pearsonin korrelaatiokertoimet.
- Funktio **korre_n** laskee korrelaatiokertoimiin liittyvät n-arvot.
- Funktio **korre_p** laskee korrelaatiokertoimiin liittyvät p-arvot.

In [15]:
# korrelaatiokertoimet
ana.korre()

Unnamed: 0,ikä,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
ikä,1.0,0.531559,0.296872,0.120856,0.077554,0.101577,0.072114,0.187848
palveluv,0.531559,1.0,0.243139,0.073422,0.019732,0.126504,0.00442,0.1431
palkka,0.296872,0.243139,1.0,0.174133,0.117468,0.267615,0.314889,0.307886
johto,0.120856,0.073422,0.174133,1.0,0.223328,0.584918,0.540228,0.456933
työtov,0.077554,0.019732,0.117468,0.223328,1.0,0.28594,0.086845,0.308939
työymp,0.101577,0.126504,0.267615,0.584918,0.28594,1.0,0.53894,0.576431
palkkat,0.072114,0.00442,0.314889,0.540228,0.086845,0.53894,1.0,0.479884
työteht,0.187848,0.1431,0.307886,0.456933,0.308939,0.576431,0.479884,1.0


In [16]:
# korrelaatiokertoimiin liittyvät n-arvot
ana.korre_n()

Unnamed: 0,ikä,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
ikä,,80.0,82.0,82.0,81.0,82.0,82.0,82.0
palveluv,80.0,,80.0,80.0,79.0,80.0,80.0,80.0
palkka,82.0,80.0,,82.0,81.0,82.0,82.0,82.0
johto,82.0,80.0,82.0,,81.0,82.0,82.0,82.0
työtov,81.0,79.0,81.0,81.0,,81.0,81.0,81.0
työymp,82.0,80.0,82.0,82.0,81.0,,82.0,82.0
palkkat,82.0,80.0,82.0,82.0,81.0,82.0,,82.0
työteht,82.0,80.0,82.0,82.0,81.0,82.0,82.0,


In [17]:
# korrelaatiokertoimien p-arvot; alle 0.05 suuruiset p-arvot tehostettu
ana.korre_p()

Unnamed: 0,ikä,palveluv,palkka,johto,työtov,työymp,palkkat,työteht
ikä,,0.0,0.006762,0.279445,0.491341,0.363853,0.519682,0.091027
palveluv,0.0,,0.029765,0.517476,0.86296,0.263491,0.96896,0.205402
palkka,0.006762,0.029765,,0.117673,0.296299,0.015071,0.00396,0.004894
johto,0.279445,0.517476,0.117673,,0.045059,0.0,0.0,1.6e-05
työtov,0.491341,0.86296,0.296299,0.045059,,0.009661,0.440759,0.005012
työymp,0.363853,0.263491,0.015071,0.0,0.009661,,0.0,0.0
palkkat,0.519682,0.96896,0.00396,0.0,0.440759,0.0,,5e-06
työteht,0.091027,0.205402,0.004894,1.6e-05,0.005012,0.0,5e-06,


## Lopuksi

Lisätietoa: https://tilastoapu.wordpress.com/python

Jos funktiot eivät toimi sinulle mieleisellä tavalla, niin voit vapaasti muuttaa ja täydentää niitä **ana.py**-moduulissa.

Jos haluat graafisia esityksiä, niin voit tehdä niitä Excelissä **ana_excel**-funktion laskemista tuloksista. Ensisijaisesti suosittelen kuitenkin seaborn-paketin käyttöä grafiikkaan: https://github.com/taanila/kaaviot/blob/master/kaaviot.ipynb.