In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2023-04-30 / Aki Taanila


# Pivot-taulukot

Pivot-taulukoita luon **pivot_table**-funktiolla. Keskeisiä parametreja ovat

* **values** - laskettavat muuttujat
* **index** - rivimuuttujat
* **columns** - sarakemuuttujat
* **aggfunc** - arvojen laskentamenetelmät (oletuksena pivot-taulukkoon lasketaan keskiarvoja)


Jos lasket pelkästään lukumääriä ja/tai prosentteja, niin pivot_table-funktion sijasta kannattaa käyttää **crosstab**-funktiota, joka laskee oletuksena lukumääriä.

In [2]:
import pandas as pd

In [3]:
# Esimerkkidatana pienoismallien valmistajan saamia tilauksia
df = pd.read_excel('https://taanila.fi/pienoismallit.xlsx')
df

Unnamed: 0,NRO,KAPPALEMÄÄRÄ,YKSIKKÖHINTA,HINTA,VUOSI,TUOTELINJA,TUOTENUMERO,MAA,TILAUKSEN_KOKO
0,1,30,95.70,2871.00,2018,Moottoripyörät,S10_1678,USA,Pieni
1,2,34,81.35,2765.90,2018,Moottoripyörät,S10_1678,France,Pieni
2,3,41,94.74,3884.34,2018,Moottoripyörät,S10_1678,France,Keskikoko
3,4,45,83.26,3746.70,2018,Moottoripyörät,S10_1678,USA,Keskikoko
4,5,49,100.00,5205.27,2018,Moottoripyörät,S10_1678,USA,Keskikoko
...,...,...,...,...,...,...,...,...,...
2818,2819,20,100.00,2244.40,2019,Laivat,S72_3212,Spain,Pieni
2819,2820,29,100.00,3978.51,2020,Laivat,S72_3212,Finland,Keskikoko
2820,2821,43,100.00,5417.57,2020,Laivat,S72_3212,Spain,Keskikoko
2821,2822,34,62.24,2116.16,2020,Laivat,S72_3212,France,Pieni


In [4]:
# Tilausten keskiarvohinta eri vuosina (oletuksena lasketaan keskiarvo)
df.pivot_table(values='HINTA', index='VUOSI').style.format(precision=0)

Unnamed: 0_level_0,HINTA
VUOSI,Unnamed: 1_level_1
2018,3517
2019,3512
2020,3748


In [5]:
# Tilausten hinta yhteensä (sum) tuotelinjan mukaan
df.pivot_table(values='HINTA', index='TUOTELINJA', aggfunc=sum)\
                     .sort_values(by='HINTA', ascending=False).style.format(precision=0)

Unnamed: 0_level_0,HINTA
TUOTELINJA,Unnamed: 1_level_1
Klassikko autot,3919616
Vintage autot,1903151
Moottoripyörät,1166388
Rekat ja bussit,1127790
Lentokoneet,975004
Laivat,714437
Junat,226243


In [6]:
# Tilausten keskiarvohinta eri vuosina tuotelinjan mukaan
df.pivot_table(values='HINTA', index='TUOTELINJA', columns='VUOSI')\
                                  .style.format(precision=0)\
                                  .background_gradient(cmap='Reds', axis=None)

VUOSI,2018,2019,2020
TUOTELINJA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Junat,2600,3149,3076
Klassikko autot,4057,3987,4230
Laivat,3022,2969,3373
Lentokoneet,3203,3122,3335
Moottoripyörät,3403,3418,4051
Rekat ja bussit,3822,3727,3634
Vintage autot,2946,3209,3341


In [7]:
# Tilausten sisältämien kappalemäärien keskiarvo maan ja tuotelinjan mukaan
# Kunkin sarakkeen suurin ja pienin arvo korostettu
df.pivot_table(values='KAPPALEMÄÄRÄ', index='MAA', columns='TUOTELINJA').style.format(precision=0, na_rep='-')\
                                                                   .highlight_max(color='lightgreen', axis=0)\
                                                                   .highlight_min(color='pink', axis=0)

TUOTELINJA,Junat,Klassikko autot,Laivat,Lentokoneet,Moottoripyörät,Rekat ja bussit,Vintage autot
MAA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Australia,33,34,28,33,34,35,34
Austria,-,37,28,33,39,41,32
Belgium,32,37,31,41,-,-,32
Canada,-,33,35,32,41,32,32
Denmark,34,37,31,35,-,36,34
Finland,44,34,35,35,34,35,36
France,32,36,36,36,35,36,34
Germany,44,36,28,31,40,40,31
Ireland,25,34,-,29,29,37,28
Italy,27,34,32,36,38,24,32


In [8]:
# Tilausten hinnan keskiarvo, summa ja tilausten lukumäärä tuotelinjan mukaan
df1 = df.pivot_table(values='HINTA', index='TUOTELINJA', aggfunc=['mean', sum, len])

# Sarakeotsikot
df1.columns = ['Keskiarvo', 'Yhteensä', 'Lukumäärä']

df1.style.format(precision=0).background_gradient(cmap='Reds', axis=0)

Unnamed: 0_level_0,Keskiarvo,Yhteensä,Lukumäärä
TUOTELINJA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Junat,2938,226243,77
Klassikko autot,4053,3919616,967
Laivat,3053,714437,234
Lentokoneet,3186,975004,306
Moottoripyörät,3524,1166388,331
Rekat ja bussit,3747,1127790,301
Vintage autot,3135,1903151,607


In [9]:
# Tunnuslukuja vuoden ja tuotelinjan mukaan
df.pivot_table(values='HINTA', index=['VUOSI', 'TUOTELINJA'], aggfunc=[min, 'median', max])\
                                                                  .style.format(precision=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,median,max
Unnamed: 0_level_1,Unnamed: 1_level_1,HINTA,HINTA,HINTA
VUOSI,TUOTELINJA,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2018,Junat,972,2447,5344
2018,Klassikko autot,717,3807,11279
2018,Laivat,1134,2897,6341
2018,Lentokoneet,876,2949,7484
2018,Moottoripyörät,1036,3026,9265
2018,Rekat ja bussit,1104,3585,7083
2018,Vintage autot,710,2571,7956
2019,Junat,1056,2471,6491
2019,Klassikko autot,813,3629,11624
2019,Laivat,1089,2819,6960


## Lisätietoa

* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html

Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/