# Dataframe

Data-analytiikan peruskirjasto on <b>pandas</b>. Vakiintuneen tavan mukaan käytän jatkossa pandas-kirjastosta lyhennettä <b>pd</b>.

Pandas-kirjaston keskeisin luokka on <b>Dataframe</b>. Analysoitavat datat avataan dataframe-olioon ja analyysien tulostaulukot ovat enimmäkseen dataframe-olioita.

Dataframe muistuttaa taulukkolaskentataulukkoa.

In [1]:
#Otan käyttöön pandas-ohjelmakirjaston:
import pandas as pd

#Luon dictionary-tyyppisen tietorakenteen:
#- dictionaryn ympärillä aina aaltosulkeet {}
#- listan ympärillä aina hakasulkeet []
raw_data={'Tuote': ['muikkukukko', 'lanttukukko', 'lihalörtsy', 'kasvislörtsy'],
'Varasto': [8, 10, 5, 7],
'Hinta': [15, 12, 3, 3]}

#Luon dictionarysta dataframen, johon viittaan df-nimellä:
df = pd.DataFrame(raw_data, columns = ['Tuote', 'Varasto', 'Hinta'])
#Jos columns-parametri puuttuu, niin sarakkeet järjestyvät nimen mukaiseen aakkosjärjestykseen.

#Näytän dataframen:
df

Unnamed: 0,Tuote,Varasto,Hinta
0,muikkukukko,8,15
1,lanttukukko,10,12
2,lihalörtsy,5,3
3,kasvislörtsy,7,3


In [2]:
#Dataframen rivien ja sarkkeiden määrä:
df.shape

(4, 3)

In [3]:
#Rivi-indeksi (dataframen vasemmassa reunassa):
df.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
#Sarakeindeksi:
df.columns

Index(['Tuote', 'Varasto', 'Hinta'], dtype='object')

In [5]:
#Lanttukukon hinta indeksihaulla (1 = lanttukukon rivi, 2 = hinta-sarake):
#Huomaa, että indeksien numerointi alkaa nollasta!
df.iloc[1, 2]

12

In [6]:
#Tiedot lihalörtsyn riviltä (2):
df.iloc[2, :]

Tuote      lihalörtsy
Varasto             5
Hinta               3
Name: 2, dtype: object

In [7]:
#Sijoitan tuote-sarakkeen arvot rivi-indeksin arvoiksi:
df.index = df['Tuote']
df

Unnamed: 0_level_0,Tuote,Varasto,Hinta
Tuote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
muikkukukko,muikkukukko,8,15
lanttukukko,lanttukukko,10,12
lihalörtsy,lihalörtsy,5,3
kasvislörtsy,kasvislörtsy,7,3


In [8]:
#loc paikantaa arvon indeksin tunnuksen perusteella:
df.loc['lihalörtsy']

Tuote      lihalörtsy
Varasto             5
Hinta               3
Name: lihalörtsy, dtype: object

In [9]:
#lihalörtsyn hinta
df.loc['lihalörtsy','Hinta']

3

In [10]:
#Hintatiedot muikkukukosta lanttukukkoon:
df.loc['muikkukukko' : 'lanttukukko', 'Hinta']

Tuote
muikkukukko    15
lanttukukko    12
Name: Hinta, dtype: int64

In [11]:
#Lasken uuden sarakkeen aikaisempien avulla:
df['Arvo'] = df['Varasto'] * df['Hinta']  
df

Unnamed: 0_level_0,Tuote,Varasto,Hinta,Arvo
Tuote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
muikkukukko,muikkukukko,8,15,120
lanttukukko,lanttukukko,10,12,120
lihalörtsy,lihalörtsy,5,3,15
kasvislörtsy,kasvislörtsy,7,3,21


In [12]:
#Voin käyttää monia Pythonin funktioita, esimerkiksi:
df['Arvo'].sum()

276

In [13]:
#Kukkojen varastoarvo:
df.loc['muikkukukko':'lanttukukko', 'Arvo'].sum()

240

In [14]:
#Poistan 'Tuote'-sarakkeen:
#- axis=1 ansiosta 'Tuote' haetaan sarakkeista
#- inplace=True ansiosta 'Tuote' poistuu pysyvästi.
df.drop('Tuote', axis=1, inplace=True)
df

Unnamed: 0_level_0,Varasto,Hinta,Arvo
Tuote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
muikkukukko,8,15,120
lanttukukko,10,12,120
lihalörtsy,5,3,15
kasvislörtsy,7,3,21


In [15]:
#Lisään %-sarakkeen:
df['%'] = df['Arvo']/df['Arvo'].sum()*100
df

Unnamed: 0_level_0,Varasto,Hinta,Arvo,%
Tuote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
muikkukukko,8,15,120,43.478261
lanttukukko,10,12,120,43.478261
lihalörtsy,5,3,15,5.434783
kasvislörtsy,7,3,21,7.608696


In [16]:
#Lisään dataframeen summarivin:
df.loc['Yhteensä'] = df.sum()
#Esitän dataframen ilman desimaaleja:
df.style.format('{:.0f}')

Unnamed: 0_level_0,Varasto,Hinta,Arvo,%
Tuote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
muikkukukko,8,15,120,43
lanttukukko,10,12,120,43
lihalörtsy,5,3,15,5
kasvislörtsy,7,3,21,8
Yhteensä,30,33,276,100


In [17]:
#T vaihtaa dataframen rivit ja sarakkeet:
df.T

Tuote,muikkukukko,lanttukukko,lihalörtsy,kasvislörtsy,Yhteensä
Varasto,8.0,10.0,5.0,7.0,30.0
Hinta,15.0,12.0,3.0,3.0,33.0
Arvo,120.0,120.0,15.0,21.0,276.0
%,43.478261,43.478261,5.434783,7.608696,100.0
