In [1]:
import pandas as pd

<h1>Puuttuvat tai päällekkäiset aikaleimat ja havainnot</h1>

Aikasarjojen analysoinnissa ja aikasarjaennustamisessa puuttuvat ja päällekkäiset havainnot aiheuttavat ongelmia. 

Tarkastelen esimerkkinä kuukauden ensimmäisten päivien muodostamaa aikasarjaa, josta puuttuu välistä kahden kuukauden (huhtikuu ja toukokuu) tiedot.

In [2]:
# Avaan datan:
df1 = pd.read_excel('aika1.xlsx')
df1

Unnamed: 0,date,value
0,2019-01-01,2
1,2019-02-01,3
2,2019-03-01,4
3,2019-06-01,7
4,2019-07-01,8
5,2019-08-01,9


In [3]:
# Siirrän aikaleimat indeksiin:
df1.index = pd.to_datetime(df1['date'])
df1 = df1.drop('date', axis = 1)
df1

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2
2019-02-01,3
2019-03-01,4
2019-06-01,7
2019-07-01,8
2019-08-01,9


<b>resample()</b> lisää puuttuvat kuukaudet indeksiin. <b>'MS'</b> tarkoittaa kuukauden ensimmäisiä päivä (MonthStart). Lisää aikafrekvenssejä löydät osoitteesta https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

In [4]:
df1 = df1.resample('MS').mean()
df1

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2.0
2019-02-01,3.0
2019-03-01,4.0
2019-04-01,
2019-05-01,
2019-06-01,7.0
2019-07-01,8.0
2019-08-01,9.0


Puuttuvat havainnot voin korvata <b>interpolate()</b>- tai <b>fillna()</b>-toiminnolla:
<ul>    
    <li><b>fillna()</b> täydentää puuttuvat havainnot edellisestä havainnosta <b>'ffill'</b> tai seuraavasta havainnosta <b>'bfill'</b></li>
    <li><b>interpolate()</b> laskee puuttuvat havainnot edellisen ja seuraavan havainnon perusteella.</li>
</ul>

In [5]:
df1_f = df1.fillna(method = 'ffill')
df1_f

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2.0
2019-02-01,3.0
2019-03-01,4.0
2019-04-01,4.0
2019-05-01,4.0
2019-06-01,7.0
2019-07-01,8.0
2019-08-01,9.0


In [6]:
df1_i = df1.interpolate()
df1_i

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2.0
2019-02-01,3.0
2019-03-01,4.0
2019-04-01,5.0
2019-05-01,6.0
2019-06-01,7.0
2019-07-01,8.0
2019-08-01,9.0


Tarkastelen seuraavaksi esimerkkiä päällekkäisistä havainnoista. Seuraavassa esimerkissä on puuttuvien kuukausien (huhtikuu ja toukokuu) lisäksi päällekkäinen havainto helmikuun kohdalla.

In [7]:
df2 = pd.read_excel('aika2.xlsx')
df2.index = pd.to_datetime(df2['date'])
df2.drop('date', axis = 1)
df2

Unnamed: 0_level_0,date,value
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2019-01-01,2019-01-01,2
2019-02-01,2019-02-01,3
2019-02-01,2019-02-01,5
2019-03-01,2019-03-01,4
2019-06-01,2019-06-01,7
2019-07-01,2019-07-01,8
2019-08-01,2019-08-01,9


<b>resample()</b> hoitaa myös päällekkäiset aikaleimat. Seuraavassa korvaan päällekkäiset havainnot keskiarvollaan ja puuttuvat havainnot interpoloin.

In [8]:
df2 = df2.resample('MS').mean()
df2_i = df2.interpolate()
df2_i

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2.0
2019-02-01,4.0
2019-03-01,4.0
2019-04-01,5.0
2019-05-01,6.0
2019-06-01,7.0
2019-07-01,8.0
2019-08-01,9.0


<b>resample()</b> on monipuolinen toiminto. Lue lisää https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.resample.html