![pandas.png](attachment:pandas.png)

## [17] Resampling Data Deret Waktu (Time Series Data)

### [17.1] Import Module

In [1]:
import pandas as pd
import numpy as np
#mencetak versi pandas dan numpy yang akan digunakan
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


### [17.2] Persiapan Data Frame
- Jumlah baris yang akan dibentuk adalah 365 x 24 
- 24 merepresentasikan 24 jam dalam 1 hari
- 365 merepresentasikan jumlah hari dalam 1 tahun
- karena kita akan bermain dengan waktu, maka pada index dipanggil pd.util.testing.makeDateIndex()

In [2]:
n_rows = 365*24
n_cols = 2
cols = ['col1','col2']

df = pd.DataFrame(np.random.randint(1,20,size=(n_rows,n_cols)),columns=cols)
df.index = pd.util.testing.makeDateIndex(n_rows,freq='H')
df

  import pandas.util.testing


Unnamed: 0,col1,col2
2000-01-01 00:00:00,18,16
2000-01-01 01:00:00,15,6
2000-01-01 02:00:00,4,2
2000-01-01 03:00:00,11,7
2000-01-01 04:00:00,11,11
...,...,...
2000-12-30 19:00:00,10,6
2000-12-30 20:00:00,16,12
2000-12-30 21:00:00,11,9
2000-12-30 22:00:00,3,10


### [17.3] Resampling Data dengan Interval Monthly
- .resample() akan membutuhkan parameter, dalam kasus ini "m" yang berarti akan merubah ke bulanan.

In [3]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7626
2000-02-29,7052
2000-03-31,7342
2000-04-30,7316
2000-05-31,7636
2000-06-30,7382
2000-07-31,7381
2000-08-31,7432
2000-09-30,7130
2000-10-31,7335


### [17.4] Resampling Data dengan Interval Daily

In [4]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7626
2000-02-29,7052
2000-03-31,7342
2000-04-30,7316
2000-05-31,7636
2000-06-30,7382
2000-07-31,7381
2000-08-31,7432
2000-09-30,7130
2000-10-31,7335


## [18] Membentuk Dummy Data Frame

### [18.1] Import Module

In [5]:
import pandas as pd
import numpy as np
#mencetak versi pandas dan numpy yang akan digunakan
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


### [18.2] Membentuk Data Frame dari Dictionary
- Data Frame yang terbentuk akan terdiri dari dua kolom
- kolom yang pertama akan bernama 'col1' sedangkan kolom kedua akan bernama 'col2'
- Masing-masing kolom akan berisi data seperti yang sudah tertera di baris perintah

In [6]:
pd.DataFrame({'col1':[1,2,3,4],
             'col2':[5,6,7,8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


### [18.3] Membentuk Data Frame dari Numpy Array
- Membentuk Data Frame dengan ukuran baris 5 dan kolom 3
- Isi dari Data Frame adalah angka random antara 1-20
- parameter columns digunakan untuk menyertakan label pada Data Frame

In [7]:
n_rows = 5
n_cols = 3

arr = np.random.randint(1,20,size=(n_rows,n_cols))
arr

array([[ 8,  5,  6],
       [16, 12, 19],
       [17, 17, 13],
       [ 9,  1,  8],
       [18,  1,  8]])

In [8]:
pd.DataFrame(arr,columns=tuple('ABC'))

Unnamed: 0,A,B,C
0,8,5,6
1,16,12,19
2,17,17,13
3,9,1,8
4,18,1,8


### [18.4] Membentuk Data Frame dengan pandas.util.testing
- pd.util.testing.makeDataFrame().head() menghasilkan 5 nilai teratas dari data frame dengan nilai acak
- pd.util.testing.makeMixedDataFrame().head() menghasilkan data frame dengan tipe data mixed
- pd.util.testing.makeTimeDataFrame().head() menghasilkan data frame time series
- pd.util.testing.makeMissingDataframe().head() menghasilkan data frame yang berisi NaN

In [9]:
pd.util.testing.makeDataFrame().head()

Unnamed: 0,A,B,C,D
k3C8nY9Pp2,0.040712,-0.438085,0.891094,1.125152
0i4kvkkmIy,0.251928,-0.202064,0.415824,-0.029918
OyQiS1WcPU,-0.605084,-0.590727,-1.26974,-0.742545
BkPrUjUlF1,-1.604161,-0.495109,1.213387,3.309173
uXsreVo90u,0.586539,-0.328623,0.122612,0.795553


In [10]:
pd.util.testing.makeMixedDataFrame().head()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


In [11]:
pd.util.testing.makeTimeDataFrame().head()

Unnamed: 0,A,B,C,D
2000-01-03,-1.148459,-1.075875,-0.936949,0.075998
2000-01-04,0.444577,0.824174,1.180165,-0.60682
2000-01-05,-1.548884,0.005101,1.861731,0.701411
2000-01-06,0.13443,-0.271095,0.0177,-0.122752
2000-01-07,-1.732479,-0.149877,2.772957,-0.376153


In [13]:
pd.util.testing.makeMissingDataframe().head()

Unnamed: 0,A,B,C,D
GUq6af74XW,-0.013501,0.311221,-0.106874,-1.046411
YLfQAuggl5,1.891137,0.071167,-0.340917,-0.616461
AUyi8FcUQ7,1.546255,0.801559,-0.555344,-1.410537
JrbWBVqBK5,-0.198329,-1.493287,0.653248,0.537444
ivylkWtIvR,-0.644915,-1.197415,0.37498,-0.019016
