![pandas.png](attachment:pandas.png)

## [17] Resampling Data Deret Waktu (Time Series Data)

### [17.1] Import Module

In [2]:
import pandas as pd
import numpy as np
#mencetak versi pandas dan numpy yang akan digunakan
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


### [17.2] Persiapan Data Frame
- Jumlah baris yang akan dibentuk adalah 365 x 24 
- 24 merepresentasikan 24 jam dalam 1 hari
- 365 merepresentasikan jumlah hari dalam 1 tahun
- karena kita akan bermain dengan waktu, maka pada index dipanggil pd.util.testing.makeDateIndex()

In [3]:
n_rows = 365*24
n_cols = 2
cols = ['col1','col2']

df = pd.DataFrame(np.random.randint(1,20,size=(n_rows,n_cols)),columns=cols)
df.index = pd.util.testing.makeDateIndex(n_rows,freq='H')
df

  import pandas.util.testing


Unnamed: 0,col1,col2
2000-01-01 00:00:00,4,16
2000-01-01 01:00:00,11,15
2000-01-01 02:00:00,18,16
2000-01-01 03:00:00,11,18
2000-01-01 04:00:00,12,5
...,...,...
2000-12-30 19:00:00,17,14
2000-12-30 20:00:00,17,13
2000-12-30 21:00:00,3,18
2000-12-30 22:00:00,12,6


### [17.3] Resampling Data dengan Interval Monthly
- .resample() akan membutuhkan parameter, dalam kasus ini "m" yang berarti akan merubah ke bulanan.

In [4]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7347
2000-02-29,7150
2000-03-31,7460
2000-04-30,6901
2000-05-31,7208
2000-06-30,7150
2000-07-31,7643
2000-08-31,7519
2000-09-30,7274
2000-10-31,7096


### [17.4] Resampling Data dengan Interval Daily

In [5]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7347
2000-02-29,7150
2000-03-31,7460
2000-04-30,6901
2000-05-31,7208
2000-06-30,7150
2000-07-31,7643
2000-08-31,7519
2000-09-30,7274
2000-10-31,7096


## [18] Membentuk Dummy Data Frame

### [18.1] Import Module

In [6]:
import pandas as pd
import numpy as np
#mencetak versi pandas dan numpy yang akan digunakan
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


### [18.2] Membentuk Data Frame dari Dictionary
- Data Frame yang terbentuk akan terdiri dari dua kolom
- kolom yang pertama akan bernama 'col1' sedangkan kolom kedua akan bernama 'col2'
- Masing-masing kolom akan berisi data seperti yang sudah tertera di baris perintah

In [7]:
pd.DataFrame({'col1':[1,2,3,4],
             'col2':[5,6,7,8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


### [18.3] Membentuk Data Frame dari Numpy Array
- Membentuk Data Frame dengan ukuran baris 5 dan kolom 3
- Isi dari Data Frame adalah angka random antara 1-20
- parameter columns digunakan untuk menyertakan label pada Data Frame

In [8]:
n_rows = 5
n_cols = 3

arr = np.random.randint(1,20,size=(n_rows,n_cols))
arr

array([[17,  4,  9],
       [ 4, 19, 17],
       [14, 11, 13],
       [ 4, 10,  4],
       [15,  6, 14]])

In [9]:
pd.DataFrame(arr,columns=tuple('ABC'))

Unnamed: 0,A,B,C
0,17,4,9
1,4,19,17
2,14,11,13
3,4,10,4
4,15,6,14


### [18.4] Membentuk Data Frame dengan pandas.util.testing
- pd.util.testing.makeDataFrame().head() menghasilkan 5 nilai teratas dari data frame dengan nilai acak
- pd.util.testing.makeMixedDataFrame().head() menghasilkan data frame dengan tipe data mixed
- pd.util.testing.makeTimeDataFrame().head() menghasilkan data frame time series
- pd.util.testing.makeMissingDataframe().head() menghasilkan data frame yang berisi NaN

In [10]:
pd.util.testing.makeDataFrame().head()

Unnamed: 0,A,B,C,D
xwd8jwvCKR,2.025275,0.743895,-1.176336,0.784684
AB310zgDTQ,1.818639,1.631153,0.455431,-1.293774
d0Ol2OPXvD,-1.166882,-0.546341,0.711994,0.622458
ztLto4x7TL,0.091206,-0.870398,-0.38573,1.368666
WLANEq51Sh,-0.527434,2.024866,-0.031467,-1.012879


In [11]:
pd.util.testing.makeMixedDataFrame().head()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


In [12]:
pd.util.testing.makeTimeDataFrame().head()

Unnamed: 0,A,B,C,D
2000-01-03,-0.975119,2.594905,-1.10108,0.430718
2000-01-04,-0.374013,-0.672527,0.126766,1.728706
2000-01-05,0.280898,1.073704,-0.930198,0.419677
2000-01-06,-0.841844,-1.287554,0.187635,0.378845
2000-01-07,-1.376904,1.970004,0.047597,0.91884


In [13]:
pd.util.testing.makeMissingDataframe().head()

Unnamed: 0,A,B,C,D
abYjWsESg4,,0.345701,-1.527305,
1BVPSCygD8,-0.885694,0.264411,-0.673291,-0.25806
sU4zqH1yE0,-0.7519,-0.930788,-0.482056,
KX12jCcxh5,-0.573756,,-1.312142,0.040154
sGtbLv0Fp5,,-0.156594,1.462409,2.211806


### [19] Formatting Tampilan Data Frame

### [19.1] Import Module

In [14]:
import pandas as pd
import numpy as np
#mencetak versi pandas dan numpy yang akan digunakan
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


### [19.2] Persiapan Data Frame
- Membuat Data Frame dengan kolom 'omset' dan 'operasional'
- Mengubah format omset dan operasional kedalam bentuk puluhan ribu dan ratusan ribu
- Membuat Date Index dengan interval Day dan mengubah nama kolom tersebut menjadi "tanggal"

In [15]:
n_rows =5
n_cols = 2
cols = ['omset','operasional']

df = pd.DataFrame(np.random.randint(1,20,size=(n_rows,n_cols)),columns=cols)
df

Unnamed: 0,omset,operasional
0,9,13
1,6,2
2,11,14
3,6,2
4,10,16


In [16]:
df['omset']=df['omset']*100_000
df['operasional']=df['operasional']*10_000
df

Unnamed: 0,omset,operasional
0,900000,130000
1,600000,20000
2,1100000,140000
3,600000,20000
4,1000000,160000


In [17]:
df.index = pd.util.testing.makeDateIndex(n_rows,freq='D')
df = df.reset_index()
df = df.rename(columns={'index':'tanggal'})
df

Unnamed: 0,tanggal,omset,operasional
0,2000-01-01,900000,130000
1,2000-01-02,600000,20000
2,2000-01-03,1100000,140000
3,2000-01-04,600000,20000
4,2000-01-05,1000000,160000


### [19.3] Melakukan Formatting Tampilan Data Frame
- Merubah format tanggal dan rupiah dalam data frame
- type data pada variabel laporan bukan data frame melainkan pandas.io.formats.style.Styler , maka dari itu pada laporan tidak bisa dilakukan method .head()
- untuk menyembunyikan index pada laporan dilakukan method .hide_index()
- untuk melakukan set caption dilakukan .set_caption()
- untuk data data penting dapat dilakukan highlight untuk masing-masing data

In [18]:
formatku = {'tanggal':'{:%d/%m/%y}',
           'operasional':'Rp {:.2f}',
           'omset':'Rp {:.2f}'}
laporan = df.style.format(formatku)
laporan

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 900000.00,Rp 130000.00
1,02/01/00,Rp 600000.00,Rp 20000.00
2,03/01/00,Rp 1100000.00,Rp 140000.00
3,04/01/00,Rp 600000.00,Rp 20000.00
4,05/01/00,Rp 1000000.00,Rp 160000.00


In [19]:
type(laporan)

pandas.io.formats.style.Styler

In [20]:
laporan.hide_index()

tanggal,omset,operasional
01/01/00,Rp 900000.00,Rp 130000.00
02/01/00,Rp 600000.00,Rp 20000.00
03/01/00,Rp 1100000.00,Rp 140000.00
04/01/00,Rp 600000.00,Rp 20000.00
05/01/00,Rp 1000000.00,Rp 160000.00


In [21]:
laporan.set_caption('Data Omset dan Operasional')

tanggal,omset,operasional
01/01/00,Rp 900000.00,Rp 130000.00
02/01/00,Rp 600000.00,Rp 20000.00
03/01/00,Rp 1100000.00,Rp 140000.00
04/01/00,Rp 600000.00,Rp 20000.00
05/01/00,Rp 1000000.00,Rp 160000.00


In [22]:
laporan.highlight_min('omset',color='pink')
laporan.highlight_max('omset',color='lightgreen')

laporan.highlight_min('operasional',color='lightblue')
laporan.highlight_min('operasional',color='grey')

tanggal,omset,operasional
01/01/00,Rp 900000.00,Rp 130000.00
02/01/00,Rp 600000.00,Rp 20000.00
03/01/00,Rp 1100000.00,Rp 140000.00
04/01/00,Rp 600000.00,Rp 20000.00
05/01/00,Rp 1000000.00,Rp 160000.00


## [20] Menggabungkan (merge) dua Data Frame secara berdampingan
- Mempersiapkan dua data frame
- Menggabungkan dua

### [20.1] Import Module

In [23]:
import pandas as pd
print(pd.__version__)

1.0.5


### [20.2] Persiapan Data Frame

In [24]:
d1 = {'col1':[1,2,3],
     'col2':[10,20,30]}
df1 = pd.DataFrame(d1)
df1

Unnamed: 0,col1,col2
0,1,10
1,2,20
2,3,30


In [25]:
d2 = {'col1':[4,5,6],
     'col2':[40,50,60]}
df2 = pd.DataFrame(d2)
df2

Unnamed: 0,col1,col2
0,4,40
1,5,50
2,6,60


### [20.3] Menggabungkan dua Data Frame

In [26]:
df = pd.merge(df1,df2,left_index=True,right_index=True)
df

Unnamed: 0,col1_x,col2_x,col1_y,col2_y
0,1,10,4,40
1,2,20,5,50
2,3,30,6,60
