# **Pandas  Week 05**

# **#17 Resampling pada Data Deret Waktu (time series data)**

# Import Modules

In [2]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.3.4
1.20.3


# Persiapan Data Frame
- Baris pada data frame kali ini bernilai jumlah hari dikali jam dalam sehari.
- Berisi deret waktu dengan frekuensi per hour.

In [3]:
n_rows = 365 * 24
n_cols = 2
cols = ['col1', 'col2']

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                  columns=cols)

df.index = pd.util.testing.makeDateIndex(n_rows, freq='H')
df

  import pandas.util.testing


Unnamed: 0,col1,col2
2000-01-01 00:00:00,11,5
2000-01-01 01:00:00,12,17
2000-01-01 02:00:00,7,10
2000-01-01 03:00:00,12,9
2000-01-01 04:00:00,7,7
...,...,...
2000-12-30 19:00:00,5,14
2000-12-30 20:00:00,19,7
2000-12-30 21:00:00,2,10
2000-12-30 22:00:00,4,13


# Resampling Data dengan Interval Monthly
- Resampling di dalam time series, bisa diartikan sebagai pengelompokkkan ulang data berdasarkan interval waktu tertentu.
- Dengan menyertakan parameter M dalam fungsi resample(), kita bisa mengubah hourly based jadi monthly based.
- Data yang sudah di resample tidak bisa diakses per-individual ulang, tetapi data yang bisa kita akses adalah data agregasi.
- Data agregasi yang dimaksud adalah data yang sudah dikenakan fungsi sum()

In [4]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7338
2000-02-29,6954
2000-03-31,7390
2000-04-30,6961
2000-05-31,7622
2000-06-30,7158
2000-07-31,7291
2000-08-31,7394
2000-09-30,7117
2000-10-31,7557


# Resampling Data dengan Interval Daily
- Dengan menggunakan parameter D dalam fungsi resample(), kita bisa mengubah monthly based jadi daily based.

In [5]:
df.resample('D')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-01,253
2000-01-02,238
2000-01-03,231
2000-01-04,230
2000-01-05,263
...,...
2000-12-26,242
2000-12-27,224
2000-12-28,209
2000-12-29,287


# **#18 Membentuk dummy Data Frame**

# Import Modules

In [6]:
import pandas as pd
import numpy as np

#Cek versi
print(pd.__version__)
print(np.__version__)

1.3.4
1.20.3


# Membentuk Data Frame dari Dictionary
- Menggunakan dictionary. Dimana keys akan menjadi nama kolom dan value akan menjadi nilai dari kolom.

In [7]:
pd.DataFrame({'col1':[1, 2, 3, 4], 
              'col2':[5, 6, 7, 8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


# Membentuk Data Frame dari Numpy Array
- Pertama tentukan jumlah baris dan kolom.
- Generate random integer untuk baris dan kolom tersebut.
- Simpan kedalam suatu variabel.
- Masukkan kedalam dataframe.
- Karena numpy array tidak memiliki nama label, pada kasus kali ini kita menggunakan fungsi tuple untuk nama tabel.

In [8]:
n_rows = 5
n_cols = 3

arr = np.random.randint(1, 20, size=(n_rows, n_cols))
arr

array([[11, 14,  4],
       [ 7, 10, 13],
       [ 2,  2,  6],
       [19,  8, 12],
       [17, 10,  8]])

In [9]:
pd.DataFrame(arr, columns=tuple('ABC'))

Unnamed: 0,A,B,C
0,11,14,4
1,7,10,13
2,2,2,6
3,19,8,12
4,17,10,8


# Membentuk Data Frame dengan Memanfaatkan pandas.util.testing
1. Membuat dummy dataframe

In [10]:
pd.util.testing.makeDataFrame().head()

Unnamed: 0,A,B,C,D
gtth7Q4mQ7,-1.197606,-2.029391,1.26994,1.098976
UB5P5gwmPj,1.942781,0.996833,0.300223,0.690016
9WwmuOlYF0,0.132541,-0.54296,1.047049,0.166713
0ATxA2CXSW,0.086271,0.260868,0.019661,-1.278729
YOW8lAKfOd,0.126038,-0.115051,1.399522,-0.272485


2. Membuat dummy dataframe dengan tipe data yang berbeda

In [11]:
pd.util.testing.makeMixedDataFrame().head()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


3. Membuat dummy dataframe yang berisi time series data

In [12]:
pd.util.testing.makeTimeDataFrame().head()

Unnamed: 0,A,B,C,D
2000-01-03,0.378199,-0.566141,-0.260039,1.750429
2000-01-04,1.648557,-0.067743,0.385532,1.636059
2000-01-05,-1.002903,0.571795,-0.20959,0.464391
2000-01-06,-0.328106,-0.540872,-1.135105,0.346032
2000-01-07,1.2499,0.725777,1.042259,0.387325


4. Membuat dummy dataframe dengan beberapa missing value yang ditempatkan secara acak

In [13]:
pd.util.testing.makeMissingDataframe().head()

Unnamed: 0,A,B,C,D
WmDnD0VgHq,-1.647592,0.515455,1.445359,1.258687
oK5aIeQDwO,1.755898,0.858617,0.501277,0.787193
kRIH8XgQXB,0.400595,-0.575228,1.629545,0.316911
xOQltmT4oD,1.761875,0.421455,-0.665919,-0.629271
6QBa6ZnCaP,0.784876,0.767798,-0.280505,-0.380771


# **#19 Formatting tampilan Data Frame**

# Import Modules

In [14]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.3.4
1.20.3


# Persiapan Data Frame

In [15]:
n_rows = 5
n_cols = 2
cols = ['omset', 'operasional']

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                  columns=cols)
df

Unnamed: 0,omset,operasional
0,12,13
1,5,8
2,11,5
3,12,15
4,15,8


- Konversi omset dan operasional menjadi rupiah.
- Underscore dalam python tidak akan membuat bilangan menjadi error, itu hanya digunakan untuk membantu membaca bilangan.

In [16]:
df['omset'] = df['omset'] * 100_000
df['operasional'] = df['operasional'] * 10_000
df

Unnamed: 0,omset,operasional
0,1200000,130000
1,500000,80000
2,1100000,50000
3,1200000,150000
4,1500000,80000


- Membuat kolom tanggal
- Diisi dengan menggunakan fungsi generate dengan frequensi daily based.

In [17]:
df.index = pd.util.testing.makeDateIndex(n_rows, freq='D')
df = df.reset_index()
df = df.rename(columns={'index':'tanggal'})
df

Unnamed: 0,tanggal,omset,operasional
0,2000-01-01,1200000,130000
1,2000-01-02,500000,80000
2,2000-01-03,1100000,50000
3,2000-01-04,1200000,150000
4,2000-01-05,1500000,80000


# Melakukan formatting tampilan Data Frame
- Gunakan dictionary dan tampung kedalam variabel.
- Untuk setiap key disesuaikan dengan nama kolomnya, tetapi urutannya bebas.
- Formatting menggunakan tipe data string.
- :.2f digunakan untuk menyertakan 2 digit exstra di belakang koma.

In [18]:
formatku = {'tanggal':'{:%d/%m/%y}', 
            'operasional':'Rp {:.2f}',
            'omset':'Rp {:.2f}'}

laporan = df.style.format(formatku)
laporan # laporan bukan objek dataframe

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 1200000.00,Rp 130000.00
1,02/01/00,Rp 500000.00,Rp 80000.00
2,03/01/00,Rp 1100000.00,Rp 50000.00
3,04/01/00,Rp 1200000.00,Rp 150000.00
4,05/01/00,Rp 1500000.00,Rp 80000.00


- Variabel laporan bukan objek dataframe
- Objek dataframe tetaplah df

In [19]:
type(laporan)

pandas.io.formats.style.Styler

Menghilangkan index (0, 1, ...).

In [20]:
laporan.hide_index()

tanggal,omset,operasional
01/01/00,Rp 1200000.00,Rp 130000.00
02/01/00,Rp 500000.00,Rp 80000.00
03/01/00,Rp 1100000.00,Rp 50000.00
04/01/00,Rp 1200000.00,Rp 150000.00
05/01/00,Rp 1500000.00,Rp 80000.00


- Memberi keterangan

In [21]:
laporan.set_caption('Data Omset dan Operasional')

tanggal,omset,operasional
01/01/00,Rp 1200000.00,Rp 130000.00
02/01/00,Rp 500000.00,Rp 80000.00
03/01/00,Rp 1100000.00,Rp 50000.00
04/01/00,Rp 1200000.00,Rp 150000.00
05/01/00,Rp 1500000.00,Rp 80000.00


- Memberi penanda warna pada dataframe

In [22]:
laporan.highlight_min('omset', color='pink')
laporan.highlight_max('omset', color='lightgreen')

laporan.highlight_min('operasional', color='lightblue')
laporan.highlight_max('operasional', color='grey')

tanggal,omset,operasional
01/01/00,Rp 1200000.00,Rp 130000.00
02/01/00,Rp 500000.00,Rp 80000.00
03/01/00,Rp 1100000.00,Rp 50000.00
04/01/00,Rp 1200000.00,Rp 150000.00
05/01/00,Rp 1500000.00,Rp 80000.00


# **#20 Menggabungkan (merge) Dua Data Frame Secara Berdampingan**

# Import Modules

In [23]:
import pandas as pd

print(pd.__version__)

1.3.4


- Membuat 2 buah dataframe
- Masing-masing dataframe akan memiliki dua buah dictionary

In [24]:
d1 = {'col1':[1, 2, 3], 
      'col2':[10, 20, 30]}
df1 = pd.DataFrame(d1)
df1

Unnamed: 0,col1,col2
0,1,10
1,2,20
2,3,30


In [25]:
d2 = {'col3':[4, 5, 6], 
      'col4':[40, 50, 60]}
df2 = pd.DataFrame(d2)
df2

Unnamed: 0,col3,col4
0,4,40
1,5,50
2,6,60


- Berbeda dengan trick sebelumnya
- Kali ini, kita hanya perlu menambahkan arguments True pada parameter left_index dan right_index.

In [26]:
df = pd.merge(df1, df2, left_index=True, right_index=True)
df

Unnamed: 0,col1,col2,col3,col4
0,1,10,4,40
1,2,20,5,50
2,3,30,6,60
