![title](https://miro.medium.com/max/481/1*cxfqR8NAj8HGal8CVOZ7hg.png)

#  Python Pandas: Tips & Tricks

# #17: Resampling pada data deret waktu (time series data)

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

In [1]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


## Persiapan Data Frame

- Pada variabel `'n_rows'` 24 merepresentasikan 24 jam dan 365                 merepresentasikan jumlah hari dalam satu tahun
- Membentuk data deret waktu yang intervalnya adalah jam yang akan mengcover durasi selama setahun
- Data Frame di bawah akan diisi oleh bilangan-bilangan integer yang dipilih secara acak atau random

In [3]:
n_rows = 365 * 24
n_cols = 2
cols = ['col1', 'col2']

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                  columns=cols)

df.index = pd.util.testing.makeDateIndex(n_rows, freq='H') # deret waktu
df

Unnamed: 0,col1,col2
2000-01-01 00:00:00,7,10
2000-01-01 01:00:00,2,2
2000-01-01 02:00:00,5,19
2000-01-01 03:00:00,8,15
2000-01-01 04:00:00,5,4
...,...,...
2000-12-30 19:00:00,18,16
2000-12-30 20:00:00,16,15
2000-12-30 21:00:00,16,1
2000-12-30 22:00:00,2,15


## Resampling data dengan interval monthly

- Proses pengelompokan ulang data berdasarkan interval waktu tertentu
- Mengubah interval waktunya berdasarkan bulan 
- Parameter `'M'` akan melakukan resampling ke berbasis bulan

In [4]:
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-31,7055
2000-02-29,6843
2000-03-31,7370
2000-04-30,7217
2000-05-31,7750
2000-06-30,7073
2000-07-31,7393
2000-08-31,7554
2000-09-30,7113
2000-10-31,7417


## Resampling data dengan interval daily

- Mengubah interval waktunya berdasarkan harian

In [5]:
df.resample('D')['col1'].sum().to_frame()

Unnamed: 0,col1
2000-01-01,169
2000-01-02,192
2000-01-03,218
2000-01-04,179
2000-01-05,238
...,...
2000-12-26,235
2000-12-27,253
2000-12-28,245
2000-12-29,259


#  #18: Membentuk dummy Data Frame

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

In [1]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


## Membentuk Data Frame dari Dictionary

- Dictionary memiliki pasangan keys dan values
- Key nya akan berkorelasi atau membentuk label kolom, sedangkan value nya akan   berisi data untuk kolom tersebut

In [2]:
# dummy Data Frame
pd.DataFrame({'col1':[1, 2, 3, 4],  # kolom 1
              'col2':[5, 6, 7, 8]}) # kolom 2

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


## Membentuk Data Frame dari Numpy Array

- Data Frame di bawah memiliki 5 baris dan 3 kolom
- Data Frame di bawah akan diisi oleh bilangan-bilangan integer yang dipilih     secara acak atau random

In [3]:
# data array
n_rows = 5
n_cols = 3

arr = np.random.randint(1, 20, size=(n_rows, n_cols))
arr

array([[11, 13, 15],
       [ 6, 14,  7],
       [ 2,  2, 11],
       [ 3,  6, 13],
       [12, 19,  8]])

In [4]:
pd.DataFrame(arr, columns=tuple('ABC'))

Unnamed: 0,A,B,C
0,11,13,15
1,6,14,7
2,2,2,11
3,3,6,13
4,12,19,8


## Membentuk Data Frame dengan memanfaatkan `pandas.util.testing`

- Fungsi `pandas.util.testing` adalah untuk membentuk dummy data frame
- Fungsi `head()` untuk menampilkan 5 baris pertama saja
- Fungsi `makeMixedDataFrame()` adalah membentuk suatu data frame yang tipe       datanya campur
- `makeTimeDataFrame()` berisi data frame deret waktu

In [5]:
pd.util.testing.makeDataFrame().head()

Unnamed: 0,A,B,C,D
YGIau44jSI,-1.349439,2.010367,-0.398968,0.241684
UffQtTogc5,-0.515909,0.412669,1.650839,-0.270157
7MP2ruJhyF,-0.25002,0.913252,0.761125,-0.415896
rrtMN0rrsZ,0.87886,-1.452973,2.200747,-1.709246
XbrM4sOAfE,1.460864,1.290619,0.056501,-0.871036


In [6]:
pd.util.testing.makeMixedDataFrame().head()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


In [7]:
pd.util.testing.makeTimeDataFrame().head()

Unnamed: 0,A,B,C,D
2000-01-03,0.182558,0.449402,0.440205,0.814457
2000-01-04,0.524906,-0.209345,0.498653,0.353571
2000-01-05,-0.158945,-2.085233,-0.989379,-0.71927
2000-01-06,-0.968223,-0.232923,-0.121683,0.569513
2000-01-07,0.922599,0.247037,0.659859,-1.913321


In [8]:
pd.util.testing.makeMissingDataframe().head() # missing value

Unnamed: 0,A,B,C,D
j50uXsUJmf,0.295986,0.702802,0.613237,2.148918
V6reXShfKL,-0.205961,0.881759,-1.280412,1.08576
Z48eNdDJAD,0.273121,-0.80147,0.570949,2.500706
1RgBuer3l8,,1.208887,0.495262,0.262521
NuOBo7vabq,1.667019,,0.647313,-2.092675


# #19: Formatting tampilan Data Frame

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

In [9]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


## Persiapan Data Frame

- Membentuk Data Frame sederhana yang terdiri dari 5 baris dan 2 kolom

In [10]:
n_rows = 5
n_cols = 2
cols = ['omset', 'operasional']

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                  columns=cols)
df

Unnamed: 0,omset,operasional
0,17,5
1,13,10
2,16,13
3,11,8
4,17,12


In [11]:
# konversikan ke rupiah
df['omset'] = df['omset'] * 100_000 
df['operasional'] = df['operasional'] * 10_000
df

Unnamed: 0,omset,operasional
0,1700000,50000
1,1300000,100000
2,1600000,130000
3,1100000,80000
4,1700000,120000


In [12]:
# membentuk kolom baru tanggal
df.index = pd.util.testing.makeDateIndex(n_rows, freq='D') # D=Daily
df = df.reset_index()
df = df.rename(columns={'index':'tanggal'}) # mengubah nama kolom
df

Unnamed: 0,tanggal,omset,operasional
0,2000-01-01,1700000,50000
1,2000-01-02,1300000,100000
2,2000-01-03,1600000,130000
3,2000-01-04,1100000,80000
4,2000-01-05,1700000,120000


## Melakukan formatting tampilan Data Frame

- Sebuah dictionary ditampung ke dalam sebuah variabel dengan nama `formatku`
- Urutan kolomnya tidak harus sesuai dengan urutan pada data framenya
- Data di bawah memiliki 3 keys, values untuk setiap keys nya akan berisi         formatting terhadap datanya 

In [13]:
formatku = {'tanggal':'{:%d/%m/%y}', # string
           'operasional':'Rp {:.2f}', # formatting rupiah
           'omset':'Rp {:.2f}'}

laporan = df.style.format(formatku)
laporan

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 1700000.00,Rp 50000.00
1,02/01/00,Rp 1300000.00,Rp 100000.00
2,03/01/00,Rp 1600000.00,Rp 130000.00
3,04/01/00,Rp 1100000.00,Rp 80000.00
4,05/01/00,Rp 1700000.00,Rp 120000.00


In [14]:
type(laporan) # untuk mengetahui type data di atas

pandas.io.formats.style.Styler

In [15]:
laporan.hide_index()

tanggal,omset,operasional
01/01/00,Rp 1700000.00,Rp 50000.00
02/01/00,Rp 1300000.00,Rp 100000.00
03/01/00,Rp 1600000.00,Rp 130000.00
04/01/00,Rp 1100000.00,Rp 80000.00
05/01/00,Rp 1700000.00,Rp 120000.00


In [16]:
laporan.set_caption('Data Omset dan Operasional') # untuk menyertakan judul

tanggal,omset,operasional
01/01/00,Rp 1700000.00,Rp 50000.00
02/01/00,Rp 1300000.00,Rp 100000.00
03/01/00,Rp 1600000.00,Rp 130000.00
04/01/00,Rp 1100000.00,Rp 80000.00
05/01/00,Rp 1700000.00,Rp 120000.00


- Memberikan highlight terkait nilai minimum dan maximum yang dimiliki oleh       suatu kolom

In [17]:
laporan.highlight_min('omset', color='pink')
laporan.highlight_max('omset', color='lightgreen')

laporan.highlight_min('operasional', color='lightblue')
laporan.highlight_max('operasional', color='grey')

tanggal,omset,operasional
01/01/00,Rp 1700000.00,Rp 50000.00
02/01/00,Rp 1300000.00,Rp 100000.00
03/01/00,Rp 1600000.00,Rp 130000.00
04/01/00,Rp 1100000.00,Rp 80000.00
05/01/00,Rp 1700000.00,Rp 120000.00


# #20: Menggabungkan (merge) dua Data Frame secara berdampingan

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas kalian

In [18]:
import pandas as pd

print(pd.__version__)

1.1.3


## Persiapan Data Frame

- Data Frame pertama ditampung ke dalam variabel df1
- Data Frame kedua ditampung ke dalam variabel df2

In [19]:
d1 = {'col1':[1, 2, 3],
      'col2':[10, 20, 30]}
df1 = pd.DataFrame(d1)
df1

Unnamed: 0,col1,col2
0,1,10
1,2,20
2,3,30


In [20]:
d2 = {'col3':[4, 5, 6],
      'col4':[40, 50, 60]}
df2 = pd.DataFrame(d2)
df2

Unnamed: 0,col3,col4
0,4,40
1,5,50
2,6,60


## Menggabungkan (merge) dua Data Frame secara berdampingan

- Penggabungan atau merge dua data frame yang sifatnya ke samping

In [21]:
df = pd.merge(df1, df2, left_index=True, right_index=True)
df

Unnamed: 0,col1,col2,col3,col4
0,1,10,4,40
1,2,20,5,50
2,3,30,6,60
