# **Pandas 05**

# **#17 Resampling pada Data Deret Waktu (time series data)** 
Source : [Indonesia Belajar](https://youtu.be/zYcQgmzcHRM)

# Import Modules

In [1]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


# Persiapan Data Frame
- Baris pada data frame kali ini bernilai jumlah hari dikali jam dalam sehari.
- Berisi deret waktu dengan frekuensi per hour.

In [2]:
# Menentukan jumlah baris (n_rows) dan kolom (n_cols) dalam data frame
n_rows = 365 * 24
n_cols = 2

# Menentukan label kolom (cols) dalam data frame
cols = ['col1', 'col2']

# Membuat data frame dengan nilai acak dari 1 hingga 20, dengan jumlah baris dan kolom yang telah ditentukan
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                  columns=cols)

# Menggunakan pd.date_range untuk membuat indeks tanggal dengan frekuensi 'H' (jam)
df.index = pd.date_range(start='2023-01-01', periods=n_rows, freq='H')

# Menampilkan data frame yang telah dibuat
df

Unnamed: 0,col1,col2
2023-01-01 00:00:00,1,4
2023-01-01 01:00:00,4,16
2023-01-01 02:00:00,5,19
2023-01-01 03:00:00,15,1
2023-01-01 04:00:00,1,4
...,...,...
2023-12-31 19:00:00,2,16
2023-12-31 20:00:00,18,18
2023-12-31 21:00:00,9,11
2023-12-31 22:00:00,12,10


# Resampling Data dengan Interval Monthly
- Resampling di dalam time series, bisa diartikan sebagai pengelompokkkan ulang data berdasarkan interval waktu tertentu.
- Dengan menyertakan parameter M dalam fungsi resample(), kita bisa mengubah hourly based jadi monthly based.
- Data yang sudah di resample tidak bisa diakses per-individual ulang, tetapi data yang bisa kita akses adalah data agregasi.
- Data agregasi yang dimaksud adalah data yang sudah dikenakan fungsi sum()

In [3]:
# Menggunakan metode resample pada data frame untuk mengelompokkan data berdasarkan frekuensi bulan ('M')
df.resample('M')['col1'].sum().to_frame()

Unnamed: 0,col1
2023-01-31,7324
2023-02-28,6716
2023-03-31,7572
2023-04-30,7190
2023-05-31,7474
2023-06-30,7444
2023-07-31,7373
2023-08-31,7430
2023-09-30,7452
2023-10-31,7224


# Resampling Data dengan Interval Daily
- Dengan menggunakan parameter D dalam fungsi resample(), kita bisa mengubah monthly based jadi daily based.

In [4]:
# Menggunakan metode resample pada data frame untuk mengelompokkan data berdasarkan frekuensi harian ('D')
df.resample('D')['col1'].sum().to_frame()

Unnamed: 0,col1
2023-01-01,236
2023-01-02,257
2023-01-03,278
2023-01-04,231
2023-01-05,233
...,...
2023-12-27,252
2023-12-28,252
2023-12-29,282
2023-12-30,202


# **#18 Membentuk dummy Data Frame**
Source : [Indonesia Belajar](https://youtu.be/JpvfG6in548)

# Import Modules

In [5]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


# Membentuk Data Frame dari Dictionary
- Menggunakan dictionary. Dimana keys akan menjadi nama kolom dan value akan menjadi nilai dari kolom.

In [6]:
pd.DataFrame({'col1':[1, 2, 3, 4], 
              'col2':[5, 6, 7, 8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


# Membentuk Data Frame dari Numpy Array
- Pertama tentukan jumlah baris dan kolom.
- Generate random integer untuk baris dan kolom tersebut.
- Simpan kedalam suatu variabel.
- Masukkan kedalam dataframe.
- Karena numpy array tidak memiliki nama label, pada kasus kali ini kita menggunakan fungsi tuple untuk nama tabel.

In [7]:
# Menentukan jumlah baris (n_rows) dan kolom (n_cols) dalam array
n_rows = 5
n_cols = 3

# Menghasilkan array 2D dengan nilai acak dari 1 hingga 20
arr = np.random.randint(1, 20, size=(n_rows, n_cols))

# Menampilkan array yang telah dibuat
arr

array([[12, 10, 15],
       [ 6,  4,  7],
       [ 8, 17,  8],
       [ 5, 15, 10],
       [18,  7,  1]])

In [8]:
# Menggunakan library pandas untuk membuat data frame dari array (arr)
# Menetapkan label kolom 'A', 'B', dan 'C' pada data frame menggunakan tuple('ABC')
df = pd.DataFrame(arr, columns=tuple('ABC'))

# Membentuk Data Frame dengan Memanfaatkan pandas.util.testing
1. Membuat dummy dataframe

In [9]:
# Membuat data frame dummy dengan waktu menggunakan pd.date_range
# dan menambahkan kolom dengan nilai acak menggunakan numpy
date_rng = pd.date_range(start='2023-01-01', end='2023-01-05', freq='D')
df = pd.DataFrame(date_rng, columns=['Date'])
df['value'] = np.random.randint(1, 100, size=(len(date_rng)))

# Menampilkan lima data awal dari data frame
result = df.reset_index(drop=True)
print(result)

        Date  value
0 2023-01-01     81
1 2023-01-02     74
2 2023-01-03     58
3 2023-01-04     76
4 2023-01-05     22


2. Membuat dummy dataframe dengan tipe data yang berbeda

In [10]:
# Membuat dummy dataframe dengan tipe data yang berbeda
data = {
    'col1': np.random.randint(1, 100, size=5),
    'col2': np.random.rand(5),
    'col3': ['A', 'B', 'C', 'D', 'E'],
    'col4': pd.date_range(start='2023-01-01', periods=5, freq='D'),
    'col5': [True, False, True, False, True]
}

# Membuat dataframe dari kamus data
df = pd.DataFrame(data)

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,col1,col2,col3,col4,col5
0,10,0.161284,A,2023-01-01,True
1,52,0.696449,B,2023-01-02,False
2,98,0.876159,C,2023-01-03,True
3,44,0.63703,D,2023-01-04,False
4,41,0.6588,E,2023-01-05,True


3. Membuat dummy dataframe yang berisi time series data

In [11]:
# Membuat indeks dengan deret waktu menggunakan pd.date_range
date_index = pd.date_range(start='2000-01-03', periods=5, freq='D')

# Membuat dataframe dengan nilai acak
df = pd.DataFrame(np.random.randn(5, 4), index=date_index, columns=['A', 'B', 'C', 'D'])

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,A,B,C,D
2000-01-03,-0.73636,-0.456435,0.55426,-0.232226
2000-01-04,1.648071,0.278885,-0.636215,1.196401
2000-01-05,0.643444,0.964064,-1.24919,-1.078904
2000-01-06,0.916769,0.097315,-1.446029,-0.91592
2000-01-07,0.619339,-0.118122,0.049548,-0.434976


4. Membuat dummy dataframe dengan beberapa missing value yang ditempatkan secara acak

In [12]:
# Membuat indeks dan kolom untuk dataframe
index = ['WmDnD0VgHq', 'oK5aIeQDwO', 'kRIH8XgQXB', 'xOQltmT4oD', '6QBa6ZnCaP']
columns = ['A', 'B', 'C', 'D']

# Membuat dataframe dengan nilai acak
df = pd.DataFrame(np.random.randn(5, 4), index=index, columns=columns)

# Menetapkan beberapa nilai sebagai NaN secara acak
random_indices = np.random.choice(df.size, replace=False, size=int(df.size * 0.2))
df.values.flat[random_indices] = np.nan

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,A,B,C,D
WmDnD0VgHq,1.140141,0.743373,0.559723,1.001264
oK5aIeQDwO,0.600068,,0.997585,
kRIH8XgQXB,0.816349,-1.550421,2.004505,-2.147276
xOQltmT4oD,-0.770811,1.407143,0.342782,
6QBa6ZnCaP,-1.988255,-1.054597,-0.999648,


# **#19 Formatting tampilan Data Frame**
Source : [Indonesia Belajar](https://youtu.be/ySKDbYXFN2M)

# Import Modules

In [13]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


# Persiapan Data Frame

In [14]:
n_rows = 5
n_cols = 2
cols = ['omset', 'operasional']

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                  columns=cols)
df

Unnamed: 0,omset,operasional
0,6,16
1,6,5
2,5,7
3,2,13
4,10,11


- Konversi omset dan operasional menjadi rupiah.
- Underscore dalam python tidak akan membuat bilangan menjadi error, itu hanya digunakan untuk membantu membaca bilangan.

In [15]:
df['omset'] = df['omset'] * 100_000
df['operasional'] = df['operasional'] * 10_000
df

Unnamed: 0,omset,operasional
0,600000,160000
1,600000,50000
2,500000,70000
3,200000,130000
4,1000000,110000


- Membuat kolom tanggal
- Diisi dengan menggunakan fungsi generate dengan frequensi daily based.

In [16]:
# Menambahkan kolom 'tanggal'
start_date = pd.to_datetime('2000-01-01')
df['tanggal'] = pd.date_range(start=start_date, periods=n_rows)

# Reorder columns to match the desired order
df = df[['tanggal', 'omset', 'operasional']]

# Display the DataFrame
df

Unnamed: 0,tanggal,omset,operasional
0,2000-01-01,600000,160000
1,2000-01-02,600000,50000
2,2000-01-03,500000,70000
3,2000-01-04,200000,130000
4,2000-01-05,1000000,110000


# Melakukan formatting tampilan Data Frame
- Gunakan dictionary dan tampung kedalam variabel.
- Untuk setiap key disesuaikan dengan nama kolomnya, tetapi urutannya bebas.
- Formatting menggunakan tipe data string.
- :.2f digunakan untuk menyertakan 2 digit exstra di belakang koma.

In [17]:
# Format yang akan digunakan untuk menampilkan DataFrame
formatku = {'tanggal': '{:%d/%m/%y}', 'operasional': 'Rp {:.2f}', 'omset': 'Rp {:.2f}'}

# Membuat objek Styler untuk DataFrame dengan format yang ditentukan
laporan = df.style.format(formatku)

# Menampilkan objek Styler, bukan objek DataFrame
laporan

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 600000.00,Rp 160000.00
1,02/01/00,Rp 600000.00,Rp 50000.00
2,03/01/00,Rp 500000.00,Rp 70000.00
3,04/01/00,Rp 200000.00,Rp 130000.00
4,05/01/00,Rp 1000000.00,Rp 110000.00


- Variabel laporan bukan objek dataframe
- Objek dataframe tetaplah df

In [18]:
# Menampilkan tipe data dari objek Styler
type(laporan)

pandas.io.formats.style.Styler

Menghilangkan index (0, 1, ...).

In [19]:
# Membuat salinan DataFrame dan mengganti indeksnya dengan string kosong
df_temp = df.copy()
df_temp.index = [''] * len(df)

# Membuat objek Styler dengan format yang telah ditentukan
df_temp_styled = df_temp.style.format(formatku)

# Menampilkan tampilan yang diformat menggunakan Styler
df_temp_styled

Unnamed: 0,tanggal,omset,operasional
,01/01/00,Rp 600000.00,Rp 160000.00
,02/01/00,Rp 600000.00,Rp 50000.00
,03/01/00,Rp 500000.00,Rp 70000.00
,04/01/00,Rp 200000.00,Rp 130000.00
,05/01/00,Rp 1000000.00,Rp 110000.00


- Memberi keterangan

In [20]:
# Menambahkan judul/caption ke Styler
laporan.set_caption('Data Omset dan Operasional')

# Memberikan caption atau judul pada tampilan Styler untuk memberikan konteks atau informasi tambahan.

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 600000.00,Rp 160000.00
1,02/01/00,Rp 600000.00,Rp 50000.00
2,03/01/00,Rp 500000.00,Rp 70000.00
3,04/01/00,Rp 200000.00,Rp 130000.00
4,05/01/00,Rp 1000000.00,Rp 110000.00


- Memberi penanda warna pada dataframe

In [21]:
# Menyoroti nilai minimum dan maksimum pada kolom 'omset' dengan warna berbeda
laporan.highlight_min('omset', color='pink')
laporan.highlight_max('omset', color='lightgreen')

# Menyoroti nilai minimum dan maksimum pada kolom 'operasional' dengan warna berbeda
laporan.highlight_min('operasional', color='lightblue')
laporan.highlight_max('operasional', color='grey')

# Menyajikan tampilan yang diberi sorotan untuk memvisualisasikan nilai minimum dan maksimum pada data omset dan operasional.

Unnamed: 0,tanggal,omset,operasional
0,01/01/00,Rp 600000.00,Rp 160000.00
1,02/01/00,Rp 600000.00,Rp 50000.00
2,03/01/00,Rp 500000.00,Rp 70000.00
3,04/01/00,Rp 200000.00,Rp 130000.00
4,05/01/00,Rp 1000000.00,Rp 110000.00


# **#20 Menggabungkan (merge) Dua Data Frame Secara Berdampingan**
Source : [Indonesia Belajar](https://youtu.be/AldqObRhkDU)

# Import Modules

In [22]:
import pandas as pd

print(pd.__version__)

2.1.1


- Membuat 2 buah dataframe
- Masing-masing dataframe akan memiliki dua buah dictionary

In [23]:
# Membuat DataFrame 'df1' dengan dua kolom ('col1' dan 'col2') dan tiga baris data.
d1 = {'col1':[1, 2, 3], 
      'col2':[10, 20, 30]}
df1 = pd.DataFrame(d1)
df1

Unnamed: 0,col1,col2
0,1,10
1,2,20
2,3,30


In [24]:
# Membuat DataFrame 'df2' dengan dua kolom ('col3' dan 'col4') dan tiga baris data.
d2 = {'col3':[4, 5, 6], 
      'col4':[40, 50, 60]}
df2 = pd.DataFrame(d2)
df2

Unnamed: 0,col3,col4
0,4,40
1,5,50
2,6,60


- Berbeda dengan trick sebelumnya
- Kali ini, kita hanya perlu menambahkan arguments True pada parameter left_index dan right_index.

In [25]:
# Menggabungkan dua DataFrame, 'df1' dan 'df2', berdasarkan indeks (left_index=True dan right_index=True).
df = pd.merge(df1, df2, left_index=True, right_index=True)
df

Unnamed: 0,col1,col2,col3,col4
0,1,10,4,40
1,2,20,5,50
2,3,30,6,60
