# **#45 Memadukan loc dan iloc untuk melakukan seleksi data**

**Import Modules**

In [3]:
import pandas as pd

print(pd.__version__)

2.2.2


**Persiapan Data Frame**

In [None]:
df = pd.read_csv('./data/titanicfull.csv')
df.head()

**Memadukan loc dan iloc untuk melakukan seleksi data**

- Sisi sebelah kiri merepresentasikan baris sedangkan sisi sebelah kanan merepresentasikan kolom
- Fungsi iloc berguna untuk menyeleksi baris, sedangkan fungsi loc digunakan untuk menyeleksi kolom
- Catatan: urutan penempatan fungsi loc dan iloc tidak mempengaruhi hasil

In [None]:
df.iloc[15:20, :].loc[:, 'name':'age']

In [None]:
df.loc[:, 'name':'age'].iloc[15:20, :]

# **#46 Seleksi weekdays dan weekends pada data deret waktu (time series)**

**Import Modules**

In [11]:
import pandas as pd
import numpy as np 

print(pd.__version__)
print(np.__version__)

2.2.2
1.26.4


**Persiapan Data Frame**

In [None]:
#DEPRECATED
n_rows = 365
n_cols = 2
cols = ['col1', 'col2']

#Membuat dataframe dengan angka acak
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                   columns=cols)

#Membuat rentang tanggal untuk indeks 
df.index = pd.util.testing.makeDateIndex(n_rows, freq='D')

df

In [16]:
n_rows = 365
n_cols = 2
cols = ['cols1', 'cols2']

# Membuat DataFrame dengan angka acak
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), columns=cols)

# Membuat rentang tanggal untuk indeks
tanggal_index = pd.date_range(start='2023-01-01', periods=n_rows, freq='D')
df.index = tanggal_index

df

Unnamed: 0,cols1,cols2
2023-01-01,7,5
2023-01-02,6,10
2023-01-03,18,9
2023-01-04,5,13
2023-01-05,7,15
...,...,...
2023-12-27,11,8
2023-12-28,19,9
2023-12-29,4,8
2023-12-30,12,5


**Seleksi weekdays dan weekends**

- Parameter dayofweek mengindikasi hari pada suatu minggu tertentu
- 5 index pertama mengindikasikan weekdays (0 - 4), sedangkan 2 index terakhir mengindikasikan weekend (5 - 6)
- Lanjut: 0 adalah senin dan 6 adalah minggu.

In [21]:
weekdays_df = df[df.index.dayofweek.isin([0, 1, 2, 3, 4])]
weekdays_df.head(7)

Unnamed: 0,cols1,cols2
2023-01-02,6,10
2023-01-03,18,9
2023-01-04,5,13
2023-01-05,7,15
2023-01-06,19,9
2023-01-09,17,17
2023-01-10,16,7


In [23]:
weekends_df = df[df.index.dayofweek.isin([5, 6])]
weekends_df.head(7)

Unnamed: 0,cols1,cols2
2023-01-01,7,5
2023-01-07,14,11
2023-01-08,18,8
2023-01-14,15,12
2023-01-15,3,1
2023-01-21,6,4
2023-01-22,5,2


# **#47 Deteksi dan penanganan kolom dengan tipe data beragam (mixed data types)**

**Import Modules**

In [27]:
import pandas as pd

print(pd.__version__)

2.2.2


**Persiapan Data Frame**

In [30]:
d = {'nama':['bejo', 'tejo', 'wati', 'tiwi', 'cecep'], 
     'ipk':[2, '3', 3, 2.75, '3.25']}
df = pd.DataFrame(d)
df

Unnamed: 0,nama,ipk
0,bejo,2.0
1,tejo,3.0
2,wati,3.0
3,tiwi,2.75
4,cecep,3.25


**Deteksi dan penanganan kolom dengan tipe data beragam (mixed data types)**

- Untuk mengetahui mixed data type di kolom IPK, kita perlu memanggil fungsi apply(type) di kolom IPK
- Untuk melihat hasil dari data type pada kolom di data frame, kita dapat memanggil fungsi value_counts()

In [37]:
df.dtypes

nama    object
ipk     object
dtype: object

In [39]:
df['ipk'].apply(type)

0      <class 'int'>
1      <class 'str'>
2      <class 'int'>
3    <class 'float'>
4      <class 'str'>
Name: ipk, dtype: object

In [41]:
df['ipk'].apply(type).value_counts()

ipk
<class 'int'>      2
<class 'str'>      2
<class 'float'>    1
Name: count, dtype: int64

In [49]:
df['ipk'] = df['ipk'].astype(float)

In [47]:
df['ipk'].apply(type).value_counts()

ipk
<class 'float'>    5
Name: count, dtype: int64

# **#48 Mengenal Cummulative Count dengan cumcount()**

**Import Modules**

In [53]:
import pandas as pd 

print(pd.__version__)

2.2.2


**Persiapan Data Frame**

In [56]:
d = {'penjual':['bejo', 'tejo', 'wati', 'bejo', 'cecep', 'tejo', 'wati', 'bejo'], 
     'barang':['monitor', 'monitor', 'keyboard', 'mouse', 'keyboard', 'monitor', 'laptop', 'monitor']}

df = pd.DataFrame(d)
df

Unnamed: 0,penjual,barang
0,bejo,monitor
1,tejo,monitor
2,wati,keyboard
3,bejo,mouse
4,cecep,keyboard
5,tejo,monitor
6,wati,laptop
7,bejo,monitor


**Mengenal Cummulative Count dengan cumcount()**

- Cummulative count adalah penjumlahan baris/ kemunculan nilai
- Pertama dataframe dikelompokkkan kemudian dijumlahkan menggunakan fungsi cumcount().

In [60]:
#Mengurutkan DataFrame berdasarkan kolom 'penjual'
df_sorted = df.sort_values(by='penjual')

#Menghitung jumlah tiap penjual secara kumulatif
df_sorted['count_tiap_penjual'] = df_sorted.groupby('penjual').cumcount() + 1

df_sorted

Unnamed: 0,penjual,barang,count_tiap_penjual
0,bejo,monitor,1
3,bejo,mouse,2
7,bejo,monitor,3
4,cecep,keyboard,1
1,tejo,monitor,1
5,tejo,monitor,2
2,wati,keyboard,1
6,wati,laptop,2


In [62]:
#Mengurutkan DataFrame berdasarkan kolom 'barang'
df_sorted = df.sort_values(by='barang')

#Menghitung jumlah tiap barang secara kumulatif
df_sorted['count_tiap_barang'] = df_sorted.groupby('barang').cumcount() + 1
df_sorted

Unnamed: 0,penjual,barang,count_tiap_barang
2,wati,keyboard,1
4,cecep,keyboard,2
6,wati,laptop,1
0,bejo,monitor,1
1,tejo,monitor,2
5,tejo,monitor,3
7,bejo,monitor,4
3,bejo,mouse,1


In [64]:
#Mengurutkan DataFrame berdasarkan kolom 'penjual' dan 'barang'
df_sorted = df.sort_values(by=['penjual', 'barang'])

#Menghitung jumlah pasangan kolom secara kumulatif
df_sorted['count_pasangan_kolom'] = df_sorted.groupby(['penjual', 'barang']).cumcount() + 1
df_sorted

Unnamed: 0,penjual,barang,count_pasangan_kolom
0,bejo,monitor,1
7,bejo,monitor,2
3,bejo,mouse,1
4,cecep,keyboard,1
1,tejo,monitor,1
5,tejo,monitor,2
2,wati,keyboard,1
6,wati,laptop,1
