# **Pandas 12**

## **#45 Memadukan loc dan iloc untuk Seleksi Data pada Data Frame**
Source : [Indonesia Belajar](https://youtu.be/_DPDuwz19-U)

### Import Modules

In [1]:
import pandas as pd

print(pd.__version__)

2.1.1


### Persiapan Data Frame

- Mengadopsi dataframe klasik, yaitu titanic dataset.

In [2]:
df = pd.read_csv('./data/titanicfull.csv')
df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


### **Memadukan loc dan iloc untuk Melakukan Seleksi Data**
- Sisi sebelah kiri merepresentasikan baris sedangkan sisi sebelah kanan merepresentasikan kolom.
- Fungsi iloc berguna untuk menyeleksi baris, sedangkan fungsi loc digunakan untuk menyeleksi kolom.
- Catatan: urutan penempatan fungsi loc dan iloc tidak mempengaruhi hasil.

In [3]:
df.iloc[15:20, :].loc[:, 'name':'age']

Unnamed: 0,name,sex,age
15,"Baumann, Mr. John D",male,
16,"Baxter, Mr. Quigg Edmond",male,24.0
17,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0
18,"Bazzani, Miss. Albina",female,32.0
19,"Beattie, Mr. Thomson",male,36.0


In [4]:
df.loc[:, 'name':'age'].iloc[15:20, :]

Unnamed: 0,name,sex,age
15,"Baumann, Mr. John D",male,
16,"Baxter, Mr. Quigg Edmond",male,24.0
17,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0
18,"Bazzani, Miss. Albina",female,32.0
19,"Beattie, Mr. Thomson",male,36.0


## **#46 Seleksi Weekdays dan Weekends pada Data Deret Waktu**

Source : [Indonesia Belajar](https://youtu.be/7I9DlFkyzVQ)

### Import Modules

In [5]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


### Persiapan Data Frame
- Membuat sebuah data frame yang terdiri dari 2 kolom dan 365 baris yang memiliki nilai angka acak 1-20.

In [6]:
n_rows = 365
n_cols = 2
cols = ['cols1', 'cols2']

# Membuat DataFrame dengan angka acak
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), columns=cols)

# Membuat rentang tanggal untuk indeks
tanggal_index = pd.date_range(start='2023-01-01', periods=n_rows, freq='D')
df.index = tanggal_index

df

Unnamed: 0,cols1,cols2
2023-01-01,19,19
2023-01-02,13,4
2023-01-03,19,13
2023-01-04,12,5
2023-01-05,15,14
...,...,...
2023-12-27,3,8
2023-12-28,16,19
2023-12-29,5,6
2023-12-30,2,8


### Seleksi Weekdays dan Weekends
- Parameter dayofweek mengindikasi hari pada suatu minggu tertentu.
- 5 index pertama mengindikasikan weekdays (0 - 4), sedangkan 2 index terakhir mengindikasikan weekend (5 - 6).
- Lanjut: 0 adalah senin dan 6 adalah minggu.

In [7]:
weekdays_df = df[df.index.dayofweek.isin([0, 1, 2, 3, 4])]
weekdays_df.head(7)

Unnamed: 0,cols1,cols2
2023-01-02,13,4
2023-01-03,19,13
2023-01-04,12,5
2023-01-05,15,14
2023-01-06,11,15
2023-01-09,1,14
2023-01-10,13,8


In [8]:
weekends_df = df[df.index.dayofweek.isin([5, 6])]
weekends_df.head(7)

Unnamed: 0,cols1,cols2
2023-01-01,19,19
2023-01-07,4,9
2023-01-08,14,17
2023-01-14,2,4
2023-01-15,12,3
2023-01-21,4,19
2023-01-22,16,4


## **#47 Penanganan Kolom dengan Tipe Data Beragam**

Source : [Indonesia Belajar](https://youtu.be/E-WoMJx-bNk)

### Import Modules

In [9]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


### Persiapan Data Frame

In [10]:
d = {'nama':['bejo', 'tejo', 'wati', 'tiwi', 'cecep'], 
     'ipk':[2, '3', 3, 2.75, '3.25']}
df = pd.DataFrame(d)
df

Unnamed: 0,nama,ipk
0,bejo,2.0
1,tejo,3.0
2,wati,3.0
3,tiwi,2.75
4,cecep,3.25


###Deteksi dan Penanganan Kolom dengan Tipe Data Beragam (Mixed Data Types)
- Untuk mengetahui mixed data type di kolom IPK, kita perlu memanggil fungsi apply(type) di kolom IPK.
- Untuk melihat hasil dari data type pada kolom di data frame, kita dapat memanggil fungsi value_counts().

In [11]:
df.dtypes

nama    object
ipk     object
dtype: object

In [12]:
df['ipk'].apply(type)

0      <class 'int'>
1      <class 'str'>
2      <class 'int'>
3    <class 'float'>
4      <class 'str'>
Name: ipk, dtype: object

In [13]:
df['ipk'].apply(type).value_counts()

ipk
<class 'int'>      2
<class 'str'>      2
<class 'float'>    1
Name: count, dtype: int64

## **#48 Cummulative Count pada Pandas Data Frame**

Source : [Indonesia Belajar](https://youtu.be/kn7iCkMnSYA)

### Import Modules

In [14]:
import pandas as pd

print(pd.__version__)

2.1.1


### Persiapan Data Frame

In [15]:
d = {'penjual':['bejo', 'tejo', 'wati', 'bejo', 'cecep', 'tejo', 'wati', 'bejo'], 
     'barang':['monitor', 'monitor', 'keyboard', 'mouse', 'keyboard', 'monitor', 'laptop', 'monitor']}

df = pd.DataFrame(d)
df

Unnamed: 0,penjual,barang
0,bejo,monitor
1,tejo,monitor
2,wati,keyboard
3,bejo,mouse
4,cecep,keyboard
5,tejo,monitor
6,wati,laptop
7,bejo,monitor


### Mengenal Cummulative Count dengan cumcount()
- Cummulative count adalah penjumlahan baris/ kemunculan nilai.
- Pertama dataframe dikelompokkkan kemudian dijumlahkan menggunakan fungsi cumcount().

In [16]:
# Mengurutkan DataFrame berdasarkan kolom 'penjual'
df_sorted = df.sort_values(by='penjual')

# Menghitung jumlah tiap penjual secara kumulatif
df_sorted['count_tiap_penjual'] = df_sorted.groupby('penjual').cumcount() + 1

df_sorted

Unnamed: 0,penjual,barang,count_tiap_penjual
0,bejo,monitor,1
3,bejo,mouse,2
7,bejo,monitor,3
4,cecep,keyboard,1
1,tejo,monitor,1
5,tejo,monitor,2
2,wati,keyboard,1
6,wati,laptop,2


In [17]:
# Mengurutkan DataFrame berdasarkan kolom 'barang'
df_sorted = df.sort_values(by='barang')

# Menghitung jumlah tiap barang secara kumulatif
df_sorted['count_tiap_barang'] = df_sorted.groupby('barang').cumcount() + 1
df_sorted

Unnamed: 0,penjual,barang,count_tiap_barang
2,wati,keyboard,1
4,cecep,keyboard,2
6,wati,laptop,1
0,bejo,monitor,1
1,tejo,monitor,2
5,tejo,monitor,3
7,bejo,monitor,4
3,bejo,mouse,1


In [18]:
# Mengurutkan DataFrame berdasarkan kolom 'penjual' dan 'barang'
df_sorted = df.sort_values(by=['penjual', 'barang'])

# Menghitung jumlah pasangan kolom secara kumulatif
df_sorted['count_pasangan_kolom'] = df_sorted.groupby(['penjual', 'barang']).cumcount() + 1
df_sorted

Unnamed: 0,penjual,barang,count_pasangan_kolom
0,bejo,monitor,1
7,bejo,monitor,2
3,bejo,mouse,1
4,cecep,keyboard,1
1,tejo,monitor,1
5,tejo,monitor,2
2,wati,keyboard,1
6,wati,laptop,1
