# **Import Modules**

---



In [None]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.3.5
1.21.6




---

# Pandas 13 | Konversi nilai numerik ke dalam kategori pada Data Frame

---





## Persiapan Data Frame

In [None]:
n_rows = 10
n_cols = 1
cols = ('usia',)

df = pd.DataFrame(np.random.randint(1, 99, size=(n_rows, n_cols)), columns=cols)
df

Unnamed: 0,usia
0,56
1,43
2,25
3,8
4,74
5,10
6,44
7,30
8,94
9,52



## Pengelompokkan nilai numerik ke dalam beberapa kategori menggunakan **cut()**





In [None]:
# Membagi kategori umur dengan method cut() dan penggunaan bins untuk pengelompokkan umur
# Umur 0-18 -> anak | Umur 18-65 -> dewasa | Umur 65-99 -> manula

df['kelompok_usia'] = pd.cut(df['usia'],
                             bins = [0, 18, 65, 99],
                             labels=['anak', 'dewasa', 'manula'])
df

Unnamed: 0,usia,kelompok_usia
0,56,dewasa
1,43,dewasa
2,25,dewasa
3,8,anak
4,74,manula
5,10,anak
6,44,dewasa
7,30,dewasa
8,94,manula
9,52,dewasa




---

# Pandas 14 | Menggabungkan dua Pandas Data Frame

---





## Persiapan Data Frame

In [None]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), columns=cols)
df

Unnamed: 0,A,B,C,D,E
0,7,2,17,14,19
1,16,14,12,19,7
2,17,13,4,3,14
3,19,7,4,14,1
4,18,7,1,5,1


In [None]:
df1 = df.copy(deep=True)
df1 = df1.drop([1,4])
df1

Unnamed: 0,A,B,C,D,E
0,7,2,17,14,19
2,17,13,4,3,14
3,19,7,4,14,1


In [None]:
df2 = df.copy(deep=True)
df2 = df2.drop([0,3])
df2

Unnamed: 0,A,B,C,D,E
1,16,14,12,19,7
2,17,13,4,3,14
4,18,7,1,5,1



## Menggabungkan dua Data Frame





In [None]:
# how='inner' --> Untuk merge data yang ada pada df1 & df2
# Dengan how='inner' ini juga me-reset index menjadi index 0

df_inner = pd.merge(df1, df2, how='inner')
df_inner

Unnamed: 0,A,B,C,D,E
0,17,13,4,3,14


In [None]:
# how='outer' --> Untuk merge semua data pada df1 dan df2
# untuk data yang duplikasi pada kedua dataframe, hanya akan diambil salah satunya saja

df_outer = pd.merge(df1, df2, how='outer')
df_outer

Unnamed: 0,A,B,C,D,E
0,7,2,17,14,19
1,17,13,4,3,14
2,19,7,4,14,1
3,16,14,12,19,7
4,18,7,1,5,1




---

# Pandas 15 | Memecah nilai string suatu kolom ke dalam beberapa kolom baru 
---





## Persiapan Data Frame

In [None]:
data = {'name':['Didi Kempot', 'Glenn Fredly', 'Mbah Surip'],
        'tempat_kelahiran' : ['Surakarta, Jawa Tengah', 'Jakarta, DKI Jakarta', 'Mojokerto, Jawa Timur'] 
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,tempat_kelahiran
0,Didi Kempot,"Surakarta, Jawa Tengah"
1,Glenn Fredly,"Jakarta, DKI Jakarta"
2,Mbah Surip,"Mojokerto, Jawa Timur"



## Memecah nama depan dan nama belakang





In [None]:
df[['name_depan', 'nama_belakang']] = df['name'].str.split(' ', expand=True)
df

Unnamed: 0,name,tempat_kelahiran,name_depan,nama_belakang
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip


## Memecah nama kota dan provinsi

In [None]:
df[['kota', 'provinsi']] = df['tempat_kelahiran'].str.split(', ', expand=True)
df

Unnamed: 0,name,tempat_kelahiran,name_depan,nama_belakang,kota,provinsi
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot,Surakarta,Jawa Tengah
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly,Jakarta,DKI Jakarta
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip,Mojokerto,Jawa Timur




---

# Pandas 16 | Menata ulang Data Frame dengan multiple indexes menggunakan unstack 
---





## Persiapan Data Frame

In [None]:
df = pd.read_csv('/content/titanicfull.csv')
df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S



## Data Frame dengan multiple indexes dari hasil groupping





In [None]:
# method to_frame() --> Supaya tampilan data yg mau kita groupping ada dalam bentuk table
df.groupby(['sex', 'pclass'])['survived'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.965278
female,2,0.886792
female,3,0.490741
male,1,0.340782
male,2,0.146199
male,3,0.15213



## Menata ulang Data Frame dengan multiple indexes





In [None]:
df.groupby(['sex','pclass'])['survived'].mean().unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.965278,0.886792,0.490741
male,0.340782,0.146199,0.15213
