# Pandas - Week 4

***

## Konversi nilai numerik ke dalam kategori pada Data Frame

### 1. Import modules

In [1]:
import pandas as pd
import numpy as np

### 2. Persiapan Data Frame

In [6]:
n_rows = 10
n_cols = 1
cols = ('usia',)

df = pd.DataFrame(np.random.randint(1, 99, size=(n_rows, n_cols)), columns=cols)
df

Unnamed: 0,usia
0,51
1,30
2,9
3,95
4,33
5,2
6,86
7,21
8,28
9,94


### 3. Pengelompokkan nilai numerik ke dalam beberapa kategori menggunakan `cut()`

In [19]:
df['kelompok_usia'] = pd.cut(df['usia'],
                            bins = [0, 18, 65, 99],
                             labels = ['anak', 'dewasa','manula'])

df

Unnamed: 0,usia,kelompok_usia
0,51,dewasa
1,30,dewasa
2,9,anak
3,95,manula
4,33,dewasa
5,2,anak
6,86,manula
7,21,dewasa
8,28,dewasa
9,94,manula


Pada kode di atas, digunakan fungsi `cut()` dengan tiga parameter yang harus dispesifikasi: 
* 1. **Kolom** yang akan di cut. 
* 2. **Bins** (list yang berisi nilai integer sebagai pembatas)
* 3. **Label** untuk setiap kelompoknya.

***

## Menggabungkan dua Pandas Data Frame

### 1. Import modules

In [20]:
import pandas as pd
import numpy as np

### 2. Persiapan Data Frame

In [21]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), columns=cols)

df.head()

Unnamed: 0,A,B,C,D,E
0,2,17,13,11,8
1,18,6,16,15,11
2,19,4,6,4,6
3,12,8,15,5,10
4,9,2,13,14,15


In [27]:
df1 = df.copy(deep=True) #Mengcopy df secara deep.
df1 = df1.drop([1, 4]) #Membuang baris index pertama dan keempat.
df1

Unnamed: 0,A,B,C,D,E
0,2,17,13,11,8
2,19,4,6,4,6
3,12,8,15,5,10


In [29]:
df2 = df.copy(deep=True)
df2 = df2.drop([0, 3]) #Membuang baris index ke 0 dan 3.
df2

Unnamed: 0,A,B,C,D,E
1,18,6,16,15,11
2,19,4,6,4,6
4,9,2,13,14,15


### 3. Menggabungkan dua Data Frame

In [30]:
df_inner = pd.merge(df1, df2, how='inner')
df_inner

Unnamed: 0,A,B,C,D,E
0,19,4,6,4,6


Proses penggabungan dapat menggunakan method `merge()` dan ada dua jenis metode dalam penggabungannya. Pada kode diatas, digunakan metode **inner** dimana akan menggabungkan dua buah Data Frame yang akan berisi baris yang terdapat pada **kedua** data frame sumbernya.

In [31]:
df_outer = pd.merge(df1, df2, how='outer')
df_outer

Unnamed: 0,A,B,C,D,E
0,2,17,13,11,8
1,19,4,6,4,6
2,12,8,15,5,10
3,18,6,16,15,11
4,9,2,13,14,15


Pada metode **outer**, akan digabungkan dua buah data frame dimana baris yang duplikat akan disatukan.

***

## Memecah nilai string suatu kolom ke dalam beberapa kolom baru

### 1. Import modules

In [32]:
import pandas as pd

### 2. Mempersiapkan Data Frame

In [33]:
data = {'nama':['Didi Kempot', 'Glenn Fredly', 'Mbah Surip'],
       'tempat_kelahiran':['Surakarta, Jawa Tengah', 'Jakarta, DKI Jakarta', 'Mojokerto, Jawa Tengah']} 

df = pd.DataFrame(data)
df

Unnamed: 0,nama,tempat_kelahiran
0,Didi Kempot,"Surakarta, Jawa Tengah"
1,Glenn Fredly,"Jakarta, DKI Jakarta"
2,Mbah Surip,"Mojokerto, Jawa Tengah"


### 3. Memecah nama depan dan nama belakang

In [36]:
df[['nama_depan', 'nama_belakang']] = df['nama'].str.split(' ', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly
2,Mbah Surip,"Mojokerto, Jawa Tengah",Mbah,Surip


Dilakukan dengan menggunakan method `str.split()`. Pada kode di atas, dilakukan pemisahan berdasarkan spasi. Sedangkan expand yang diberi nilai True akan mengijinkan output berupa kolom.

### 4. Memecah nama kota dan provinsi

In [37]:
df[['kota', 'provinsi']] = df['tempat_kelahiran'].str.split(',', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang,kota,provinsi
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot,Surakarta,Jawa Tengah
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly,Jakarta,DKI Jakarta
2,Mbah Surip,"Mojokerto, Jawa Tengah",Mbah,Surip,Mojokerto,Jawa Tengah


Dilakukan dengan method `str.split()` juga, namun cara pemisahannya dengan menggunakan tanda koma.