# Pandas 13
## Konversi nilai numerik ke dalam sejumlah kategori

In [1]:
import pandas as pd
import numpy as np

In [2]:
n_rows = 10
n_cols = 1
cols = ('usia',)
df = pd.DataFrame(np.random.randint(1,99, size=(n_rows, n_cols)), columns=cols)
# Membuat data frame usia dengan data bilangan bulat random berkisar 1-99.
df

Unnamed: 0,usia
0,31
1,53
2,91
3,16
4,6
5,38
6,45
7,57
8,82
9,1


## Pengelompokan nilai numerik ke dalam beberapa kategori menggunakan cut()

In [3]:
df['kelompok usia'] = pd.cut(df['usia'],bins=[0,18,65,99], labels = ['anak','dewasa', 'manula'])
# method cut berfungsi untuk mengelompokkan kedalam beberapa kategori.
# parameter bins berfungsi untuk menentukan kategori.
# parameter label berfungsi untuk memberikan label pada kategori yang telah ditentukan.
df

Unnamed: 0,usia,kelompok usia
0,31,dewasa
1,53,dewasa
2,91,manula
3,16,anak
4,6,anak
5,38,dewasa
6,45,dewasa
7,57,dewasa
8,82,manula
9,1,anak


# Pandas 14
## Menggabungkan (merge) dua Data Frame

In [5]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df2 = pd.DataFrame(np.random.randint(1,20,size=(n_rows,n_cols)),columns=cols)

df2.head()

Unnamed: 0,A,B,C,D,E
0,10,19,10,17,16
1,15,9,14,2,9
2,19,12,10,8,5
3,7,16,9,2,10
4,4,13,10,14,17


In [6]:
df21 = df2.copy(deep = True)
df21 = df2.drop([1,4])
df21

Unnamed: 0,A,B,C,D,E
0,10,19,10,17,16
2,19,12,10,8,5
3,7,16,9,2,10


In [7]:
df22 = df2.copy(deep = True)
df22 = df2.drop([0,3])
df22

Unnamed: 0,A,B,C,D,E
1,15,9,14,2,9
2,19,12,10,8,5
4,4,13,10,14,17


## Menggabungkan dua Data Frame

In [8]:
df2_inner = pd.merge(df21, df22, how='inner')
df2_inner
# Pendekatan inner adalah pendekatan yang mirip dengan union
# Artinya kita akan menampilkan sebuah baris yang dimiliki oleh 2 buah data frame yang kita merge.

Unnamed: 0,A,B,C,D,E
0,19,12,10,8,5


In [10]:
df2_outer = pd.merge(df21, df22, how='outer')
df2_outer
# Menggabungkan 2 buah data frame dengan menghilangkan baris yang duplikasi.

Unnamed: 0,A,B,C,D,E
0,10,19,10,17,16
1,19,12,10,8,5
2,7,16,9,2,10
3,15,9,14,2,9
4,4,13,10,14,17


# Pandas 15
## Memecah nilai string dari suatu kolom ke dalam beberapa kolom baru.

In [12]:
data = {'nama':['Didi Kempot', 'Glenn Fredly', 'Mbah Surip'],
        'tempat_kelahiran' : ['Surakarta, Jawa Tengah','Jakarta, DKI Jakarta', 'Mojokerto']}
df3 = pd.DataFrame(data)
df3

Unnamed: 0,nama,tempat_kelahiran
0,Didi Kempot,"Surakarta, Jawa Tengah"
1,Glenn Fredly,"Jakarta, DKI Jakarta"
2,Mbah Surip,Mojokerto


In [13]:
df3[['nama_depan', 'nama_belakang']] = df3['nama'].str.split(' ', expand=True)
df3
# memecah kolom nama menjadi 2 kolom baru yaitu 'nama_depan' dan 'nama_belakang'.

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly
2,Mbah Surip,Mojokerto,Mbah,Surip


# Pandas 16
## Menata ulang Data Frame dengan multiple indexes menggunakan unstack()

In [14]:
df4 = pd.read_csv('./titanicfull.csv')
df4.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


In [16]:
df4.groupby(['sex', 'pclass'])['survived'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.965278
female,2,0.886792
female,3,0.490741
male,1,0.340782
male,2,0.146199
male,3,0.15213


In [17]:
df4.groupby(['sex', 'pclass'])['survived'].mean().unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.965278,0.886792,0.490741
male,0.340782,0.146199,0.15213
