![title](https://miro.medium.com/max/481/1*cxfqR8NAj8HGal8CVOZ7hg.png)

#  Python Pandas: Tips & Tricks

# #13: Konversi nilai numerik ke dalam sejumlah kategori

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

In [2]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


## Persiapan Data Frame

- Data Frame di bawah memiliki 10 baris dan 1 kolom
- Nilai dari usia merupakan nilai acak yang berupa bilangan bulat

In [3]:
n_rows = 10
n_cols = 1
cols = ('usia',)

df = pd.DataFrame(np.random.randint(1, 99, size=(n_rows, n_cols)),
                  columns=cols)
df

Unnamed: 0,usia
0,53
1,94
2,46
3,57
4,39
5,48
6,33
7,32
8,94
9,74


## Pengelompokkan nilai numerik ke dalam beberapa kategori menggunakan `cut( )`

- Membuat kolom baru dan mengelompokkan usia ke dalam beberapa kategori
- Method `'pd.cut'` fungsinya untuk mengelompokkan ke dalam beberapa kategori
- Nilai bins, yaitu berupa suatu nilai list yang berisi sekumpulan integer     sebagai pembatas


In [4]:
df['kelompok_usia'] = pd.cut(df['usia'],
                            bins = [0, 18, 65, 99],
                            labels= ['anak', 'dewasa', 'manula']) 
df

Unnamed: 0,usia,kelompok_usia
0,53,dewasa
1,94,manula
2,46,dewasa
3,57,dewasa
4,39,dewasa
5,48,dewasa
6,33,dewasa
7,32,dewasa
8,94,manula
9,74,manula


# #14: Menggabungkan (merge) dua Data Frame

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

In [6]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


## Persiapan Data Frame

- Data Frame dibawah akan diisi oleh bilangan-bilangan integer yang dipilih     secara acak
- Data Frame di bawah memiliki 5 baris dan 5 kolom
- Data pertama berisi data-data dari data utama tapi baris pertama dan baris   keempatnya sudah dibuang
- Data kedua berisi data-data dari data utama tapi baris kenol dan baris       ketiga sudah dibuang

In [8]:
n_rows = 5
n_cols = 5 
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                 columns=cols)
df
# data utama

Unnamed: 0,A,B,C,D,E
0,12,6,4,9,8
1,11,5,16,1,14
2,5,17,5,1,8
3,3,2,3,4,15
4,18,3,13,16,13


In [9]:
df1 = df.copy(deep=True)
df1 = df1.drop([1, 4])
df1
# data pertama

Unnamed: 0,A,B,C,D,E
0,12,6,4,9,8
2,5,17,5,1,8
3,3,2,3,4,15


In [10]:
df2 = df.copy(deep=True)
df2 = df2.drop([0, 3])
df2
# data kedua

Unnamed: 0,A,B,C,D,E
1,11,5,16,1,14
2,5,17,5,1,8
4,18,3,13,16,13


## Menggabungkan dua Data Frame

- Menggabungkan dua Data Frame dan terbentuk data frame baru
- `'df_inner'` akan menampung hasil dari pemanggilan fungsi `'pd.merger'`
- `'pd.merge'` membutuhkan dua buah data frame sebagai parameter utama
- Data frame yang baru akan berisi baris yang terdapat pada kedua data frame   sumbernya

In [11]:
df_inner = pd.merge(df1, df2, how='inner')
df_inner

Unnamed: 0,A,B,C,D,E
0,5,17,5,1,8


In [12]:
df_outer = pd.merge(df1, df2, how='outer')
df_outer

Unnamed: 0,A,B,C,D,E
0,12,6,4,9,8
1,5,17,5,1,8
2,3,2,3,4,15
3,11,5,16,1,14
4,18,3,13,16,13


# #15: Memecah nilai string dari suatu kolom ke dalam beberapa kolom baru

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas kalian

In [1]:
import pandas as pd

print(pd.__version__)


1.1.3


## Persiapan Data Frame

- Data Frame terbentuk dari suatu dictionary yang terdiri dari dua buah kolom   di dalamnya

In [4]:
data ={'nama':['Didi Kempot', 'Glenn Fredly', 'Mbah Surip'],
      'tempat_kelahiran':['Surakarta, Jawa Tengah', 'Jakarta, DKI Jakarta',
                          'Mojokerto, Jawa Timur' ]}
df = pd.DataFrame(data)
df

Unnamed: 0,nama,tempat_kelahiran
0,Didi Kempot,"Surakarta, Jawa Tengah"
1,Glenn Fredly,"Jakarta, DKI Jakarta"
2,Mbah Surip,"Mojokerto, Jawa Timur"


## Memecah nama depan dan nama belakang

- Jika expand diberi `True` berarti kita mengizinkan outputnya berupa kolom

In [5]:
df[['nama_depan', 'nama_belakang']] = df['nama'].str.split(' ', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip


## Memecah nama kota dan propinsi

In [6]:
df[['kota', 'propinsi']] = df['tempat_kelahiran'].str.split(',', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang,kota,propinsi
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot,Surakarta,Jawa Tengah
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly,Jakarta,DKI Jakarta
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip,Mojokerto,Jawa Timur


# #16: Menata ulang Data Frame dengan multiple indexes menggunakan `unstack( )`

## Import Modules

- Kode di bawah ini untuk memberi tahu berapa versi pandas kalian

In [7]:
import pandas as pd

print(pd.__version__)

1.1.3


## Persiapan Data Frame

- Data Frame yang digunakan adalah data titanic atau titanic dataset
- Tethering dataset adalah dataset yang bisa digunakan secara public dan       termasuk dalam dataset classic yang banyak digunakan untuk topik-topik         terkait dengan data sains machine learning


In [9]:
df = pd.read_csv('./titanicfull.csv.txt')
df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


### Data Frame dengan multiple indexes dari hasil groupping

- Dilihat dari hasilnya bahwa kelasnya itu ada tiga kelas, yaitu kelas 1,       kelas 2, dan kelas 3
- Dari pengelompokkan data ini kita dapat amati adalah data survived
- Kode `to_frame()` untuk mempercantik tampilan saja

In [10]:
df.groupby(['sex', 'pclass'])['survived'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.965278
female,2,0.886792
female,3,0.490741
male,1,0.340782
male,2,0.146199
male,3,0.15213


### Menata ulang Data Frame dengan multiple indexes

- Menata ulang sebuah Data Frame
- Dilihat dari hasilnya, Indexnya tetap ada 2 tetapi cara penempatan indexnya   jadi berbeda
- Data Frame ini memuncukan nilai rata-rata dari survivednya

In [11]:
df.groupby(['sex', 'pclass'])['survived'].mean().unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.965278,0.886792,0.490741
male,0.340782,0.146199,0.15213
