## Import Modules
- Module yang digunakan adalah pandas dan numpy
- Menampilkan versi pandas dan numpy yang sedang digunakan

In [2]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


# #13: Konversi nilai numerik ke dalam sejumlah kategori

### `Persiapan Data Frame`

In [6]:
n_rows = 10
n_cols = 1
cols = ('usia',)

df = pd.DataFrame(np.random.randint(1,99, size=(n_rows, n_cols)),
                 columns=cols)
df

Unnamed: 0,usia
0,47
1,82
2,16
3,54
4,77
5,68
6,95
7,49
8,37
9,14


### Pengelompokan nilai numerik ke dalam beberapa kategori menggunakan `cut()`
* **bins** berupa suatu nilai list sekumpulan nilai int untuk pembatasnya

In [8]:
df['kelompok_usia'] = pd.cut(df['usia'],
                             bins = [0, 18, 65, 99],
                             labels = ['anak', 'dewasa', 'manusia'])
df

Unnamed: 0,usia,kelompok_usia
0,47,dewasa
1,82,manusia
2,16,anak
3,54,dewasa
4,77,manusia
5,68,manusia
6,95,manusia
7,49,dewasa
8,37,dewasa
9,14,anak


## Import Modules
- Module yang digunakan adalah pandas dan numpy
- Menampilkan versi pandas dan numpy yang sedang digunakan

In [9]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.1.3
1.19.2


# #14: Menggabungkan (merge) dua Data Frame

### `Persiapan Data Frame`

In [11]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1,20, size=(n_rows, n_cols)),
                 columns=cols)
df

Unnamed: 0,A,B,C,D,E
0,5,1,14,10,14
1,2,7,2,16,14
2,10,16,15,12,11
3,5,17,11,11,15
4,17,2,9,6,1


In [16]:
df1 = df.copy(deep = True)
df1 = df1.drop([1, 4])
df1

Unnamed: 0,A,B,C,D,E
0,5,1,14,10,14
2,10,16,15,12,11
3,5,17,11,11,15


#### `df1.drop`
* Menghilangkan kolom 1 dan 4

In [17]:
df2 = df.copy(deep = True)
df2 = df2.drop([0, 3])
df2

Unnamed: 0,A,B,C,D,E
1,2,7,2,16,14
2,10,16,15,12,11
4,17,2,9,6,1


#### `df2.drop`
* Menghilangkan kolom 0 dan 3
* Baris 2 yang tersisa pada tabel

### Menggabungkan dua Data Frame

In [18]:
df_inner = pd.merge(df1, df2, how='inner')
df_inner
# Mengabungkan 2 Data Frame dimana isi barisnya sama antara df1 dan df2

Unnamed: 0,A,B,C,D,E
0,10,16,15,12,11


In [19]:
df_outer = pd.merge(df1, df2, how='outer')
df_outer
# Data yang diadopsi dari df1 dan df2 dimana ada duplikasi akan dihilangkan salah satu

Unnamed: 0,A,B,C,D,E
0,5,1,14,10,14
1,10,16,15,12,11
2,5,17,11,11,15
3,2,7,2,16,14
4,17,2,9,6,1


## Import Modules
- Module yang digunakan adalah pandas
- Menampilkan versi pandas yang sedang digunakan

In [20]:
import pandas as pd

print(pd.__version__)

1.1.3


# #15: Memecah nilai string dari suatu kolom ke dalam beberapa kolom baru

### `Persiapan Data Frame`

In [21]:
data = {'nama': ['Didi Kempot', 'Glenn Fredly', 'Mbah Surip'],
        'tempat_kelahiran':['Surakarta, Jawa Tengah', 'Jakarta, DKI Jakarta', 'Mojokerto, Jawa Timur']}
df = pd.DataFrame(data)
df

Unnamed: 0,nama,tempat_kelahiran
0,Didi Kempot,"Surakarta, Jawa Tengah"
1,Glenn Fredly,"Jakarta, DKI Jakarta"
2,Mbah Surip,"Mojokerto, Jawa Timur"


### Memecah nama depan dan nama belakang

In [22]:
df[['nama_depan', 'nama_belakang']] = df['nama'].str.split(' ', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip


In [24]:
df[['kota', 'provinsi']] = df['tempat_kelahiran'].str.split(',', expand=True)
df

Unnamed: 0,nama,tempat_kelahiran,nama_depan,nama_belakang,kota,provinsi
0,Didi Kempot,"Surakarta, Jawa Tengah",Didi,Kempot,Surakarta,Jawa Tengah
1,Glenn Fredly,"Jakarta, DKI Jakarta",Glenn,Fredly,Jakarta,DKI Jakarta
2,Mbah Surip,"Mojokerto, Jawa Timur",Mbah,Surip,Mojokerto,Jawa Timur


## Import Modules
- Module yang digunakan adalah pandas
- Menampilkan versi pandas yang sedang digunakan

In [25]:
import pandas as pd

print(pd.__version__)

1.1.3


# #16: Menata ulang Data Frame dengan mutiple indexes menggunakan `unstack()`

### `Persiapan Data Frame`

In [26]:
df = pd.read_csv('C:/Users/Angel Lieta/Documents/PERKULIAHAN/SEMESTER 3/(6) Visualisasi Data/Belajar_PythonPandas/titanicfull.csv')
df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


### Data Frame dengan multiple indexes dari hasil groupping
* Mengelompokan data berdasarkan 'pclass' tabel diatas dan 'sex'nya
* `mean()` dibawah berguna untuk mencari rata" (average) dari `['survived']` dari kolom yang selamat
* Pada tabel:
    - sex dan pclass merupakan indeks
    - survived merupakan kolomnya

In [28]:
df.groupby(['sex', 'pclass'])['survived'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.965278
female,2,0.886792
female,3,0.490741
male,1,0.340782
male,2,0.146199
male,3,0.15213


### Menata ulang Data Frame dengan mutiple indexes
* Cara presentasinya berbeda, ini lebih nyaman dilihat dan dibaca

In [29]:
df.groupby(['sex', 'pclass'])['survived'].mean().unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.965278,0.886792,0.490741
male,0.340782,0.146199,0.15213
