# Pandas - Week 8

***

# Random Sampling pada Pandas Data Frame

## Import modules

In [1]:
import pandas as pd

## Persiapan Data Frame

In [2]:
d = {'col_1':[1, 2, 3, 4, 5],
     'col_2':[10, 20, 30, 40, 50]}

df = pd.DataFrame(d)
df

Unnamed: 0,col_1,col_2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


## Random sampling with / without replacement

In [3]:
df.sample(n=4, replace=False, random_state=0) # random sampling without replacement.

Unnamed: 0,col_1,col_2
2,3,30
0,1,10
1,2,20
3,4,40


In [4]:
df.sample(n=4, replace=True, random_state=0) # random sampling with replacement.

Unnamed: 0,col_1,col_2
4,5,50
0,1,10
3,4,40
3,4,40


Random sampling tanpa replacement berarti data-data yang sudah di sampling tidak akan disampling lagi, sedangkan random sampling dengan replacement berarti data yang sudah disample memiliki kemungkinan untuk di-sampling ulang. 

Untuk menentukan apakah akan dilakukan replacement atau tidak adalah dengan memberikan nilai `True` atau `False` pada parameter `replace`.

`random_state` berfungsi agar suatu eksperimen dapat direplikasi atau dijalankan ulang dengan hasil yang sama.

***

# Akses nilai variable dalam fungsi query

## Import modules

In [5]:
import pandas as pd
import numpy as np

## Persiapan Data Frame

In [7]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), columns = cols)

df

Unnamed: 0,A,B,C,D,E
0,18,6,5,15,11
1,1,14,16,8,12
2,5,12,13,19,1
3,19,13,6,18,5
4,4,14,17,14,6


## Akses nilai variable pada `query()`

In [8]:
df.query('A > 5')

Unnamed: 0,A,B,C,D,E
0,18,6,5,15,11
3,19,13,6,18,5


In [9]:
rerata = df['A'].mean() # mencari nilai mean dari kolom A.
rerata

9.4

In [12]:
df.query('A > @rerata') # karakter '@' untuk mengakses variable.

Unnamed: 0,A,B,C,D,E
0,18,6,5,15,11
3,19,13,6,18,5


Pada kode di atas, dispesifikasikan bahwa akan ditampilkan data dari kolom A yang lebih besar dari variable `rerata`.

***

# Tipe data ordinal pada Pandas Data Frame

Dalam statistik, terdapat data kategori yang terbagi menjadi dua, yaitu tipe data **nominal** dan tipe data **ordinal**. 

Tipe data nominal sifatnya murni sebagai **label**, sedangkan tipe data ordinal memiliki **tingkatan**.

Contoh data ordinal = pilihan seperti buruk, cukup baik, sangat baik.

## Import modules

In [13]:
import pandas as pd

## Persiapan Data Frame

In [14]:
d = {'pelanggan':[11, 12, 13, 14],
     'kepuasan':['baik', 'cukup', 'buruk', 'cukup']}

df = pd.DataFrame(d)
df

Unnamed: 0,pelanggan,kepuasan
0,11,baik
1,12,cukup
2,13,buruk
3,14,cukup


## Tipe data ordinal pada Pandas

In [15]:
from pandas.api.types import CategoricalDtype # meng-import CategoricalDtype.

tingkat_kepuasan = CategoricalDtype(['buruk', 'cukup', 'baik', 'sangat baik'],
                                   ordered=True)

df['kepuasan'] = df['kepuasan'].astype(tingkat_kepuasan)
df

Unnamed: 0,pelanggan,kepuasan
0,11,baik
1,12,cukup
2,13,buruk
3,14,cukup


Karena komputer tidak dapat memahami ordinal data type secara langsung, maka perlu diajari terlebih dahulu mengenai cara membandingkannya.

* Langkah pertama adalah dengan menggunakan `CategoricalDtype` yang terdapat di `pandas.api.types`.

* Setelahnya, akan dibuat sebuah data type yang diberi nama `tingkat_kepuasan` dan dilanjutkan dengan menspesifikasikan tingkatannya dengan menggunakan method `CategoricalDtype()`. Pada kode di atas, tingkatannya berupa `buruk`, `cukup`, `baik`, dan `sangat baik`.

* Langkah terakhir adalah dengan mengubah **data type** dari kolom `kepuasan` menjadi `tingkat_kepuasan`.

In [17]:
df = df.sort_values('kepuasan', ascending=True) # mengurutkan data dari kolom kepuasan.
df

Unnamed: 0,pelanggan,kepuasan
2,13,buruk
1,12,cukup
3,14,cukup
0,11,baik


In [18]:
df[df['kepuasan'] > 'cukup'] # menampilkan nilai dengan tingkat kepuasan lebih dari 'cukup'.

Unnamed: 0,pelanggan,kepuasan
0,11,baik
