# 2. Pengenalan Library, Persiapan Data dan Pre-processing
Pada bab sebelumnya membahasa mengenai dasar dari bahasa pemrograman Python. Pada bab ini akan membahas mengenai beberapa pustaka (*library*) yang berfungsi untuk mempermudah dalam pengolahan data dan visualisasinya. Terdapat beberapa pustaka yang akan dipelajari seperti Numpy, Pandas, Matplotlib, dan Seaborn. 

## 2.1 Numpy
Numpy merupakan singkatan dari "Numerical Python". Tujuan utama dari pustaka ini untuk mempermudah dalam komputas numerik seperti pemrosesan matriks.Data yang dibuat menggunakan Numpy akan bertipe data array multidimensional. Operasi-operasi matriks dapat dilakukan dengan mudah hanya dengan memanggil fungsi yang ada pada Numpy.

Sebelum dapat menggunakan Numpy maka kita harus melakukan pemasangan dengan menjalankan perintah berikut


```
pip install numpy
```



In [None]:
# installasi pustaka numpy
pip install numpy

SyntaxError: ignored

Setelah melakukan pemasangan selanjutnya mengimpor pustaka tersebut kedalam ruang kerja dengan menjalankan perintah berikut.

```
import numpy
```

keyword **import** memiliki arti untuk mengimpor pustaka yang kemudian diikuti oleh nama pustaka yang akan digunakan.






In [None]:
# import library numpy dan memberikan alias 'np'
import numpy as np

Kemudian terdapat keyword **as** yang berarti alias atau nama lain dari pustaka tersebut yang diikuti dengan nama aliasnya yaitu **np**. Nama alias diperbolehkan apa saja. Tujuan memberikan alias adalah untuk mempermudah dalam pemanggilan pustaka pada baris lain.
Jika tidak menggunakan alias maka diharuskan untuk menuliskan nama pustaka secara lengkap seperti berikut.
```
numpy.array()
```
Jika menggunakan alias maka pemanggilan fungsi pada pustaka dapat dilakukan seperti berikut.
```
np.array()
```

### 2.1.1 Konversi List menjadi Numpy
Sebelum membahas mengenai Numpy lebih jauh kita harus mengetahui perbedaan sebuah variabel yang dibuat dengan numpy dan yang tidak. Kita dapat mengetahui tipe data dari suatu variabel menggunakan fungsi **type()**.

In [None]:
tinggi_badan = [175, 160, 177, 140, 155]
print(type(tinggi_badan))

<class 'list'>


Kode diatas menampilkan tipe data dari variabel dengan nama tinggi_badan. Ketika dicetak hasil yang muncul adalah list yang menunjukkan variabel tinggi_badan memiliki tipe data adalah **list**

In [None]:
tinggi_badan = np.array([175, 160, 177, 140, 155])
print(type(tinggi_badan))

<class 'numpy.ndarray'>


Pada contoh diatas kita membuat sebuah variabel **tinggi_badan** menggunakan numpy. Ketika dicetak maka akan tampil informasi mengenai variabel tersebut. Informasi yang muncul tipe data dari variabel tersebut adalah **numpy** 

### 2.1.2 Mengakses Nilai
- Nilai yang ada pada variabel dengan tipe data numpy dapat diakses menggunakan indeks. 
- Hal ini sama seperti pada list yang dimulai dari 0 hingga ke-n (n=jumlah data dikurangi 1).

| Indeks | 0   | 1   | 2   | 3   | 4   |
| ------ | --- | --- | --- | --- | --- |
| Nilai  | 175 | 160 | 177 | 140 | 155 |

In [None]:
# inisilasisasi variabel dengan tipe data numpy
tinggi_badan = np.array([175, 160, 177, 140, 155])
# mengakses nilai 177
print('Tinggi badan pada indeks 2:', tinggi_badan[2])

Tinggi badan pada indeks 2: 177


### 2.1.3 Slicing
Numpy memiliki kemampuan yang sama seperti List yaitu memotong data (slicing) dengan tujuan terdapat suatu kondisi yang membutuhkan hanya sebagian data saja yang digunakan.

```
tinggi_badan = np.array([1, 2, 3, 4, 5])
tinggi_badan[start:end:step]
```
Terdapat 3 parameter dalam melakukan slicing pada numpy, yaitu:
1. Start, menentukan mulai pada data keberapa data yang akan dipotong.
2. End, menentukan hingga data keberapa yang akan diambil. Aturan logika yang berlaku data yang diambil adalah hingga data ***end-1***.
3. Step, menentukan berapa data yang harus dilewati untuk memotong data, nilai defaultnya adalah **1**.

Terdapat beberapa kombinasi parameter yang dapa digunakan, namun yang wajib untuk digunakan adalah parameter **start** dan **end**.

In [None]:
# Inisialisasi list dengan nama nomor
nomor = [1,2,3,4,5,6,7,8,9,10]
# membuat nummpy variabel dengan nama nomor_hp dan nilai dari variabel nomor
nomor_np = np.array(nomor)
nomor_np

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Mengambil data dari data pertama hingga index ke-2:

In [None]:
print(nomor_np[:2])
# nomor_np.size

[1 2]


Mengambil data dari data dengan index ke-3 hingga akhir:

In [None]:
print(nomor_np[3:])

[ 4  5  6  7  8  9 10]


Mengambil data pada index pertama dari data terakhir:

In [None]:
np.array2string(nomor_np)
# nomor_np

'[ 1  2  3  4  5  6  7  8  9 10]'

In [None]:
print('%-10s: %20s'%('nomor_np', nomor_np))
print('%-10s: %2d'%('Index -1',nomor_np[-1]))
print('%-10s: %2d'%('Index 1',nomor_np[1]))

nomor_np  : [ 1  2  3  4  5  6  7  8  9 10]
Index -1  : 10
Index 1   :  2


Mengambil seluruh data dengan 1 data yang dilewati:

In [None]:
print('%-10s: %20s'%('nomor_np', np.array2string(nomor_np)))
print(nomor_np[::2])

nomor_np  : [ 1  2  3  4  5  6  7  8  9 10]
[1 3 5 7 9]


### 2.1.4 Tipe Data

Melakukan pengecekan tipe data dari numpy

In [None]:
nomor_np.dtype
nomor_np = nomor_np.astype('int')
nomor_np

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

### 2.1.5 Copy
- Pada numpy kita dapat membuat duplikat dari suatu variabel dengan tipe data numpy.
- Defaultnya ketika menentukan nilai pada variabel baru yang mana nilai tersebut adalah numpy maka nilai pada variabel yang baru tersebut hanya sebagai referensi bukan nilai sesungguhnya. 
- Sehingga jika terdapat perubahan pada variabel yang baru tersebut maka nilai yang berubah adalah nilai pada variabel yang lama. 


In [None]:
nomor = [0,1,2,3,4,5,6,7,8,9,10]
nomor_np = np.array(nomor)
print('Sebelum melakukan perubahan pada variabel nomor_np:')
print('%-12s: %-40s'%('nomor_np',nomor_np))
baru = nomor_np
baru[0] = 10
print('Setelah dilakukan perubahan pada line-6:')
print('%-12s: %-40s'%('baru',baru))
print('%-12s: %-40s'%('nomor_np',nomor_np))

Sebelum melakukan perubahan pada variabel nomor_np:
nomor_np    : [ 0  1  2  3  4  5  6  7  8  9 10]      
Setelah dilakukan perubahan pada line-6:
baru        : [10  1  2  3  4  5  6  7  8  9 10]      
nomor_np    : [10  1  2  3  4  5  6  7  8  9 10]      


In [None]:
nomor = [0,1,2,3,4,5,6,7,8,9,10]
nomor_np = np.array(nomor)
print('%-12s: %-40s'%('nomor_np',nomor_np))
baru = nomor_np.copy()
baru[0] = 10
print('%-12s: %-40s'%('baru',baru))
print('%-12s: %-40s'%('nomor_np',nomor_np))

nomor_np    : [ 0  1  2  3  4  5  6  7  8  9 10]      
baru        : [10  1  2  3  4  5  6  7  8  9 10]      
nomor_np    : [ 0  1  2  3  4  5  6  7  8  9 10]      


In [None]:
nomor = [0,1,2,3,4,5,6,7,8,9,10]
# Potonglah data ini sehingga didapatkan hasil [0, 3, 6]
nomor[:9:3]

[0, 3, 6]

### 2.1.6 Shape and Reshape

In [None]:
contoh = nomor_np.copy()
contoh = np.append(contoh, 11)
print(contoh)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


Numpy dapat mengubah struktur data yang sebelumnya matrix 12x1 menjadi matrix 3x4

In [None]:
contoh_reshape = np.reshape(contoh,(3,4))
print(contoh_reshape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Kita juga dapat mengembalikan ke struktur matrix sebelumnya

In [None]:
np.reshape(contoh_reshape,(12,))

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


### 2.1.7 Iterating

In [None]:
for item in contoh:
  print(item, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,

In [None]:
for i in range(10):
  print(i)

0
1
2
3
4
5
6
7
8
9


In [None]:
from pprint import pprint
contoh_multi = np.array([contoh for i in range(10)])
pprint(contoh_multi)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])


In [None]:
contoh_multi[0][3]

3

### 2.1.8 Join

In [None]:
arr1 = np.array([0,1,2])
arr2 = np.array([3,4,5])
arr3 = np.concatenate((arr1, arr2))
arr3

array([0, 1, 2, 3, 4, 5])

In [None]:
np.stack((arr1, arr2))

array([[0, 1, 2],
       [3, 4, 5]])

### 2.1.9 Split

In [None]:
training, test = np.array_split(arr3, 2)
print(training)
print(test)

[0 1 2]
[3 4 5]


### 2.2.10 Search

In [None]:
arr3[4] = 2
np.where(arr3==2)[0]

array([2, 4])

In [None]:
index = np.where(arr3%2==0)[0]
index

array([0, 2, 4])

### 2.2.11 Sort

In [None]:
sort1 = np.copy(arr3)
sort1 = sort1[::-1]
print(sort1)
sorted = np.sort(sort1)
print(sorted[::-1])

[5 2 3 2 1 0]
[5 3 2 2 1 0]


### 2.2.12 Filter

In [None]:
filter_data = np.copy(arr3)
filter_data

array([0, 1, 2, 3, 2, 5])

In [None]:
filter = filter_data > 3
filter

array([False, False, False, False, False,  True])

In [None]:
filter_data[filter]

array([5])

Shorthand:

In [None]:
filter_data[filter_data>3]

array([5])

## 2.2 Pandas
Pada sesi ini menggunakan open data yang didapat dari [Kaggle - Olympics in Tokyo](https://www.kaggle.com/arjunprasadsarkhel/2021-olympics-in-tokyo)

## Connect with Google Drive

In [None]:
from google.colab import drive
drive.mount('/data')

### 2.2.1 Data Frame

In [None]:
import pandas as pd

### 2.2.2 Read from CSV

In [None]:
data = pd.read_csv('/content/sample_data/california_housing_test.csv')
data

### 2.2.2 Read from JSON

In [None]:
data = pd.read_json('/content/sample_data/anscombe.json')
data

### 2.2.3 Read from Excel

In [None]:
import pandas as pd
olympics = pd.read_excel('https://storage.googleapis.com/kagglesdsdata/datasets/1487944/2535976/Athletes.xlsx?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210824%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210824T012114Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=8505dbe4278708bbbe8b672e7be4858587fa7e7e36a3491311f976edae4b21373790177496698fb2c26eff4265d5967eb615458f2b02b96b42e484a226b68335c324711de904567393d4a553d9cb72eff988dc3e04b458334b29e47267cfbc9a36847fb594e1bf59b74ef24f35fa02be30fccd7d8a6db351525d44ea938096270ab4a5daca5fa1ce84cc9fbc608df38deb9f8d0be6cbddb2a8af450962907fe7d18f9fd3d3093eec0cfd9fc711751561ecce738c738a430f9c84e57cf030ebc70b84715b6d97267c26062ffd38927f70ba346e5fc11efa5bd87c9b4cc889205fb1d7c01ff91981dab087ce82ce6835604223d1b2232570f533eee8ec96201d06')
for i in olympics['Discipline'].unique():
  print(i)

### 2.2.4 Google Drive


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
pd.read_excel('/content/drive/My Drive/Satria Data/Athletes.xlsx')

In [None]:
pd.read_csv('/content/drive/My Drive/Satria Data/Athletes.csv', sep=';')

### 2.2.3 Analyzing Data

### Head

In [None]:
california_housing = pd.read_csv('/content/sample_data/california_housing_train.csv')
california_housing.head()

### Tail

In [None]:
california_housing.tail()

### Info

In [None]:
california_housing.info()

### Change Data type
Data types are:
- object
- int64
- float64
- datetime64
- bool

In [None]:
california_housing['housing_median_age'] = california_housing['housing_median_age'].astype('int64')
california_housing.info()
california_housing.head()

In [None]:
!unzip '/content/drive/My Drive/Satria Data/Athletes.zip' -d '/content/drive/My Drive/Satria Data/'

### 2.2.2 Slicing

In [None]:
filtered_data = california_housing.loc[(california_housing.housing_median_age>20) & (california_housing.median_income>2)]
filtered_data

### Sorting

In [None]:
sorted_data = filtered_data[['housing_median_age','median_income']].sort_values(by=['housing_median_age'])
sorted_data

### Aggregation

In [None]:
sum_data = sorted_data.groupby(['housing_median_age']).sum()
x = sum_data.reset_index()['housing_median_age']
y = sum_data.reset_index()['median_income']

### Visualing Data

In [None]:
import matplotlib.pyplot as plt
plt.bar(x, y)

### Cleaning Empty Data
Source: [Geeks for Geeks](https://www.geeksforgeeks.org/python-pandas-dataframe-dropna/)

Data: https://drive.google.com/open?id=1Uzdua5o61cfXMz1K16NNcwLFqG91J6W4

In [None]:
import pandas as pd
nba = pd.read_csv('/content/drive/My Drive/Satria Data/nba.csv')
nba

In [None]:
pd.set_option('display.max_rows',10)
nba.isna().sum()

In [None]:
pd.set_option('display.max_rows',None)
is_na = nba.isna().any(axis=1)
null_nba = nba[is_na]
null_nba.shape[0]

### Drop NaN Rows with Any (Horizontal)



In [None]:
nba_any = nba.dropna(axis=0, how='any')
nba_any.shape[0]

### Drop NaN Rows with All (Horizontal)

In [None]:
nba_all = nba.dropna(axis=0, how='all')
nba_all.shape[0]

### Drop NaN Rows with Any (Vertical)

In [None]:
nba_any_verticall = nba.dropna(axis=1,how='any')
nba_any_verticall.shape

In [None]:
nba_all_verticall = nba.dropna(axis=1,how='all')
nba_all_verticall.shape

### Filling NaN

In [None]:
nba = pd.read_csv('/content/drive/My Drive/Satria Data/nba.csv')
print(nba)
print(nba[is_na])
print(nba.fillna(0))

### Filling NaN with Next Value

In [None]:
is_na = nba[nba.isnull().any(axis=1)].index
print(nba.iloc[is_na])
replaced_nba = nba.fillna(method='bfill')
print(replaced_nba.iloc[is_na])

### Filling NaN with Previouse Value

In [None]:
is_na = nba[nba.isnull().any(axis=1)].index
print(nba.iloc[is_na])
replaced_nba = nba.fillna(method='pad')
print(replaced_nba.iloc[is_na])

### Removing Duplicate

In [None]:
nba = nba.append(nba.iloc[[-2]])
nba

Melakukan pengecekkan apakah terdapat nilai yang sama. Fungsi duplicated mengembalikan nilai True jik terdapat duplikasi dan akan mengembalikan nilai False jika nilai tidak terduplikasi.

In [None]:
duplicated_nba = nba.duplicated()
duplicated_nba

In [None]:
nba[duplicated_nba].index

In [None]:
nba.drop(nba[duplicated_nba].index)

Untuk menghapus data yang terduplikasi dapat dilakukan dengan menggunakan fungsi **drop_duplicates**

In [None]:
nba = nba.append(nba.iloc[[-2]])
nba

In [None]:
nba_duplicated_free = nba.drop_duplicates()
nba_duplicated_free

## Data Correlation

In [None]:
nba.corr(method='pearson')

## Try Another Dataset
Data Srouce: [Kaggle](https://storage.googleapis.com/kagglesdsdata/datasets/1487944/2535976/Medals.xlsx?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210825%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210825T011141Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=84a0ec99a9963dada1d7b3502c22968e1aa9b46edf908236b05364f33860db92eefa1805e8c26e963d246322c559efa3e4bd044d1891d9ac6a38ed9546ad8a7ee59aa8678e14fd8ae18f53e96065909f9140d3acb5de646e74493e33c922b81033bb84e4a84224d593b7f53e8a070fe1e55a54be39586fcc162f7ee071670141ac5ae4aa7f66475d85bc3dcb9e46a60160fe41d15db997296e66f944035415da0939f50a44e25e6e2964abd8844e3799c56b93c9cb872c007a08abed4b05e3e227210e31077b622b3c0a29a9eae6612daa01e4737679132135adf633392c24f01bf3795729011522658ae0fc67e91d3b03ff5067e78150a641d71271b6a81a2a)

Column:
- preg = Number of times pregnant
- plas = Plasma glucose concentration a 2 hours in an oral glucose tolerance test
- pres = Diastolic blood pressure (mm Hg)
- skin = Triceps skin fold thickness (mm)
- test = 2-Hour serum insulin (mu U/ml)
- mass = Body mass index (weight in kg/(height in m)^2)
- pedi = Diabetes pedigree function
- age = Age (years)
- class = Class variable (1:tested positive for diabetes, 0: tested negative for diabetes)

In [None]:
import pandas as pd
athletes = pd.read_excel('/content/drive/MyDrive/Satria Data/Athletes.xlsx')
athletes

In [None]:
grouped_athletes = athletes.groupby(['NOC']).count()
grouped_athletes

In [None]:
medals = pd.read_excel('https://storage.googleapis.com/kagglesdsdata/datasets/1487944/2535976/Medals.xlsx?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210825%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210825T011141Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=84a0ec99a9963dada1d7b3502c22968e1aa9b46edf908236b05364f33860db92eefa1805e8c26e963d246322c559efa3e4bd044d1891d9ac6a38ed9546ad8a7ee59aa8678e14fd8ae18f53e96065909f9140d3acb5de646e74493e33c922b81033bb84e4a84224d593b7f53e8a070fe1e55a54be39586fcc162f7ee071670141ac5ae4aa7f66475d85bc3dcb9e46a60160fe41d15db997296e66f944035415da0939f50a44e25e6e2964abd8844e3799c56b93c9cb872c007a08abed4b05e3e227210e31077b622b3c0a29a9eae6612daa01e4737679132135adf633392c24f01bf3795729011522658ae0fc67e91d3b03ff5067e78150a641d71271b6a81a2a')
medals = medals.rename(columns={'Team/NOC':'NOC'})
medals

In [None]:
combined = pd.merge(grouped_athletes, medals, on=['NOC'])
del combined['Name']
combined = combined.rename(columns={'Discipline':'Jumlah'})
combined

In [None]:
combined.corr()

In [None]:
combined['skor'] = combined['Gold']*3+combined['Silver']*2+combined['Bronze']*1
print(combined.sort_values('skor',ascending=False))

In [None]:
combined['skor_efectivity'] = combined['skor']/combined['Jumlah']
print(combined.sort_values('skor_efectivity',ascending=False))

In [None]:
print(combined.sort_values(['Jumlah', 'Total'],ascending=[False, False]))
combined['efectivity'] = combined['Total']/combined['Jumlah']*100
print(combined.sort_values('efectivity',ascending=False))

In [None]:
import matplotlib.pyplot as plt
sorted = combined.sort_values('efectivity',ascending=False)[:4]
plt.bar(sorted['NOC'], sorted['Jumlah'], label='Jumlah Atlit')
plt.bar(sorted['NOC'], sorted['Total'], label='Jumlah Medali')
plt.xlabel("NOC")
plt.title("Perbandingan Jumlah Atlit dengan Perolehan Medali")
plt.legend()
plt.show()

In [None]:
# combined[combined['NOC']=='United States of America']

# combined.at[combined[combined.NOC=='USA'].index,'NOC'] = 'USA'
combined.at[combined[combined.NOC.str.contains('ROC')].index[0],'NOC']
combined.iloc[70]

In [None]:
print(sortedByTotal)
sortedByTotal = combined.sort_values('Total',ascending=False)[:4]
plt.bar(sortedByTotal['NOC'], sortedByTotal['Jumlah'], label='Jumlah Atlit')
plt.bar(sortedByTotal['NOC'], sortedByTotal['Total'], label='Jumlah Medali')
plt.xlabel("NOC")
plt.title("NOC dengan Perolehan Medali Terbanyak")
plt.legend()
plt.show()

In [None]:
corr_medals = medals.corr()
corr_medals

### Tugas

Data Olimpiade Tokyo
Visualisasikan data:
- Pie Chart mengenai negara dan jumlah delegasinya
- Jumlah peserta pada setiap negara pada setiap cabang

## 2.4 Matplotlib

In [None]:
import matplotlib.pyplot as plt
plt.bar([1,2],[10,20])

In [None]:
pip install firebase_admin