# Proyek 1 Pengenalan Data 🎯

## Langkah-Langkah 📝


*   Data Collecting
*   Data Preparation
*   Data Storage/Warehouse
*   Dataset Splitting 
*   Data Evaluation



### Data Collecting 🧮💻


*   Persiapkan dataset yang akan dikonversi.
*   Impor library Pandas.
*   Gunakan fungsi read_csv() untuk mengonversi data.

#### Latihan Konversi Pandas Dataframe 💪💻

In [67]:
import os
os.listdir('sample_data')

['anscombe.json',
 'README.md',
 'mnist_train_small.csv',
 'mnist_test.csv',
 'california_housing_test.csv',
 'california_housing_train.csv']

In [68]:
import pandas as pd
df = pd.read_csv('sample_data/california_housing_train.csv')
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


### Data Preparation 🧮💻

#### Teknik One-Hot-Encoding


*   One Hot Encoding atau *dummy variables* ialah teknik mengubah data kategorik menjadi data numerik
*   Hasil berupa kolom baru untuk setiap kategori dari data kategorik

#### Teknik Outlier Removal


*   Outlier adalah nilai yang jauh berbeda dari kumpulan nilai lain dan dapat mengacaukan hasil dari sebuah analisis statistik
*   Outlier Removal harus dihapus


#### Teknik Normalization 


*   Teknik normalisasi adalah mengubah nilai dari sebuah fitur ke dalam skala yang sama.
*   Skala 0 - 1

*   MinMaxScaler adalah fungsi untuk menghitung nilai minimum dan maksimum pada tiap kolom.

In [69]:
from sklearn.preprocessing import MinMaxScaler

In [70]:
data1 = [
    [12000000, 33], 
    [35000000, 45], 
    [4000000, 23], 
    [6500000, 26], 
    [9000000, 29]
]

*   Fungsi fit memiliki fungsi untuk menghitung rata-rata dan deviasi standar dari setiap kolom atribut\

In [71]:
scaler1 = MinMaxScaler()
scaler1.fit(data1)

MinMaxScaler()

*   fungsi transform untuk mengaplikasikan standard scaler pada data

In [72]:
print(scaler1.transform(data1))

[[0.25806452 0.45454545]
 [1.         1.        ]
 [0.         0.        ]
 [0.08064516 0.13636364]
 [0.16129032 0.27272727]]


#### Teknik Standardization


*   Proses konversi nilai suatu fitur sehingga nilai tersebut memiliki skala yang sama
*   Z-score adalah metode paling populer untuk standardisasi


$$
  z = \frac{value - mean}{standard deviation}\
$$






In [73]:
from sklearn import preprocessing

In [74]:
data2 = [
    [12000000, 33], 
    [35000000, 45], 
    [4000000, 23],
    [6500000, 26],
    [9000000, 29]
]

In [75]:
scaler2 = preprocessing.StandardScaler().fit(data2)

In [76]:
data = scaler2.transform(data2)

In [77]:
print(data)

[[-0.11638732  0.23521877]
 [ 1.94277296  1.80334389]
 [-0.83261698 -1.07155217]
 [-0.60879521 -0.67952089]
 [-0.38497344 -0.28748961]]


### Data Storage/Warehouse 🧮💻


*   Tujuan awalnya adalah untuk proses aliran data dari sistem operasional ke dalam sistem pendukung keputusan atau decision-support system (DSS).
*   Data Warehouse berkembang berevolusi dari penyimpanan informasi pendukung platform business intelligence menjadi infrastruktur analitis
*   Contoh Data Storage/Warehouse yaitu

#### Relational Database Management System (RDBMS)


*  Database terdiri dari tabel. 
*  Sebuah tabel berupa kolom dan baris yang memuat nilai tertentu. 
*  Konsep berupa relasi antar tabel pada suatu database. 
*  Setiap tabel dihubungkan dengan tabel lainnya dengan menggunakan primary key dan foreign key. 
*  Contoh RDBMS yaitu MySQL, PostgreSQL, dan Microsoft SQL Server.

#### NoSQL


*  NoSQL adalah basis data yang tidak menggunakan bahasa SQL
*  NoSQL memiliki beberapa teknik penyimpanan yaitu: dokumen, graph, key-value, dan column based, antara lain. 
*  Contoh NoSQL adalah MongoDB, CouchDB, Cassandra, Redis, Neo4J, dan Riak

#### Firebase Realtime Database


*  “Database Realtime” adalah database yang menyimpan data yang berubah seiring waktu. 
*  Contoh data seperti jumlah penjualan harian, pengunjung mall setiap jam, arus lalu lintas setiap menit, atau fluktuasi saham setiap detik.
*  Data pada database realtime disimpan dalam format waktu dan nilai pada waktu yang terkait
*  Firebase Realtime Database (FRD) adalah database berbasis cloud

#### Spark

*   Apache Spark adalah perangkat lunak pemrosesan dan analisis data berskala besar. 
*   Spark digunakan dalam proses ETL (Extract, Transform, Load), data streaming, perhitungan grafik, SQL, dan machine learning. 
*   Untuk machine learning, Spark menyediakan MLlib yang berisi implementasi model machine learning seperti klasifikasi, regresi, pengklasteran, penurunan dimensi, dan pemfilteran kolaboratif.


#### Big Query


*   BigQuery adalah data warehouse berbasis cloud 
*   BigQuery digunakan perusahaan yang menawarkan penyimpanan data berbasis SQL dan analisis data berukuran besar.


### Datasets 🧮💻


*   Data pada *datasets* atau himpunan data harus diuji
*   Uji dataset dengan membagi 2 bagian yaitu *data training* dan *data testing*.
*   Pembagian dataset harus memiliki rasio yang tepat
*   Rasio umum adalah $ 80:20 $, $ 70:30 $, atau $ 60:40 $,
*   Jika dataset berukuran besar, proporsi pembagian $ 90:10 $ atau $ 99:1 $


```{figure} ./assets/images/train_set_&_test_set.png
:name: Here is figure-1 {https://www.dicoding.com}`my-fig-ref`

Train Set & Test Set
```

#### Training Set


*   Data dilatih sebagai pelatihan model yaitu *train set*

#### Test Set


*   Data dites sebagai uji coba model yaitu *test set*

#### Pembagian Dataset


*   Fungsi *train_test_split* membagi data tes dan data latih
*   Parameter sebagai berikut


```
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1 )
```


> test_size


*  bertujuan untuk membagi rasio data tes dan sisanya menjadi data latih
*  contoh $ test\_size = 0.2 $, maka data tes $ 20\% $ dan data latih $ 80\% $


> shuffling


*  bertujuan untuk mengacak kelas data tes


> random_state


*  bertujuan untuk dapat memastikan bahwa hasil pembagian dataset konsisten dan memberikan data yang sama setiap kali model dijalankan

In [78]:
from sklearn.model_selection import train_test_split
    
X_data = range(10)
y_data = range(10)
    
print("random_state ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = 42)
    print(y_test)
    
    
print("random_state tidak ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = None)
    print(y_test)

random_state ditentukan
[8, 1, 5]
[8, 1, 5]
[8, 1, 5]
random_state tidak ditentukan
[5, 9, 7]
[3, 8, 0]
[7, 6, 0]


#### Latihan Pembagian Dataset 💪💻

In [79]:
import sklearn
from sklearn import datasets

In [80]:
# load iris dataset
iris1 = datasets.load_iris()

In [81]:
# pisahkan atribut dan label pada iris dataset
x1 = iris1.data
y1 = iris1.target

In [82]:
from sklearn.model_selection import train_test_split
    
# membagi dataset menjadi training dan testing 
x_train1, x_test1, y_train1, y_test1 = train_test_split(x1, y1, test_size=0.2, random_state=1)

In [83]:
# menghitung panjang/jumlah data pada x_test
len(x_test1)

30

### Data Evaluation 🧮💻


*   Proses uji data agar data bekerja baik saat dites ataupun dilatih
*   Solusi dengan *validation set* atau *holdout validation*
*   Validation Set ialah bagian dari *train data* untuk dilatih dari suatu model
*   Hasil *validation set* terbaik menentukan kualitas suatu model
*   Cross Validation adalah salah satu langkah terpopuler dalam evaluasi data

```{figure} ./assets/images/train,validation,testpng.png
:name: Here is figure-2 {https://www.dicoding.com}`my-fig-ref`

Train, Validation & Test Set
```

#### Teknik K-Fold Cross Validation


*   Dataset dibagi sebanyak $ K $ lipatan
*   Setiap iterasi setiap lipatan dipakai satu kali sebagai data uji 
*   Lipatan sisanya dipakai sebagai data latih.


```{figure} ./assets/images/K_Fold_Cross_Validation.png
:name: Here is figure-3 {https://www.dicoding.com}`my-fig-ref`

K-Fold Cross Validation
```

#### Latihan SKLearn Cross Validation Split 💪💻

In [84]:
from sklearn import datasets
 
# load iris dataset
iris2 = datasets.load_iris()

In [85]:
# bagi atribut dan target, assign ke dalam variable x, y
x2 = iris2.data
y2 = iris2.target

*   Model machine learning yaitu decision tree
*   ``` clf ``` adalah singkatan dari classifier

In [86]:
from sklearn.model_selection import cross_val_score
from sklearn import tree
 
clf = tree.DecisionTreeClassifier()

*   ``` Fungsi cross_val_score() ``` menerima 4 parameter
*   ``` clf ``` adalah model machine learning, 
*   ``` X ``` adalah atribut dari dataset
*   ``` y ``` adalah label dari dataset
*   ``` cv ``` adalah jumlah *fold* atau lipatan cross validation.
*   ``` Cross_val_score ``` mengembalikan array berisi akurasi pengujian setiap fold dari dataset.

In [87]:
# mengevaluasi performa model dengan cross_val_score
scores2 = cross_val_score(clf, x2, y2, cv=5)

In [88]:
print(scores2)

[0.96666667 0.96666667 0.9        1.         1.        ]


*   Fold ke-1 memiliki akurasi $ 0.9667 $
*   Fold ke-2 memiliki akurasi $ 0.9677 $
*   Fold ke-3 memiliki akurasi $ 0.9 $
*   Fold ke-4 memiliki akurasi $ 1.0 $
*   Fold ke-5 memiliki akurasi $ 1.0 $

*  $ 0.96666 $ berarti ketika *fold* pertama dijadikan validation set dan fold lainnya dijadikan *train set* dengan akurasi $ 0.96666 $. 
*  Akurasi seluruh pengujian *fold* tinggi dan konsisten bahwa model performa yang sangat baik.
*  Secara umu rentan akurasi terbaik yaitu $ 0.85 - 0.99 $, maka model dapat dikatakan baik.