# Data Introduction

Machine Learning adalah sebuah bidang yang memberi komputer kemampuan untuk belajar tanpa diprogram secara eksplisit

## Mengapa Machine Learning?

- ML memberikan powerful tool untuk mempelajari pola suatu data
- ML lebih simpel untuk solve complicated problem dibandingkan pemrograman tradisional

## Jenis-jenis Machine Learning

- Supervised learning, dataset yang digunakan memiliki label. Label adalah tag atau pengenal dari sebuah data
- Unsupervised learning, dataset yang digunakan tidak memiliki label. Model unsupervised melakukan belajar sendiri untuk melabeli atau mengelompokkan data
- Semi Supervised merupakan gabungan dari supervised learning dan unsupervised learning
- Reinforcement Learning adalah model yang belajar menggunakan sistem reward dan penalties.

## Data Processing

Tahap paling awal dalam setiap proyek ML. Pada tahap ini data akan diambil dari sumber tertentu, dimasukkan pada suatu environment, dan diproses agar bisa diolah oleh model machine learning

### Pandas Library

Salah satu library yang paling populer untuk pengolahan data dalam machine learning
Berikut adalah beberapa contoh data yang dapat diolah dengan pandas, CSV,SQL,SPSS,JSON


## Latihan Konversi Pandas Dataframe

In [6]:
import pandas as pd
import os
os.listdir('sample_data')
df = pd.read_csv('sample_data/california_housing_test.csv')
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


## Data Cleaning

- Cara paling simpel untuk mengatasi skewness adalah dengan menyamakan proporsi kelas mayoritas dengan kelas minoritas
- Ada istilah Garbage In - Garbage Out yang berarti hasil dari machine learning akan buruk jika input yang Anda masukkan juga buruk

Berikut adalah beberapa hal yang umum yang harus diperhatikan dalam proses data cleaning:

1. Konsistensi Format
2. Skala Data
3. Duplikasi data
4. Missing Value
5. Skewness, data tidak seimbang

<https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/imbalanced-data>

## Data Preparation Opsional

- Outlier Removal, Salah satu cara termudah untuk mengecek apakah terdapat outlier dalam data kita adalah dengan melakukan visualisasi.
- Normalisasi adalah mengubah nilai-nilai dari sebuah fitur ke dalam skala yang sama.
- Standardization  proses untuk konversi nilai-nilai dari suatu fitur sehingga nilai-nilai tersebut memiliki skala yang sama

<https://scikit-learn.org/0.16/modules/generated/sklearn.preprocessing.MinMaxScaler.html>
<https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html>



In [7]:
# contoh normalisasi data
from sklearn.preprocessing import MinMaxScaler
data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26], [9000000, 29]]
scaler = MinMaxScaler()
scaler.fit(data)
print(scaler.transform(data))

[[0.25806452 0.45454545]
 [1.         1.        ]
 [0.         0.        ]
 [0.08064516 0.13636364]
 [0.16129032 0.27272727]]


In [8]:
# contoh standarisasi data
from sklearn import preprocessing
data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26], [9000000, 29]]
scaler = preprocessing.StandardScaler().fit(data)
data = scaler.transform(data)
data

array([[-0.11638732,  0.23521877],
       [ 1.94277296,  1.80334389],
       [-0.83261698, -1.07155217],
       [-0.60879521, -0.67952089],
       [-0.38497344, -0.28748961]])

### Data storage/warehouse 

- RDBMS
- NoSQL
- Firebase
- Spark
- Bigquery

## Datasets

- Pilihan yang lebih baik adalah dengan membagi dataset menjadi 2 bagian yaitu data training dan data testing
- Data testing diambil dengan proporsi tertentu -umumnya 20% dari keseluruhan data- jika jumlah datanya kecil.
- Jika ukuran datanya sangat besar seperti 1 juta record, kita dapat mengambil sekitar 10 ribu data saja untuk testing alias sebesar 1% saja.

In [10]:
import sklearn
from sklearn import datasets
from sklearn.model_selection import train_test_split

# sklearn menyediakan dataset iris yakni sebuah dataset yang umum digunakan untuk masalah klasifikasi. Dataset ini memiliki jumlah 150 sampel.
iris = datasets.load_iris()

x=iris.data
y=iris.target

# Train_test_split mengembalikan 4 nilai
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

len(x_test)

30

## Data Evaluation

- Validation set atau holdout validation adalah bagian dari train set yang dipakai untuk pengujian model pada tahap awal
- Jika ukuran validation set-nya terlalu kecil, maka ada kemungkinan kita memilih model yang tidak optimal.
- Ketika ukuran validation set terlalu besar, maka sisa data pada train set lebih kecil dari data train set utuh di mana kondisi ini tidak ideal untuk membandingkan model yang berbeda pada data training yang lebih kecil

Solusi untuk masalah ini adalah dengan menggunakan Cross Validation.

K-Fold Cross Validation atau lebih sering disebut cross validation adalah salah satu teknik yang populer dipakai dalam evaluasi model ML


In [12]:
# Latihan SKLearn Cross Validation Split

import sklearn
from sklearn import datasets
from sklearn.model_selection import cross_val_score
from sklearn import  tree
iris = datasets.load_iris()

x=iris.data
y=iris.target

# model machine learning pertama kita yaitu decision tree, menggunakan library scikit learn.
clf = tree.DecisionTreeClassifier()

# Cross_val_score mengembalikan nilai berupa larik atau array yang terdiri dari akurasi pengujian setiap fold dari dataset
scores = cross_val_score(clf, x, y, cv=5)
print(scores)

[0.96666667 0.96666667 0.9        0.96666667 1.        ]
