# Machine Learning - Supervised - Classification
machine learning yang membuat prediksi tipe kategorikal.

1. pilih tipe algoritma: salah satu algoritma classification
2. masukkan data: pisahin jadi fitur dan target
3. latih - menggunakan sklearn
4. dapat model yang sudah terlatih - jangan lupa untuk tes akurasi modelnya

step-step membuat model ML masih sama, kita mulai dari persiapan data.
1. persiapan data
2. rapiin data
  - data harus numerik, kalau ada data text kita encoding dulu
  - pilih fitur dan target
  - pisahin jadi training dan testing dataset
3. pilih algoritma dan latih model
4. evaluasi model
  - regression model: R-squared
  - classification model: confusion matrix dan classification report
5. tuning - kembali ke step 1-4 untuk mencoba membuat model lebih baik

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

kali ini kita akan latihan membuat model tipe klasifikasi dengan data diabetes [raw data](https://raw.githubusercontent.com/stefkwan-h8/dataset/main/diabetes.csv)

kita akan membuat model yang bisa memprediksi apakah seseorang memiliki diabetes atau tidak, jika kita punya informasi tentang:
- Pregnancies
- Glucose
- BloodPressure
- SkinThickness
- Insulin
- BMI
- DiabetesPedigreeFunction
- Age

In [None]:
# 1. import data

df_diabetes = pd.read_csv("https://raw.githubusercontent.com/stefkwan-h8/dataset/main/diabetes.csv")
df_diabetes.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1


In [None]:
df_diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


ada 768 data, tidak ada missing value, semuanya sudah berbentuk numerik

kita bisa skip data cleaning untuk missing value

kita bisa skip data preparation untuk encoding (convert text -> angka)

In [None]:
# 2. persiapan data
# kita pisahkan data yg untuk fitur, dan yg untuk target/ label

fitur = df_diabetes.drop(columns=['Outcome'])
target = df_diabetes['Outcome']

display(fitur.head())
display(target[:5])

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

In [None]:
# 3. pilih algoritma dan latih model
# Logistic Regression
model_LR = LogisticRegression()
model_LR.fit(fitur, target)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# 4. evaluasi model
# apakah model ini bisa memprediksi seseorang punya diabetes/ tidak dengan baik?

x = fitur
y = target # target dari dataset
y_pred = model_LR.predict(x) # target dari hasil prediksi

print(classification_report(y, y_pred))

              precision    recall  f1-score   support

           0       0.80      0.89      0.84       500
           1       0.74      0.57      0.65       268

    accuracy                           0.78       768
   macro avg       0.77      0.73      0.75       768
weighted avg       0.78      0.78      0.77       768



In [None]:
confusion_matrix(y, y_pred)

array([[447,  53],
       [114, 154]])

baris pertama aslinya 0 sehat dan hasil prediksi nya 447 ditebak sebagai 0 sehat,  53 ditebak sebagai 1 sakit

baris kedua aslinya 1 sakit dan hasil prediksi model kita 114 ditebak sebagai 0 sehat,  154 ditebak sebagai 1 sakit

dari total 447+53 orang sehat, hanya 447 yang berhasil diprediksi model kita sebagai orang sehat. ada 53 yang salah klasifikasi, orang sehat dibilang sakit sama modelnya

dari total 114+154 orang sakit, hanya 154 yang berhasil diprediksi model kita sebagai orang sakit. ada 114 orang yang salah klasifikasi, orang sakit dibilang sehat sama modelnya

1. mau membuat model Machine Learning? Ya
2. apakah ada target/label yang mau di prediksi?
  - Ya -> Supervised
  - Tidak -> Unsupervised
3. kalau Supervised, apakah target/label bersifat continuous atau discrete?
  - continuous: uang, harge, waktu, umur, tinggi, panjang, berat, yg berjalan terus tanpa pembatas --> Regression Model
  - discrete: hasil lempar dadu 1 2 3 4 5 6, sakit atau tidak 0 1, warna apa merah hijau kuning 0 1 2 --> Classification Model

Regression Model akan menggunakan algoritma ML seperti:
- Linear Regression
- Polynomial Regression

Classification Model akan menggunakan algoritma ML seperti:
- Naive Bayes
- Decision Tree
- Random Forest
- Logistic Regression
- KNN, K Nearest Neighbor
- SVM, Support Vector Machine
- dan lain2...

saat hal yang mau kita prediksi bentuknya kategori, kita gunakan model Classification

kategori itu apa? bisa apapun asalkan tidak continuous
- rating restoran berapa bintang, 1 2 3 4 5 bintang, ini ada 5 kategori
- gambar apa, anjing atau kucing? 2 pilihan, 2 kategori
- diberikan harga mobil, tahun, jumlah pintu, tipe mesin, kita mau tebak jenis mobil nya (suv, sedan, truk), 3 pilihan jenis mobil, ada 3 kategori


In [None]:
# break 10 menit sampai jam 20.20