# Tutorial: Putting It All Together: A Scikit-learn Evaluation Workflow

Selamat datang di subchapter terakhir dari Chapter 4! Di sini, kita akan menggabungkan semua yang telah kita pelajari—metrik absolut, metrik relatif, dan analisis visual—ke dalam satu alur kerja evaluasi yang komprehensif.

Tujuan dari notebook ini adalah untuk menunjukkan bagaimana cara menceritakan kisah lengkap tentang performa model Anda, melampaui satu angka saja, untuk memberikan analisis yang mendalam dan dapat ditindaklanjuti.
---
### 1. Tujuan Pembelajaran

Di akhir notebook ini, Anda akan dapat:

* Mengimplementasikan alur kerja evaluasi regresi yang lengkap dari awal hingga akhir.
* Menghitung dan menginterpretasikan berbagai metrik (MAE, MSE, RMSE, R²) secara bersamaan.
* Menggunakan plot residual sebagai bagian integral dari proses evaluasi.
* Mensintesis semua temuan untuk membuat kesimpulan yang kuat tentang kelebihan dan kekurangan model.

In [1]:
# import modul
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [3]:
# atur tema visual 
sns.set_theme(style='whitegrid', context='talk')

# manual dataset
df = sns.load_dataset('tips')

print(df.head())
print(df.isnull().sum())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64


In [6]:
# ambil data X (fitur) dan Y (target) nya
X = df['total_bill']
Y = df['tip']

# split train dan test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=42, test_size=0.2)

### 3. Langkah 1: Hitung Semua Metrik Kuantitatif

Mari kita kumpulkan semua angka performa model kita di satu tempat.

### 4. Langkah 2: Analisis Kesalahan Secara Visual

Angka-angka di atas memberi kita gambaran umum, tetapi plot residual akan memberi kita wawasan yang lebih dalam tentang *perilaku* kesalahan model.

---
### 5. Langkah 3: Sintesis dan Laporan Akhir

Sekarang, saatnya menggabungkan semua temuan kita ke dalam sebuah kesimpulan yang kohesif. Ini adalah bagian yang akan Anda sampaikan kepada tim atau pemangku kepentingan Anda.

#### **Laporan Evaluasi Model Prediksi Penjualan**

  1. ringkasan performa kuantitatif
* Mean Absolute Error (MAE):0.6209 kesalahan prediksi tip meleset sekitar 0.62 unit dari nilai sebenarnya. nilai ini sedikit lebih rendah dari RMSE, yang mengindikasikan tidak ada banyak outlier / kesalahan yang ekstrem
* Mean Squared Error (MSE):0.5688 
* Root Mean Squared Error (RMAE):0.7542 kesalahan prediksi sekitar 25% dari banyak tip. jika tip diukur dalam unit, maka prediksi tip memiliki kesalahan 0.25 unit 
* R-Squared (R²):0.5449 berhasil menjelaskan bahwa sekitar 54.59% dari variasi dalam data bill dan tip pada set tip. ini menunjukkan bahwa total bill dan tip memiliki kekuatan prediktif yang tidak tinggi

  2. analisis performa kualitatif
* sebaran residual memiliki point cloud pada tip dibawah 4 dollar
* untuk rentang prediksi tip yang diberikan, residual memiliki nilai yang tidak banyak tersebar pada nilai prediksi tip yang tinggi. ini mengindikasikan bahwa tip pada nilai yang tinggi tidak banyak data tersedia