# Prediksi Tip Untuk Waiter

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

- pandas : membaca dan mengolah dataset (tabel)
- numpy	: perhitungan matematika & array
- train_test_split	: membagi data menjadi data latih & data uji
- LinearRegression	: membuat model prediksi regresi linear

In [None]:
file_url = "https://drive.google.com/uc?export=download&id=18eNer1gHn0zKL8M1gMY-mG29Vt4ca1yN"

data = pd.read_csv(file_url)
print(data.head())

   total_bill   tip     sex smoker  day    time  size
0       18.50  1.25  Female     No  Sun  Dinner     2
1       12.75  2.10    Male     No  Sun  Dinner     3
2       23.80  4.25    Male     No  Sun  Dinner     3
3       25.20  3.75    Male     No  Sun  Dinner     2
4       26.35  4.15  Female     No  Sun  Dinner     4


- Mengambil dataset dari Google Drive melalui link direct-download dan membaca dataset menggunakan pandas.

- pd.read_csv() membaca dataset format CSV

- data.head() menampilkan 5 baris pertama, digunakan untuk memastikan data terbaca dengan benar

## Cek Missing Value

In [None]:
print(data.isnull().sum())

total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64


- Untuk memastikan tidak ada data kosong

- Kalau ada nilai > 0 â†’ harus dihapus / diisi (cleaning)

## Membuat Scatter plot

- Membuat scatter plot antara total biaya (total_bill) dan tip (tip).

- size="size" mengatur ukuran titik berdasarkan jumlah orang di meja.

- color="sex" membedakan warna berdasarkan gender.

- trendline="ols" menampilkan garis regresi untuk melihat kecenderungan hubungan.

### ðŸ“Š Scatter Plot Visualisasi Hubungan Total Bill dan Tip berdasarkan Gender

In [None]:
figure = px.scatter(data_frame = data, x="total_bill",
                    y="tip", size="size", color= "sex", trendline="ols")
figure.show()

### ðŸ“Š Scatter Plot Total Bill vs Tip berdasarkan Time (Lunch/Dinner)

In [None]:
figure = px.scatter(data_frame = data, x="total_bill",
                    y="tip", size="size", color= "time", trendline="ols")
figure.show()

## Penjelasan Pie Chart

- px.pie() adalah fungsi untuk membuat pie chart menggunakan Plotly.

- Parameter:

- data â†’ dataset sumber.

- values='tip' â†’ nilai yang dihitung totalnya adalah jumlah tip.

- names='sex' / 'smoker' / 'time' â†’ kategori pengelompokkan.

- hole=0.5 â†’ membuat pie chart berbentuk donat.

### ðŸ¥§ Pie Chart: Distribusi Tip berdasarkan Hari

In [None]:
figure = px.pie(data,
             values='tip',
             names='day',hole = 0.5)
figure.show()

### ðŸ¥§ Pie Chart: Distribusi Tip berdasarkan Gender

In [None]:
figure = px.pie(data,
             values='tip',
             names='sex',hole = 0.5)
figure.show()

### ðŸ¥§ Pie Chart: Distribusi Tip berdasarkan Perokok/Tidak Perokok

In [None]:
figure = px.pie(data,
             values='tip',
             names='smoker',hole = 0.5)
figure.show()

### ðŸ¥§ Pie Chart: Distribusi Tip berdasarkan Time(Dinner/Lunch)

In [None]:
figure = px.pie(data,
             values='tip',
             names='time',hole = 0.5)
figure.show()

## Encoding Data

- Machine Learning tidak bisa mengolah data dalam bentuk teks atau kategori.
Algoritma regresi linear membutuhkan input numerik.
Jadi kita melakukan encoding untuk mengubah kategori ke angka menggunakan .map().

- Kolom sebelum	// Kolom setelah
- Female / Male	// 0 / 1
- No / Yes	// 0 / 1
- Thur, Fri, Sat, Sun	// 0, 1, 2, 3
- Lunch / Dinner	// 0 / 1

In [None]:
data["sex"] = data["sex"].map({"Female": 0, "Male": 1})
data["smoker"] = data["smoker"].map({"No": 0, "Yes": 1})
data["day"] = data["day"].map({"Thur": 0, "Fri": 1, "Sat": 2, "Sun": 3})
data["time"] = data["time"].map({"Lunch": 0, "Dinner": 1})
data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,18.5,1.25,0,0,3,1,2
1,12.75,2.1,1,0,3,1,3
2,23.8,4.25,1,0,3,1,3
3,25.2,3.75,1,0,3,1,2
4,26.35,4.15,0,0,3,1,4


In [None]:
x = np.array(data[["total_bill", "sex", "smoker", "day",
                   "time", "size"]])
y = np.array(data["tip"])

- x = variabel input (fitur) yang dianggap mempengaruhi nilai tip.

- y = variabel output (target) yang ingin diprediksi.

- **Fitur	Alasannya kenapa dipakai** :

- total_bill	Semakin besar tagihan biasanya tip lebih besar
- sex	Pengaruh gender terhadap kebiasaan memberi tip
- smoker	Pembedaan kultur perokok
- day	Hari tertentu bisa mempengaruhi keramaian dan tip
- time	Makan siang/malam mempengaruhi nilai tip
- size	Semakin banyak orang, kemungkinan total tagihan & tip meningkat

In [None]:
from sklearn.model_selection import train_test_split
xtrain, xtest, ytrain, ytest = train_test_split(x, y,
                                                test_size=0.2,
                                                random_state=42)

- Membagi dataset menjadi data latih dan data uji.

- 80% training dan 20% testing

- random_state=42 â†’ memberikan random generator tetap, tujuannya agar hasil tidak berubah setiap run.

- Training :

- Digunakan untuk membangun model
- Model belajar pola data

- Testing :

- Digunakan untuk mengevaluasi model
- Mengukur performa model di data baru

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(xtrain, ytrain)

- Membuat objek model dengan algoritma Linear Regression

- fit() berarti model belajar dari data training

- Model akan mencari hubungan linear:

- tip = a1(total_bill) + a2(sex) + ... + bias


- Model akan menghitung koefisien untuk setiap fitur agar kesalahan prediksi minimum.

In [None]:
# features = [[total_bill, "sex", "smoker", "day", "time", "size"]]
features = np.array([[24.50, 1, 0, 0, 1, 4]])
model.predict(features)

array([4.19775324])

- Kita mencoba memprediksi tip berdasarkan contoh input:

Fitur	Nilai

- total_bill	24.50
- sex	1 = Male
- smoker	0 = Non-smoker
- day	0 = Thursday
- time	1 = Dinner
- size	4 orang

Model kemudian mengembalikan perkiraan tip dalam USD.

## ðŸŽ¯ Kesimpulan Penting

- Visualisasi membantu memahami pola pada data.

- Encoding wajib dilakukan agar mesin bisa memproses data kategorikal.

- Pembagian data training/testing penting untuk mengevaluasi performa model.

- Linear Regression dapat digunakan untuk memprediksi nilai tip.

- Model bisa digunakan untuk memprediksi tip berdasarkan input tertentu.