#TUGAS PRAKTIKUM

##1

##1. Identifikasi Variabel

*   Variabel Target (Dependent/Y): charges(Biaya Medis Personal)

*   Variabel Bebas (Features/X): age, sex, bmi, children, smoker, region




##2. Pra-pemrosesan Data (Handling Kategorikal)

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# 1. Memuat Dataset
# Ganti path_to_file dengan lokasi file insurance.csv Anda
try:
    data_path = '/content/drive/MyDrive/ml/dataset/insurance.csv'
    df = pd.read_csv(data_path)
except FileNotFoundError:
    print("Pastikan file 'insurance.csv' berada di direktori yang sama atau ganti path file.")
    # Asumsi file dapat dimuat untuk langkah selanjutnya

# 2. Encoding Variabel Kategorikal
# Menggunakan One-Hot Encoding dengan pd.get_dummies()
df_encoded = pd.get_dummies(df, columns=['sex', 'smoker', 'region'], drop_first=True)

# Menampilkan 5 baris pertama data setelah encoding (opsional, untuk cek)
# print("Data setelah Encoding:")
# print(df_encoded.head())

# Identifikasi ulang X dan y setelah encoding
X = df_encoded.drop('charges', axis=1) # Variabel Bebas (Features)
y = df_encoded['charges'] # Variabel Target

##3. Pembagian Dataset

In [None]:
# Pembagian data latih (80%) dan data uji (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Jumlah Data Latih (X_train): {X_train.shape[0]} baris")
print(f"Jumlah Data Uji (X_test): {X_test.shape[0]} baris")

Jumlah Data Latih (X_train): 1070 baris
Jumlah Data Uji (X_test): 268 baris


##4. Membuat dan Melatih Model

In [None]:
# 4. Buat model multiple linear regression
model_mlr = LinearRegression()

# Latih model pada data latih
model_mlr.fit(X_train, y_train)

print("\n## 4. Pembuatan dan Pelatihan Model")
print("-----------------------------------")
print(f"Model Regresi Linier telah dilatih menggunakan {X_train.shape[0]} sampel.")
print(f"Intercept (C): {model_mlr.intercept_:.2f}")


## 4. Pembuatan dan Pelatihan Model
-----------------------------------
Model Regresi Linier telah dilatih menggunakan 1070 sampel.
Intercept (C): -11931.22


##5. Prediksi pada Data Uji

In [None]:
# 5. Lakukan prediksi pada data uji
y_pred_mlr = model_mlr.predict(X_test)

# Menampilkan 10 Prediksi Pertama vs Nilai Sebenarnya
pred_df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred_mlr})
pred_df['Error'] = pred_df['Actual'] - pred_df['Predicted']

print("\n## 5. Hasil Prediksi pada Data Uji")
print("---------------------------------")
print("Perbandingan 10 Hasil Prediksi vs Nilai Aktual:")
print(pred_df.head(10).round(2))


## 5. Hasil Prediksi pada Data Uji
---------------------------------
Perbandingan 10 Hasil Prediksi vs Nilai Aktual:
        Actual  Predicted    Error
764    9095.07    8969.55   125.52
887    5272.18    7068.75 -1796.57
890   29330.98   36858.41 -7527.43
1293   9301.89    9454.68  -152.78
259   33750.29   26973.17  6777.12
1312   4536.26   10864.11 -6327.85
899    2117.34     170.28  1947.06
752   14210.54   16903.45 -2692.91
1286   3732.63    1092.43  2640.19
707   10264.44   11218.34  -953.90


##6. Evaluasi Model

In [None]:
# 6. Evaluasi Model
r2_mlr = r2_score(y_test, y_pred_mlr)
mse_mlr = mean_squared_error(y_test, y_pred_mlr)
mae_mlr = mean_absolute_error(y_test, y_pred_mlr)

# Menampilkan Koefisien Regresi
coefficients = pd.DataFrame(model_mlr.coef_, X.columns, columns=['Coefficient'])

# Tampilkan Hasil Evaluasi
print("\nHasil Evaluasi Multiple Linear Regression")
print("-" * 50)
print(f"R-squared (R2): {r2_mlr:.4f}")
print(f"Mean Squared Error (MSE): {mse_mlr:.2f}")
print(f"Mean Absolute Error (MAE): {mae_mlr:.2f}")
print("-" * 50)
print("\n## Koefisien Model (Pengaruh Fitur terhadap Biaya):")
print(coefficients)


Hasil Evaluasi Multiple Linear Regression
--------------------------------------------------
R-squared (R2): 0.7836
Mean Squared Error (MSE): 33596915.85
Mean Absolute Error (MAE): 4181.19
--------------------------------------------------

## Koefisien Model (Pengaruh Fitur terhadap Biaya):
                   Coefficient
age                 256.975706
bmi                 337.092552
children            425.278784
sex_male            -18.591692
smoker_yes        23651.128856
region_northwest   -370.677326
region_southeast   -657.864297
region_southwest   -809.799354


##2

##1. Feature Scaling (Penskalaan Fitur)

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import numpy as np
import pandas as pd

# Asumsi X, y sudah tersedia dari langkah sebelumnya (data yang sudah di-encoded)

# 1. Penskalaan Fitur dan Target
# SVR memerlukan penskalaan pada X dan y (variabel target)
sc_X = StandardScaler()
sc_y = StandardScaler()

# Mengubah y menjadi array 2D
y_2d = y.values.reshape(-1, 1)

X_scaled = sc_X.fit_transform(X)
y_scaled = sc_y.fit_transform(y_2d).flatten() # Kembali ke 1D untuk pelatihan model

##2. Pembagian Dataset

In [None]:
# Pembagian data yang sudah diskalakan
X_train_s, X_test_s, y_train_s, y_test_s = train_test_split(
    X_scaled, y_scaled, test_size=0.2, random_state=42)

print("## 2. Pembagian Dataset (Skala)")
print("---------------------------------")
print(f"Data Latih Skala (X_train_s): {X_train_s.shape}")
print(f"Data Uji Skala (X_test_s): {X_test_s.shape}")

## 2. Pembagian Dataset (Skala)
---------------------------------
Data Latih Skala (X_train_s): (1070, 8)
Data Uji Skala (X_test_s): (268, 8)


##3. Pembuatan dan Pelatihan Model SVR

In [None]:
# 3. Membuat dan Melatih Model SVR
# Menggunakan kernel RBF
regressor_svr = SVR(kernel='rbf', C=10000, gamma=0.1)
# Nilai C dan gamma adalah hyperparameter, yang mungkin perlu disetel (tuning)

regressor_svr.fit(X_train_s, y_train_s)

print("\n## 3. Pembuatan dan Pelatihan Model SVR")
print("----------------------------------------")
print("Model Support Vector Regression (SVR) telah dilatih.")


## 3. Pembuatan dan Pelatihan Model SVR
----------------------------------------
Model Support Vector Regression (SVR) telah dilatih.


##4. Prediksi dan Inverse Transform

In [None]:
# 4. Prediksi pada data uji yang ter-skala
y_pred_s = regressor_svr.predict(X_test_s)

# Inverse Transform untuk mengembalikan y_pred dan y_test ke skala asli
y_pred_svr = sc_y.inverse_transform(y_pred_s.reshape(-1, 1)).flatten()
y_test_original = sc_y.inverse_transform(y_test_s.reshape(-1, 1)).flatten()

# Menampilkan 10 Prediksi Pertama (dalam skala asli)
pred_df_svr = pd.DataFrame({'Actual': y_test_original, 'Predicted': y_pred_svr})
pred_df_svr['Error'] = pred_df_svr['Actual'] - pred_df_svr['Predicted']

print("\n## 4. Hasil Prediksi SVR pada Skala Asli")
print("----------------------------------------")
print("Perbandingan 10 Hasil Prediksi vs Nilai Aktual (Dolar):")
print(pred_df_svr.head(10).round(2))


## 4. Hasil Prediksi SVR pada Skala Asli
----------------------------------------
Perbandingan 10 Hasil Prediksi vs Nilai Aktual (Dolar):
     Actual  Predicted    Error
0   9095.07   10363.91 -1268.84
1   5272.18    3944.30  1327.87
2  29330.98   27713.26  1617.72
3   9301.89   18313.84 -9011.95
4  33750.29   28764.44  4985.86
5   4536.26    5715.03 -1178.77
6   2117.34    -550.30  2667.64
7  14210.54    5782.90  8427.64
8   3732.63    2722.14  1010.49
9  10264.44   12313.69 -2049.24


##5. Evaluasi Model SVR

In [None]:
# 5. Evaluasi Model SVR (menggunakan nilai skala asli)
r2_svr = r2_score(y_test_original, y_pred_svr)
mse_svr = mean_squared_error(y_test_original, y_pred_svr)
mae_svr = mean_absolute_error(y_test_original, y_pred_svr)

print("\n## 5. Metrik Evaluasi Model SVR")
print("-----------------------------")
print(f"R-squared (R2): {r2_svr:.4f}")
print(f"Mean Squared Error (MSE): {mse_svr:.2f}")
print(f"Mean Absolute Error (MAE): {mae_svr:.2f}")
print("-----------------------------")


## 5. Metrik Evaluasi Model SVR
-----------------------------
R-squared (R2): 0.4589
Mean Squared Error (MSE): 84011514.62
Mean Absolute Error (MAE): 4714.83
-----------------------------
