## _Medical Insurance Costs_

Pada kasus ini, terdapat data tentang informasi kesehatan dan biaya yang harus dikeluarkan oleh asuransi kesehatan. Infomasi terkait dengan data _medical insurance cost_ adalah sebagai berikut,

1. Age: Usia penerima manfaat
2. Sex: Gender penerima manfaat (_male_, _femele_)
3. Bmi : Body Mass Index
4. Children: Jumlah anak/tanggungan yang dicover oleh pihak asuransi
5. Smoker: Status perokok (_yes_, _no_)
6. Region: Wilayah tempat tinggal penerima manfaat
7. Charges: Biaya yang dikeluarkan oleh asuransi

### Tantangan

Buatlah model regresi untuk memprediksi biaya yang harus dikeluarkan oleh pihak asuransi berdasarkan data. Validasi performa model regresi Anda dengan nilai ***R-squared ($R^2$)***

#### _Tasks_

1. Pastikan semua variabel kategorial diolah dengan baik. (Gunakan fitur mapping pada pandas)
2. Cek kondisi multicollinearity untuk semua variabel independen. Jika ada, antar variabel apakah itu?
3. Pastikan model menggunakan variabel yang tidak memiliki nilai multicollinearity yang tinggi
4. (Hints) Anda dapat menggunakan nilai ***Variance Inflation Factor (VIF)*** untuk mengetahui tingkat multicollinearity pada sebuah variabel independent.
5. Evaluasi model yang Anda buat dengan nilai $R^2$
6. Simpulkan, variabel independen apa saja yang dapat digunakan untuk menghasilkan model regresi yang baik pada kasus _medical insurance costs_?

#### (Hints) Interpretasi Nilai VIF

- 1 - variabel indenpenden tidak memiliki korelasi dengan variabel independen yang lain
- 1 < VIF < 5 - variabel independen sedikit memiliki korelasi dengan variabel independen yang lain
- VIF > 5 - variabel independen memiliki korelasi yang kuat dengan variabel independen lainnya
- VIF > 10 - variabel independen miliki korelasi yang sangat kuat dengan variabel independen dan perlu diperhatikan lebih lanjut

#### (Hints) Implementasi Perhitungan VIF

VIF dapat dihitung secara langsung dengan menggunakan library dari `statsmodels`

#### (Hints) Scatterplot Korelasi Antar Variabel

![var_cor](assets/var_corr.png)

In [69]:
# Buka file .csv

import pandas as pd
import numpy as np

df = pd.read_csv('data/insurance.csv')

display(df.head())

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [70]:
# Mapping

new_sex = {
    'female': 0,
    'male': 1
}
new_smoker = {
    'no': 0,
    'yes': 1
}
new_region = {
    'northwest' : 0,
    'southwest' : 1,
    'southeast' : 2,
    'northeast' : 3 
    
}

df['sex'] = df['sex'].map(new_sex)
df['smoker'] = df['smoker'].map(new_smoker)
df['region'] = df['region'].map(new_region)


df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,0,27.9,0,1,1,16884.924
1,18,1,33.77,1,0,2,1725.5523
2,28,1,33.0,3,0,2,4449.462
3,33,1,22.705,0,0,0,21984.47061
4,32,1,28.88,0,0,0,3866.8552


In [71]:
# cek multicollinearity

from statsmodels.stats.outliers_influence import variance_inflation_factor

def calc_VIF(x):
  vif= pd.DataFrame()
  vif['variables']=x.columns
  vif["VIF"]=[variance_inflation_factor(x.values,i) for i in range(x.shape[1])]

  return(vif)

In [72]:
X = df.iloc[:,:-1]
calc_VIF(X)

Unnamed: 0,variables,VIF
0,age,7.588734
1,sex,2.002652
2,bmi,9.93867
3,children,1.79998
4,smoker,1.261195
5,region,2.789478


In [73]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,0,27.9,0,1,1,16884.924
1,18,1,33.77,1,0,2,1725.5523
2,28,1,33.0,3,0,2,4449.462
3,33,1,22.705,0,0,0,21984.47061
4,32,1,28.88,0,0,0,3866.8552


In [74]:
# Slice data

X = df.iloc[:, 0:6].values
y = df.iloc[:, -1].values

# Reshape ym
y = y.reshape(len(y), 1)
y.shape

(1338, 1)

In [75]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=30)

mlr = LinearRegression()

# Fit feature
mlr.fit(X_train, y_train)

# Predict
y_pred = mlr.predict(X_test)

# Compare value vs prediction

com = np.concatenate((y_test, y_pred), axis = 1)
com

array([[ 4.19190970e+04,  3.54415576e+04],
       [ 3.65934600e+03,  5.82868917e+03],
       [ 4.74634400e+03,  5.82370136e+03],
       [ 3.27341863e+04,  2.63842587e+04],
       [ 9.14456500e+03,  1.29304913e+04],
       [ 4.73826820e+03,  6.71103351e+03],
       [ 1.28900577e+04,  4.97504011e+03],
       [ 3.02846429e+04,  9.53070009e+03],
       [ 3.97255180e+04,  3.33984358e+04],
       [ 1.21249924e+04,  1.11157766e+04],
       [ 6.28223500e+03,  7.95544815e+03],
       [ 8.11668000e+03,  1.01351115e+04],
       [ 4.16760811e+04,  3.52479603e+04],
       [ 1.02314999e+04,  1.12609946e+04],
       [ 1.71222700e+03,  1.65937389e+03],
       [ 2.70379141e+04,  3.60710362e+04],
       [ 8.12440840e+03,  1.20487950e+04],
       [ 9.30189355e+03,  9.00487959e+03],
       [ 1.86082620e+04,  2.91400078e+04],
       [ 8.28368070e+03,  1.13909215e+04],
       [ 1.63573365e+03,  1.17596001e+03],
       [ 5.72900530e+03,  8.45654196e+03],
       [ 9.26479700e+03,  8.04389683e+03],
       [ 7.

In [76]:
from sklearn.metrics import  r2_score

r2val = r2_score(y_test, y_pred)

print(f'Hasil Evaluasi R2   = {r2val}')

Hasil Evaluasi R2   = 0.7588793462249843


# Kesimpulan 
Variable bmi dan age menjadi variable independen yang memiliki korelasi yang kuat, dengan begitu variable tersebut memiliki nilai multicolleniarity yang tinggi. Dua variable tersebut menjadi variabel yang kurang tepat untuk model regresi. 