## LİNEER REGRESYON MODELİ İLE MASRAF TAHMİNİ

Veri Seti Hakkında Bilgi: ABD'nin bir yerleşim bölgesindeki sigortaya kayıtlı kişilerin;cinsiyet,sağlık sigortası kapsamındaki çocuk sayısı,yerleşim yeri ve benzeri bağımsız değişkenleriyle bağımlı değişken olan sigortaya kayıtlı kişinin faturalanan tıbbi masrafları verilmiştir.
Bu bilgilerle tıbbi masraf tahminlemesi yapılabilir mi onu test ettik.
Veri seti 1338 gözlem 7 parametreden oluşuyor.


* Gerekli kütüphanelerin import edilmesi ve  set_option ayarlarının yapılması

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, StandardScaler, RobustScaler

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 20)
pd.set_option('display.float_format', lambda x: '%.3f' % x)
pd.set_option('display.width', 170)

* Verinin Okutulması

In [None]:
df=pd.read_csv("../input/insurance/insurance.csv")

In [None]:
df.head()

* Verinin boyut bilgisi

In [None]:
df.shape

* Eksik değer kontrolü

In [None]:
df.isnull().sum()

* Aykırı değer kontrolü

In [None]:
#Aykırı değer yok gibi gözüküyor.
sns.boxplot(x=df["age"])
plt.show()

In [None]:
#Çok fazla aykırı değer var.
sns.boxplot(x=df["charges"])
plt.show()

* Aykırı değerlerin baskılanması

In [None]:
q1 = df["charges"].quantile(0.25)
q3 = df["charges"].quantile(0.75)
iqr = q3 - q1
up = q3 + 1.5 * iqr
low = q1 - 1.5 * iqr

In [None]:
df.loc[df["charges"] < low,"charges"]=low

In [None]:
df.loc[df["charges"] > up,"charges"]=up

In [None]:
df.describe().T

In [None]:
df.info()

* Kategorik, numerik columnlara erişilmesi için fonksiyon

In [None]:
def grab_col_names(dataframe, cat_th=10, car_th=20):    
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtypes == "O"]
    num_but_cat = [col for col in dataframe.columns if dataframe[col].nunique() < cat_th and
                   dataframe[col].dtypes != "O"]
    cat_but_car = [col for col in dataframe.columns if dataframe[col].nunique() > car_th and
                   dataframe[col].dtypes == "O"]
    cat_cols = cat_cols + num_but_cat
    cat_cols = [col for col in cat_cols if col not in cat_but_car]

    # num_cols
    num_cols = [col for col in dataframe.columns if dataframe[col].dtypes != "O"]
    num_cols = [col for col in num_cols if col not in num_but_cat]

    print(f"Observations: {dataframe.shape[0]}")
    print(f"Variables: {dataframe.shape[1]}")
    print(f'cat_cols: {len(cat_cols)}')
    print(f'num_cols: {len(num_cols)}')
    print(f'cat_but_car: {len(cat_but_car)}')
    print(f'num_but_cat: {len(num_but_cat)}')
    return cat_cols, num_cols, cat_but_car

In [None]:
cat_cols, num_cols, cat_but_car = grab_col_names(df)
num_cols

* Veri setindeki numerik columnlar ile bağımlı değişken arasındaki korelasyona bakılması

In [None]:
for col in num_cols:
    if col!="charges" :
        cor=df[[col, "charges"]].corr().loc[col, "charges"]
        print(col, cor)

In [None]:
df.groupby("age")["charges"].mean()

* Columnları kategorilere ayırmak için bir fonksiyon

In [None]:
def generate(df,c,a,b,t,y,y1,y2):
    df.loc[(df[c] < a), t] = y
    df.loc[(df[c] >= a) & (df[c] < b), t] = y1
    df.loc[(df[c] >= b), t] = y2
    return df[t]

In [None]:
df["age"].describe()

* Age değişkeninin çeyrekliklerine denk gelen sayılara göre kategorilere ayırma işlemi

In [None]:
generate(df,"age",27,51,"new_age","young","mature","senior")

In [None]:
df.head()

*  Region parametresinde sınıf sayısı az olduğundan one hot encoding işleminde 1-0 olarak dönüşecek bu yüzden kategorilere ayırma işlemini yapmıyoruz.

In [None]:
df["region"].unique()

In [None]:
df["bmi"].describe()

* Vücut kitle indeksine göre bmi değerlerini kategorilere ayırma işlemi

In [None]:
generate(df,"bmi",30,35,"bmi_risk","usual","risky","unhealthy")

* Çocuk sayısına göre kategorilere ayırma işlemi

In [None]:
generate(df,"children",2,4,"children_C","A","B","C")

* İki farklı columnu birleştirmek işlemi için fonksiyon

In [None]:
def twice_col(df,col1,col2):
    n=df[col1].unique().tolist()
    l=len(n)
    n1=df[col2].unique().tolist()
    l1=len(n1)
    for i in n:
        for j in range(l):
            for z in n1:
                for t in range(l1):
                    df.loc[(df[col1] == n[j]) & (df[col2] == n1[t]), str(col1) + "_" + str(col2)]=str(n[j]) +"_"+ str(n1[t])


* Çocuk sayısı ve sigara içip içmeme durumu da harcamaları etkileyeceğinden bu şekilde 6 ayrı sınıf oluşturulur

In [None]:
twice_col(df,"children_C","smoker")

In [None]:
df["children_C_smoker"].nunique()

In [None]:
df.head()

* Çocuk sayısı verideki max. sayıda olduğunda ve sigara kullanılması durumunda ortalama harcama değeri

In [None]:
liste=df["children_C_smoker"].unique().tolist()

In [None]:
# 1 çocuk olduğunda veya hiç olmadığında harcamalar daha yüksekmiş.
for i in liste:
    a=df[df["children_C_smoker"]==i][["charges"]].mean()
    print(i,":",a,sep=" ")
    

In [None]:
df[df["children_C_smoker"]=="C_yes"][["charges"]].mean()

* Çocuk sayısı ve cinsiyete göre harcamalara bakılması için bu şekilde bir column oluşturuyoruz.

In [None]:
twice_col(df,"children_C","sex")

* Yaş ve cinsiyete göre bir column oluşturulması

In [None]:
twice_col(df,"new_age","sex")

* Çocuk sayısı ve vücut kitle indeksine göre bir column oluşturulması

In [None]:
twice_col(df,"children_C","bmi_risk")

In [None]:
df.head()

In [None]:
df.shape

* Veri setinin modele girebilmesi için encoding işlemlerinin yapılması

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
binary_cols = [col for col in df.columns if df[col].dtype not in [int, float]
               and df[col].nunique() == 2]

In [None]:
binary_cols 

In [None]:
labelencoder = LabelEncoder()

In [None]:
for i in binary_cols:
    df[i] = labelencoder.fit_transform(df[i])

In [None]:
ohe_cols = [col for col in df.columns if 10 >= df[col].nunique() > 2]

In [None]:
df=pd.get_dummies(df, columns=ohe_cols, drop_first=True)

* Standartlaştırma işleminin yapılması

In [None]:
for col in num_cols:
    transformer = MinMaxScaler().fit(df[[col]])
    df[col] = transformer.transform(df[[col]])

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error

* Modelin kurulması

In [None]:
from sklearn.linear_model import LinearRegression
y = df["charges"]
X = df.drop(["charges"], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.20, random_state=1)

reg_model = LinearRegression().fit(X, y)
reg_model.intercept_
reg_model.coef_

* Hata kareler ortalamasının karekökü olan rmse değeri 0'a ne kadar yakın olursa model mükemmele o kadar yakın olur.

In [None]:
# Test RMSE
y_pred = reg_model.predict(X_test)
np.sqrt(mean_squared_error(y_test, y_pred))

* Modelin veriyi açıklayabilme yüzdesi

In [None]:
# Test RKARE
reg_model.score(X_test, y_test)

In [None]:
np.mean(np.sqrt(-cross_val_score(reg_model,
                                 X,
                                 y,
                                 cv=10,
                                 scoring="neg_mean_squared_error")))
