## Insurance premiums ML Project

The project is done to try to predict the premiums based on customer behavior.
The model will try to predict the annual premium based on euros.
It can be used by underwriting,sales,actuaries teams.

In [None]:
# imports
import psycopg2
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math

In [None]:
# data pulling from postgres database


conn = psycopg2.connect(
    host="localhost",
    port="5432",
    database="Insurnace",
    user="postgres",
    password="1131995i@"
)



query = 'SELECT * FROM public."insurnace_data";'
df = pd.read_sql_query(query, conn)

print(df.head())





In [None]:
df

In [None]:
df.isna().sum()
# there are no missing values in the dataset

In [None]:
df.info()

In [None]:
#general statistics about the dataset
df.describe().T

In [None]:
df.rename(columns={"annual_premium":"target"}, inplace=True)


In [None]:
bool_cols = df.select_dtypes(include=  ["bool"]).columns.tolist()

for col in bool_cols:
    df[col] = df[col].astype(int)
    
    


In [None]:
df

In [None]:
df.info()

In [None]:
#age groups creation
df["age_groups"] = pd.cut(df["age"], 
                          bins=[0,17,35,50,65,math.inf], 
                          labels= ["minors", "young_adult","adult","middle_aged","senior_citizen" ])

In [None]:
#removal of rows with age 0
mask =  df["age"] == 0

df = df[~mask]


In [None]:
#education level grouping
df["education"].unique()

df.loc[:,"education_groups"] = np.where(df["education"] == "No HS","Uncopleted_education",
                                  np.where(df["education"].isin(["Hs","Some College"]),"basic_education",
                                           "higher_education"))
df["education_groups"].unique()

In [None]:
print("employment status:",df["employment_status"].unique())
print("smoking status:",df["smoker"].unique())
print("driking status:",df["alcohol_freq"].unique())


In [None]:
#column that have to do with visits
print(df["hospitalizations_last_3yrs"].unique())
print(df["visits_last_year"].unique())
print(df["days_hospitalized_last_3yrs"].unique())

In [None]:
# column thta have to do with visits from int4 to binary
df.loc[:,"hospitalizations_last_3yrs"] = np.where(df["hospitalizations_last_3yrs"] > 0,1,0)
df.loc[:,"visits_last_year"] = np.where(df["visits_last_year"] > 0,1,0)
df.loc[:,"days_hospitalized_last_3yrs"] = np.where(df["days_hospitalized_last_3yrs"] > 0,1,0)

In [None]:
df.info()

In [None]:
#household size grouping
df["household_size"].unique()
df.loc[:,"household_size_groups"] = pd.cut(
                             df["household_size"], 
                              bins=[0,1,3,5,math.inf],
                              labels=["alone","small_family","medium_family","large_family"])

In [None]:
df.loc[:,"income_groups"] = pd.qcut(
                                    df["income"],
                                    q=4,
                                    labels=["low_income","lower_middle_income","upper_middle_income","high_income"])


In [None]:
#df["monthly_premium"] will be remmoved in the data set used for model to prevent data leakage
df["monthly_premium"]

In [None]:
#bmi groups
df.loc[:,"BMI_groups"] = pd.qcut(df["bmi"],
                            q=4,
                            labels=["underweight_normal","overweight","obesity_class1","obesity_class2"])

In [None]:
#dependents groups
df["dependents"].unique()
df.loc[:,"dependents_groups"] = pd.cut(
    df["dependents"],
    bins=[-1, 0, 2, 4, math.inf],  
    labels=["no_dependents", "small_family", "medium_family", "large_family"]
)

In [None]:
df.loc[:,"income_levels"] = pd.qcut(df["income"],
                                 q=4,   
                                 labels=["low_income","lower_middle_income","upper_middle_income","high_income"])

In [None]:
df["income_levels"].unique()

In [None]:
df[df["income_levels"].isna()]
mask =df["income_levels"].isna()

df = df[~mask]



In [None]:
# na sinexiso me to na kano groups
df.info()


In [None]:
df["systolic_bp"].unique()

df["systolic_bp_group"] = pd.cut(
    df["systolic_bp"],
    bins=[-np.inf, 90, 120, 130, 140, 180, np.inf],
    labels=[
        "low",
        "normal",
        "elevated",
        "hypertension_stage_1",
        "hypertension_stage_2",
        "hypertensive_crisis"
    ]
)

df["diastolic_bp_group"] = pd.cut(
    df["diastolic_bp"],
    bins=[-np.inf, 60, 80, 90, 120, np.inf],
    labels=[
        "low",
        "normal",
        "elevated",
        "hypertension_stage_2",
        "hypertensive_crisis"
    ]
)



In [None]:
df["ldl"].unique()
df["ldl_group"] = pd.cut(
    df["ldl"],
    bins=[-np.inf, 100, 130, 160, 190, np.inf],
    labels=[
        "optimal",
        "near_optimal",
        "borderline_high",
        "high",
        "very_high"
    ]
)

df["hba1c_group"] = pd.cut(
    df["hba1c"],
    bins=[-np.inf, 5.7, 6.5, 8.0, np.inf],
    labels=["normal", "prediabetes", "diabetes", "poor_control"]
)

In [None]:
# remove varibales that will not be used in the model because of data leakage
#df["deductible"]
#df["copay"]
#df["plan_type"]
#df["network_tier"]


In [None]:
df["policy_term_group"] = pd.cut(
    df["policy_term_years"],
    bins=[0, 1, 3, 5, np.inf],
    labels=["short_term", "medium_term", "long_term", "very_long_term"],
    right=True,
    include_lowest=True
)


In [None]:
df["policy_changes_last_2yrs"].unique()
df["policy_changes_last_2yrs"] = np.where(
    df["policy_changes_last_2yrs"] > 0,1,0)

In [None]:
df["risk_score_group"] = pd.qcut(
    df["risk_score"],
    q = 3,
    labels=["low_risk","moderate_risk","high_risk",]
)

df["risk_score_group"]

In [None]:
df["annual_medical_cost_group"] = pd.qcut(
    df["annual_medical_cost"],
    q = 4,
    labels=["low_cost","lower_middle_cost","upper_middle_cost","high_cost"]
)

In [None]:
df["claims_count"].unique()
df["claims_group"] = pd.cut(
    df["claims_count"],
    bins=[-1, 0, 2, 5, 10, np.inf],
    labels=["no_claims", "low_claims", "moderate_claims", "high_claims", "very_high_claims"]
)


In [None]:
df["avg_claim_amount"].unique()
df["avg_claim_group"] = pd.cut(
    df["avg_claim_amount"],
    bins=[-1, 0, 500, 1500, 5000, np.inf],
    labels=[
        "no_claims",
        "low_cost_claims",
        "moderate_claims",
        "high_claims",
        "very_high_claims"
    ]
)

In [None]:
df["total_claims_paid"].unique()
df["total_claims_group"] = pd.cut(
    df["total_claims_paid"],
    bins=[-1, 0, 2000, 5000, 15000, np.inf],
    labels=[
        "no_claims_paid",
        "low_total_claims",
        "moderate_claims",
        "high_claims",
        "very_high_claims"
    ]
)

In [None]:
cols_to_drop = [
    "age",
    "education",
    "household_size",
    "income",
    "bmi",
    "dependents",
    "systolic_bp",
    "diastolic_bp",
    "ldl",
    "hba1c",
    "policy_term_years",
    "risk_score",
    "annual_medical_cost",
    "claims_count",
    "avg_claim_amount",
    "total_claims_paid",
    "plan_type",
    "network_tier",
    "deductible",
    "copay",
    "monthly_premium"
]

df_model = df.drop(columns=cols_to_drop,axis=1)




In [None]:
df_model.info()

In [None]:
df_model

In [None]:
df_model.info()

In [None]:
df_model.rename(columns={"BMI_groups":"bmi_groups"},inplace=True)

In [None]:

from sqlalchemy import create_engine,text
# Connection string
engine = create_engine(
    "postgresql+psycopg2://postgres:1131995i%40@localhost:5432/Insurnace"
)

# Export DataFrame to SQL
df_model.to_sql(
    name="premium_model_data",
    con=engine,
    if_exists="replace",
    index=False
)

print("Table created successfully.")


# EDA on the new table

In [None]:

from sqlalchemy import text
# Connection string
query = text('SELECT COUNT(*) AS n_customers FROM public."premium_model_data";')
# customers in the db
customers = pd.read_sql_query(query, engine)

print("Amount of customers:",customers["n_customers"].iloc[0])


In [None]:
#targets statistics
print("Targets statistics:")
print(round(df["target"].describe().T,2))

In [None]:
query = text('''SELECT region AS Region,
                  AVG(target) AS Avg_annual_premium
            FROM public."premium_model_data" 
            GROUP BY region;''')
         
avg_premium_by_region = pd.read_sql_query(query, engine)
plt.figure(figsize=(10,6))

ax = sns.barplot(data=avg_premium_by_region, x="region", y="avg_annual_premium", hue = "region")
plt.title("Average Annual Premium by Region")
plt.xlabel("Region")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
        
plt.tight_layout()
plt.show()

In [None]:
query = text('''SELECT urban_rural AS urban_rural,
                       COUNT(*) AS customers,
                       AVG(target) AS avg_annual_premium 
             FROM public."premium_model_data"
             GROUP BY urban_rural''')
             
avg_premium_by_urban_rural = pd.read_sql_query(query, engine)

plt.figure(figsize=(10,6))
ax = sns.barplot(data=avg_premium_by_urban_rural, x="urban_rural", y="avg_annual_premium", hue = "urban_rural")
plt.title("Average Annual Premium by Urban/Rural Status")
plt.xlabel("Urban/Rural Status")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
query = text('''SELECT region AS region,
                       urban_rural AS urban_rural,
                       AVG(target) AS avg_annual_premium
                FROM public."premium_model_data"
                GROUP BY urban_rural,region'''
                )

urban_rural_region_premium = pd.read_sql_query(query, engine)
urb_rur_reg_heatmap = urban_rural_region_premium.pivot(index="region",columns="urban_rural",values="avg_annual_premium").round(2)

plt.figure(figsize=(10,6))
sns.heatmap(urb_rur_reg_heatmap, annot=True, fmt=".2f", cmap="YlGnBu")
plt.title("Average Annual Premium by Region and Urban/Rural Status")
plt.xlabel("Urban/Rural Status")
plt.ylabel("Region")
plt.tight_layout()
plt.show()

In [None]:
query = """
    SELECT 
        age_groups,
        AVG(target) AS avg_annual_premium
    FROM public."premium_model_data"
    GROUP BY age_groups
    ORDER BY CASE age_groups
        WHEN 'minors'         THEN 1
        WHEN 'young_adult'    THEN 2
        WHEN 'adult'          THEN 3
        WHEN 'middle_aged'    THEN 4
        WHEN 'senior_citizen' THEN 5
    END;
"""
avg_annual_premium_by_age = pd.read_sql_query(query, engine)

plt.figure(figsize=(10,6))
sns.lineplot(data = avg_annual_premium_by_age,x = "age_groups",y="avg_annual_premium",marker="o")
plt.title("Average Annual Premium by Age Groups")
plt.xlabel("Age Groups")
plt.ylabel("Average Annual Premium(€)")
plt.tight_layout()
plt.show()

In [None]:
query = """
    SELECT 
        age_groups,
        sex,
        AVG(target) AS avg_annual_premium
    FROM public."premium_model_data"
    GROUP BY age_groups,sex
    ORDER BY CASE age_groups
        WHEN 'minors'         THEN 1
        WHEN 'young_adult'    THEN 2
        WHEN 'adult'          THEN 3
        WHEN 'middle_aged'    THEN 4
        WHEN 'senior_citizen' THEN 5
    END;
"""
avg_annual_premium_by_age_sex = pd.read_sql_query(query, engine)
avg_annual_premium_by_age_sex_pivot = avg_annual_premium_by_age_sex.pivot(index="age_groups",columns="sex",values="avg_annual_premium").round(2)

plt.figure(figsize=(10,6))
sns.lineplot(data=avg_annual_premium_by_age_sex,x="age_groups",y="avg_annual_premium",hue="sex",marker="o")
plt.title("Average Annual Premium by Age Groups and Sex")
plt.xlabel("Age Groups")
plt.ylabel("Average Annual Premium(€)")
plt.tight_layout()

In [None]:
query = text('''SELECT income_levels AS income_levels,
                        AVG(target) AS avg_annual_premium 
                FROM public."premium_model_data"
                GROUP BY income_levels''')

avg_annual_premium_by_income = pd.read_sql_query(query, engine)

plt.figure(figsize=(10,6))
ax = sns.barplot(data = avg_annual_premium_by_income, x = "income_levels", y="avg_annual_premium", hue = "income_levels")
plt.title("Average Annual Premium by Income Levels")
plt.xlabel("Income Levels")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
query = text('''SELECT income_levels AS income_levels,
                COUNT(*) AS n_high_risk_customers
                FROM public."premium_model_data"
                WHERE risk_score_group = 'high_risk'
                GROUP BY income_levels;''')

high_risk_customers_by_income = pd.read_sql_query(query, engine)

plt.figure(figsize=(10,6))
plt.pie(
    high_risk_customers_by_income["n_high_risk_customers"], 
    labels=high_risk_customers_by_income["income_levels"],
    autopct='%1.1f%%',
    startangle=140,
    labeldistance=1.05,   
    pctdistance=0.5       
)
plt.title("Proportion of High-Risk Customers by Income Levels")
plt.axis('equal')
plt.tight_layout()
plt.show()


In [None]:
from tabulate import  tabulate
query = text('''SELECT smoker AS smoker_status,
                       COUNT(*) AS number_of_people,
                       AVG(target) AS avg_annual_premium
                FROM public."premium_model_data"
                GROUP BY smoker;''' )
                
smoker_stats = pd.read_sql_query(query,engine).round(2)

plt.figure(figsize=(10,6))
ax = sns.barplot(data=smoker_stats, x="smoker_status", y="avg_annual_premium", hue="smoker_status")
plt.title("Average Annual Premium by Smoking Status")
plt.xlabel("Smoking Status")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()
print("number of people in each category:")
print(tabulate(smoker_stats[["smoker_status","number_of_people"]], headers="keys", tablefmt="fancy_grid",showindex=False))

In [None]:
df_model.info()

In [None]:
query = text('''SELECT bmi_groups  AS BMI_groups,
                AVG(target) AS avg_annual_premium
                FROM public."premium_model_data"
                GROUP BY bmi_groups 
                ORDER BY avg_annual_premium ASC ;''')
                
avg_annual_premium_by_BMI = pd.read_sql_query(query, engine)

plt.figure(figsize=(10,6))
ax = sns.barplot(data=avg_annual_premium_by_BMI, x="bmi_groups", y="avg_annual_premium", hue = "bmi_groups")
plt.title("Average Annual Premium by BMI Groups")
plt.xlabel("BMI Groups")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
query = text(''' SELECT bmi_groups AS bmi_groups,
                        AVG(target) AS avg_annual_premium 
                 FROM public."premium_model_data"
                 WHERE smoker = 'Current'
                 GROUP BY bmi_groups
                 ORDER BY avg_annual_premium ;''')
avg_annual_premium_bmi_smokers = pd.read_sql_query(query, engine)
plt.figure(figsize=(10,6))
ax = sns.barplot(data=avg_annual_premium_bmi_smokers, x="bmi_groups", y="avg_annual_premium", hue = "bmi_groups")
plt.title("Average Annual Premium by BMI Groups for Smokers")
plt.xlabel("BMI Groups")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
query = text(''' SELECT annual_medical_cost_group AS annual_medical_cost_group,
                        AVG(target) AS avg_annual_premium
                 FROM public."premium_model_data"
                 GROUP BY annual_medical_cost_group
                 ORDER BY avg_annual_premium DESC;''' )
avg_premium_by_medical_cost = pd.read_sql_query(query, engine)
plt.figure(figsize=(10,6))
ax = sns.barplot(data=avg_premium_by_medical_cost, x="annual_medical_cost_group", y="avg_annual_premium", hue = "annual_medical_cost_group")
plt.title("Average Annual Premium by Annual Medical Cost Groups")
plt.xlabel("Annual Medical Cost Groups")
plt.ylabel("Average Annual Premium(€)")
for  container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
query = text(''' SELECT chronic_count AS chronic_count,
                        AVG(target) AS avg_annual_premium
                 FROM public."premium_model_data"
                 GROUP BY  chronic_count;''')

chronic_conditions_premium = pd.read_sql_query(query, engine)
plt.figure(figsize=(10,6))
ax = sns.barplot(data=chronic_conditions_premium, x="chronic_count", y="avg_annual_premium", hue = "chronic_count",palette="Blues_d")
plt.title("Average Annual Premium by Number of Chronic Conditions")
plt.xlabel("Number of Chronic Conditions")
plt.ylabel("Average Annual Premium(€)")
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.tight_layout()
plt.show()

In [None]:
df_model.info()

# Model Training And Evaluation

In [None]:
#target variable distribution
plt.figure(figsize=(10,6))
sns.histplot(df_model["target"],bins = 20, kde = True)
plt.title("Distribution of Annual Premium (Target Variable)")
plt.xlabel("Annual Premium (€)")
plt.ylabel("Frequency")
plt.tight_layout()
plt.show()

In [None]:
# numeric features list
numeric_f = df_model.select_dtypes(include= ["int64","int32"]).columns.tolist()

In [None]:
num_corr = (
    df_model[numeric_f + ["target"]]
    .corr()["target"]      
    .drop("target")         
    .sort_values(key=lambda s: s.abs(), ascending=False)
)

print(num_corr)
plt.figure(figsize=(10,6))
sns.heatmap(num_corr.to_frame(), annot=True, cmap="coolwarm", center=0)
plt.title("Correlation of Numeric Features with Target Variable")
plt.xlabel("Numeric Features")
plt.ylabel("Correlation Coefficient")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()



In [None]:
num_f_final = df_model[["chronic_count",                
            "is_high_risk",                   
            "hospitalizations_last_3yrs",    
            "days_hospitalized_last_3yrs",    
            "hypertension",                  
            "had_major_procedure",            
            "mental_health",                 
            "arthritis",                     
            "medication_count",              
            "diabetes"]]

In [None]:
# categorical features list
categorical_f = df_model.select_dtypes(include = ["category","object"]).columns.tolist()
len(categorical_f)

In [None]:
from scipy.stats import f_oneway

for col in categorical_f:
    
    if df_model[col].nunique() < 2 or df_model[col].nunique() > 20:
        continue
    
    groups = [g["target"] for _, g in df_model.groupby(col)]
    try:
        stat, p = f_oneway(*groups)
        print(f"{col} - p-value: {p:.4e}")
    except Exception as e:
        print(f"{col} - error: {e}")

 

In [None]:
categorical_f_final = df_model[["age_groups",
                                "bmi_groups",
                                "hba1c_group",
                                "smoker",
                                "systolic_bp_group",
                                "risk_score_group",
                                "annual_medical_cost_group",
                                "claims_group",
                                "avg_claim_group",
                                "total_claims_group"]]

In [None]:
# model preparation dataset split
from sklearn.model_selection import train_test_split

X = df_model.drop(columns=["target"],axis=1)
y = df_model["target"]

X_train,X_temp,y_train,y_temp = train_test_split(X,y,test_size= 0.4,random_state= 42)

X_val,X_test,y_val,y_test = train_test_split(X_temp,y_temp,test_size= 0.5,random_state = 42)

del X_temp, y_temp

In [None]:
# pipelines for preprocessing
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

numeric_pipe = Pipeline([
    ("imputer",SimpleImputer(strategy="median")),
    ("scaler",StandardScaler())
])

categorical_pipe = Pipeline([
    ("imputer",SimpleImputer(strategy="most_frequent")),
    ("onehot",OneHotEncoder(handle_unknown="ignore",sparse_output=False))
])

preprocessor = ColumnTransformer([
    ("num",numeric_pipe,num_f_final.columns.tolist()),
    ("cat",categorical_pipe,categorical_f_final.columns.tolist())
])

In [None]:
# models selection process
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor

models = {
    "LinearRegression": LinearRegression(),
    
    "RandomForestRegressor": RandomForestRegressor(
        n_estimators=300,      
        max_depth=None,        
        min_samples_split=5,   
        min_samples_leaf=2,
        random_state=42,
        n_jobs=-1
    ),
    
    "XGBRegressor": XGBRegressor(
        n_estimators=500,     
        learning_rate=0.05,   
        subsample=0.8,
        colsample_bytree=0.8,
        random_state=42,
        n_jobs=-1,
        tree_method="hist"    
    ),
    
    "MLPRegressor": MLPRegressor(
        hidden_layer_sizes=(64, 32),  
        activation='relu',
        solver='adam',
        learning_rate='adaptive',
        max_iter=300,                  
        random_state=42
      
    )
}


In [None]:
from sklearn.model_selection import cross_validate
from sklearn.metrics import root_mean_squared_error,mean_squared_error, mean_absolute_error, r2_score

results = []

scoring = {
    "rmse": "neg_root_mean_squared_error",
    "mae": "neg_mean_absolute_error",
    "r2": "r2",
}

for name, model in models.items():
    pipeline = Pipeline([
        ("preprocessor", preprocessor),
        ("model", model)
    ])
    
    cv_res = cross_validate(
        pipeline,
        X_val,          
        y_val,
        cv=3,           
        scoring=scoring,
        n_jobs=2,       
        return_train_score=False
    )
    
    results.append({
        "model": name,
        "cv_rmse_mean": -cv_res["test_rmse"].mean(),
        "cv_rmse_std":  cv_res["test_rmse"].std(),
        
        "cv_mae_mean":  -cv_res["test_mae"].mean(),
        "cv_mae_std":    cv_res["test_mae"].std(),
        
        "cv_r2_mean":    cv_res["test_r2"].mean(),
        "cv_r2_std":     cv_res["test_r2"].std(),
    })

cv_summary = pd.DataFrame(results)
print(cv_summary)


In [None]:
print("The best model thta will be use is the MLPRGRESSOR")
print("The RandomForestRegressor will also be kept to help with SHAP values analysis,because its faster.")

In [71]:
from scipy.stats import uniform, loguniform
from sklearn.model_selection import RandomizedSearchCV
mlp_base = MLPRegressor(
    activation='relu',
    solver='adam',
    max_iter=300,          
    random_state=42
)

pipeline_mlp = Pipeline([
    ("preprocessor", preprocessor),
    ("model", mlp_base)
])

param_distributions = {
    "model__hidden_layer_sizes": [
        (64, 32),
        (128, 64),
        (64, 32, 16),
    ],
    "model__alpha": loguniform(1e-5, 1e-2),         # L2 penalty
    "model__learning_rate_init": loguniform(1e-4, 1e-2),
    "model__learning_rate": ["constant", "adaptive"],
}

search_mlp = RandomizedSearchCV(
    pipeline_mlp,
    param_distributions=param_distributions,
    n_iter=10,                 
    cv=2,                      
    scoring="neg_root_mean_squared_error",
    n_jobs=-1,
    random_state=42,
    verbose= False
)

search_mlp.fit(X_train, y_train)

print("Best params:", search_mlp.best_params_)
print("Best CV RMSE:", -search_mlp.best_score_)

best_mlp_pipe = search_mlp.best_estimator_



y_pred_test = best_mlp_pipe.predict(X_test)
rmse = root_mean_squared_error(y_test, y_pred_test)
mae = mean_absolute_error(y_test, y_pred_test)
r2 = r2_score(y_test, y_pred_test)

print("Test RMSE:", rmse)
print("Test MAE :", mae)
print("Test R²  :", r2)

Best params: {'model__alpha': np.float64(1.493656855461762e-05), 'model__hidden_layer_sizes': (64, 32), 'model__learning_rate': 'adaptive', 'model__learning_rate_init': np.float64(0.0001930783753654715)}
Best CV RMSE: 210.63999881816147
Test RMSE: 194.98893818777094
Test MAE : 95.81985923184017
Test R²  : 0.7560555979192498




In [72]:
print("Mean premium:", y_test.mean())
print("MAE %:", 100 * mae / y_test.mean())


Mean premium: 581.6533350027546
MAE %: 16.473705808183215


In [None]:


y_train_log = np.log1p(y_train)
y_test_log  = np.log1p(y_test)


best_mlp_pipe.fit(X_train, y_train_log)
y_pred_test_log = best_mlp_pipe.predict(X_test)

y_pred_test = np.expm1(y_pred_test_log)

mape = (np.abs(y_test - y_pred_test) / y_test).mean()
print("MAPE:", mape)


# Shap Values Analysis

In [None]:
# fit model  RandomForestRegressor to chech the similarity with the best model if they are closed it will be used for shap analysis

rf = RandomForestRegressor(
    n_estimators=300,
    max_depth=10,
    min_samples_split=5,
    min_samples_leaf=2,
    random_state=42,
    n_jobs=-1
)

rf_pipe = Pipeline([
    ("preprocessor", preprocessor),
    ("model", rf)
])

rf_pipe.fit(X_train, y_train)

y_pred_rf = rf_pipe.predict(X_test)

rmse_rf = root_mean_squared_error(y_test, y_pred_rf)
mae_rf  = mean_absolute_error(y_test, y_pred_rf)
r2_rf   = r2_score(y_test, y_pred_rf)

print("RF – Test RMSE:", rmse_rf)
print("RF – Test MAE :", mae_rf)
print("RF – Test R²  :", r2_rf)


In [None]:
# refit the model
preprocessor.fit(X_train)

X_train_proc = preprocessor.transform(X_train)
X_test_proc = preprocessor.transform(X_test)

rf_shap = RandomForestRegressor(
                n_estimators=300,      
                max_depth=10,        
                min_samples_split=5,   
                min_samples_leaf=2,
                random_state=42,
                n_jobs=-1
)


rf_shap.fit(X_train_proc,y_train)
feature_names = preprocessor.get_feature_names_out()



In [None]:
import shap 
explainer = shap.TreeExplainer(rf_shap)
idx = np.random.choice(X_test_proc.shape[0],size= 1000,replace= False)
X_sample =X_test_proc[idx]
shap_values = explainer(X_sample)

In [None]:
#Summary plot
shap.summary_plot(
    shap_values.values,
    X_sample,
    feature_names = feature_names
)


In [None]:
feature_names

In [None]:
shap.dependence_plot("num__chronic_count", shap_values.values, X_sample, feature_names=feature_names)
shap.dependence_plot("num__hospitalizations_last_3yrs", shap_values.values, X_sample, feature_names=feature_names)
shap.dependence_plot("cat__smoker_Current", shap_values.values, X_sample, feature_names=feature_names)
shap.dependence_plot("cat__risk_score_group_high_risk", shap_values.values, X_sample, feature_names=feature_names)
shap.dependence_plot("cat__annual_medical_cost_group_high_cost", shap_values.values, X_sample, feature_names=feature_names)
shap.dependence_plot("cat__claims_group_no_claims", shap_values.values, X_sample, feature_names=feature_names)


In [None]:
#waterfall plot
shap_values.feature_names = feature_names
indices = np.random.choice(X_sample.shape[0],size = 3,replace= False)
print("Random indices", indices)

for i in indices:
    shap.plots.waterfall(shap_values[i],max_display= 15)


In [None]:
df_model

In [None]:
df_seg = df_model.copy()

df_seg["premium_segment"] = pd.qcut(
    df_seg["target"],
    q=3,  # 3 κατηγορίες: low / mid / high
    labels=["low_price", "mid_price", "high_price"]
)
mean_premium = df_seg["target"].mean()
print(mean_premium)  

def premium_bucket(x):
    if x < 375:
        return "low_price"
    elif x < 750:
        return "mid_price"
    else:
        return "high_price"

df_seg["premium_segment"] = df_seg["target"].apply(premium_bucket)


In [None]:
df_risk = df_model.copy()


risk_points = np.zeros(len(df_risk))


risk_points += np.where(df_risk["risk_score_group"] == "high_risk", 2, 0)
risk_points += np.where(df_risk["risk_score_group"] == "medium_risk", 1, 0)


risk_points += np.where(
    df_risk["annual_medical_cost_group"].isin(["high_cost", "upper_middle_cost"]), 2, 0
)
risk_points += np.where(df_risk["annual_medical_cost_group"] == "lower_middle_cost", 1, 0)


risk_points += np.where(
    df_risk["claims_group"].isin(["high_claims", "very_high_claims"]), 2, 0
)
risk_points += np.where(df_risk["claims_group"] == "moderate_claims", 1, 0)


risk_points += np.where(df_risk["chronic_count"] >= 3, 2, 0)
risk_points += np.where(df_risk["chronic_count"] == 2, 1, 0)

risk_points += np.where(df_risk["smoker"] == "Current", 1, 0)


risk_points += np.where(df_risk["hospitalizations_last_3yrs"] >= 2, 1, 0)

df_risk["risk_points"] = risk_points

def map_risk(points):
    if points <= 2:
        return "low_risk_final"
    elif points <= 5:
        return "medium_risk_final"
    else:
        return "high_risk_final"

df_risk["risk_level_final"] = df_risk["risk_points"].apply(map_risk)

In [None]:
df_model["risk_level_final"] = df_risk["risk_level_final"]
df_model["premium_segment"] = df_seg["premium_segment"]


In [None]:
df_heat_map = df_model[["risk_level_final","premium_segment","target"]]
df_agg = df_heat_map.groupby(["premium_segment","risk_level_final"]).agg(
    customers = ("target","count"),
    mean_premium  = ("target","mean")
).reset_index()

df_agg

In [None]:
plt.figure(figsize=(10,6))
ax = sns.barplot(
    data=df_agg,
    x="premium_segment",
    y="customers",
    hue="risk_level_final"
)
for container in ax.containers:
        ax.bar_label(container,fmt= "%d",padding= 2,fontsize = 9, fontweight = "bold")
plt.title("Number of customers by premium segment and risk level")
plt.xlabel("Premium segment")
plt.ylabel("Number of customers")
plt.tight_layout()
plt.show()

In [None]:
pivot_mean = df_agg.pivot(
    index = "risk_level_final",
    columns= "premium_segment",
    values= "mean_premium"
)

plt.figure(figsize = (10,6))
sns.heatmap(pivot_mean,annot= True,fmt= ".2f", cmap= "coolwarm")
plt.title("Mean premium by risk level & premium segment")
plt.xlabel("Premium segment")
plt.ylabel("Risk level")
plt.tight_layout()
plt.show()

# Project Report

## Εισαγωγή – Περιγραφή διαδικασίας

Στο παρόν project αναπτύχθηκε ένα end-to-end pipeline πρόβλεψης ετήσιου ασφαλίστρου υγείας, το οποίο ξεκινά από τα raw δεδομένα και καταλήγει σε ερμηνεύσιμο μοντέλο μηχανικής μάθησης. Τα βασικά βήματα που ακολουθήθηκαν είναι τα εξής:

- **Καθαρισμός & προετοιμασία δεδομένων**
  - Έλεγχος για ελλιπείς και ασύμβατες τιμές, αντιμετώπιση missing values και πιθανών outliers.
  - Τυποποίηση κατηγορικών μεταβλητών (π.χ. ομαδοποίηση τιμών σε λογικές κατηγορίες: age_groups, income_levels, annual_medical_cost_group κ.λπ.).
  - Δημιουργία παραγώγων χαρακτηριστικών, όπως `chronic_count`, `risk_score_group` και κωδικοποίηση μεταβλητών σε μορφή κατάλληλη για μοντελοποίηση.

- **Δημιουργία τελικού modeling πίνακα**
  - Ενοποίηση όλων των σχετικών χαρακτηριστικών (demographics, συμπεριφορικά, ιατρικό ιστορικό, claims, risk score) σε έναν πίνακα `premium_model_data`.
  - Αποθήκευση του πίνακα σε database και πρόσβαση μέσω SQL για αναλύσεις και μοντελοποίηση.

- **SQL-based EDA (Exploratory Data Analysis)**
  - Ανάλυση βασικών σχέσεων με SQL queries: μέσο premium ανά ηλικιακή ομάδα, κατηγορία καπνίσματος, επίπεδο ετήσιου ιατρικού κόστους, αριθμό χρόνιων παθήσεων κ.ά.
  - Οπτικοποίηση των αποτελεσμάτων (line plots, bar plots, pie charts) για να κατανοηθούν οι βασικοί drivers του ασφαλίστρου πριν τη φάση του μοντέλου.
  - Δημιουργία επιπλέον business segments, όπως `premium_segment` (low/mid/high price) και `risk_level_final` (low/medium/high risk) με βάση τα χαρακτηριστικά κινδύνου.

- **Μοντελοποίηση & αξιολόγηση**
  - Κατασκευή pipelines με `ColumnTransformer` για scaling των αριθμητικών και one-hot encoding των κατηγορικών μεταβλητών.
  - Εκπαίδευση και σύγκριση διαφορετικών μοντέλων (Linear Regression, Random Forest, XGBoost, MLPRegressor) με cross-validation.
  - Επιλογή του MLPRegressor ως κύριου μοντέλου πρόβλεψης, με αξιολόγηση σε test set μέσω RMSE, MAE, R² και MAPE.

- **Ερμηνευσιμότητα μοντέλου με SHAP**
  - Εκπαίδευση RandomForestRegressor ως explainable model με παρόμοια απόδοση, κατάλληλο για SHAP TreeExplainer.
  - Υπολογισμός SHAP values και παραγωγή summary plots, dependence plots και waterfall plots σε επίπεδο πελάτη.
  - Ταυτοποίηση των σημαντικότερων παραγόντων που επηρεάζουν το premium (annual medical cost, claims, chronic_count, smoker, risk_score, νοσηλείες) και σύνδεσή τους με τα ευρήματα του EDA.

Με αυτόν τον τρόπο, το project καλύπτει ολόκληρο τον κύκλο ζωής μιας ανάλυσης pricing: από τον καθαρισμό και τη διερεύνηση των δεδομένων, έως την ανάπτυξη, αξιολόγηση και ερμηνεία ενός μοντέλου πρόβλεψης ασφαλίστρων.


# EDA
## 1. Κατανομή πελατών υψηλού ρίσκου ανά επίπεδο εισοδήματος

![alt text](image-5.png)








Για τους πελάτες με `risk_score_group = 'high_risk'` παρατηρούμε την ακόλουθη κατανομή:

- **High income:** 8.261 πελάτες  
- **Upper-middle income:** 8.060 πελάτες  
- **Lower-middle income:** 8.187 πελάτες  
- **Low income:** 8.109 πελάτες  

Σύνολο: **32.617** πελάτες υψηλού ρίσκου.

Τα μεγέθη ανά εισοδηματική κατηγορία είναι σχεδόν ισομεγέθη (περίπου 24–25% του συνόλου για κάθε κατηγορία). Αυτό υποδεικνύει ότι η ένταξη ενός πελάτη στην κατηγορία high risk **δεν συγκεντρώνεται** σε συγκεκριμένο επίπεδο εισοδήματος, αλλά εμφανίζεται ομοιόμορφα σε όλο το φάσμα.  
Κατά συνέπεια, το ρίσκο υγείας δεν εξηγείται επαρκώς μόνο από οικονομικά χαρακτηριστικά και η τιμολόγηση δεν μπορεί να βασιστεί αποκλειστικά στο εισόδημα.

---

## 2. Μέσο ετήσιο ασφάλιστρο ανά ηλικιακή ομάδα



![alt text](image-6.png)






Μέσο ετήσιο ασφάλιστρο (`target`) ανά `age_groups`:

- **Minors:** 497,64 €  
- **Young adults:** 523,42 €  
- **Adults:** 563,35 €  
- **Middle-aged:** 611,95 €  
- **Senior citizens:** 674,17 €  

Διαπιστώνεται σαφής ανοδική πορεία του ασφαλίστρου όσο αυξάνεται η ηλικιακή ομάδα. Από τους minors (~498 €) έως τους senior citizens (~674 €) η μέση τιμή αυξάνεται κατά περίπου **176,5 €**, δηλαδή περίπου **+35,5%**.  
Το εύρημα αυτό εναρμονίζεται με τη βασική ασφαλιστική αρχή ότι η ηλικία συνδέεται με υψηλότερη πιθανότητα εμφάνισης προβλημάτων υγείας και, συνεπώς, με αυξημένο ασφάλιστρο.

---

## 3. Ετήσιο ασφάλιστρο και πλήθος πελατών ανά κατηγορία καπνίσματος



![alt text](image-7.png)




Συνοπτικά στατιστικά ανά `smoker`:

- **Current smokers**  
  - Πλήθος: 12.098  
  - Μέσο annual premium: **741,88 €**

- **Never smokers**  
  - Πλήθος: 69.593  
  - Μέσο annual premium: **549,84 €**

- **Former smokers**  
  - Πλήθος: 18.144  
  - Μέσο annual premium: **601,43 €**

Οι current smokers καταβάλλουν κατά μέσο όρο περίπου **192 €** περισσότερα από τους never smokers  
(741,88 € έναντι 549,84 €), δηλαδή περίπου **+34,9%** υψηλότερο ασφάλιστρο.  
Οι former smokers εμφανίζουν premium περίπου **51,6 €** υψηλότερο από τους never smokers (**+9,4%**).  

Τα δεδομένα δείχνουν ότι η συμπεριφορά καπνίσματος ενσωματώνεται ουσιαστικά στη διαδικασία τιμολόγησης: οι ενεργοί καπνιστές αντιμετωπίζονται ως σημαντικά υψηλότερου ρίσκου, ενώ οι πρώην καπνιστές τοποθετούνται ενδιάμεσα μεταξύ καπνιστών και μη καπνιστών.

---

## 4. Μέσο ετήσιο ασφάλιστρο ανά κατηγορία ετήσιου ιατρικού κόστους

![alt text](image-8.png)





Μέσο annual premium ανά `annual_medical_cost_group`:

- **Low cost:** 306,34 €  
- **Lower-middle cost:** 409,18 €  
- **Upper-middle cost:** 555,74 €  
- **High cost:** 1.058,67 €  

Σε σύγκριση με την κατηγορία **low_cost**:

- Η κατηγορία **lower_middle_cost** είναι κατά περίπου **+102,8 €** ακριβότερη (**+33,6%**).  
- Η **upper_middle_cost** είναι κατά περίπου **+249,4 €** ακριβότερη (**+81,4%**).  
- Η **high_cost** είναι κατά περίπου **+752,3 €** ακριβότερη, δηλαδή περίπου **+245,6%**.

Οι πελάτες στο high_cost group πληρώνουν πάνω από **τριπλάσιο** ασφάλιστρο σε σχέση με τους low_cost.  
Το ετήσιο ιατρικό κόστος αναδεικνύεται έτσι σε έναν από τους βασικότερους drivers της τιμολόγησης: οι πελάτες με υψηλή χρήση υπηρεσιών υγείας τιμολογούνται σημαντικά πιο επιθετικά.

---

## 5. Μέσο ετήσιο ασφάλιστρο ανά αριθμό χρόνιων παθήσεων (chronic_count)



![alt text](image-10.png)




Μέσο annual premium ανά `chronic_count`:

- **0 χρόνιες παθήσεις:** 479,95 €  
- **1 χρόνια πάθηση:** 622,05 €  → +142,09 € (**+29,6%** σε σχέση με 0)  
- **2 χρόνιες παθήσεις:** 756,74 € → +276,79 € (**+57,7%**)  
- **3 χρόνιες παθήσεις:** 918,30 € → +438,34 € (**+91,3%**)  
- **4 χρόνιες παθήσεις:** 1.120,71 € → +640,76 € (**+133,5%**)  
- **5 χρόνιες παθήσεις:** 676,27 € (πιθανότατα μικρό πλήθος παρατηρήσεων)  
- **6 χρόνιες παθήσεις:** 2.459,74 € (εξαιρετικά υψηλό premium, πολύ λίγοι πελάτες)

Για τιμές από 0 έως 4 χρόνιες παθήσεις παρατηρείται σχεδόν **μονοτονική αύξηση** του ασφαλίστρου, με σαφώς αυξανόμενη κλίση. Ένας πελάτης με 4 χρόνιες παθήσεις πληρώνει πάνω από **διπλάσιο** ασφάλιστρο σε σχέση με έναν πελάτη χωρίς χρόνιες παθήσεις.  

Οι τιμές για 5–6 χρόνιες παθήσεις είναι ιδιαίτερα υψηλές, ωστόσο πιθανότατα βασίζονται σε πολύ περιορισμένο πλήθος περιπτώσεων, επομένως ερμηνεύονται με μεγαλύτερη προσοχή.  
Παρόλα αυτά, η συνολική εικόνα επιβεβαιώνει ότι το φορτίο χρόνιων νοσημάτων αποτελεί κρίσιμο παράγοντα κινδύνου και βασικό στοιχείο στην τιμολόγηση.



## Εκπαίδευση, επιλογή και αξιολόγηση του τελικού μοντέλου

Για την πρόβλεψη του ετήσιου ασφαλίστρου (`target`) αναπτύχθηκε ένα ολοκληρωμένο ML pipeline, το οποίο συνδυάζει:

- **Επιλογή και ομαδοποίηση χαρακτηριστικών (feature selection & grouping)**
  - Οι μεταβλητές χωρίστηκαν σε δύο βασικές κατηγορίες:
    - **Αριθμητικά features** (`numeric_f`), όπως π.χ. `age`, `bmi`, `chronic_count`, `risk_score`, `annual_medical_cost`, `claims_count`, κ.ά.
    - **Κατηγορικά features** (`categorical_f`), όπως π.χ. `age_groups`, `income_levels`, `annual_medical_cost_group`, `claims_group`, `risk_score_group`, `smoker`, κ.λπ.
  - Για τα **αριθμητικά features**, υπολογίστηκε η συσχέτιση (correlation) κάθε μεταβλητής με το `target` και δημιουργήθηκε heatmap των correlation coefficients.  
    Αυτό βοήθησε:
    - να εντοπιστούν μεταβλητές με ισχυρή θετική ή αρνητική σχέση με το ασφάλιστρο,
    - να αποφευχθούν αριθμητικά features με σχεδόν μηδενική συσχέτιση, που δεν προσφέρουν ουσιαστική πληροφορία στο μοντέλο.
    ![image.png](attachment:image.png)
    ---
  - Για τα **κατηγορικά features**, εφαρμόστηκε one-way ANOVA (F-test) ανά κατηγορική μεταβλητή, συγκρίνοντας τις μέσες τιμές του premium ανά κατηγορία.
    - Μεταβλητές με πολύ μεγάλο αριθμό κατηγοριών ή χωρίς ουσιαστική διαφορά στις μέσες τιμές premium (μη στατιστικά σημαντική σχέση) θεωρήθηκαν λιγότερο χρήσιμες για το μοντέλο.
    - Έτσι, δόθηκε προτεραιότητα σε κατηγορικές μεταβλητές όπου οι ομάδες είχαν ξεκάθαρα διαφορετικό μέσο premium (π.χ. διαφορετικές κατηγορίες `annual_medical_cost_group`, `claims_group`, `risk_score_group`, `smoker`).
### Πίνακας p-values (ANOVA ανά κατηγορικό feature)

| Μεταβλητή                 | p-value   |
|---------------------------|----------:|
| sex                       | 0.504170  |
| region                    | 0.226230  |
| urban_rural               | 0.687210  |
| marital_status            | 0.823180  |
| employment_status         | 0.153360  |
| smoker                    | 0.000000  |
| alcohol_freq              | 0.621340  |
| age_groups                | 0.000000  |
| education_groups          | 0.141140  |
| household_size_groups     | 0.596960  |
| income_groups             | 0.972400  |
| bmi_groups                | 0.000000  |
| dependents_groups         | 0.198230  |
| income_levels             | 0.972400  |
| systolic_bp_group         | 0.000000  |
| ldl_group                 | 0.000000  |
| hba1c_group               | 0.000000  |
| policy_term_group         | 0.639450  |
| risk_score_group          | 0.000000  |
| annual_medical_cost_group | 0.000000  |
| claims_group              | 0.000000  |
| avg_claim_group           | 0.000000  |
| total_claims_group        | 0.000000  |


- **Στατιστικά σημαντικά (p < 0.05)** → σχετίζονται ισχυρά με το premium:
  - `smoker`, `age_groups`, `bmi_groups`,  
  - `systolic_bp_group`, `ldl_group`, `hba1c_group`,  
  - `risk_score_group`, `annual_medical_cost_group`,  
  - `claims_group`, `avg_claim_group`, `total_claims_group`.

- **Μη στατιστικά σημαντικά (p ≥ 0.05)** → δεν δείχνουν ισχυρή διαφορά μέσου premium ανά κατηγορία:
  - `sex`, `region`, `urban_rural`, `marital_status`,  
    `employment_status`, `alcohol_freq`,  
    `education_groups`, `household_size_groups`,  
    `income_groups`, `dependents_groups`, `income_levels`,  
    `policy_term_group`.
    
    ---
  - Τελικό αποτέλεσμα ήταν ένα **σύνολο επιλεγμένων numeric και categorical features**, τα οποία:
    - έχουν νόημα επιχειρησιακά (domain knowledge),
    - παρουσιάζουν μετρήσιμη σχέση με το target (μέσω correlation ή ANOVA),
    - και είναι κατάλληλα για χρήση στο μοντέλο μέσω του pipeline.

- **Προεπεξεργασία δεδομένων** με `ColumnTransformer`  
  - κλιμάκωση όλων των επιλεγμένων αριθμητικών μεταβλητών (scaling),  
  - one-hot encoding για όλες τις επιλεγμένες κατηγορικές μεταβλητές (μετατροπή σε dummy variables).

- **Μοντελοποίηση με MLPRegressor (νευρωνικό δίκτυο πολλαπλών στρωμάτων)**  
  - Το MLPRegressor χρησιμοποιήθηκε ως βασικό μοντέλο παλινδρόμησης, συνδεδεμένο απευθείας στο προεπεξεργασμένο output του `ColumnTransformer`.

Αρχικά δοκιμάστηκαν διαφορετικά μοντέλα παλινδρόμησης (π.χ. Linear Regression, tree-based μοντέλα κ.ά.) πάνω στο ίδιο pipeline, χρησιμοποιώντας **cross-validation** (3–5 folds) και τα εξής κριτήρια:

- **RMSE (Root Mean Squared Error)** – τιμωρεί περισσότερο τα μεγάλα λάθη,  
- **MAE (Mean Absolute Error)** – μέσο απόλυτο σφάλμα σε ευρώ ανά πελάτη,  
- **R² (coefficient of determination)** – ποσοστό της διακύμανσης του target που εξηγείται από το μοντέλο.

Σε αυτή τη συγκριτική φάση, το **MLPRegressor** παρουσίασε τη **σταθερά καλύτερη συνολική επίδοση** έναντι των εναλλακτικών μοντέλων, με:

- χαμηλότερο μέσο **RMSE**,  
- χαμηλότερο **MAE**,  
- και υψηλότερο **R²**, περίπου στο επίπεδο του 0,71 στην cross-validation.

Στη συνέχεια, το MLP βελτιστοποιήθηκε μέσω **RandomizedSearchCV**, όπου έγιναν στοχευμένες δοκιμές σε βασικά hyperparameters (όπως `hidden_layer_sizes`, `alpha`, `learning_rate_init`, `learning_rate`), πάντα μέσα στο ίδιο pipeline προεπεξεργασίας. Η διαδικασία αυτή είχε στόχο να βελτιώσει περαιτέρω την ισορροπία μεταξύ bias και variance, χωρίς να οδηγήσει σε υπερβολική πολυπλοκότητα.

Το τελικό επιλεγμένο μοντέλο (tuned MLPRegressor) αξιολογήθηκε πάνω σε **ανεξάρτητο test set** που δεν χρησιμοποιήθηκε ούτε στην εκπαίδευση ούτε στη ρύθμιση των hyperparameters. Τα αποτελέσματα ήταν τα εξής:

- **Test RMSE:** ~194,99  
- **Test MAE:** ~95,82  
- **Test R²:** ~0,756  
- **Μέσο ετήσιο ασφάλιστρο (target mean):** ~581,65 €  
- **MAE ως ποσοστό του μέσου premium:** ~16,5%

Ερμηνεία των αποτελεσμάτων:

- Το μοντέλο παρουσιάζει μέσο απόλυτο σφάλμα περίπου **96 €** ανά πελάτη, σε ένα περιβάλλον όπου η μέση τιμή του ετήσιου ασφαλίστρου είναι περίπου **582 €**. Αυτό σημαίνει ότι, κατά μέσο όρο, η απόκλιση της πρόβλεψης από την πραγματική τιμή κινείται σε απολύτως διαχειρίσιμα επίπεδα για τις ανάγκες τιμολόγησης.  

- Το μέσο σχετικό σφάλμα της τάξης του **16–17%** θεωρείται ρεαλιστικό και επιχειρησιακά αποδεκτό για πρόβλημα insurance pricing, δεδομένου ότι σημαντικοί παράγοντες κινδύνου δεν αποτυπώνονται πλήρως στα δεδομένα (π.χ. λεπτομερές ιατρικό ιστορικό, πλήρεις underwriting πολιτικές, ατομική συμπεριφορά). Παρά τους περιορισμούς αυτούς, το μοντέλο καταφέρνει να προσεγγίσει με συνέπεια τις πραγματικές τιμές.  

- Η τιμή **R² ≈ 0,76** υποδηλώνει ότι το μοντέλο εξηγεί περίπου **76% της διακύμανσης** στο ετήσιο ασφάλιστρο, αφήνοντας το υπόλοιπο ~24% σε μη εξηγούμενο θόρυβο. Για ένα σύνθετο, πραγματικό πρόβλημα με πολυδιάστατο και θορυβώδες ρίσκο, αυτό το επίπεδο εξηγητικής ικανότητας κρίνεται ιδιαίτερα ικανοποιητικό και ενισχύει την εμπιστοσύνη στη χρησιμότητα του μοντέλου σε πραγματικό επιχειρησιακό πλαίσιο.

Συνολικά, τα αριθμητικά ευρήματα δείχνουν ότι:

- το tuned MLPRegressor επιτυγχάνει **ουσιαστική βελτίωση** σε σχέση με μια απλή baseline που θα προέβλεπε απλώς τον μέσο όρο για όλους τους πελάτες,  
- αποτυπώνει με συνέπεια τις βασικές σχέσεις μεταξύ παραγόντων κινδύνου και ασφαλίστρου,  
- και παρουσιάζει **καλή ικανότητα γενίκευσης** σε δεδομένα που δεν είδε κατά την εκπαίδευση.

Με βάση τα παραπάνω, το τελικό MLPRegressor μπορεί να θεωρηθεί ένα **αποτελεσματικό και επιχειρησιακά αξιόπιστο** μοντέλο πρόβλεψης ασφαλίστρων για το συγκεκριμένο dataset.


## Ανάλυση SHAP Values – Ερμηνεία του μοντέλου πρόβλεψης ασφαλίστρου

Σε αυτό το τμήμα παρουσιάζεται αναλυτικά η ανάλυση SHAP (SHapley Additive exPlanations), η οποία χρησιμοποιήθηκε για να ερμηνεύσουμε το μοντέλο πρόβλεψης του ετήσιου ασφαλίστρου.  
Η ανάλυση βασίζεται σε **RandomForestRegressor** που εκπαιδεύτηκε πάνω στα ίδια προεπεξεργασμένα δεδομένα με το κύριο μοντέλο (MLPRegressor), και έχει παρόμοια απόδοση, γεγονός που καθιστά τα ευρήματα των SHAP values αντιπροσωπευτικά για τη γενική συμπεριφορά του συστήματος τιμολόγησης.

---

### 1. Τι είναι τα SHAP values και γιατί χρησιμοποιούνται

Τα SHAP values προέρχονται από τη θεωρία παιγνίων (Shapley values) και μας λένε, για κάθε πρόβλεψη ξεχωριστά:

- πόσο συμβάλλει **κάθε χαρακτηριστικό (feature)** στο να αυξηθεί ή να μειωθεί η πρόβλεψη σε σχέση με μια baseline τιμή (τη μέση πρόβλεψη),  
- με **ποσότητα (σε “μονάδες μοντέλου”, εδώ σε περίπου €)** και **κατεύθυνση** (θετική → αυξάνει το premium, αρνητική → το μειώνει).

Συνοπτικά:

- **Θετικό SHAP value** για ένα feature → το συγκεκριμένο feature “σπρώχνει” την πρόβλεψη προς υψηλότερο ασφάλιστρο.  
- **Αρνητικό SHAP value** → το feature συμβάλλει σε χαμηλότερο ασφάλιστρο.  
- Όσο μεγαλύτερο σε απόλυτη τιμή → τόσο πιο ισχυρή η επίδραση του feature.

Η ανάλυση SHAP επιτρέπει:

- **Global ερμηνεία**: ποια features είναι πιο σημαντικά συνολικά (summary plot).  
- **Local ερμηνεία**: γιατί ένας συγκεκριμένος πελάτης πήρε τη συγκεκριμένη τιμή premium (waterfall plots).  
- **Ανά feature**: πώς αλλάζει η επίδραση ενός feature με τις τιμές του (dependence plots).

---

### 2. Global Feature Importance – SHAP Summary Plot

![alt text](image-11.png)

Το πρώτο και βασικότερο γράφημα είναι το **SHAP summary plot**, το οποίο κατατάσσει τα features με βάση τη συνολική συμβολή τους στην πρόβλεψη.  
Στον κατακόρυφο άξονα εμφανίζονται τα features (μετά από προεπεξεργασία: π.χ. `cat__annual_medical_cost_group_high_cost`, `num__chronic_count`, `cat__smoker_Current`, κ.λπ.), ενώ στον οριζόντιο άξονα τα αντίστοιχα SHAP values.

Βασικά ευρήματα από το summary plot:

- Τα σημαντικότερα features που επηρεάζουν την πρόβλεψη του ασφαλίστρου είναι:
  - **Κατηγορίες ετήσιου ιατρικού κόστους**  
    (`annual_medical_cost_group_*`: low, lower_middle, upper_middle, high)
  - **Κατηγορίες claims**  
    (`claims_group`, `total_claims_group_*`, `avg_claim_group_*`)
  - **Αριθμός χρόνιων παθήσεων** (`num__chronic_count`)
  - **Καπνιστική συνήθεια** (`cat__smoker_Current`)
  - **Risk score** (`risk_score_group_low_risk`, `risk_score_group_high_risk`)
  - **Νοσηλείες τα τελευταία χρόνια**  
    (`num__hospitalizations_last_3yrs`, `num__days_hospitalized_last_3yrs`)

- Οι πελάτες με:
  - **υψηλό ετήσιο ιατρικό κόστος**,  
  - **πολλαπλά ή μεγάλα claims**,  
  - **πολλές χρόνιες παθήσεις**,  
  - **κατάσταση “Current smoker”**,  
  - **υψηλό risk score**,  
  - **συχνές ή μεγάλες νοσηλείες**,  
έχουν σταθερά **θετικά SHAP values**, δηλαδή αυτά τα χαρακτηριστικά αυξάνουν σημαντικά το προβλεπόμενο ασφάλιστρο.

- Αντίθετα, χαρακτηριστικά όπως:
  - **low_cost** σε medical cost,  
  - **no_claims / no_claims_paid**,  
  - **low_risk_group**,  
οδηγούν σε **αρνητικά SHAP values**, σπρώχνοντας την πρόβλεψη σε χαμηλότερο premium.

Επομένως, σε global επίπεδο, το μοντέλο τιμολογεί με τρόπο συμβατό με την ασφαλιστική λογική: πελάτες με αυξημένο ιστορικό κόστους, χρήσης και ρίσκου πληρώνουν υψηλότερα ασφάλιστρα.

---

### 3. Dependence Plots – Πώς επηρεάζει κάθε feature το premium

Στη συνέχεια εξετάζουμε επιλεγμένα dependence plots για τα πιο κρίσιμα features.  
Κάθε dependence plot δείχνει:

- στον οριζόντιο άξονα: την τιμή του feature (π.χ. αριθμός χρόνιων παθήσεων),  
- στον κατακόρυφο άξονα: το SHAP value αυτού του feature,  
- στο χρώμα: την τιμή ενός δεύτερου feature (interaction), όπου έχει νόημα.

#### 3.1. Αριθμός χρόνιων παθήσεων (`num__chronic_count`)

![alt text](image-12.png)

Το dependence plot για το `num__chronic_count` δείχνει πώς αλλάζει η συμβολή του αριθμού χρόνιων παθήσεων στο premium:

- Για **0–1 χρόνιες παθήσεις**, τα SHAP values είναι κοντά στο 0 ή ελαφρώς αρνητικά.  
  → Το χαρακτηριστικό είτε δεν αυξάνει σημαντικά το ασφάλιστρο είτε το μειώνει ελαφρώς σε σχέση με τη baseline.

- Από **2–3 χρόνιες παθήσεις και πάνω**, τα SHAP values γίνονται ξεκάθαρα **θετικά** και αυξανόμενα.  
  → Σε αυτό το σημείο, το μοντέλο “θεωρεί” ότι ο πελάτης έχει σημαντικά αυξημένο ιατρικό ρίσκο, και το ασφάλιστρο αυξάνεται.

- Για πελάτες με **πολλές χρόνιες παθήσεις (3–4+) και ταυτόχρονα υψηλό ετήσιο ιατρικό κόστος** (κόκκινες κουκκίδες όταν χρησιμοποιείται ως χρώμα το `annual_medical_cost_group_high_cost`), τα SHAP values είναι ιδιαίτερα υψηλά:  
  → το `chronic_count` συνεισφέρει πολύ έντονα στην αύξηση του premium.

Συμπέρασμα:  
**Το φορτίο χρόνιων νοσημάτων αποτελεί έναν από τους πιο κρίσιμους drivers του ασφαλίστρου**, ειδικά όταν συνδυάζεται με υψηλή χρήση υπηρεσιών υγείας.

---

#### 3.2. Καπνιστική συνήθεια (`cat__smoker_Current`)

![alt text](image-13.png)

Στο dependence plot για το `cat__smoker_Current` (τυπικά δυαδικό feature 0/1):

- Σημεία όπου `smoker_Current = 0` έχουν **SHAP values κοντά στο 0 ή αρνητικά**,  
  → η μη καπνιστική συμπεριφορά δεν αυξάνει το premium, συχνά το μειώνει λίγο.

- Σημεία όπου `smoker_Current = 1` συγκεντρώνονται **σε ξεκάθαρα θετικές τιμές SHAP**,  
  → ο ενεργός καπνιστής θεωρείται σημαντικός παράγοντας κινδύνου και αυξάνει το ασφάλιστρο.

Η εικόνα αυτή ευθυγραμμίζεται απόλυτα με τα αποτελέσματα του SQL EDA: οι current smokers είχαν σημαντικά υψηλότερο μέσο premium σε σχέση με never και former smokers.  
Το SHAP εδώ επιβεβαιώνει ότι **το μοντέλο εσωτερικά χρησιμοποιεί το κάπνισμα ως ισχυρό risk factor**.

---

#### 3.3. Ετήσιο ιατρικό κόστος (`annual_medical_cost_group_*`)

![alt text](image-14.png)

Στα dependence plots που σχετίζονται με τις κατηγορίες `annual_medical_cost_group` παρατηρούμε:

- Πελάτες σε **low_cost** ομάδες έχουν **αρνητικά ή μικρά SHAP values**,  
  → το χαρακτηριστικό αυτό “τραβάει” την πρόβλεψη προς χαμηλότερα ασφάλιστρα.

- Πελάτες σε **upper_middle_cost** και ιδιαίτερα **high_cost** ομάδες εμφανίζουν **συστηματικά υψηλά θετικά SHAP values**,  
  → το μοντέλο αυξάνει δυναμικά το premium όσο περνάμε σε υψηλότερες κατηγορίες κόστους.

Σε συνδυασμό με τα EDA ευρήματα (όπου το μέσο premium για high_cost ήταν πάνω από 3 φορές υψηλότερο σε σχέση με low_cost), τα SHAP plots δείχνουν ότι:

> Το ετήσιο ιατρικό κόστος δεν είναι απλώς συσχετισμένο με το ασφάλιστρο·  
> αποτελεί έναν από τους βασικούς μοχλούς τιμολόγησης σε επίπεδο μοντέλου.

---

#### 3.4. Claims – συχνότητα και βαρύτητα αποζημιώσεων

![alt text](image-15.png)

Τα dependence plots για features όπως:

- `total_claims_group_high_claims` / `very_high_claims`,  
- `avg_claim_group_high_claims` / `very_high_claims`,  
- `claims_group_no_claims` / `moderate_claims`,

δείχνουν ένα συνεκτικό μοτίβο:

- Κατηγορίες όπως **no_claims** ή **no_claims_paid** έχουν κυρίως **αρνητικά SHAP values**,  
  → πελάτες με καθαρό ιστορικό χωρίς αποζημιώσεις “ανταμείβονται” με χαμηλότερα premiums.

- Κατηγορίες όπως **high_claims** / **very_high_claims**, είτε σε πλήθος (`total_claims_group`) είτε σε μέσο μέγεθος (`avg_claim_group`), παρουσιάζουν **ισχυρά θετικά SHAP values**,  
  → το ιστορικό claims έχει άμεση και σημαντική θετική επίδραση στο predicted premium.

Έτσι, το μοντέλο ακολουθεί την κλασική λογική του experience rating:  
όσο πιο “βαρύ” το ιστορικό αποζημιώσεων, τόσο υψηλότερο το ασφάλιστρο.

---

#### 3.5. Risk score (`risk_score_group_low_risk`, `risk_score_group_high_risk`)

![alt text](image-16.png)

Για τις κατηγορίες του `risk_score_group`:

- Οι πελάτες σε **low_risk_group** εμφανίζουν κυρίως **αρνητικά SHAP values**,  
  → το feature λειτουργεί σαν “έκπτωση ρίσκου” και μειώνει το premium.

- Οι πελάτες σε **high_risk_group** έχουν **θετικά και συχνά υψηλά SHAP values**,  
  → το risk score συνοψίζει (εν μέρει) την πληροφορία από άλλα risk factors και αυξάνει το προβλεπόμενο ασφάλιστρο.

Το risk_score δρα, πρακτικά, ως συγκεντρωτικό measure συνολικού ρίσκου:  
όσο υψηλότερη η κατηγορία, τόσο πιο επιθετική η τιμολόγηση από το μοντέλο.

---

#### 3.6. Νοσηλείες τα τελευταία χρόνια (`hospitalizations_last_3yrs`, `days_hospitalized_last_3yrs`)
![alt text](image-17.png)

Τα dependence plots για τις μεταβλητές `hospitalizations_last_3yrs` και `days_hospitalized_last_3yrs` καταγράφουν:

- Για πελάτες με **μηδενικές ή λίγες νοσηλείες**, τα SHAP values είναι κοντά στο 0 ή ελαφρώς αρνητικά.  
- Από ένα ορισμένο επίπεδο και πάνω (π.χ. 2+ νοσηλείες ή πολλές ημέρες νοσηλείας), τα SHAP values γίνονται **θετικά και αυξανόμενα**,  
  → το ιστορικό νοσηλειών αναγνωρίζεται ως σαφές μήνυμα αυξημένου ρίσκου και συνεπώς υψηλότερου ασφαλίστρου.

---

### 4. Waterfall Plots – Εξήγηση σε επίπεδο μεμονωμένου πελάτη

Τα SHAP waterfall plots μας επιτρέπουν να δούμε **αναλυτικά** πώς φτάνει το μοντέλο από τη baseline πρόβλεψη στο τελικό ασφάλιστρο για έναν συγκεκριμένο πελάτη.

- Στο κάτω μέρος κάθε γραφήματος φαίνεται η baseline `E[f(X)] ≈ 582,86 €`, που είναι ουσιαστικά το μέσο προβλεπόμενο premium στο dataset.  
- Κάθε μπάρα (μπλε ή κόκκινη) δείχνει πόσο ένα συγκεκριμένο feature **αφαιρεί** ή **προσθέτει** σε αυτό το ποσό.  
- Στο πάνω μέρος φαίνεται η τελική πρόβλεψη `f(x)` για τον συγκεκριμένο πελάτη.

Παρακάτω αναλύονται δύο χαρακτηριστικά παραδείγματα:

---

#### 4.1 Πελάτης Α – Χαμηλότερο από το μέσο ασφάλιστρο

![alt text](image-21.png)

Στο πρώτο waterfall plot η τελική πρόβλεψη είναι:

- **f(x) ≈ 409,85 €**  
- Baseline: **E[f(X)] ≈ 582,86 €**

Δηλαδή, ο πελάτης αυτός τιμολογείται περίπου **173 € χαμηλότερα** από το μέσο premium (περίπου **−30%**).  
Το γράφημα δείχνει ότι η μείωση αυτή προκύπτει κυρίως από την απουσία “βαριών” risk factors.

Κύριες συνεισφορές:

- `0 = cat__annual_medical_cost_group_high_cost` → **−114,69 €**  
  - Ο πελάτης **δεν** ανήκει στο high_cost group. Αυτό από μόνο του “ρίχνει” το premium κατά περίπου 115 €, σε σχέση με έναν αντίστοιχο πελάτη που θα είχε υψηλό ετήσιο ιατρικό κόστος.

- `0 = cat__annual_medical_cost_group_upper_middle_cost` → **−45,15 €**  
  - Επιπλέον, δεν βρίσκεται ούτε στο upper_middle_cost. Άρα αποφεύγεται και ένα επιπλέον “penalty” ~45 €.

- `1 = cat__annual_medical_cost_group_lower_middle_cost` και `0 = cat__annual_medical_cost_group_low_cost`  
  - Ο συνδυασμός αυτών δίνει μικρές θετικές/αρνητικές συνεισφορές (+14,68 €, +22,68 €), υποδεικνύοντας ότι ο πελάτης ανήκει σε ενδιάμεση κατηγορία (lower_middle), η οποία αυξάνει λίγο το premium σε σχέση με το απόλυτο low_cost, αλλά πολύ λιγότερο από upper_middle ή high_cost.

- `0 = cat__total_claims_group_high_claims`,  
  `0 = cat__avg_claim_group_high_claims`,  
  `0 = cat__total_claims_group_moderate_claims`,  
  `0 = cat__total_claims_group_very_high_claims` → αθροιστικά **αρνητικά SHAP values**  
  - Ο πελάτης **δεν ανήκει** σε κατηγορίες με υψηλό ή πολύ υψηλό πλήθος/μέσο ύψος claims. Αυτό “προστατεύει” το premium και το κρατά χαμηλά.

- `1 = cat__total_claims_group_low_total_claims`,  
  `1 = cat__avg_claim_group_low_cost_claims` → μικρά αρνητικά SHAP  
  - Επιβεβαιώνεται ότι το ιστορικό αποζημιώσεων είναι **ήπιο**, με λίγα και σχετικά φθηνά claims.

- `1 = cat__smoker_Current` → **+3,31 €**  
  - Το γεγονός ότι είναι ενεργός καπνιστής αυξάνει το premium, αλλά η επίδραση αυτή είναι μικρή σε σχέση με τα οφέλη από το χαμηλό κόστος και τα λίγα claims.

Συνολικά, ο Πελάτης Α:

- **Δεν έχει υψηλό ετήσιο ιατρικό κόστος**,  
- **Δεν έχει βαρύ ιστορικό claims**,  
- Ανήκει σε πιο “ήπια” cost/claims groups,  
και μόνο η καπνιστική συμπεριφορά προσθέτει ένα μικρό ποσό στο premium.  
Γι’ αυτό, η τελική τιμή (~410 €) είναι σημαντικά χαμηλότερη από τη μέση (~583 €).

---

#### 4.2 Πελάτης Β – Σημαντικά υψηλότερο από το μέσο ασφάλιστρο

![alt text](image-20.png)

Στο δεύτερο waterfall plot η τελική πρόβλεψη είναι:

- **f(x) ≈ 962,67 €**  
- Baseline: **E[f(X)] ≈ 582,86 €**

Εδώ το μοντέλο τιμολογεί τον πελάτη περίπου **380 € πιο πάνω** από το μέσο premium (περίπου **+65%**).  
Το γράφημα δείχνει ότι η αύξηση αυτή οδηγείται κυρίως από πιο “βαριούς” δείκτες κόστους και claims.

Κύριες συνεισφορές:

- `1 = cat__annual_medical_cost_group_high_cost` → **+445,90 €**  
  - Ο πελάτης ανήκει στο **high_cost** medical group, και αυτό από μόνο του προσθέτει σχεδόν **450 €** πάνω από τη baseline. Πρόκειται μακράν για τον ισχυρότερο driver της αύξησης.

- `1 = cat__avg_claim_group_high_claims` → **+38,90 €**  
  - Ο μέσος όρος των claims είναι υψηλός. Ακόμη κι αν δεν έχει τεράστιο πλήθος claims, κάθε claim κοστίζει ακριβά, κάτι που ωθεί το premium προς τα πάνω.

- `1 = cat__total_claims_group_moderate_claims` → **+12,92 €**  
  - Το πλήθος των claims είναι τουλάχιστον σε επίπεδο “moderate”, ενισχύοντας επιπλέον την εικόνα αυξημένου ρίσκου.

- `0 = cat__annual_medical_cost_group_low_cost`,  
  `0 = cat__annual_medical_cost_group_lower_middle_cost`,  
  `0 = cat__annual_medical_cost_group_upper_middle_cost`  
  - Η απουσία από τις χαμηλότερες κατηγορίες κόστους σημαίνει ότι **δεν υπάρχει κανένα “φρένο”** από πλευράς low_cost συμπεριφοράς.

- `0 = cat__total_claims_group_high_claims`,  
  `0 = cat__total_claims_group_very_high_claims`,  
  `0 = cat__claims_group_no_claims`,  
  `0 = cat__avg_claim_group_no_claims` → αρνητικές συνεισφορές (μπλε μπάρες)  
  - Αυτά τα features αφαιρούν κάποιο ποσό από την πρόβλεψη, υποδηλώνοντας ότι ο πελάτης **δεν βρίσκεται στο απόλυτο χειρότερο άκρο** (δεν έχει π.χ. very_high_claims, δεν είναι πλήρως heavy-claimer), αλλά η επίδρασή τους είναι μικρότερη από τα ισχυρά θετικά drivers.

- `0 = cat__risk_score_group_low_risk` → **+6,20 €**  
  - Το γεγονός ότι **δεν** ανήκει στην κατηγορία low_risk αυξάνει το premium: το μοντέλο τον αντιμετωπίζει ως τουλάχιστον medium/high risk.

- `num__arthritis` (π.χ. τιμή ~2,858) → **+4,94 €**  
  - Η ύπαρξη συγκεκριμένης χρόνιας πάθησης προσθέτει επιπλέον ποσό, αν και μικρό σε σχέση με το medical cost.

Παρότι κάποια features έχουν αρνητική επίδραση (π.χ. δεν έχει very_high_claims, κάποιες ομάδες no_claims), η **κυρίαρχη εικόνα** είναι:

- πολύ υψηλό ετήσιο ιατρικό κόστος,  
- υψηλό μέσο ύψος claims,  
- τουλάχιστον μέτρια συχνότητα claims,  
- μη χαμηλό συνολικό risk score.

Αυτό οδηγεί σε ένα premium σχεδόν **διπλάσιο** του μέσου (~963 € vs ~583 €), που είναι πλήρως συνεπές με το “προφίλ” υψηλού ρίσκου που παρουσιάζει ο Πελάτης Β.

---

Με αυτά τα δύο παραδείγματα γίνεται ξεκάθαρο ότι τα SHAP waterfall plots:

- εξηγούν **ποσοτικά** γιατί δύο πελάτες με διαφορετικό ιατρικό/claims προφίλ καταλήγουν σε τόσο διαφορετικά ασφάλιστρα,  
- δείχνουν ότι το μοντέλο αντιδρά με τρόπο που συμφωνεί με την ασφαλιστική λογική (χαμηλό κόστος & λίγα claims → έκπτωση, υψηλό κόστος & ακριβά claims → σημαντική επιβάρυνση),  
- και παρέχουν ένα εργαλείο ερμηνείας που μπορεί να χρησιμοποιηθεί τόσο από data teams όσο και από business / underwriting ομάδες.


### 5. Σύνοψη ευρημάτων SHAP

Συνοψίζοντας την SHAP ανάλυση:

- Τα **πιο σημαντικά features** για την πρόβλεψη του ετήσιου ασφαλίστρου είναι:
  - ετήσιο ιατρικό κόστος,  
  - πλήθος και μέγεθος claims,  
  - αριθμός χρόνιων παθήσεων,  
  - καπνιστική συνήθεια,  
  - risk score,  
  - νοσηλείες τα τελευταία χρόνια.

- Τα global patterns από το SHAP summary plot και τα dependence plots  
  είναι **απόλυτα συνεπή** με όσα παρατηρήθηκαν στο SQL/EDA (π.χ. υψηλότερα premiums για high_cost, high_claims, smokers, πολλαπλές χρόνιες παθήσεις, μεγαλύτερη ηλικία).

- Τα waterfall plots δείχνουν ότι σε επίπεδο μεμονωμένου πελάτη,  
  η τελική τιμή του ασφαλίστρου μπορεί να εξηγηθεί με τρόπο:

  - **ποσοτικό** (πόσα € προσθέτει ή αφαιρεί κάθε χαρακτηριστικό),  
  - και **ποιοτικό** (ποια χαρακτηριστικά θεωρούνται “drivers” υψηλού ή χαμηλού ρίσκου).

Σε συνδυασμό με τα metrics απόδοσης του μοντέλου (RMSE, MAE, R²), η SHAP ανάλυση ενισχύει την εμπιστοσύνη στη λύση, δείχνοντας ότι:

- το μοντέλο όχι μόνο προβλέπει με ικανοποιητική ακρίβεια,  
- αλλά και λαμβάνει αποφάσεις σύμφωνες με την ασφαλιστική λογική και τη δομή του πραγματικού ρίσκου.


### 6.3 Κατανομή πελατών ανά premium segment & risk level (bar chart)
![alt text](image-23.png)

Το grouped bar chart απεικονίζει πόσοι πελάτες βρίσκονται σε κάθε συνδυασμό `premium_segment` και `risk_level_final`.

Ενδεικτικά (από το aggregation):

- **Low_price segment**
  - Low_risk_final: ~26.716 πελάτες  
  - Medium_risk_final: ~3.818 πελάτες  
  - High_risk_final: μόλις ~195 πελάτες  

- **Mid_price segment**
  - Low_risk_final: ~27.469 πελάτες  
  - Medium_risk_final: ~18.052 πελάτες  
  - High_risk_final: ~4.367 πελάτες  

- **High_price segment**
  - Low_risk_final: ~5.938 πελάτες  
  - Medium_risk_final: ~8.728 πελάτες  
  - High_risk_final: ~4.552 πελάτες  

Από το γράφημα προκύπτουν τα εξής:

- Το **low_price segment** κυριαρχείται ξεκάθαρα από **low_risk_final** πελάτες, με ελάχιστους high_risk.  
  Αυτό δείχνει ότι τα φθηνά συμβόλαια δίνονται σχεδόν αποκλειστικά σε προφίλ χαμηλού κινδύνου.

- Στο **mid_price segment** η εικόνα είναι πιο μικτή:  
  οι low_risk παραμένουν πολλοί, αλλά ένα σημαντικό ποσοστό (περισσότεροι από 18.000) ανήκει σε **medium_risk_final**, ενώ εμφανίζεται και αισθητό πλήθος **high_risk_final**.  
  Το mid_price λειτουργεί ως “ζώνη μετάβασης” μεταξύ χαμηλού και υψηλού ρίσκου.

- Στο **high_price segment** η κατανομή αντιστρέφεται:  
  οι **medium_risk_final** και **high_risk_final** πελάτες είναι σχεδόν όσοι και οι low_risk ή και περισσότεροι, κάτι που είναι συμβατό με την αναμενόμενη λογική ότι τα ακριβότερα συμβόλαια αντιστοιχούν σε προφίλ με αυξημένο risk profile.

Συνολικά, το bar chart δείχνει ότι το segmentation `risk_level_final` ευθυγραμμίζεται καλά με το `premium_segment`:  
όσο αυξάνεται το επίπεδο ρίσκου, αυξάνεται και η πιθανότητα ο πελάτης να ανήκει σε mid ή high price κατηγορία.

---

### 6.4 Μέσο premium ανά risk level & premium segment (heatmap)
![alt text](image-22.png)

Το heatmap απεικονίζει τη **μέση τιμή ασφαλίστρου** για κάθε συνδυασμό (`risk_level_final`, `premium_segment`), με τις γραμμές να αντιστοιχούν στα επίπεδα ρίσκου και τις στήλες στα price segments.

Η οπτικοποίηση αναδεικνύει δύο βασικά μοτίβα:

1. **Για σταθερό premium segment (κατά στήλη):**  
   - Από `low_risk_final` → `medium_risk_final` → `high_risk_final` η μέση τιμή premium αυξάνεται συστηματικά.  
   - Αυτό σημαίνει ότι ακόμη και στο ίδιο επίπεδο τιμής (π.χ. μόνο mid_price), ο κίνδυνος διαφοροποιεί σημαντικά το τελικό ασφάλιστρο.

2. **Για σταθερό risk level (κατά γραμμή):**  
   - Από `low_price` → `mid_price` → `high_price` η μέση τιμή premium ανεβαίνει σημαντικά.  
   - Έτσι, για οποιοδήποτε risk bucket, οι high_price πελάτες πληρώνουν πάντα περισσότερο από τους αντίστοιχους low_price.

Η συνολική εικόνα από το heatmap είναι ότι:

- Η σχέση **ρίσκου–τιμής** είναι **μονότονα αυξητική** και στις δύο διαστάσεις (risk level και premium segment).  
- Το segmentation που σχεδιάστηκε (risk_level_final & premium_segment) αποτυπώνει με συνέπεια τη λογική του μοντέλου:  
  **υψηλότερος κίνδυνος → υψηλότερο μέσο premium**,  
  ενώ το επίπεδο τιμής (low/mid/high) λειτουργεί ως πρόσθετο στρώμα διαφοροποίησης πάνω από το συνολικό risk profile.

Με αυτό το τελευταίο βήμα, η ανάλυση κλείνει με ένα πλαίσιο που μεταφράζει τα τεχνικά αποτελέσματα του μοντέλου σε σαφή, επιχειρησιακά segments, χρήσιμα για pricing, risk management και reporting.


## 7. Επίλογος

Συνοψίζοντας, στο project αυτό αναπτύχθηκε ένα πλήρες, end-to-end πλαίσιο πρόβλεψης και ερμηνείας ασφαλίστρων υγείας: από τον καθαρισμό και τον εμπλουτισμό των δεδομένων, τη δημιουργία του modeling πίνακα και το SQL-based EDA, μέχρι την εκπαίδευση και βελτιστοποίηση ενός MLP μοντέλου με ικανοποιητική ακρίβεια (R² ≈ 0,76, MAE ≈ 16–17% του μέσου premium).  

Η ανάλυση SHAP έδειξε ότι το μοντέλο βασίζεται σε παράγοντες που συμφωνούν με την ασφαλιστική λογική (ιατρικό κόστος, claims, χρόνιες παθήσεις, καπνιστική συνήθεια, risk score, νοσηλείες) και επέτρεψε τόσο global όσο και individual ερμηνεία των προβλέψεων. Τέλος, το segmentation σε επίπεδο ρίσκου και τιμής (risk_level_final × premium_segment) μετέφρασε τα τεχνικά ευρήματα σε σαφή επιχειρησιακά σενάρια, τα οποία μπορούν να αξιοποιηθούν για pricing, monitoring και στρατηγικές διαχείρισης χαρτοφυλακίου.  


