# 0.0. Importações

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from xgboost import XGBRegressor
from plotly.subplots import make_subplots
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from category_encoders import TargetEncoder
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, make_scorer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score, KFold, cross_validate

## 0.1. Funcoes

In [2]:
#retorna um dataframe contendo informações sobre os erros (MAE, MAPE e RMSE)
def ml_error(model_name, y_true, y_hat):
    mae = mean_absolute_error(y_true, y_hat)
    mape = mean_absolute_percentage_error(y_true, y_hat)
    rmse = np.sqrt(mean_squared_error(y_true, y_hat))
    
    return pd.DataFrame({'Model Name': [model_name],
                        'MAE': [mae],
                        'MAPE': [mape],
                        'RMSE': [rmse]}).round(4)


#funcao que aplica cross-validation em um dataset e retorna métricas como MAE, MAPE e RMSE e seus desvios padrões
def cross_validation(model_name, model, X, y, cv):
    k = cv
    kf = KFold(n_splits=k)

    scoring = {
        'MAE': make_scorer(mean_absolute_error),
        'MAPE': make_scorer(mean_absolute_percentage_error),
        'RMSE': make_scorer(mean_squared_error, squared=False)
    }

    results = cross_validate(model, X, y, cv=kf, scoring=scoring)

    mae_scores = results['test_MAE']
    mape_scores = results['test_MAPE']
    rmse_scores = results['test_RMSE']
        
    return pd.DataFrame({
        'Model Name': [model_name],
        'MAE': [f'{round(mae_scores.mean(), 2)} +- {round(mae_scores.std(), 2)}'],
        'MAPE': [f'{round(mape_scores.mean(), 2)} +- {round(mape_scores.std(), 2)}'],
        'RMSE': [f'{round(rmse_scores.mean(), 2)} +- {round(rmse_scores.std(), 2)}'],
    })

## 0.1. Extração dos Dados

In [3]:
df_raw = pd.read_csv('dataset/insurance.csv')

# 1.0. Entendendo os Dados

In [4]:
df1 = df_raw.copy()

In [5]:
# verifica as cinco primeiras linhas
df1.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


## 1.1. Dimensões do dataset (linhas x colunas)

In [6]:
print(f'O dataset tem {df1.shape[0]} linhas e {df1.shape[1]} colunas.')

O dataset tem 1338 linhas e 7 colunas.


O dataset contém 7 colunas, sendo elas:
- age : Idade do cliente
- sex : O sexo do cliente
- bmi : IMC do cliente
- children : Quantidade de dependentes
- smoker : variável que informa se o cliente é fumante ou não
- region : região em que o cliente mora
- charges : Valor anual pago pelo cliente (em dólares americanos)

## 1.2. Tipos de dados

In [7]:
df1.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

## 1.3. Verifica se há valores faltantes

In [8]:
df1.isna().sum()

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64

## 1.4. Estatística Descritiva

In [None]:
num_attributes = df1.select_dtypes(include=['int', 'float'])
cat_attributes = df1.select_dtypes(include=['object'])

### 1.4.1. Atributos Numéricos

In [None]:
# Tendencia Central - Media, mediana
# Dispercao - std, min, max, range, skew, kurtosis

num_statistics = pd.DataFrame({'min': num_attributes.min(),
                               'max': num_attributes.max(),
                               'media': num_attributes.mean(),
                               'mediana': num_attributes.median(),
                               'desvio_padrao': num_attributes.std(),
                               'amplitude': num_attributes.max() - num_attributes.min(),
                               'skewness' : num_attributes.skew(),
                               'curtose' : num_attributes.kurtosis()})

num_statistics

## 1.4.2. Atributos Categóricos

In [None]:
# numero de valores unicos para cada variavel
cat_attributes.apply(lambda x: x.nunique(), axis=0)

In [None]:
#cria o dashboard com 3 colunas e 1 linha
fig = make_subplots(rows= 1, cols= 3)

#cria graficos boxplot
for i, col in enumerate(cat_attributes.columns):
    fig.add_trace(go.Box(x = df1[col],
                         y = df1['charges'],
                         name= col), row=1, col=i+1)
    
# Atualiza o layout do dashboard
fig.update_layout(height=600, width=900, 
                  title_text="Dados Categóricos x Valor Pago Pelo Cliente", 
                  title=dict(x=0.5))

# Exibe o dashboard
fig.show()

# 2.0. Análise Exploratória Dos Dados

In [None]:
df2 = df1.copy()

## 2.1. Análise Univariada

### Variável Resposta

In [None]:
sns.kdeplot(df2['charges'], fill=True).set(title = 'Gráfico de Densidade para a Variável "Charges"');

### Variáveis Numéricas

In [None]:
#cria o dashboard

# Define o número de colunas do dashboard
num_cols = 2

# Calcula o número de linhas necessárias
num_rows = len(num_attributes.columns) // num_cols + (len(num_attributes.columns) % num_cols > 0)

fig = make_subplots(rows= num_rows, cols= num_cols)

for i, column in enumerate(num_attributes.columns):
    row = i // num_cols + 1
    col = i % num_cols + 1
    
    fig.add_trace(go.Histogram(x=num_attributes[column], name = column), row= row, col=col)

# Atualiza o layout do dashboard
fig.update_layout(height=400*num_rows, width=900, title_text="Distribuição das Variáveis Numéricas", bargap=0.4, title = dict(x=0.5))


# Exibe o dashboard
fig.show()

### Variáveis Categóricas

In [None]:
plt.figure(figsize=(20,12), )

#sex
plt.subplot(3,2,1)
sns.countplot(data= df2, x = 'sex', palette='rocket').set(title='Distribuição das Variáveis Categóricas')

plt.subplot(3,2,2)
sns.kdeplot(data=df2[df2['sex'] == 'male']['charges'], 
            fill=True,
            label='male')

sns.kdeplot(data=df2[df2['sex'] == 'female']['charges'], 
            fill=True,
            label='female').set(title='Distribuição das Variáveis Categóricas Em Relação ao Valor Pago Anualmente')

plt.legend()

#smoker
plt.subplot(3,2,3)
sns.countplot(data= df2, x = 'smoker', palette='rocket')

plt.subplot(3,2,4)
sns.kdeplot(data=df2[df2['smoker'] == 'yes']['charges'], 
            fill=True,
            label='yes')

sns.kdeplot(data=df2[df2['smoker'] == 'no']['charges'], 
            fill=True,
            label='no')

plt.legend()

#region
plt.subplot(3,2,5)
sns.countplot(data= df2, x = 'region', palette='rocket')

plt.subplot(3,2,6)
sns.kdeplot(data=df2[df2['region'] == 'southwest']['charges'], 
            fill=True,
            label='southwest')

sns.kdeplot(data=df2[df2['region'] == 'southeast']['charges'], 
            fill=True,
            label='southeast')

sns.kdeplot(data=df2[df2['region'] == 'northwest']['charges'], 
            fill=True,
            label='northwest')

sns.kdeplot(data=df2[df2['region'] == 'northeast']['charges'], 
            fill=True,
            label='northeast')

plt.legend();

## 2.2. Análise Bivariada

### H1. Pessoas com 50 anos ou mais pagam, em média, mais que pessoas de idade inferior.


Verdade! Pessoas com 50 anos ou mais tendem a pagar 57% a mais, em média.

In [None]:
#cria dataset auxiliar
df_temp = df2.copy()
df_temp['>=50'] = 0
df_temp.loc[df_temp['age'] >= 50, '>=50'] = 1
aux = df_temp.groupby('>=50').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['>=50'], y=aux['charges']))

fig.update_layout(xaxis_title = 'Possui idade igual ou superior a 50 anos?',
                  yaxis_title = 'Valor Anual Pago',
                  xaxis = (dict(ticktext = ['Não', 'Sim'],
                                tickvals = [0, 1])))

fig.show()

In [None]:
#calculo

round((aux[aux['>=50'] == 1]['charges'].item() / aux[aux['>=50'] == 0]['charges'].item() - 1)*100, 2)

### H2. Pessoas do sexo masculino pagam, em média, 10% a mais que pessoas do sexo feminino.

Verdade! Homens tendem a pagar 11% a mais que mulheres, em média.

In [None]:
#cria dataset auxiliar
aux = df_temp.groupby('sex').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['sex'], y=aux['charges']))

fig.update_layout(title_text = 'Sexo x Valor Anual Pago',
                  title = dict(x = 0.5))

fig.show()

In [None]:
# calculo

((aux.loc[aux['sex'] == 'male', 'charges'].item() / aux.loc[aux['sex'] == 'female', 'charges'].item()) - 1) * 100

### H3. Pessoas com IMC igual ou maior a 30 pagam, em média, 50% a mais que pessoas com imc abaixo de 30.


Parcialmente verdade! Pessoas com IMC igual ou superior a 30 tendem a pagar, em média, 45% a mais.

In [None]:
#cria dataset auxiliar
df_temp = df2.copy()
df_temp['>=30'] = 0
df_temp.loc[df_temp['bmi'] >= 30, '>=30'] = 1
aux = df_temp.groupby('>=30').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['>=30'], y=aux['charges']))

fig.update_layout(xaxis_title = 'Possui IMC igual ou superior a 30?',
                  title_text  = 'IMC x Valor Anual Pago',
                  title = dict(x=0.5),
                  yaxis_title = 'Valor Anual Pago',
                  xaxis = (dict(ticktext = ['Não', 'Sim'],
                                tickvals = [0, 1])))

fig.show()

In [None]:
# calculo

round(((aux.loc[aux['>=30'] == 1, 'charges'].item() / aux.loc[aux['>=30'] == 0, 'charges'].item()) - 1) * 100, 2)

### H4. Indivíduos com idade abaixo de 25 anos pagam menos que aqueles que tem idade igual ou acima de 25.


Verdade! Pessoas com menos de 25 anos tendem a pagar menos, em média.

In [None]:
#cria dataset auxiliar
df_temp = df2.copy()
df_temp['<25'] = 1
df_temp.loc[df_temp['age'] >= 25, '<25'] = 0
aux = df_temp.groupby('<25').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['<25'], y=aux['charges']))

fig.update_layout(xaxis_title = 'Possui idade inferior a 25 anos?',
                  title_text  = 'Idade x Valor Anual Pago',
                  title = dict(x=0.5),
                  yaxis_title = 'Valor Anual Pago',
                  xaxis = (dict(ticktext = ['Não', 'Sim'],
                  tickvals = [0, 1])))

fig.show()

### H5. Fumantes pagam, em média, 40% a mais que pessoas não fumantes


Incorreto! Fumantes pagam muito mais que não fumantes. 280% a mais em média.

In [None]:
#cria dataset auxiliar
aux = df_temp.groupby('smoker').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['smoker'], y=aux['charges']))

fig.update_layout(title_text = 'Fumante x Não Fumante',
                  yaxis_title = 'Valor Anual Pago',
                  xaxis_title = 'É Fumante?',
                  title = dict(x = 0.5))

fig.show()

In [None]:
# calculo

round(((aux.loc[aux['smoker'] == 'yes', 'charges'].item() / aux.loc[aux['smoker'] == 'no', 'charges'].item()) - 1) * 100, 2)

In [None]:
#cria dataset auxiliar
aux = df_temp.groupby(['sex', 'smoker']).agg({'charges' : 'mean'}).reset_index()

# Cria o gráfico usando o Plotly

fig = px.bar(aux, x = 'sex', y = 'charges', color = 'smoker', barmode='group')
fig.update_layout(title_text = 'Comparação entre genêro, condição de fumante e valores pagos',
                  title = dict(x=0.5),
                  yaxis_title = 'Valor Anual Pago',
                  xaxis_title = 'Sexo')

fig.show()

### H6. Indivíduos que moram na região 'southwest' gastam mais com seguro de saúde, em média.

Falso. Os números são equilibrado, porém na região "southeast" há a tendência de se gastar mais com plano de saúde.

In [None]:
#cria dataset auxiliar
aux = df_temp.groupby('region').agg({'charges' : 'mean'}).reset_index()

#cria grafico
fig = go.Figure()

fig.add_trace(go.Bar(x = aux['region'], y=aux['charges']))

fig.update_layout(title_text = 'Regiões x Valor Pago Anualmente',
                  yaxis_title = 'Valor Anual Pago',
                  xaxis_title = 'Região',
                  title = dict(x = 0.5))

fig.show()

### H7. Quanto maior o número de dependentes, maior o valor pago.

Falso. O número de dependentes não parece afetar tanto o valor pago pelo cliente.

In [None]:
aux = df_temp.groupby('children').agg({'charges' : 'mean'}).reset_index()

fig = px.bar(aux, x='children', y = 'charges')

fig.update_layout(title_text = 'Nº de Dependentes x Valor Anual Pago',
                  title = dict(x = 0.5),
                  xaxis_title = 'Nº de Dependentes',
                  yaxis_title = 'Valor Anual Pago')

fig.show()

## 2.3. Análise Multivariada

In [None]:
corr = num_attributes.corr(method='pearson')
matrix = np.triu(corr)
sns.heatmap(corr, annot=True, mask = matrix, center=1)

# 3.0. Preparação dos Dados

In [None]:
df3 = df2.copy()

#split

X = df3.drop(columns=['charges'])
y = df3.charges

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## 3.1. Transformação

### 3.1.1 Enconding

In [None]:
#target encoder para as colunas sex, smoker e region
cols = X_test.select_dtypes(exclude=['int', 'float']).columns
encoder = TargetEncoder()

X_train[cols] = encoder.fit_transform(X_train[cols], y_train)
X_test[cols] = encoder.transform(X_test[cols])

## 3.2. Scaling

In [None]:
scaler = MinMaxScaler()
X_train_scale = scaler.fit_transform(X_train)
X_test_scale = scaler.transform(X_test)

In [None]:
#adiciona nome das colunas

X_train_scale = pd.DataFrame(X_train_scale, columns=X_train.columns)
X_test_scale = pd.DataFrame(X_test_scale, columns=X_train.columns)

# 4.0. Modelagem

## 4.1. Regressão Linear 

In [None]:
#cria modelo
lr = LinearRegression()
lr.fit(X_train_scale, y_train)

#predict
yhat_lr = lr.predict(X_train_scale)

#performance sem cross-validation
rs_lr = ml_error('Regressão Linear', y_train, yhat_lr)
rs_lr

### 4.1.1 Regressao Linear com Cross-Validation

In [None]:
rs_cv = cross_validation('Regressão Linear', lr, X_train_scale, y_train, 10)
rs_cv

## 4.2. LASSO

In [None]:
#cria modelo
lasso = Lasso(alpha=0.1)
lasso.fit(X_train_scale, y_train)

#predict
yhat_lasso = lasso.predict(X_train_scale)

#performance sem cross-validation
rs_lasso = ml_error('LASSO', y_train, yhat_lasso)
rs_lasso

### 4.2.1 LASSO com Cross-Validation

In [None]:
lasso_cv = cross_validation('LASSO', lasso, X_train_scale, y_train, 10)
lasso_cv

## 4.3. Random Forest

In [None]:
#cria modelo
rf = RandomForestRegressor(n_estimators=200, n_jobs=-1, random_state=42)
rf.fit(X_train_scale, y_train)

#predict
yhat_rf = rf.predict(X_train_scale)

#performance sem cross-validation
rs_rf = ml_error('Random Forest', y_train, yhat_rf)
rs_rf

### 4.3.1 Random Forest com Cross-Validation

In [None]:
rf_cv = cross_validation('Random Forest', rf, X_train_scale, y_train, 10)
rf_cv

## 4.4. XGBoost Regressor

In [None]:
#cria modelo
xgb = XGBRegressor(n_estimators=450,
                   eta = 0.01,
                   max_depth=10,
                   subsample = 0.7,
                   colsample_bytree = 0.9,
                   random_state = 42)

xgb.fit(X_train_scale, y_train)

#predict
yhat_xgb = xgb.predict(X_train_scale)

#performance sem cross-validation
rs_xgb = ml_error('XGBoost', y_train, yhat_xgb)
rs_xgb

### 4.4.1 XGBoost com Cross-Validation

In [None]:
xgb_cv = cross_validation('XGBoost', xgb, X_train_scale, y_train, 10)
xgb_cv

## 4.5. Comparação entre os modelos

### 4.5.1. Sem cross validation

In [None]:
models_results = pd.concat([rs_lr, rs_lasso, rs_rf, rs_xgb]).sort_values('RMSE')
models_results

### 4.5.2. Com cross validation

In [None]:
models_results_cv = pd.concat([rs_cv, lasso_cv, rf_cv, xgb_cv]).sort_values('RMSE')
models_results_cv

## 4.6 Final Model - Evaluation on test set

In [None]:
predicoes = rf.predict(X_test_scale)

rs = ml_error('Random Forest', y_test, predicoes)
rs

# Valores reais X Predições

In [None]:
plt.figure(figsize=(5,5))
plt.scatter(y_test, predicoes, c='crimson')

p1 = max(max(predicoes), max(y_test))
p2 = min(min(predicoes), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Valores Reais', fontsize=15)
plt.ylabel('Predições', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
plt.figure(figsize=(20,6))
values = y_test.reset_index(drop=True).index.values

ax = sns.lineplot(x = values, y = y_test, color = 'r', label = 'Valores Reais')
sns.lineplot(x = values, y = predicoes, ax=ax, label = 'Predições')
plt.show()

In [None]:
#final model
#Random Forest	 MAE 2625.4922	 MAPE 0.2934	 RMSE 4784.5324