In [1]:
!pip install pandas scikit-learn optuna seaborn



In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import optuna
import os
from include.utils import incrementar_dados_aleatorios_csv, categorizar_imc
from include.utils import prever_encargos_futuros, segmentacao_de_risco, analise_de_sensibilidade, otimizacao_de_recursos, planejamento_estrategico

In [3]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor

**1. Engenharia de Recursos**

Novos recursos derivados dos dados existentes

In [4]:
# Obtém a largura do terminal - uso mais embaixo nos prints
terminal_width = os.get_terminal_size().columns

# leia os dados CSV indicados no site da FIAP
dados = pd.read_csv('../base_dados.csv', encoding='latin-1')

# aqui chamo a função incrementar_dados_aleatorios, para aumentar o volume da variável dados
dados = incrementar_dados_aleatorios_csv(dados)

# Aplicar a função para categorizar IMC e criar uma nova coluna 'Categoria IMC'
dados['Categoria IMC'] = dados['IMC'].apply(categorizar_imc)

# Mapeamento das regiões para valores numéricos
regiao_numerica = {'sudoeste': 1, 'sudeste': 2, 'nordeste': 3, 'noroeste': 4}

# Convertendo os valores da coluna 'Região' para valores numéricos usando o mapeamento
dados['Região_numerica'] = dados['Região'].map(regiao_numerica)

**2. Limpeza de Dados**

In [5]:
# Remover linhas com valores NaN
dados = dados.dropna()

# Substituir valores nulos por zero
dados['Filhos'] = dados['Filhos'].fillna(0)
dados['Filhos'] = dados['Filhos'].astype(int)
dados['Idade'] = dados['Idade'].fillna(0)
dados['Idade'] = dados['Idade'].astype(int)
dados['Encargos'] = dados['Encargos'].fillna(0)

dados['Gênero'] = dados['Gênero'].str.replace('nan', 'Não informado')

**3. Pré-processamento**

In [6]:
# Dividir os dados em features (X) e target (y)
X = dados.drop('Encargos', axis=1)  # Coluna alvo
y = dados['Encargos']

# Codificar variáveis categóricas usando one-hot encoding
encoder = OneHotEncoder(drop='first')
X_encoded = encoder.fit_transform(X[['Gênero', 'Região']])

# Concatenar features codificadas com as restantes
X_encoded = pd.DataFrame(X_encoded.toarray(), columns=encoder.get_feature_names_out(['Gênero', 'Região']), index=X.index)
X = pd.concat([X.drop(['Gênero', 'Região'], axis=1), X_encoded], axis=1)

# Codificar variável categórica 'IMC' com LabelEncoder
label_encoder = LabelEncoder()
X['Categoria IMC'] = label_encoder.fit_transform(X['Categoria IMC'])

# Substituir valores 'sim' e 'não' por 1 e 0
X['Fumante'] = X['Fumante'].map({'sim': 1, 'não': 0})

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

correlation_matrix = X_train.corr()
print('Visualizar a matriz de correlação:')
print(correlation_matrix)

Visualizar a matriz de correlação:
                     Idade       IMC    Filhos   Fumante  Categoria IMC  \
Idade             1.000000  0.120343  0.034350 -0.133275      -0.127984   
IMC               0.120343  1.000000 -0.047599  0.074933      -0.245802   
Filhos            0.034350 -0.047599  1.000000 -0.039307      -0.026618   
Fumante          -0.133275  0.074933 -0.039307  1.000000      -0.035966   
Categoria IMC    -0.127984 -0.245802 -0.026618 -0.035966       1.000000   
Região_numerica  -0.009320 -0.142356  0.062763 -0.114499       0.115917   
Gênero_masculino -0.005962 -0.143781 -0.009153  0.025900       0.111649   
Região_noroeste   0.033083 -0.090825  0.210306 -0.112270       0.115007   
Região_sudeste    0.038567  0.204308 -0.102287  0.060999      -0.180079   
Região_sudoeste   0.009919  0.036730  0.077640  0.060999      -0.001898   

                  Região_numerica  Gênero_masculino  Região_noroeste  \
Idade                   -0.009320         -0.005962         0.03308

**4. Treinamento do Modelo**

In [8]:
# Adicionando mais modelos ao dicionário de modelos
models = {
    'Random Forest Regressor': RandomForestRegressor(),
    'Linear Regression': LinearRegression(),
    'Support Vector Regression': SVR(),
    'Decision Tree Regressor': DecisionTreeRegressor(),
    'K-Nearest Neighbors Regressor': KNeighborsRegressor(),
    'Gradient Boosting Regressor': GradientBoostingRegressor()
}

# Treinamento e avaliação dos modelos
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)

    # Imprime uma linha separadora com base na largura do terminal
    print('-' * terminal_width)
    print(f'{name} MSE: {round(mse,2)}')
    # Calcular acurácia média usando validação cruzada
    scores = cross_val_score(model, X_train, y_train, cv=5)
    print(f'Acurácia média com validação cruzada para {name}: {round(scores.mean(),2)}')
    
    # Calcula e exibe a importância das características para o modelo atual
    if hasattr(model, 'feature_importances_'):
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': model.feature_importances_})
        importance_df = importance_df.sort_values(by='Importância', ascending=False)
        print(f"Importância das características para {name}:")
        print(round(importance_df,2))
    elif isinstance(model, LinearRegression):
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Coeficiente': model.coef_})
        importance_df = importance_df.sort_values(by='Coeficiente', ascending=False)
        print(f"Coeficientes das características para {name}:")
        print(round(importance_df,2))
    elif isinstance(model, SVR):
        support_indices = model.support_
        support_features = X_train.iloc[support_indices]
        feature_importance_svr = support_features.mean(axis=0)
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': feature_importance_svr})
        importance_df = importance_df.sort_values(by='Importância', ascending=False)
        print(f"Importância das características para {name}:")
        print(round(importance_df,2))
    else:
        print(f"Não é possível calcular a importância das características para o modelo {name}")

--------------------------------------------------------------------------------------------------------------------------------------------------------------
Random Forest Regressor MSE: 230373106.43
Acurácia média com validação cruzada para Random Forest Regressor: 0.43
Importância das características para Random Forest Regressor:
            Colunas  Importância
0             Idade         0.56
1               IMC         0.32
2            Filhos         0.04
5   Região_numerica         0.02
9   Região_sudoeste         0.02
4     Categoria IMC         0.01
3           Fumante         0.01
6  Gênero_masculino         0.01
8    Região_sudeste         0.01
7   Região_noroeste         0.00
--------------------------------------------------------------------------------------------------------------------------------------------------------------
Linear Regression MSE: 211472728.06
Acurácia média com validação cruzada para Linear Regression: 0.49
Coeficientes das características para Lin

**5. Comparação de Modelos**

In [9]:
# Seleção de modelo com base na menor pontuação de validação cruzada
best_model_name = min(models, key=lambda model: cross_val_score(models[model], X_train, y_train, cv=5).mean())

**6. Seleção de Modelo**

In [10]:
best_model = models[best_model_name]
print(f'Best Model: {best_model_name}')

Best Model: Decision Tree Regressor


**7. Otimização de Modelo**

In [11]:
# Otimização de hiperparâmetros com Optuna (exemplo com RandomForestRegressor)
def objective(trial):
    if best_model_name == 'Random Forest Regressor':
        n_estimators = trial.suggest_int('n_estimators', 10, 100)
        max_depth = trial.suggest_int('max_depth', 2, 32)
        model = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth)
    elif best_model_name == 'Decision Tree Regressor':
        max_depth = trial.suggest_int('max_depth', 2, 32)
        model = DecisionTreeRegressor(max_depth=max_depth)
    else:
        model = models[best_model_name]  # Use the default hyperparameters for other models
    score = cross_val_score(model, X_train, y_train, n_jobs=-1, cv=3, scoring='neg_mean_squared_error').mean()
    return score

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)

[I 2024-04-08 18:10:17,774] A new study created in memory with name: no-name-78d5001a-926c-44a6-9c59-78cd34dcdf59
[I 2024-04-08 18:10:19,906] Trial 0 finished with value: -993768118.689311 and parameters: {'max_depth': 25}. Best is trial 0 with value: -993768118.689311.
[I 2024-04-08 18:10:21,337] Trial 1 finished with value: -1002088567.2005063 and parameters: {'max_depth': 24}. Best is trial 1 with value: -1002088567.2005063.
[I 2024-04-08 18:10:22,636] Trial 2 finished with value: -996146639.7963902 and parameters: {'max_depth': 20}. Best is trial 1 with value: -1002088567.2005063.
[I 2024-04-08 18:10:22,668] Trial 3 finished with value: -1025621883.5759368 and parameters: {'max_depth': 21}. Best is trial 3 with value: -1025621883.5759368.
[I 2024-04-08 18:10:22,696] Trial 4 finished with value: -884974200.7091416 and parameters: {'max_depth': 21}. Best is trial 3 with value: -1025621883.5759368.
[I 2024-04-08 18:10:22,711] Trial 5 finished with value: -999606106.1298367 and paramet

In [12]:
best_params = study.best_params
best_model.set_params(**best_params)
best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Optimized {best_model_name} MSE: {round(mse,2)}')

Optimized Decision Tree Regressor MSE: 418536813.27


In [13]:
# Obter a importância das características apenas para modelos que suportam esse atributo
if hasattr(best_model, 'feature_importances_'):
    # Obter a importância das características do modelo
    feature_importances = best_model.feature_importances_
    
    # Criar um DataFrame para visualizar a importância das características
    importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': feature_importances})

    # Ordenar as características por importância
    importance_df = importance_df.sort_values(by='Importância', ascending=False)
    
    print("\nQuais características individuais têm maior impacto nos custos médicos cobrados pelo seguro de saúde?")
    print(round(importance_df,2))

    # Selecionar as características mais importantes (por exemplo, as 10 mais importantes)
    top_features = importance_df.head(10)['Colunas'].tolist()  # Ajuste o número conforme necessário
    
    # Calcular a matriz de correlação apenas para as características mais importantes
    correlation_matrix = X_train[top_features].corr()
    
    # Visualizar a matriz de correlação
    print("\nExiste alguma correlação entre certas características (por exemplo, idade, IMC) e os custos médicos?")
    print(correlation_matrix)
else:
    print("O modelo selecionado não suporta o cálculo de importância das características.")


Quais características individuais têm maior impacto nos custos médicos cobrados pelo seguro de saúde?
            Colunas  Importância
0             Idade         0.54
1               IMC         0.20
2            Filhos         0.14
6  Gênero_masculino         0.05
4     Categoria IMC         0.03
5   Região_numerica         0.01
9   Região_sudoeste         0.01
3           Fumante         0.00
8    Região_sudeste         0.00
7   Região_noroeste         0.00

Existe alguma correlação entre certas características (por exemplo, idade, IMC) e os custos médicos?
                     Idade       IMC    Filhos  Gênero_masculino  \
Idade             1.000000  0.120343  0.034350         -0.005962   
IMC               0.120343  1.000000 -0.047599         -0.143781   
Filhos            0.034350 -0.047599  1.000000         -0.009153   
Gênero_masculino -0.005962 -0.143781 -0.009153          1.000000   
Categoria IMC    -0.127984 -0.245802 -0.026618          0.111649   
Região_numerica  -0.0093

In [14]:
# Definição de dados futuros - 50 linhas
dados_futuros = pd.DataFrame(np.random.rand(50, len(X_train.columns)), columns=X_train.columns)
print(dados_futuros.head())

encargos_futuros = prever_encargos_futuros(best_model, dados_futuros)
print("\nModelo treinado para fazer previsões dos encargos futuros:")
print(encargos_futuros)

grupos_risco = segmentacao_de_risco(best_model, dados_futuros)
print("\nGrupos de indivíduos com diferentes níveis de risco:")
print(grupos_risco)

custos_previstos_alterados = analise_de_sensibilidade(best_model, dados_futuros, 'Idade', novo_valor=40)
print("\nAnálises de sensibilidade para entender o impacto das mudanças nas características dos segurados nos encargos previstos:")
print(custos_previstos_alterados)

recursos_otimizados = otimizacao_de_recursos(encargos_futuros)
print("\nUtilizando as previsões dos encargos para otimizar a alocação de recursos:")
print(recursos_otimizados)

planos_estrategicos = planejamento_estrategico(best_model, dados_futuros)
print("\nUtilizando as informações obtidas com o modelo para desenvolver planos estratégicos:")
print(planos_estrategicos)

      Idade       IMC    Filhos   Fumante  Categoria IMC  Região_numerica  \
0  0.256058  0.373118  0.225137  0.395838       0.460590         0.759186   
1  0.429532  0.223062  0.924013  0.525479       0.571512         0.750747   
2  0.180303  0.675898  0.498445  0.203513       0.824149         0.189286   
3  0.033859  0.873268  0.085160  0.219794       0.802963         0.700452   
4  0.718759  0.733935  0.138661  0.296143       0.001341         0.143073   

   Gênero_masculino  Região_noroeste  Região_sudeste  Região_sudoeste  
0          0.486562         0.954798        0.599357         0.717431  
1          0.056802         0.328021        0.324610         0.208463  
2          0.531128         0.993211        0.403246         0.960606  
3          0.403784         0.863095        0.768393         0.038639  
4          0.016674         0.381949        0.885591         0.254416  

Modelo treinado para fazer previsões dos encargos futuros:
[103765.84, 103765.84, 21459.04, 103765.84, 1