In [1]:
!pip install pandas scikit-learn optuna seaborn



In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import optuna
import os
from include.utils import incrementar_dados_aleatorios_csv, categorizar_imc
from include.utils import prever_encargos_futuros, segmentacao_de_risco, analise_de_sensibilidade, otimizacao_de_recursos, planejamento_estrategico

In [3]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor
import joblib

**1. Engenharia de Recursos**

Novos recursos derivados dos dados existentes

In [4]:
# Obtém a largura do terminal - uso mais embaixo nos prints
terminal_width = os.get_terminal_size().columns

dados = pd.read_csv('../planilhas/2_dados_aleatorios_sobre_original.csv', encoding='latin-1')

# Aplicar a função para categorizar IMC e criar uma nova coluna 'Categoria IMC'
dados['Categoria IMC'] = dados['IMC'].apply(categorizar_imc)

**2. Limpeza de Dados**

In [5]:
# Remover linhas com valores NaN
dados = dados.dropna()

# Substituir valores nulos por zero
dados['Filhos'] = dados['Filhos'].fillna(0)
dados['Filhos'] = dados['Filhos'].astype(int)
dados['Idade'] = dados['Idade'].fillna(0)
dados['Idade'] = dados['Idade'].astype(int)
dados['Encargos'] = dados['Encargos'].fillna(0)

dados['Gênero'] = dados['Gênero'].str.replace('nan', 'Não informado')

**3. Pré-processamento**

In [6]:
# Mapeamento para inverter a codificação
generos_map = {'masculino': 1, 'feminino': 2}
regioes_map = {'sudoeste': 0, 'sudeste': 1, 'nordeste': 2, 'noroeste': 3}
fumante_map = {'sim': 1, 'não': 0}

le_generos = LabelEncoder()
dados['Gênero'] = le_generos.fit_transform(dados['Gênero'])

#dados['Gênero'] = dados['Gênero'].map(generos_map)
dados['Fumante'] = dados['Fumante'].map(fumante_map)
dados = pd.get_dummies(dados, columns=['Região'])

# Convertendo 'Categoria IMC' em variáveis dummy
dados = pd.get_dummies(dados, columns=['Categoria IMC'])

**4. Treinamento do Modelo**

In [7]:
# Dividir em features e target
X = dados.drop('Encargos', axis=1)
y = dados['Encargos']

# Dividir em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

correlation_matrix = X_train.corr()
print('Visualizar a matriz de correlação:')
print(correlation_matrix)

Visualizar a matriz de correlação:
                                 Idade    Gênero       IMC    Filhos  \
Idade                         1.000000 -0.053026 -0.099834  0.229782   
Gênero                       -0.053026  1.000000 -0.126845  0.119064   
IMC                          -0.099834 -0.126845  1.000000 -0.030344   
Filhos                        0.229782  0.119064 -0.030344  1.000000   
Fumante                       0.000349  0.081571 -0.021367  0.042370   
Região_nordeste              -0.136529  0.114045  0.012720 -0.015916   
Região_noroeste               0.163860  0.041471  0.002141  0.126330   
Região_sudeste               -0.027946 -0.057278 -0.006381 -0.183852   
Região_sudoeste               0.021213 -0.098136 -0.008776  0.078385   
Categoria IMC_Abaixo do peso  0.105035  0.002299 -0.308651  0.026774   
Categoria IMC_Obeso          -0.030928 -0.120820  0.806728 -0.001481   
Categoria IMC_Peso normal     0.010612  0.053256 -0.736960 -0.069046   
Categoria IMC_Sobrepeso      

In [9]:
# Adicionando mais modelos ao dicionário de modelos
models = {
    'Random Forest Regressor': RandomForestRegressor(),
    'Linear Regression': LinearRegression(),
    'Support Vector Regression': SVR(),
    'Decision Tree Regressor': DecisionTreeRegressor(),
    'K-Nearest Neighbors Regressor': KNeighborsRegressor(),
    'Gradient Boosting Regressor': GradientBoostingRegressor()
}

# Treinamento e avaliação dos modelos
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)

    # Imprime uma linha separadora com base na largura do terminal
    print('-' * terminal_width)
    print(f'{name} MSE: {round(mse,2)}')
    # Calcular acurácia média usando validação cruzada
    scores = cross_val_score(model, X_train, y_train, cv=5)
    print(f'Acurácia média com validação cruzada para {name}: {round(scores.mean(),2)}')
    
    # Calcula e exibe a importância das características para o modelo atual
    if hasattr(model, 'feature_importances_'):
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': model.feature_importances_})
        importance_df = importance_df.sort_values(by='Importância', ascending=False)
        print(f"Importância das características para {name}:")
        print(round(importance_df,2))
    elif isinstance(model, LinearRegression):
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Coeficiente': model.coef_})
        importance_df = importance_df.sort_values(by='Coeficiente', ascending=False)
        print(f"Coeficientes das características para {name}:")
        print(round(importance_df,2))
    elif isinstance(model, SVR):
        support_indices = model.support_
        support_features = X_train.iloc[support_indices]
        feature_importance_svr = support_features.mean(axis=0)
        importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': feature_importance_svr})
        importance_df = importance_df.sort_values(by='Importância', ascending=False)
        print(f"Importância das características para {name}:")
        print(round(importance_df,2))
    else:
        print(f"Não é possível calcular a importância das características para o modelo {name}")

--------------------------------------------------------------------------------------------------------------------------------------------------------------
Random Forest Regressor MSE: 114327185.1
Acurácia média com validação cruzada para Random Forest Regressor: -0.29
Importância das características para Random Forest Regressor:
                         Colunas  Importância
0                          Idade         0.37
2                            IMC         0.28
3                         Filhos         0.09
4                        Fumante         0.05
1                         Gênero         0.04
7                 Região_sudeste         0.04
5                Região_nordeste         0.04
8                Região_sudoeste         0.03
12       Categoria IMC_Sobrepeso         0.02
6                Região_noroeste         0.02
10           Categoria IMC_Obeso         0.01
11     Categoria IMC_Peso normal         0.01
9   Categoria IMC_Abaixo do peso         0.00
---------------------

**5. Comparação de Modelos**

In [10]:
# Seleção de modelo com base na menor pontuação de validação cruzada
best_model_name = min(models, key=lambda model: cross_val_score(models[model], X_train, y_train, cv=5).mean())

**6. Seleção de Modelo**

In [11]:
best_model = models[best_model_name]
print(f'Best Model: {best_model_name}')

Best Model: Decision Tree Regressor


**7. Otimização de Modelo**

In [12]:
# Otimização de hiperparâmetros com Optuna (exemplo com RandomForestRegressor)
def objective(trial):
    if best_model_name == 'Random Forest Regressor':
        n_estimators = trial.suggest_int('n_estimators', 10, 100)
        max_depth = trial.suggest_int('max_depth', 2, 32)
        model = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth)
    elif best_model_name == 'Decision Tree Regressor':
        max_depth = trial.suggest_int('max_depth', 2, 32)
        model = DecisionTreeRegressor(max_depth=max_depth)
    else:
        model = models[best_model_name]  # Use the default hyperparameters for other models
    score = cross_val_score(model, X_train, y_train, n_jobs=-1, cv=3, scoring='neg_mean_squared_error').mean()
    return score

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)

[I 2024-04-09 17:38:00,462] A new study created in memory with name: no-name-b5d8efdb-b1b3-4f9f-abe0-7c9370f42b3f
[I 2024-04-09 17:38:02,559] Trial 0 finished with value: -312102829.9149695 and parameters: {'max_depth': 23}. Best is trial 0 with value: -312102829.9149695.
[I 2024-04-09 17:38:04,166] Trial 1 finished with value: -291718089.8951733 and parameters: {'max_depth': 16}. Best is trial 0 with value: -312102829.9149695.
[I 2024-04-09 17:38:05,771] Trial 2 finished with value: -307766785.2753647 and parameters: {'max_depth': 20}. Best is trial 0 with value: -312102829.9149695.
[I 2024-04-09 17:38:05,801] Trial 3 finished with value: -306582729.0721472 and parameters: {'max_depth': 32}. Best is trial 0 with value: -312102829.9149695.
[I 2024-04-09 17:38:05,817] Trial 4 finished with value: -305126211.07976395 and parameters: {'max_depth': 22}. Best is trial 0 with value: -312102829.9149695.
[I 2024-04-09 17:38:05,843] Trial 5 finished with value: -300520063.69297075 and parameter

In [13]:
# Obtenha os melhores parâmetros do estudo Optuna
best_params = study.best_params

# Configure o modelo com os melhores parâmetros
best_model.set_params(**best_params)

# Ajuste o modelo aos dados de treinamento
best_model.fit(X_train, y_train)

# Salvando o modelo ajustado
joblib.dump(best_model, 'modelo_otimizado.pkl')

y_pred = best_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Optimized {best_model_name} MSE: {round(mse,2)}')

Optimized Decision Tree Regressor MSE: 212248687.19
[35457.08 47425.3  28516.16 50939.61 26871.28 24836.5  18744.82 33451.53
 40849.32 22537.66 23030.7  28391.68 22745.28 30278.1  36520.52 49777.77
 15321.7  20567.06 51221.55 35457.08 55061.08 15416.19 30659.36 46576.04
 52628.28 15987.36 49738.86 33689.87 34137.19 47425.3  15321.7  40849.32
 45883.47 31993.29 26763.01 25743.33 34137.19]


ValueError: Shape of passed values is (100, 14), indices imply (100, 13)

In [None]:
# Obter a importância das características apenas para modelos que suportam esse atributo
if hasattr(best_model, 'feature_importances_'):
    # Obter a importância das características do modelo
    feature_importances = best_model.feature_importances_
    
    # Criar um DataFrame para visualizar a importância das características
    importance_df = pd.DataFrame({'Colunas': X_train.columns, 'Importância': feature_importances})

    # Ordenar as características por importância
    importance_df = importance_df.sort_values(by='Importância', ascending=False)
    
    print("\nQuais características individuais têm maior impacto nos custos médicos cobrados pelo seguro de saúde?")
    print(round(importance_df,2))

    # Selecionar as características mais importantes (por exemplo, as 10 mais importantes)
    top_features = importance_df.head(10)['Colunas'].tolist()  # Ajuste o número conforme necessário
    
    # Calcular a matriz de correlação apenas para as características mais importantes
    correlation_matrix = X_train[top_features].corr()
    
    # Visualizar a matriz de correlação
    print("\nExiste alguma correlação entre certas características (por exemplo, idade, IMC) e os custos médicos?")
    print(correlation_matrix)
else:
    print("O modelo selecionado não suporta o cálculo de importância das características.")

In [None]:
# Removendo a coluna 'Encargos'
dados = dados.drop(columns=['Encargos'])

# Carregando o modelo ajustado
best_model = joblib.load('modelo_otimizado.pkl')

# Definição de dados futuros - 100 linhas
dados_futuros = pd.DataFrame(np.random.rand(100, len(dados.columns)), columns=X.columns)
print(dados_futuros.head())

encargos_futuros = prever_encargos_futuros(best_model, dados_futuros)
print("\nModelo treinado para fazer previsões dos encargos futuros:")
print(encargos_futuros)

grupos_risco = segmentacao_de_risco(best_model, dados_futuros)
print("\nGrupos de indivíduos com diferentes níveis de risco:")
print(grupos_risco)

custos_previstos_alterados = analise_de_sensibilidade(best_model, dados_futuros, 'Idade', novo_valor=40)
print("\nAnálises de sensibilidade para entender o impacto das mudanças nas características dos segurados nos encargos previstos:")
print(custos_previstos_alterados)

recursos_otimizados = otimizacao_de_recursos(encargos_futuros)
print("\nUtilizando as previsões dos encargos para otimizar a alocação de recursos:")
print(recursos_otimizados)

planos_estrategicos = planejamento_estrategico(best_model, dados_futuros)
print("\nUtilizando as informações obtidas com o modelo para desenvolver planos estratégicos:")
print(planos_estrategicos)

# Adicionando as previsões de Encargo Futuro
dados_futuros['Encargo Futuro'] = encargos_futuros

# Salvar os dados randômicos futuros
dados_futuros.to_csv("../planilhas/4_dados_futuros.csv", index=False, encoding='latin1')