## PROBLEMA DE NEGÓCIO: PREVER O CUSTO ANUAL COM CONVÊNIO MÉDICO ##

# INSTALAÇÃO E CARREGAMENTO DOS PACOTES

In [None]:
# Importando os pacotes 
import numpy as np
import pandas as pd
import matplotlib as mat
import matplotlib.pyplot as plt
import colorsys
import seaborn as sns
plt.style.use('seaborn-talk')
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

In [None]:
# Carregando os dados
df = pd.read_csv('Medicalpremium.csv', sep = ',', encoding = 'utf-8')

# ANÁLISE EXPLORATÓRIA, LIMPEZA E TRANFORMAÇÃO

In [None]:
# Visualizando os dados
df.head(10)

In [None]:
# Verificando o tipo dos dados
df.dtypes

In [None]:
# Visualizando as dimensões
df.shape

In [None]:
# Renomeando as colunas
colunas = ['Idade', 'Diabetes', 'Problema_Pressao', 'Transplantes', 'Doencas_Cronicas', 'Altura', 'Peso', 'Alergias', 'Historico_Cancer_Familia','Qtd_Cirurgias','Preco_Convenio']
df.columns = colunas
df.head()

In [None]:
# Resumo
print("Linhas: ", df.shape[0])
print("Colunas: ", df.shape[1])
print("\nVariáveis: \n", df.columns.tolist())
print("\nValores Ausentes: \n" , df.isnull().sum())
print("\nValores Únicos: \n", df.nunique())

In [None]:
# Colunas numéricas (quantitativas)
colunas_numericas = ['Idade', 'Altura', 'Peso', 'Preco_Convenio']

In [None]:
# Colunas categóricas
colunas_categoricas = ['Diabetes', 'Problema_Pressao', 'Transplantes', 'Doencas_Cronicas', 'Alergias', 'Historico_Cancer_Familia', 'Qtd_Cirurgias']

In [None]:
# Verifica se o total de variáveis está coberto nos objetos anteriores
len(colunas_numericas) + len(colunas_categoricas) == 11

In [None]:
# Dataframes com os tipos diferentes de variáveis
df_num = df[colunas_numericas]
df_cat = df[colunas_categoricas]

In [None]:
# Sumário estatístico das variáveis numéricas
sumario_num = pd.DataFrame(index = df_num.columns)
sumario_num['Tipo de Dado'] = df_num.dtypes.values
sumario_num['Registros Não Nulos'] = df_num.count().values
sumario_num['Registros Não Zero'] = df_num.astype(bool).sum(axis = 0)
sumario_num['% Populado'] = round(sumario_num['Registros Não Nulos'] / df_num.shape[0]*100,2)
sumario_num['Valores Únicos'] = df_num.nunique().values
sumario_num['Mean'] = round(df_num.mean(),2)
sumario_num['Std'] = round(df_num.std(),2)
sumario_num['Min'] = round(df_num.min(),2)
sumario_num['Max'] = round(df_num.max(),2)
sumario_num

In [None]:
# Transformando variáveis numéricas em categóricas
# df_cat = df_cat.astype('category')

# Sumário estatístico das variáveis categóricas
sumario_cat = pd.DataFrame(index = df_cat.columns)
sumario_cat['Tipo de Dado'] = df_cat.dtypes.values
sumario_cat['Registros Não Nulos'] = df_cat.count().values
sumario_cat['% Populado'] = round(sumario_cat['Registros Não Nulos'] / df_cat.shape[0]*100,2)
sumario_cat['# Valores Únicos'] = df_cat.nunique().values

In [None]:
# Adiciona mais uma coluna com valores mais comuns
temp = []
for coluna in colunas_categoricas:
    temp.append(df_cat[coluna].value_counts().idxmax())
sumario_cat['Valores Mais Comuns'] = temp
sumario_cat

# VISUALIZAÇÃO DAS VARIÁVEIS

In [None]:
# Variável 1 - Idade
df['Idade'].describe().round(2)

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (20, 10))
fig1 = sns.countplot(x = 'Idade', data = df, color='lightblue')
plt.title("Número de Individuos em Diferentes Idades")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig2 = sns.boxplot(x = 'Idade',  data = df, orient = 'v', color='lightblue')
plt.title("Boxplot Idade")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (20, 10))
fig3 = sns.histplot(df, x = 'Idade', color= 'blue', kde = True, bins = 20)
plt.title("Histograma Idade")

In [None]:
# Variável 2 - Diabetes
diabetes = df['Diabetes'].value_counts().rename_axis('Diabetes').reset_index(name = 'Total')
diabetes

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig4 = sns.countplot(x = 'Diabetes', data = df)
plt.title("Diabetes")

In [None]:
# Variável 3 - Pressão Alta
pressão_alta = df['Problema_Pressao'].value_counts().rename_axis('Pressão').reset_index(name = 'Total')
pressão_alta

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig5 = sns.countplot(x = 'Problema_Pressao', data = df)
plt.title("Problema de Pressão Alta")

In [None]:
# Variável 4 - Transplantes
transplantes = df['Transplantes'].value_counts().rename_axis('Transplantes').reset_index(name = 'Total')
transplantes

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig6 = sns.countplot(x = 'Transplantes', data = df)
plt.title("Transplantes")

In [None]:
# Variável 5 - Doenças Crônicas
doencas_cronicas= df['Doencas_Cronicas'].value_counts().rename_axis('Doencas_Cronicas').reset_index(name = 'Total')
doencas_cronicas

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig7 = sns.countplot(x = 'Doencas_Cronicas', data = df)
plt.title("Doenças Crônicas")

In [None]:
# Variável 6 - Estatura
df['Altura'].describe().round(2)

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (20, 10))
fig8 = sns.countplot(x = 'Altura', data = df, color='lightblue')
plt.title("Estatura")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig9 = sns.boxplot(x = 'Altura', data = df, color='lightblue', orient = 'v')
plt.title("Boxplot Estatura")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig10 = sns.histplot(df, x = 'Altura', color= 'blue', kde = True)
plt.title("Histograma Estatura")

In [None]:
# Variável 7 - Peso
df['Peso'].describe().round(2)

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (20, 10))
fig11 = sns.countplot(x = 'Peso', data = df, color='lightblue')
plt.title("Peso")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig12 = sns.boxplot(x = 'Peso', data = df, color='lightblue', orient = 'v')
plt.title("Boxplot Peso")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig13 = sns.histplot(df, x = 'Peso', color= 'blue', kde = True)
plt.title("Histograma Peso")

In [None]:
# Variável 8 - Alergias
alergias= df['Alergias'].value_counts().rename_axis('Alergias').reset_index(name = 'Total')
alergias

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig14 = sns.countplot(x = 'Alergias', data = df)
plt.title("Alergias")

In [None]:
# Variável 9 - Histórico de Cancer na Família
cancer= df['Historico_Cancer_Familia'].value_counts().rename_axis('Cancer_Familia').reset_index(name = 'Total')
cancer

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig15 = sns.countplot(x = 'Historico_Cancer_Familia', data = df)
plt.title("Histórico de Cancer na Família")

In [None]:
# Variável 10 - Quantidade de Cirurgias
cirurgias= df['Qtd_Cirurgias'].value_counts().rename_axis('Cirurgias').reset_index(name = 'Total')
cirurgias

In [None]:
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 6))
fig16 = sns.countplot(x = 'Qtd_Cirurgias', data = df)
plt.title("Quantidad de Cirurgias")

In [None]:
# Variável 11 (Target) - Preço do Convêvio
df['Preco_Convenio'].describe().round(2)

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (20, 10))
fig17 = sns.countplot(x = 'Preco_Convenio', data = df, color='lightblue')
plt.title("Preço do Convênio")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig18 = sns.boxplot(x = 'Preco_Convenio', data = df, color='lightblue', orient = "v")
plt.title("Boxplot Preço do Convênio")

In [None]:
sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (8, 8))
fig19 = sns.histplot(df, x = 'Preco_Convenio', color= 'blue', kde = True, bins = 10)
plt.title("Histograma Preço do Convênio")

In [None]:
# Matriz de Correlação 
corr = df.corr().stack().reset_index(name="correlation")

sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (10, 10))
fig20 = sns.relplot(data=corr, x="level_0", y="level_1", hue="correlation", size="correlation",
                    palette="vlag", hue_norm=(-1, 1), edgecolor=".8", height=10, sizes=(150, 300))
plt.title("Matriz de Correlação")


In [None]:
# Matriz de Correlação com as variáveis quantitativas
corr2 = df_num.corr()
corr2

# PREPARAÇÃO DOS DADOS (PRÉ-PROCESSAMENTO)

In [None]:
# NORMALIZAÇÃO - Transformando os dados para a mesma escala (entre 0 e 1)

from sklearn.preprocessing import MinMaxScaler

# Separando o array em componentes de input (X) e output (Y)
dados = df.values
x = dados[:,0:10]
y = dados[:,10]

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
dados_normalizados = scaler.fit_transform(x)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Normalizados: \n\n", dados_normalizados[0:5,:])

In [None]:
# PADRONIZAÇÃO - Padronizando os dados (0 para a média, 1 para o desvio padrão)

from sklearn.preprocessing import StandardScaler

# Separando o array em componentes de input (X) e output (Y)
x2 = dados[:,0:10]
y2 = dados[:,10]

# Gerando o novo padrão
scaler = StandardScaler().fit(x2)
dados_padronizados = scaler.transform(x2)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Padronizados: \n\n", dados_padronizados[0:5,:])

In [None]:
# NORMALIZAÇÃO E PADRONIZAÇÃO

# Gerando o novo padrão
scaler = StandardScaler().fit(dados_normalizados)
dados_norm_padr = scaler.transform(dados_normalizados)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Padronizados: \n\n", dados_norm_padr[0:5,:])

# MODELAGEM PREDITIVA

# REGRESSÃO LINEAR MULTIPLA

In [None]:
# Modelo de Regressão Linear 1
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.pipeline import make_pipeline

# Separando os dados em conjuntos de treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(dados_normalizados, y, test_size = 0.30)
print(x_treino.shape, y_treino.shape, x_teste.shape, y_teste.shape)

In [None]:
# Criando o objeto de REGRESSÃO LINEAR - Utilização dos dados Normalizados
modelo_v1 = linear_model.LinearRegression(normalize = True)

# Treinando o modelo com dados de treino e checando o score
modelo_v1.fit(x_treino, y_treino)
modelo_v1.score(x_treino, y_treino)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v1.coef_)
print('Intercept: \n', modelo_v1.intercept_)

# Previsões
valores_previstos_v1 = modelo_v1.predict(x_teste)

In [None]:
# Calcula a métrica R2 do nosso modelo_v1
r2_score(y_teste, modelo_v1.fit(x_treino, y_treino).predict(x_teste))

In [None]:
# Score do modelo_v1 nos dados de teste
v1_acuracia = modelo_v1.score(x_teste, y_teste)
print("Acurácia nos Dados de Teste: %.2f%%" % (v1_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Definindo os valores para os folds
num_folds = 30

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo = modelo_v1
resultado = cross_val_score(modelo, x, y, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Final: %.2f%%" % (resultado.mean() * 100.0))

In [None]:
# Modelo de Regressão Linear 2

# Separando os dados em conjuntos de treino e teste
x_treino2, x_teste2, y_treino2, y_teste2 = train_test_split(dados_padronizados, y, test_size = 0.30)
print(x_treino2.shape, y_treino2.shape, x_teste2.shape, y_teste2.shape)

In [None]:
# Criando o objeto de REGRESSÃO LINEAR - Utilização dos dados Padronizados
modelo_v2 = linear_model.LinearRegression(normalize = True)

# Treinando o modelo com dados de treino e checando o score
modelo_v2.fit(x_treino2, y_treino2)
modelo_v2.score(x_treino2, y_treino2)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v2.coef_)
print('Intercept: \n', modelo_v2.intercept_)

# Previsões
valores_previstos_v2 = modelo_v2.predict(x_teste2)

In [None]:
# Calcula a métrica R2 do nosso modelo
r2_score(y_teste2, modelo_v2.fit(x_treino2, y_treino2).predict(x_teste2))

In [None]:
# Score do modelo_v2 nos dados de teste
v2_acuracia = modelo_v2.score(x_teste2, y_teste2)
print("Acurácia nos Dados de Teste: %.2f%%" % (v2_acuracia * 100.0))

# REGRESSÃO DE RIDGE

In [None]:
# Criando o objeto de REGRESSÃO DE RIDGE - Utilização dos dados Normalizados
from sklearn.linear_model import Ridge

modelo_v3 = Ridge()

# Treinando o modelo com dados de treino e checando o score
modelo_v3.fit(x_treino, y_treino)
modelo_v3.score(x_treino, y_treino)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v3.coef_)
print('Intercept: \n', modelo_v3.intercept_)

# Previsões
valores_previstos_v3 = modelo_v3.predict(x_teste)

In [None]:
# Score do modelo_v3 nos dados de teste
v3_acuracia = modelo_v3.score(x_teste, y_teste)
print("Acurácia nos Dados de Teste: %.2f%%" % (v3_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION

# Definindo os valores para os folds
num_folds = 20

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo = modelo_v3
resultado = cross_val_score(modelo, x, y, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Final: %.2f%%" % (resultado.mean() * 100.0))

In [None]:
# Criando o objeto de REGRESSÃO DE RIDGE - Utilização dos dados Padronizados
modelo_v4 = Ridge()

# Treinando o modelo com dados de treino e checando o score
modelo_v4.fit(x_treino2, y_treino2)
modelo_v4.score(x_treino2, y_treino2)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v4.coef_)
print('Intercept: \n', modelo_v4.intercept_)

# Previsões
valores_previstos_v4 = modelo_v4.predict(x_teste2)

In [None]:
# Score do modelo_v4 nos dados de teste
v4_acuracia = modelo_v4.score(x_teste2, y_teste2)
print("Acurácia nos Dados de Teste: %.2f%%" % (v4_acuracia * 100.0))

# REGRESSÃO DE LASSO

In [None]:
# Criando o objeto de REGRESSÃO DE LASSO - Utilização dos dados Normalizados
from sklearn.linear_model import Lasso

modelo_v5 = Lasso()

# Treinando o modelo com dados de treino e checando o score
modelo_v5.fit(x_treino, y_treino)
modelo_v5.score(x_treino, y_treino)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v5.coef_)
print('Intercept: \n', modelo_v5.intercept_)

# Previsões
valores_previstos_v5 = modelo_v5.predict(x_teste)

In [None]:
# Score do modelo_v5 nos dados de teste
v5_acuracia = modelo_v5.score(x_teste, y_teste)
print("Acurácia nos Dados de Teste: %.2f%%" % (v5_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION

# Definindo os valores para os folds
num_folds = 10

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo = modelo_v5
resultado = cross_val_score(modelo, x, y, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Final: %.2f%%" % (resultado.mean() * 100.0))

In [None]:
# Criando o objeto de REGRESSÃO DE RIDGE - Utilização dos dados Padronizados
modelo_v6 = Lasso()

# Treinando o modelo com dados de treino e checando o score
modelo_v6.fit(x_treino2, y_treino2)
modelo_v6.score(x_treino2, y_treino2)

# Coletando os coeficientes
print('Coefficient: \n', modelo_v6.coef_)
print('Intercept: \n', modelo_v6.intercept_)

# Previsões
valores_previstos_v6 = modelo_v6.predict(x_teste2)

In [None]:
# Score do modelo_v6 nos dados de teste
v6_acuracia = modelo_v6.score(x_teste2, y_teste2)
print("Acurácia nos Dados de Teste: %.2f%%" % (v6_acuracia * 100.0))

# RANDOM FOREST

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Normalizados
from sklearn.ensemble import RandomForestRegressor

modelo_v7 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v7.fit(x_treino, y_treino)
modelo_v7.score(x_treino, y_treino)

# Previsões
valores_previstos_v7 = modelo_v7.predict(x_teste)

In [None]:
# Score do modelo_v5 nos dados de teste
v7_acuracia = modelo_v7.score(x_teste, y_teste)
print("Acurácia nos Dados de Teste: %.2f%%" % (v7_acuracia * 100.0))

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Padronizados
modelo_v8 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v8.fit(x_treino2, y_treino2)
modelo_v8.score(x_treino2, y_treino2)

# Previsões
valores_previstos_v8 = modelo_v8.predict(x_teste2)

In [None]:
# Score do modelo_v6 nos dados de teste
v8_acuracia = modelo_v8.score(x_teste2, y_teste2)
print("Acurácia nos Dados de Teste: %.2f%%" % (v8_acuracia * 100.0))

In [None]:
# Modelo de Random Forest 3

# Separando os dados em conjuntos de treino e teste
x_treino3, x_teste3, y_treino3, y_teste3 = train_test_split(dados_norm_padr, y, test_size = 0.30)
print(x_treino3.shape, y_treino3.shape, x_teste3.shape, y_teste3.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Normalizados e Padronizados
modelo_v9 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v9.fit(x_treino3, y_treino3)
modelo_v9.score(x_treino3, y_treino3)

# Previsões
valores_previstos_v9 = modelo_v9.predict(x_teste3)

In [None]:
# Score do modelo_v5 nos dados de teste
v9_acuracia = modelo_v9.score(x_teste3, y_teste3)
print("Acurácia nos Dados de Teste: %.2f%%" % (v9_acuracia * 100.0))

# COMPARAÇÃO ENTRE OS MODELOS

In [None]:
lista = ['Regressão Linear', 'Regressão Ridge', 'Regressão Lasso', 'Random Forest']
lista2 = [v2_acuracia * 100.0, v3_acuracia * 100.0, v5_acuracia * 100.0, v9_acuracia * 100.0] 

In [None]:
comparação_resultados = pd.DataFrame(list(zip(lista, lista2)), columns = ['Algoritmo','Acuracia'])
comparação_resultados.round(2)

In [None]:
# Todos os algoritmos apresentaram maior acuracia com os dados normalizados em comparação com os dados padronizados.
# O algortimo Random Forest apresentou maior acuracia (80,16%) entre todos os modelos, conforme demonstrado na tabela acima.

# OTIMIZAÇÃO DO MODELO SELECIONADO

# ENGENHARIA DE ATRIBUTOS

In [None]:
# Transformação da variável idade em faixa etária
df2 = df.copy()

for item in range(0,len(df2['Idade']),1):
   
    if int(df2['Idade'][item]) >= 18 and int(df2['Idade'][item]) <=30:
        df2['Idade'][item]= 0
    elif int(df2['Idade'][item]) >= 31 and int(df2['Idade'][item]) <=40:
        df2['Idade'][item]= 1
    elif int(df2['Idade'][item]) >= 41 and int(df2['Idade'][item]) <=50:
        df2['Idade'][item]= 2
    elif int(df2['Idade'][item]) >= 51 and int(df2['Idade'][item]) <=60:
        df2['Idade'][item]= 3
    elif int(df2['Idade'][item]) >= 61 and int(df2['Idade'][item]) <=70:
        df2['Idade'][item]= 4
    


In [None]:
df2.head(5)

In [None]:
# NORMALIZAÇÃO - Transformando os dados para a mesma escala (entre 0 e 1)

# Separando o array em componentes de input (X) e output (Y)
dados_rf = df2.values
x4 = dados_rf[:,0:10]
y = dados[:,10]

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
dados_norm_rf = scaler.fit_transform(x4)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Normalizados: \n\n", dados_norm_rf[0:5,:])

In [None]:
# PADRONIZAÇÃO - Padronizando os dados (0 para a média, 1 para o desvio padrão)

# Separando o array em componentes de input (X) e output (Y)
x5 = dados_rf[:,0:10]
y5 = dados_rf[:,10]

# Gerando o novo padrão
scaler = StandardScaler().fit(x5)
dados_padr_rf = scaler.transform(x5)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Padronizados: \n\n", dados_padr_rf[0:5,:])

In [None]:
# Separando os dados em conjuntos de treino e teste
x_treino5, x_teste5, y_treino5, y_teste5 = train_test_split(dados_norm_rf, y, test_size = 0.30)
print(x_treino5.shape, y_treino5.shape, x_teste5.shape, y_teste5.shape)

x_treino6, x_teste6, y_treino6, y_teste6 = train_test_split(dados_padr_rf, y, test_size = 0.30)
print(x_treino6.shape, y_treino6.shape, x_teste6.shape, y_teste6.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Normalizados

modelo_v10 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v10.fit(x_treino5, y_treino5)
modelo_v10.score(x_treino5, y_treino5)

# Previsões
valores_previstos_v10 = modelo_v10.predict(x_teste5)

In [None]:
# Score do modelo_v10 nos dados de teste
v10_acuracia = modelo_v10.score(x_teste5, y_teste5)
print("Acurácia nos Dados de Teste: %.2f%%" % (v10_acuracia * 100.0))

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Padronizados

modelo_v11 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v11.fit(x_treino6, y_treino6)
modelo_v11.score(x_treino6, y_treino6)

# Previsões
valores_previstos_v11 = modelo_v11.predict(x_teste6)

In [None]:
# Score do modelo_v11 nos dados de teste
v11_acuracia = modelo_v11.score(x_teste6, y_teste6)
print("Acurácia nos Dados de Teste: %.2f%%" % (v11_acuracia * 100.0))

In [None]:
# Transformação as variáveis peso e altura em IMC
df3 = df2.copy()
df3['Altura_m'] = list(map(lambda num: num / 100, df3['Altura']))
df3['IMC']= (df3['Peso'] / df3['Altura_m']**2).round(2)
df3.drop(columns=["Altura", "Peso", "Altura_m"],inplace=True)
df3 = df3[['Idade','Diabetes', 'Problema_Pressao', 'Transplantes', 'Doencas_Cronicas', 'Alergias', 'Historico_Cancer_Familia', 'Qtd_Cirurgias', 'IMC', 'Preco_Convenio']]

In [None]:
df3.head(5)

In [None]:
# NORMALIZAÇÃO - Transformando os dados para a mesma escala (entre 0 e 1)

# Separando o array em componentes de input (X) e output (Y)
dados_rf2 = df3.values
x6 = dados_rf2[:,0:9]
y6 = dados_rf2[:,9]

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
dados_norm_rf2 = scaler.fit_transform(x6)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Normalizados: \n\n", dados_norm_rf2[0:5,:])

In [None]:
# PADRONIZAÇÃO - Padronizando os dados (0 para a média, 1 para o desvio padrão)

# Separando o array em componentes de input (X) e output (Y)
x7 = dados_rf2[:,0:9]
y7 = dados_rf2[:,9]

# Gerando o novo padrão
scaler = StandardScaler().fit(x7)
dados_padr_rf2 = scaler.transform(x7)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df.values)
print("\nDados Padronizados: \n\n", dados_padr_rf2[0:5,:])

In [None]:
# Separando os dados em conjuntos de treino e teste
x_treino7, x_teste7, y_treino7, y_teste7 = train_test_split(dados_norm_rf2, y6, test_size = 0.30)
print(x_treino7.shape, y_treino7.shape, x_teste7.shape, y_teste7.shape)

x_treino8, x_teste8, y_treino8, y_teste8 = train_test_split(dados_padr_rf2, y7, test_size = 0.30)
print(x_treino8.shape, y_treino8.shape, x_teste8.shape, y_teste8.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Normalizados

modelo_v12 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v12.fit(x_treino7, y_treino7)
modelo_v12.score(x_treino7, y_treino7)

# Previsões
valores_previstos_v12 = modelo_v12.predict(x_teste7)

In [None]:
# Score do modelo_v11 nos dados de teste
v12_acuracia = modelo_v12.score(x_teste7, y_teste7)
print("Acurácia nos Dados de Teste: %.2f%%" % (v12_acuracia * 100.0))

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Padronizados

modelo_v13 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v13.fit(x_treino8, y_treino8)
modelo_v13.score(x_treino8, y_treino8)

# Previsões
valores_previstos_v13 = modelo_v13.predict(x_teste8)

In [None]:
# Score do modelo_v11 nos dados de teste
v13_acuracia = modelo_v13.score(x_teste8, y_teste8)
print("Acurácia nos Dados de Teste: %.2f%%" % (v13_acuracia * 100.0))

In [None]:
# Finalizado a Engenharia de Atributos, pode-se concluir que o melhor modelo foi o v10 (82,83%) utilizando a transformação 
# das idades em faixa etária. O cálculo do IMC não contribuiu para uma melhor acuracia no modelo subsequentes.

# AJUSTES DE HIPERPARÂMETROS

In [None]:
# RANDOM SEARCH PARAMETER TUNING
# Este método gera amostras dos parâmetros dos algoritmos a partir de uma distribuição randômica uniforme para um número fixo
# de iterações. Um modelo é construído e testado para cada combinação de parâmetros.

from sklearn.model_selection import RandomizedSearchCV
modelo_hp = RandomForestRegressor()
x_treino_final = x_treino5
y_treino_final = y_treino5

# Definindo os valores que serão testados
iteracoes = 50

# Definindo os valores que serão testados
valores_grid = {'n_estimators': [100, 150, 200, 250, 300], 'min_samples_leaf': [1, 2, 3], 'criterion': ['mse', 'mae'], 'max_features': ['auto', 'sqrt', 'log2']}

# Criando o grid
rsearch = RandomizedSearchCV(estimator = modelo_hp, 
                             param_distributions = valores_grid, 
                             n_iter = iteracoes)
rsearch.fit(x_treino_final, y_treino_final)

# Print dos resultados
print("Acurácia: %.2f" % (rsearch.best_score_ * 100))
print("Melhores Parâmetros do Modelo:\n", rsearch.best_estimator_)

# PREVISÃO COM O MODELO FINAL

In [None]:
# Produz a matriz com os novos dados de entrada para a previsão
Idade = 49
Diabetes = 1
Problema_Pressao = 0
Transplantes = 1
Doencas_Cronicas = 1
Altura = 175
Peso = 81
Alergias = 0
Historico_Cancer_Familia = 1
Qtd_Cirurgias = 3

# Lista com os valores das variáveis
dados_novo_cliente = [Idade, Diabetes, Problema_Pressao, Transplantes, Doencas_Cronicas, Altura, Peso, Alergias, Historico_Cancer_Familia, Qtd_Cirurgias]

# Reshape
novo_cliente = np.array(dados_novo_cliente).reshape(1, -1)

# Previsão
print("Preço previsto para o Convênio: %.2f%%" % (modelo_v10.predict(novo_cliente)))

 # SALVANDO O MELHOR MODELO

In [None]:
import pickle

# Salvando o modelo
arquivo = 'PREVISAO_FINAL.sav'
pickle.dump(modelo_v10, open(arquivo, 'wb'))
print("Modelo salvo!")


In [None]:
# Carregando o arquivo
modelo_v10_final = pickle.load(open(arquivo, 'rb'))
modelo_prod = modelo_v10_final.score(x_teste5, y_teste5)
print("Modelo carregado!")

# Print do resultado
print("Acurácia nos Dados de Teste: %.2f%%" % (modelo_prod * 100.0))
