# **Problema**

* Você é um profissional encarregado de desenvolver um modelo preditivo de regressão para prever o valor dos custos médicos individuais cobrados pelo seguro de saúde.

* A base de dados exemplos está anexada como exemplo.csv.

* Você precisa alimentar ela com mais informações ou utilizar uma outra de sua preferência.

# **Tarefas**

Exploração de dados:

  * Carregue a base de dados e explore suas características.
  * Analise estatísticas descritivas e visualize distribuições relevantes.
       
Pré-processamento de dados:
      
  * Realize a limpeza dos dados, tratando valores ausentes (se necessário).
  * Converta variáveis categóricas em formatos adequados para modelagem.

Modelagem:
    
  * Crie um modelo preditivo de regressão utilizando uma técnica à sua escolha (por exemplo, Regressão Linear, Árvores de Decisão, etc).      
  * Divida o conjunto de dados em conjuntos de treinamento e teste.

Treinamento e avaliação do modelo:

  * Treine o modelo com o conjunto de treinamento.
         
Validação estatística:
  * Utilize métricas estatísticas para validar a eficácia do modelo (p-value, intervalos de confiança).


**O que avaliaremos:**

  * Apresente resultados visuais, como gráficos de previsões vs. valores reais.
  * Elabore um relatório que inclua uma análise dos resultados, insights obtidos e validação estatística.
  
**Observações:**

  * Esperamos que o modelo seja capaz de fazer previsões confiáveis dos custos médicos individuais com base nas características fornecidas.
       

# **Problema**

* Você é um profissional encarregado de desenvolver um modelo preditivo de regressão para prever o valor dos custos médicos individuais cobrados pelo seguro de saúde.

* A base de dados exemplos está anexada como exemplo.csv.

* Você precisa alimentar ela com mais informações ou utilizar uma outra de sua preferência.

# **Tarefas**

Exploração de dados:

  * Carregue a base de dados e explore suas características.
  * Analise estatísticas descritivas e visualize distribuições relevantes.
       
Pré-processamento de dados:
      
  * Realize a limpeza dos dados, tratando valores ausentes (se necessário).
  * Converta variáveis categóricas em formatos adequados para modelagem.

Modelagem:
    
  * Crie um modelo preditivo de regressão utilizando uma técnica à sua escolha (por exemplo, Regressão Linear, Árvores de Decisão, etc).      
  * Divida o conjunto de dados em conjuntos de treinamento e teste.

Treinamento e avaliação do modelo:

  * Treine o modelo com o conjunto de treinamento.
         
Validação estatística:
  * Utilize métricas estatísticas para validar a eficácia do modelo (p-value, intervalos de confiança).


**O que avaliaremos:**

  * Apresente resultados visuais, como gráficos de previsões vs. valores reais.
  * Elabore um relatório que inclua uma análise dos resultados, insights obtidos e validação estatística.
  
**Observações:**

  * Esperamos que o modelo seja capaz de fazer previsões confiáveis dos custos médicos individuais com base nas características fornecidas.
       

# **Entrega**

 * Como entregável, o grupo deve enviar um vídeo junto com o link do github do projeto e o código desenvolvido, apresentando o passo a passo do que foi utilizado como a fonte de dados e como os modelos foram criados.
  
 * O vídeo deve estar em uma plataforma como Youtube.


# **Solução**



In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import RandomizedSearchCV, KFold, cross_val_score, train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR  
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from scipy import stats

ModuleNotFoundError: No module named 'pandas'

In [None]:
dataset = pd.read_csv("medical_insurance.csv")

In [None]:
dataset.head()

In [None]:
dataset.shape

In [None]:
dataset.describe()

In [None]:
dataset.isnull().sum()

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(10, 10))
sns.histplot(data=dataset, x='idade', kde=True, bins=30, color='blue', ax=axs[0, 0])
sns.histplot(data=dataset, x='imc', kde=True, bins=30, color='orange', ax=axs[0, 1])
sns.histplot(data=dataset, x='filhos', kde=True, bins=30, color='green', ax=axs[1, 0])
sns.histplot(data=dataset, x='encargos', kde=True, bins=30, color='red', ax=axs[1, 1])
plt.show()

In [None]:
plt.figure(figsize=(12, 6))

for i, col in enumerate(['genero', 'fumante', 'regiao']):
    plt.subplot(1, 3, i + 1)
    x = dataset[col].value_counts().reset_index()
    plt.title(col)
    # Use autopct para formatar a porcentagem e incluir a descrição
    plt.pie(x=x['count'], labels=x[col], autopct=lambda p : '{:.1f}%'.format(p))
    
plt.tight_layout()
plt.show()

In [None]:
correlation_dataset = dataset.copy()
label_encoder = LabelEncoder()
correlation_dataset.genero = label_encoder.fit_transform(correlation_dataset.genero)
correlation_dataset.fumante = label_encoder.fit_transform(correlation_dataset.fumante)
correlation_dataset.regiao = label_encoder.fit_transform(correlation_dataset.regiao)

In [None]:
correlation_dataset.head()

In [None]:
sns.heatmap(correlation_dataset.corr(method = 'pearson'), annot=True, fmt=".1f")

In [None]:
sns.pairplot(dataset, hue="genero")

In [None]:
sns.scatterplot(data=dataset,x=dataset.encargos,y=dataset.fumante,hue=dataset.idade)
plt.show()

In [None]:
sns.boxplot(y='encargos', data=dataset)

In [None]:
dataset=dataset[np.abs(stats.zscore(dataset.encargos)) < 3]
#A escolha de 3 como limiar está baseada na Regra Empírica (ou Regra dos 68-95-99.7), que diz que:

#Aproximadamente 68% dos dados em uma distribuição normal estão dentro de 1 desvio padrão da média.
#Aproximadamente 95% estão dentro de 2 desvios padrão.
#Aproximadamente 99.7% estão dentro de 3 desvios padrão.
#Um z-score de 3, vamos excluir apenas os valores mais extremos, que são menos de 0.3% dos dados.

In [None]:
sns.boxplot(y='encargos', data=dataset)

"Encargos Médios por Região com Intervalos de Confiança" refere-se a uma análise que mostra a média dos custos ou despesas médicas (ou "encargos") para cada região geográfica, acompanhada de um intervalo de confiança que indica a variabilidade ou incerteza dessa média.

Um intervalo de confiança fornece uma faixa em torno da média que, com um certo nível de confiança (geralmente 95%), contém o valor real da média para toda a população. Ele reflete a incerteza em torno da estimativa da média.
Um intervalo de confiança mais amplo indica mais incerteza (mais variação nos dados), enquanto um intervalo mais estreito indica mais precisão (menos variação nos dados).
Visualização Gráfica:
No gráfico, as barras representam os encargos médios por região, e as "linhas" ou "barras de erro" que saem das barras principais indicam o intervalo de confiança. Se as barras de erro forem curtas, a média é estimada com maior precisão; se forem longas, há mais incerteza.


Essa visualização é útil para comparar as médias entre regiões e entender a confiança que podemos ter em cada estimativa.

In [None]:
# Configurando o tamanho da figura
plt.figure(figsize=(14, 5))

# Subgráfico 1: Média de encargos por gênero
plt.subplot(1, 2, 1)
sns.barplot(data=dataset, x='genero', y='encargos', estimator=np.mean, hue='genero', palette='muted', legend=False)
plt.title('Média de Encargos por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Média de Encargos')

# Adicionando rótulos no topo das barras
for p in plt.gca().patches:
    plt.gca().annotate(f'{p.get_height():.2f}', 
                       (p.get_x() + p.get_width() / 2., p.get_height()), 
                       ha='center', va='center', 
                       xytext=(0, 9), 
                       textcoords='offset points')

# Subgráfico 2: Média de encargos por região
plt.subplot(1, 2, 2)
sns.barplot(data=dataset, x='regiao', y='encargos', estimator=np.mean, hue='regiao', palette='muted', legend=False)
plt.title('Média de Encargos por Região')
plt.xlabel('Região')
plt.ylabel('Média de Encargos')

# Adicionando rótulos no topo das barras
for p in plt.gca().patches:
    plt.gca().annotate(f'{p.get_height():.2f}', 
                       (p.get_x() + p.get_width() / 2., p.get_height()), 
                       ha='center', va='center', 
                       xytext=(0, 9), 
                       textcoords='offset points')

# Ajustando o layout
plt.tight_layout()
plt.show()


In [None]:
dummies = pd.get_dummies(dataset[['genero','regiao','fumante']],dtype=int)
dataset = pd.concat([dataset[['idade','imc','filhos','encargos']],dummies],axis=1)

In [None]:
dataset.head()

In [None]:
dataset = dataset.round(2)

In [None]:
X = dataset.drop(['encargos'], axis=1)
y = dataset['encargos']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=7)

In [None]:
def calculate_mape(labels, predictions):
    errors = np.abs(labels - predictions)
    relative_errors = errors / np.abs(labels)
    mape = np.mean(relative_errors) * 100
    return mape

In [None]:
def generate_metrics(y_test, y_pred):
    mse = mean_squared_error(y_test, y_pred)
    abs = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    mape_result = calculate_mape(y_test, y_pred)

    print(f'Mean Squared Error: {mse}')
    print(f'Mean Absolute Error: {abs}')
    print(f'R-squared: {r2}')
    print(f"O MAPE é: {mape_result:.2f}%")

In [None]:
def calculate_score(model, X_train, X_test, y_train, y_test):
    train_score = model.score(X_train, y_train)
    test_score = model.score(X_test, y_test)

    print(f'O score de treino é: {train_score}')
    print(f'O score de test é: {test_score}')

In [None]:
def cross_validation(X_train, x_axis, y_train, y_axis):
  kfold  = KFold(n_splits=10, shuffle=True) 

  x = x_axis
  y = y_axis

  linear = LinearRegression()
  linear.fit(X_train, y_train)

  knn = KNeighborsRegressor(n_neighbors=8, metric= 'euclidean', weights='distance') 
  knn.fit(X_train, y_train) 

  svm = SVR()
  svm.fit(X_train, y_train)

  rf = RandomForestRegressor(random_state=7) 
  rf.fit(X_train, y_train)

  linear_result = cross_val_score(linear, x, y, cv=kfold)
  knn_result = cross_val_score(knn, x, y, cv=kfold)
  svm_result = cross_val_score(svm, x, y, cv=kfold)
  rf_result = cross_val_score(rf, x, y, cv=kfold)

  dic_models = {
    "LINEAR": linear_result.mean(),
    "KNN": knn_result.mean(),
    "SVM": svm_result.mean(),
    "Random Forest": rf_result.mean()
  }
  # Select the best model.
  best_model = max(dic_models, key=dic_models.get)

  print("LINEAR (R^2): {0}\nKNN (R^2): {1}\nSVM (R^2): {2}\nRandom Forest (R^2): {3}".format(linear_result.mean(), knn_result.mean(), svm_result.mean(), rf_result.mean()))
  print("O melhor modelo é o {0} com valor: {1}".format(best_model, dic_models[best_model]))
  
cross_validation(X_train, X, y_train, y)

In [None]:
random_grid = {
    'n_estimators': [10, 30 , 40, 100, 150, 200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000],
    'min_samples_split': [2, 5, 10],            
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2'],
    'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, None],
    'bootstrap': [True, False]
}

# Use the random grid to search for best hyperparameters
# First create the base model to tune
rf = RandomForestRegressor()
# Random search of parameters, using 3 fold cross validation, 
# search across 100 different combinations, and use all available cores
rf_random = RandomizedSearchCV(
    estimator = rf,
    param_distributions = random_grid,
    n_iter = 100,
    cv = 3,
    verbose=2,
    random_state=42,
    n_jobs = -1
)# Fit the random search model
rf_random.fit(X_train, y_train)
rf_random.best_params_

In [None]:

forest_model = RandomForestRegressor(
    n_estimators= 800,
    min_samples_split= 2,
    min_samples_leaf= 1,
    max_features= 'sqrt',
    max_depth= 90,
    bootstrap= False,
    random_state=42
)
forest_model.fit(X_train, y_train)
y_pred = forest_model.predict(X_test)

generate_metrics(y_test, y_pred)
calculate_score(forest_model, X_train, X_test, y_train, y_test)


In [None]:
def plot_score_graphic(y_test, y_pred):
    # Plotar Grafico
    plt.figure(figsize=(15, 10))
    plt.scatter(y_test, y_test, color='green', label='Encargos Reais')
    plt.scatter(y_test, y_pred, color='red', label='Previsão de Encargos')
    plt.title('Previsão de Encargos vs Encargos Reais')
    plt.xlabel('Encargos Reais')
    plt.ylabel('Previsão de Encargos')
    plt.legend()
    plt.grid(True)
    plt.show()
    
plot_score_graphic(y_test, y_pred)

# **Entrega**

 * Como entregável, o grupo deve enviar um vídeo junto com o link do github do projeto e o código desenvolvido, apresentando o passo a passo do que foi utilizado como a fonte de dados e como os modelos foram criados.
  
 * O vídeo deve estar em uma plataforma como Youtube.


# **Solução**



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import RandomizedSearchCV, KFold, cross_val_score, train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR  
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from scipy import stats

In [None]:
dataset = pd.read_csv("medical_insurance.csv")

In [None]:
dataset.head()

In [None]:
dataset.shape

In [None]:
dataset.describe()

In [None]:
dataset.isnull().sum()

In [None]:
plt.figure(figsize=(30,28))
for i, col in enumerate( ['idade','imc','filhos','encargos']):
    plt.subplot(3, 3, i+1)
    sns.histplot(data = dataset,
            x = col,
            kde = True,
            bins = 30,
            color = 'blue')

plt.show()

In [None]:
plt.figure(figsize=(12,9))
for i,col in enumerate(['genero','fumante','regiao']):
    plt.subplot(3,2,i+1)
    x=dataset[col].value_counts().reset_index()
    plt.title(col)
    plt.pie(x=x['count'],labels=x[col],autopct="%0.1f%%",colors=sns.color_palette('muted'))

In [None]:
correlation_dataset = dataset.copy()
label_encoder = LabelEncoder()
correlation_dataset.genero = label_encoder.fit_transform(correlation_dataset.genero)
correlation_dataset.fumante = label_encoder.fit_transform(correlation_dataset.fumante)
correlation_dataset.regiao = label_encoder.fit_transform(correlation_dataset.regiao)

In [None]:
correlation_dataset.head()

In [None]:
sns.heatmap(correlation_dataset.corr(method = 'pearson'), annot=True, fmt=".1f")

In [None]:
sns.pairplot(dataset, hue="genero")

In [None]:
sns.scatterplot(data=dataset,x=dataset.encargos,y=dataset.fumante,hue=dataset.idade)
plt.show()

In [None]:
sns.boxplot(y='encargos', data=dataset, palette='hls')

In [None]:
dataset=dataset[np.abs(stats.zscore(dataset.encargos)) < 3]

In [None]:
sns.boxplot(y='encargos', data=dataset, palette='hls')

In [None]:
sns.barplot(data=dataset,x=dataset.genero,y=dataset.encargos,estimator=np.mean)
plt.show()

In [None]:
sns.barplot(data=dataset,x=dataset.regiao,y=dataset.encargos,estimator=np.mean)
plt.show()

In [None]:
dummies = pd.get_dummies(dataset[['genero','regiao','fumante']],dtype=int)
dataset = pd.concat([dataset[['idade','imc','filhos','encargos']],dummies],axis=1)

In [None]:
dataset.head()

In [None]:
dataset = dataset.round(2)

In [None]:
X = dataset.drop(['encargos'], axis=1)
y = dataset['encargos']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=7)

In [None]:
def calculate_mape(labels, predictions):
    errors = np.abs(labels - predictions)
    relative_errors = errors / np.abs(labels)
    mape = np.mean(relative_errors) * 100
    return mape

In [None]:
def generate_metrics(y_test, y_pred):
    mse = mean_squared_error(y_test, y_pred)
    abs = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    mape_result = calculate_mape(y_test, y_pred)

    print(f'Mean Squared Error: {mse}')
    print(f'Mean Absolute Error: {abs}')
    print(f'R-squared: {r2}')
    print(f"O MAPE é: {mape_result:.2f}%")

In [None]:
def plot_score_graphic(y_test, y_pred):
    # Plotar Grafico
    plt.figure(figsize=(15, 10))
    plt.scatter(y_test, y_test, color='green', label='Encargos Reais')
    plt.scatter(y_test, y_pred, color='red', label='Previsão de Encargos')
    plt.title('Previsão de Encargos vs Encargos Reais')
    plt.xlabel('Encargos Reais')
    plt.ylabel('Previsão de Encargos')
    plt.legend()
    plt.grid(True)
    plt.show()

In [None]:
def calculate_score(model, X_train, X_test, y_train, y_test):
    train_score = model.score(X_train, y_train)
    test_score = model.score(X_test, y_test)

    print(f'O score de treino é: {train_score}')
    print(f'O score de test é: {test_score}')

In [None]:
def cross_validation(X_train, x_axis, y_train, y_axis):
  kfold  = KFold(n_splits=10, shuffle=True) 

  x = x_axis
  y = y_axis

  linear = LinearRegression()
  linear.fit(X_train, y_train)

  knn = KNeighborsRegressor(n_neighbors=8, metric= 'euclidean', weights='distance') 
  knn.fit(X_train, y_train) 

  svm = SVR()
  svm.fit(X_train, y_train)

  rf = RandomForestRegressor(random_state=7) 
  rf.fit(X_train, y_train)

  linear_result = cross_val_score(linear, x, y, cv=kfold)
  knn_result = cross_val_score(knn, x, y, cv=kfold)
  svm_result = cross_val_score(svm, x, y, cv=kfold)
  rf_result = cross_val_score(rf, x, y, cv=kfold)

  dic_models = {
    "LINEAR": linear_result.mean(),
    "KNN": knn_result.mean(),
    "SVM": svm_result.mean(),
    "RF": rf_result.mean()
  }
  # Select the best model.
  best_model = max(dic_models, key=dic_models.get)

  print("LINEAR (R^2): {0}\nKNN (R^2): {1}\nSVM (R^2): {2}\nRandom Forest (R^2): {3}".format(linear_result.mean(), knn_result.mean(), svm_result.mean(), rf_result.mean()))
  print("O melhor modelo é : {0} com o valor: {1}".format(best_model, dic_models[best_model]))

In [None]:
cross_validation(X_train, X, y_train, y)

In [None]:
random_grid = {
    'n_estimators': [10, 30 , 40, 100, 150, 200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000],
    'min_samples_split': [2, 5, 10],            
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['auto', 'sqrt'],
    'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, None],
    'bootstrap': [True, False]
}

# Use the random grid to search for best hyperparameters
# First create the base model to tune
rf = RandomForestRegressor()
# Random search of parameters, using 3 fold cross validation, 
# search across 100 different combinations, and use all available cores
rf_random = RandomizedSearchCV(
    estimator = rf,
    param_distributions = random_grid,
    n_iter = 100,
    cv = 3,
    verbose=2,
    random_state=42,
    n_jobs = -1
)# Fit the random search model
rf_random.fit(X_train, y_train)
rf_random.best_params_

In [None]:

forest_model = RandomForestRegressor(
    n_estimators= 800,
    min_samples_split= 2,
    min_samples_leaf= 1,
    max_features= 'sqrt',
    max_depth= 90,
    bootstrap= False,
    random_state=42
)
forest_model.fit(X_train, y_train)
y_pred = forest_model.predict(X_test)

generate_metrics(y_test, y_pred)
calculate_score(forest_model, X_train, X_test, y_train, y_test)


In [None]:
plot_score_graphic(y_test, y_pred)