---
<h1 style="text-align: center;">Modelagem de Redes Neurais para Previsão de Custos em Seguros de Saúde</h1>

*Discente:*

    *   Gabriel D'assumpção de Carvalho

*Data:* 19/08/2024

---
---

# Introdução

As doenças cardiovasculares permanecem como a principal causa de mortalidade no Brasil, de acordo com o estudo Global Burden of Disease (GBD) de 2019 e os dados do Sistema Único de Saúde (SUS). O aumento preocupante na incidência de ataques cardíacos entre jovens e adultos é amplamente atribuído à falta de atividade física e a uma dieta inadequada. Esse panorama sublinha a necessidade urgente de promover hábitos de vida mais saudáveis, seguindo a recomendação de Michael Pollan: "descasque mais, desembale menos", que incentiva o consumo de alimentos frescos e não processados.

A deterioração da saúde pública tem levado a um crescimento significativo no setor de planos de saúde. De acordo com a Agência Nacional de Saúde Suplementar (ANS), o Brasil registrou um aumento de aproximadamente 20,5 milhões de novos beneficiários de planos de assistência médica entre março de 2000 e junho de 2024.

<p align="center">
  <span style="font-size: smaller;">Gráfico 01</span>
</p>
<p align="center">
  <img src="beneficiario_ans.png" alt="Gráfico mostrando o crescimento dos beneficiários de planos de saúde no Brasil" width="800"/>
</div>
</p>
<p align="center">
  <span style="font-size: smaller;">Fonte: Agência Nacional de Seguro (ANS)
  </span>
</p>

O gráfico acima ilustra o aumento no número de beneficiários ao longo de 24 anos, refletindo a crescente demanda por cuidados médicos. Esse crescimento torna essencial a análise e previsão das despesas associadas aos seguros de saúde, que é o objetivo principal deste projeto.

Para a realização desta análise, será utilizada uma base de dados disponível no [Kaggle](https://www.kaggle.com/datasets/willianoliveiragibin/healthcare-insurance/data). Esta base contém 303 observações e 6 características, com o custo do seguro médico sendo a variável alvo. A seguir, apresentamos as variáveis da base de dados:

| Atributo   | Descrição                                                      | Tipo                    |
|------------|----------------------------------------------------------------|-------------------------|
| Idade      | A idade da pessoa segurada.                                    | Inteiro                 |
| Sexo       | Gênero (masculino ou feminino) do segurado.                     | Categórico - Binário    |
| IMC        | Índice de Massa Corporal: uma medida de gordura corporal baseada na altura e no peso. | Contínuo                |
| Crianças   | O número de dependentes cobertos.                               | Inteiro                 |
| Fumante    | Se o segurado é fumante (sim ou não).                           | Categórico - Binário    |
| Região     | A área geográfica de cobertura.                                | Categórico - Nominal    |
| Encargos   | Os custos do seguro médico incorridos pelo segurado.            | Contínuo                |


# Fundamentos Teóricos e Metodológicos

O objetivo deste trabalho é prever os custos do seguro médico com base nas características dos clientes, configurando-se como um problema de regressão. A abordagem tradicional de regressão linear pode ser representada pela seguinte equação:

<p style="text-align: right;">
(1)
</p>

$$
\hat{y} = \beta_{0} + \beta_{1} \cdot x_{1} + \epsilon \hspace{3em} \text{(1)}
$$

Entretanto, as suposições subjacentes à regressão linear, como a normalidade das variáveis, a independência entre as características dos clientes e a normalidade dos resíduos, podem não ser atendidas neste contexto. Por essa razão, este estudo opta por utilizar redes neurais, especificamente o Perceptron Multicamadas (MLP), para realizar a previsão dos custos do seguro.

Modelos com múltiplas camadas, como o MLP, são mais adequados para resolver problemas complexos. Redes com $S \in \mathbb{N}$ neurônios são compostas por conjuntos de neurônios $O = \{o_1, o_2, \ldots, o_s\}$, vieses  $B = \{b_1, b_2, \ldots, b_s\}$, e pesos $W = \{w_{1,1}, w_{1,2}, \ldots, w_{1,k}, w_{2,1}, w_{2,2}, \ldots, w_{2,k}, \ldots, w_{j,k}\}$.


Copy code
<p align="center">
  <span style="font-size: smaller;">Gráfico 02</span>
</p>
<div style="text-align: center;">
    <img src="multicamadas_perceptron.png" alt="Arquitetura do Perceptron Multicamadas" width="400"/>
</div>  
<p align="center">
  <span style="font-size: smaller;">Fonte: <a href="https://www.researchgate.net/figure/Schematic-structure-of-a-perceptron-neural-network_fig2_260291992">https://www.researchgate.net/figure/Schematic-structure-of-a-perceptron-neural-network_fig2_260291992</a></span>
</p>

A entrada dos neurônios a partir da segunda camada oculta depende da saída dos neurônios da camada anterior. A função de ativação é dada por:


$$
\phi_i(net_j) = \phi_i\left(\sum_{k=1}^{n} w_{k,j} \cdot o_k + b_j\right)
$$

onde

$$
net_j = \sum_{k=1}^{n} w_{k,j} \cdot o_k + b_j
$$





Este crescimento reflete a crescente demanda por cuidados médicos, tornando crucial a análise e previsão das despesas associadas aos seguros de saúde, que é o foco deste projeto de aprendizado de máquina.

## Bibliotecas Utilizadas

In [1]:
# Configurando o modo de exibição do pandas
import pandas as pd
pd.options.display.float_format = "{:.4f}".format

import numpy as np
from matplotlib import pyplot as plt
import tensorflow as tf
from tensorflow import keras
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Desativa todos os avisos
import warnings
warnings.filterwarnings("ignore")

2024-08-24 08:55:28.755346: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE4.1 SSE4.2 AVX AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


# Coleta dos Dados

In [9]:
df = pd.read_csv("https://raw.githubusercontent.com/gabrieldadcarvalho/neural_network/main/projeto/insurance.csv")

X = df.iloc[:, :-1]
y = df.iloc[:, -1]

In [10]:
len(X)

1338

# Exploração dos Dados

A exploração dos dados visa identificar padrões, tendências e anomalias que podem impactar a análise. Outliers são identificados e avaliados quanto à sua significância, enquanto correlações entre variáveis são analisadas para identificar relações importantes. A análise de variáveis categóricas inclui a avaliação das frequências e modas, e visualizações adicionais, como heatmaps e pair plots, são utilizadas para suportar a análise e identificar padrões mais complexos.

In [11]:
# Verificando as 5 primeiras linhas de x
print(X.head())

   idade    sexo     imc  dependentes fumante     regiao
0     19  female 27.9000            0     yes  southwest
1     18    male 33.7700            1      no  southeast
2     28    male 33.0000            3      no  southeast
3     33    male 22.7050            0      no  northwest
4     32    male 28.8800            0      no  northwest


In [13]:
# Verificando as 5 primeiras linhas de x
print(y.head())

0    1
1    1
2    1
3    1
4    1
Name: output, dtype: int64


## Variáveis Explicativas
Vamos realizar uma análise exploratória das variáveis explicativas do conjunto de dados. Abaixo estão as estatísticas descritivas e visualizações para cada variável.

### Idade

In [6]:
X['age'].describe()

KeyError: 'age'

In [7]:
X['age'].mode()

KeyError: 'age'

Ao visualizar as estatisticas da variável idade, podemos perceber que

In [None]:
dummie = pd.get_dummies([])
X_train, X_test, y_train, y_test = train_test_split(X_t, y, test_size=0.2, random_state=42)