# **INTRODUÇÃO**

Diante da crescente necessidade de otimização na análise de dados, uma empresa do setor de saúde contratou um especialista para o desenvolvimento de um modelo preditivo de regressão. O objetivo deste projeto é prever os custos médicos individuais cobrados pelo seguro de saúde, fornecendo insights valiosos para a tomada de decisões mais precisas e eficientes na gestão dos planos de cobertura.

Para a execução deste projeto, foi disponibilizada a base de dados a seguir:

In [3]:
import pandas as pd
insurance_data = pd.read_csv('datasets/insurance.csv')
insurance_data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


Esta base de dados é composta por sete colunas, conforme descritas abaixo:

**Age:** Idade do cliente;

**Sex:** Sexo do cliente;

**BMI:** Índice de Massa Corporal (IMC) do cliente;

**Children:** Quantidade de filhos do cliente;

**Smoker:** Indica se o cliente é fumante ou não;

**Region:** Região geográfica de residência do cliente;

**Charges:** Valor do custo do seguro de saúde para o cliente.

# **Fluxo do Desenvolvimento**

Para a construção do modelo preditivo, o seguinte fluxo de trabalho será adotado:

**Exploração de Dados -> Pré-Processamento de Dados -> Modelagem -> Treinamento e Avaliação do Modelo -> Validações Estatísticas**

# **Exploração de Dados**

Inicialmente, será realizada uma análise exploratória dos dados, incluindo a avaliação de estatísticas descritivas e a visualização das distribuições. Esse processo permitirá identificar as variáveis mais relevantes para o desenvolvimento do modelo.

No entanto, todas as colunas serão consideradas importantes em um primeiro momento. Durante o Pré-Processamento de Dados, variáveis poderão ser descartadas caso se revelem irrelevantes ou redundantes para a construção do modelo preditivo.

Com isso em mente, a seguir serão exibidos as principais informações do Data Set:

In [None]:
print(insurance_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB
None


In [None]:
print(insurance_data.describe())

               age          bmi     children       charges
count  1338.000000  1338.000000  1338.000000   1338.000000
mean     39.207025    30.663397     1.094918  13270.422265
std      14.049960     6.098187     1.205493  12110.011237
min      18.000000    15.960000     0.000000   1121.873900
25%      27.000000    26.296250     0.000000   4740.287150
50%      39.000000    30.400000     1.000000   9382.033000
75%      51.000000    34.693750     2.000000  16639.912515
max      64.000000    53.130000     5.000000  63770.428010


# **Pré-Processamento dos Dados**

A partir da visualização dos 10 primeiros registros, é possível identificar diversos pontos que merecem atenção, os quais serão abordados a seguir:

## **Tratamento de Valores Nulos**

O primeiro aspecto a ser tratado são os valores nulos presentes no conjunto de dados. Esses valores podem comprometer a precisão dos resultados ao introduzir vieses indesejados.

Para mitigar esse risco, será necessário remover os registros que contêm valores nulos da amostra, conforme descrito abaixo:



In [6]:
insurance_data_cleaned = insurance_data.dropna()

## **Tratamento de Valores Textuais**

Outro desafio comum no desenvolvimento de modelos preditivos é a presença de valores textuais (categóricos).

Esses valores podem impactar diretamente os cálculos realizados pelos algoritmos, uma vez que dados textuais não podem ser processados diretamente por métodos matemáticos.

Para contornar esse problema, é necessário transformar os valores categóricos em valores numéricos.

Uma das técnicas mais eficazes para essa conversão é o One-Hot Encoding, que cria uma nova coluna para cada categoria presente no dado original.

Nessas novas colunas, são atribuídos os valores "1" ou "0" para indicar a presença ou ausência de determinada categoria em cada registro, permitindo que os algoritmos tratem essas informações adequadamente.

Essa técnica pode ser implementada da seguinte forma:


In [7]:
insurance_data_encoded = pd.get_dummies(insurance_data_cleaned, columns=['sex', 'smoker', 'region'], drop_first=True)
insurance_data_encoded = insurance_data_encoded.astype(float)
print(insurance_data_encoded.head())

    age     bmi  children      charges  sex_male  smoker_yes  \
0  19.0  27.900       0.0  16884.92400       0.0         1.0   
1  18.0  33.770       1.0   1725.55230       1.0         0.0   
2  28.0  33.000       3.0   4449.46200       1.0         0.0   
3  33.0  22.705       0.0  21984.47061       1.0         0.0   
4  32.0  28.880       0.0   3866.85520       1.0         0.0   

   region_northwest  region_southeast  region_southwest  
0               0.0               0.0               1.0  
1               0.0               1.0               0.0  
2               0.0               1.0               0.0  
3               1.0               0.0               0.0  
4               1.0               0.0               0.0  
