<a href="https://colab.research.google.com/github/felipesayegg/Insurance/blob/main/Regress%C3%A3o_Linear_insurance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 - Entendimento do problema

Os custos do seguro saúde são influenciados por uma variedade de fatores, muitos dos quais estão além do controle individual. No entanto, compreender esses fatores pode ajudar os consumidores a ter uma visão mais clara de como os prêmios são calculados e quais aspectos podem ser otimizados para reduzir custos. Este estudo examina alguns dos principais fatores que afetam os custos do seguro saúde:

##Idade:
A idade do beneficiário principal é um fator crucial, pois normalmente os custos do seguro aumentam com a idade devido ao maior risco de problemas de saúde.


## Sexo:
O sexo do contratante também pode influenciar os custos, com variações baseadas em riscos estatísticos associados a cada gênero.


## Índice de Massa Corporal (IMC):
 O IMC é uma medida objetiva do peso corporal em relação à altura (kg/m²). Um IMC fora da faixa ideal de 18,5 a 24,9 pode indicar riscos à saúde, impactando os custos do seguro.


## Número de Filhos:
 O número de dependentes cobertos pelo seguro pode aumentar o custo total, pois mais pessoas estão incluídas na apólice.


## Fumante:
 O hábito de fumar é um dos fatores que mais elevam os custos do seguro, devido aos riscos significativos à saúde associados ao tabagismo.


## Região:
 A área residencial do beneficiário nos EUA também influencia os custos, com variações regionais nos preços dos seguros. As regiões consideradas são nordeste, sudeste, sudoeste e noroeste.




Compreender esses fatores é essencial para desenvolver modelos preditivos que possam estimar com precisão os custos do seguro saúde. Este estudo utilizará técnicas de regressão linear para analisar como cada um desses fatores contribui para o custo total do seguro, fornecendo insights valiosos para consumidores e seguradoras.

## 2 - Coleta de dados

## 2.1 Importação de Bibliotecas

In [8]:
import pandas as pd
import matplotlib.pyplot as plt

In [9]:
df = pd.read_csv('/content/insurance (2).csv') # Está atribuindo o DataFrame resultante à variável df, que agora contém os dados do arquivo CSV em formato tabular, permitindo manipulação e análise dos dados.

In [10]:
df #testando meu data frame

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [11]:
df.info() #vendo quais são as informaçoes do meu data frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [12]:
df.head() # ver as 5 primeiras linha do data frame

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [13]:
df.tail(10) # ver as 10 ultimas

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1328,23,female,24.225,2,no,northeast,22395.74424
1329,52,male,38.6,2,no,southwest,10325.206
1330,57,female,25.74,2,no,southeast,12629.1656
1331,23,female,33.4,0,no,southwest,10795.93733
1332,52,female,44.7,3,no,southwest,11411.685
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [14]:
df.describe() # estatisticas descritivas

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [15]:
df.shape # quantidade de linhas e colunas

(1338, 7)

# 3.  Pre Processamento

In [16]:
# Em resumo, você está convertendo a coluna categórica "sex" em uma representação numérica na nova coluna "sexo", onde 0 representa homens e 1 representa mulheres. Essa transformação é uma prática comum na preparação de dados para análise e modelagem, especialmente em machine learning.
df["sexo"] = df["sex"].map({"male":0, "female":1})

In [17]:
df.head(10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,sexo
0,19,female,27.9,0,yes,southwest,16884.924,1
1,18,male,33.77,1,no,southeast,1725.5523,0
2,28,male,33.0,3,no,southeast,4449.462,0
3,33,male,22.705,0,no,northwest,21984.47061,0
4,32,male,28.88,0,no,northwest,3866.8552,0
5,31,female,25.74,0,no,southeast,3756.6216,1
6,46,female,33.44,1,no,southeast,8240.5896,1
7,37,female,27.74,3,no,northwest,7281.5056,1
8,37,male,29.83,2,no,northeast,6406.4107,0
9,60,female,25.84,0,no,northwest,28923.13692,1


In [18]:
# nesse caso sobrescrevi a coluna smoker pelos valores 1 e 0, nao criei uma nova
df["smoker"] = df["smoker"].map({"yes":1, "no":0})

In [19]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,sexo
0,19,female,27.9,0,1,southwest,16884.924,1
1,18,male,33.77,1,0,southeast,1725.5523,0
2,28,male,33.0,3,0,southeast,4449.462,0
3,33,male,22.705,0,0,northwest,21984.47061,0
4,32,male,28.88,0,0,northwest,3866.8552,0


In [20]:
# dividir por 100 a variavel custo para facilitar a leitura dos dados

df["custo"] = df["charges"] / 100

df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,sexo,custo
0,19,female,27.9,0,1,southwest,16884.924,1,168.84924
1,18,male,33.77,1,0,southeast,1725.5523,0,17.255523
2,28,male,33.0,3,0,southeast,4449.462,0,44.49462
3,33,male,22.705,0,0,northwest,21984.47061,0,219.844706
4,32,male,28.88,0,0,northwest,3866.8552,0,38.668552


In [21]:
y = df["custo"]
y # y tem custo

Unnamed: 0,custo
0,168.849240
1,17.255523
2,44.494620
3,219.844706
4,38.668552
...,...
1333,106.005483
1334,22.059808
1335,16.298335
1336,20.079450


In [22]:
x = df[["bmi"]]
x # x agora tem o bmi

Unnamed: 0,bmi
0,27.900
1,33.770
2,33.000
3,22.705
4,28.880
...,...
1333,30.970
1334,31.920
1335,36.850
1336,25.800


# 4. Validação - Dividindo os dados em conjunto de treinos e teste



In [23]:
from sklearn.model_selection import train_test_split #  Contém funções para dividir os dados em conjuntos de treino e teste. Isso é importante para avaliar o desempenho do modelo de forma justa.

In [24]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

## 5. Modelagem - Criação do modelo de Regressão Linear

In [25]:
from sklearn.linear_model import LinearRegression # sklearn.linear_model: Esta parte da biblioteca Scikit-learn fornece a classe LinearRegression, que é usada para criar modelos de regressão linear.

In [26]:
model_bmi = LinearRegression() # # Cria um modelo de regressão linear.

In [27]:
model_bmi.fit(x_train, y_train) # Treina o modelo com os dados de treino.

# 6. Avaliação do modelo preditivo

In [28]:
y_pred = model_bmi.predict(x_test) # Faz previsões no conjunto de teste.
y_pred # vai me dar uma array de todos custos medicos anuais

array([112.32663072, 131.34018128, 119.03729562, 114.56351902,
       138.79647562, 181.88600817, 101.88781864, 162.28380279,
        81.38300921, 126.12077524, 109.2852475 , 133.57706958,
       129.65270414, 179.72760718, 174.1157646 , 166.34552102,
       181.02264777, 157.28023685, 123.60918136, 119.03729562,
       107.32306478, 141.46504412, 132.83144015, 169.74009713,
       123.88388694, 141.77899336, 151.27595773, 132.83144015,
       117.91885147, 131.81110513, 128.51463816, 138.4236609 ,
       150.37335367,  91.82182128, 131.26169397, 169.74009713,
       117.13397838, 130.86925743, 108.22566883, 151.66839427,
       125.76758235, 136.55958732, 154.02301353, 113.44507487,
       153.82679526, 121.45078037, 145.50714053, 108.89281096,
       154.69015566, 164.18712003, 155.98519626, 128.78934374,
       176.07794732, 116.05477789, 148.64663288, 139.54210505,
       113.44507487, 148.48965826, 143.42722684, 144.01588166,
       138.32555177, 182.74936857, 155.20032317, 111.58

## Mean Squared Error (MSE)

O que é: O MSE é a média dos quadrados das diferenças entre os valores reais e as previsões do modelo. Ele penaliza mais os erros maiores devido ao uso do quadrado das diferenças.



Fórmula:
MSE=n1​i=1∑n​(yi​−y^​i​)2


Interpretação: Assim como o MAE, um MSE menor indica um modelo melhor. No entanto, por penalizar mais os erros maiores, ele pode ser mais sensível a outliers.


## Mean Absolute Error (MAE)

O que é: O MAE é a média das diferenças absolutas entre os valores reais e as previsões do modelo. Ele mede o quão longe, em média, as previsões estão dos valores reais.


Fórmula:
MAE=n1​i=1∑n​∣yi​−y^​i​∣
Onde yi​ é o valor real, y^​i​ é o valor previsto, e n é o número total de observações.


Interpretação: Um MAE menor indica um modelo melhor, pois as previsões estão, em média, mais próximas dos valores reais. É fácil de interpretar porque está na mesma unidade dos dados.

In [32]:
from sklearn.metrics import mean_absolute_error, mean_squared_error # importanto biblioteca para o mean squared error


In [34]:
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

In [36]:
print('Mean Absolute Error (MAE):', mae)
print('Mean Squared Error (MSE):', mse)

Mean Absolute Error (MAE): 97.8465259627133
Mean Squared Error (MSE): 14908.505703839504


In [37]:
novo_bmi = [[25]]

In [38]:
previsao_custo = model_bmi.predict(novo_bmi)



In [40]:
previsao_custo*100

array([11163.98667645])

# 7. Incluir a variavel "smoker"



In [54]:
x_smoker = df[["bmi", "smoker"]] # estou pegando do meu data frame as informaçoes bmi e smoker para rodar me modelo e ver se fica mais acertivo
x_smoker

Unnamed: 0,bmi,smoker
0,27.900,1
1,33.770,0
2,33.000,0
3,22.705,0
4,28.880,0
...,...,...
1333,30.970,0
1334,31.920,0
1335,36.850,0
1336,25.800,0


In [41]:
y

Unnamed: 0,custo
0,168.849240
1,17.255523
2,44.494620
3,219.844706
4,38.668552
...,...
1333,106.005483
1334,22.059808
1335,16.298335
1336,20.079450


# 8. Dividindo dados

In [65]:
# Dividir os dados em conjuntos de treino e teste
x_train_smoker, x_test_smoker, y_train_smoker, y_test_smoker = train_test_split(x_smoker, y, test_size=0.2, random_state=42)

# 9.  Modelagem - Criando um modelo preditivo com duas variaveis a primeira bmi e a segunda smoker

In [66]:
model_bmi_smoker = LinearRegression()  # O modelo é treinado novamente

In [67]:
model_bmi_smoker.fit(x_train, y_train)  # O modelo é treinado novamente, agora com duas variáveis preditoras.

In [68]:
y_pred_smoker = model_bmi_smoker.predict(x_test_smoker)  # O modelo faz previsões no conjunto de teste.

In [69]:
y_pred_smoker

array([ 64.31825932,  83.59138034, 303.21253119,  66.58568532,
       323.24146088, 134.82725212,  53.73693798, 114.95744005,
        32.95219962,  78.30071967, 293.3273494 ,  85.85880635,
        81.88086599, 364.73137879, 359.04292408, 351.16660217,
       133.95210525, 341.97755995,  75.75483784, 303.21253119,
        59.24638537,  93.85446646,  85.10299768, 122.51552672,
        76.03329367,  94.17270169, 103.79931735,  85.10299768,
        69.98682433,  84.06873319,  80.72726329,  90.77156269,
       102.88439107,  43.53352096,  83.51182154, 122.51552672,
        69.19123626,  83.1140275 , 292.25330551, 336.28910524,
        77.94270504,  88.88204102, 106.5838756 ,  65.45197232,
       106.38497858,  73.56697065,  97.95174503,  60.83756151,
       339.35211932, 116.88674112, 108.57284578,  81.00571911,
       128.9399004 ,  68.09730266, 101.13409731,  91.90527569,
        65.45197232, 333.06697356,  95.84343664,  96.44012769,
        90.67211418, 135.702399  , 107.77725771,  63.56

# 10. Avaliação com a nova variavel smoker

In [70]:
mae2 = mean_absolute_error(y_test_smoker, y_pred_smoker)
mse2 = mean_squared_error(y_test_smoker, y_pred_smoker)

In [71]:
mse2

4788.794085942351

In [72]:
mae2

54.949522446926565

## Conclusão

Neste projeto, desenvolvemos um modelo de regressão linear para prever o custo do seguro saúde com base em variáveis como o Índice de Massa Corporal (IMC) e o hábito de fumar. Inicialmente, utilizamos apenas o IMC como preditor, mas ao incluir a variável smoker, observamos uma melhoria significativa no desempenho do modelo.

A inclusão do smoker resultou em uma redução tanto no Mean Absolute Error (MAE) quanto no Mean Squared Error (MSE), indicando previsões mais precisas e um melhor ajuste aos dados. Essa melhoria reforça a importância de considerar múltiplos fatores ao modelar problemas complexos como o custo do seguro saúde.


Com a conclusão desta etapa, estamos agora prontos para explorar um novo modelo utilizando o algoritmo K-Nearest Neighbors (KNN). O objetivo é comparar o desempenho do KNN com o da regressão linear e determinar qual abordagem oferece melhores previsões para este conjunto de dados.

