#PREVENDO O CUSTO PARA UMA SEGURADORA

O código abaixo tem como objetivo criar um modelo de predição de custo de um seguro a partir da base de dados *insurance*. Para isso, será feito a limpeza e tratamento dos dados, teste de varios tipos de modelo para identificar o que melhor performa dentro das métricas estabelecidas e, finalmente, o modelo escolhido será otimizado com o tunning de seus hiperparâmetros.

In [22]:
#Importando bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

In [14]:
df = pd.read_excel("insurance.xlsx")
df.head()

Unnamed: 0,idade,sexo,imc,quantidade_filhos,fumante,regiao,custos_seguro
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.56,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [15]:
# Checando qual o tipo dos dados e a existencia de valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1341 entries, 0 to 1340
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   idade              1341 non-null   int64  
 1   sexo               1338 non-null   object 
 2   imc                1341 non-null   float64
 3   quantidade_filhos  1341 non-null   int64  
 4   fumante            1341 non-null   object 
 5   regiao             1341 non-null   object 
 6   custos_seguro      1341 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.5+ KB


In [16]:
# Excluindo os três valores nulos
df.dropna(inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1338 entries, 0 to 1340
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   idade              1338 non-null   int64  
 1   sexo               1338 non-null   object 
 2   imc                1338 non-null   float64
 3   quantidade_filhos  1338 non-null   int64  
 4   fumante            1338 non-null   object 
 5   regiao             1338 non-null   object 
 6   custos_seguro      1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 83.6+ KB


In [17]:
df.describe()

Unnamed: 0,idade,imc,quantidade_filhos,custos_seguro
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663815,1.094918,13270.422265
std,14.04996,6.098367,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [28]:
# Tratando variáveis categóricas

# Utilizando o LabelEncoder() para as categorias binárias (sexo e fumante)
le = LabelEncoder()

le.fit(df.sexo)
df.sexo = le.transform(df.sexo)

le.fit(df.fumante)
df.fumante = le.transform(df.fumante)

# Utilizando o método get_dummies para a variável regiao, visto que ela tem mais de dois valores distintos e não queremos assumir nenhuma relação ordinal entre os números que representam as regiões
df = pd.get_dummies(df)

In [29]:
df

Unnamed: 0,idade,sexo,imc,quantidade_filhos,fumante,custos_seguro,regiao_northeast,regiao_northwest,regiao_southeast,regiao_southwest
0,19,0,27.900,0,1,16884.92400,0,0,0,1
1,18,1,33.770,1,0,1725.55230,0,0,1,0
2,28,1,33.560,3,0,4449.46200,0,0,1,0
3,33,1,22.705,0,0,21984.47061,0,1,0,0
4,32,1,28.880,0,0,3866.85520,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...
1336,50,1,30.970,3,0,10600.54830,0,1,0,0
1337,18,0,31.920,0,0,2205.98080,1,0,0,0
1338,18,0,36.850,0,0,1629.83350,0,0,1,0
1339,21,0,25.800,0,0,2007.94500,0,0,0,1
