1 - Importação de Bibliotecas e exploração dos dados

In [1]:
#Importando as bibliotecas necessarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
#Carregando os dados pra uma variável 
train_data = pd.read_csv('train_Data.csv')

#Primeiras 5 linhas:
train_data.head()


Unnamed: 0,age,sex,bmi,smoker,region,children,charges
0,21.0,male,25.745,no,northeast,2,3279.86855
1,36.976978,female,25.744165,yes,southeast,3,21454.494239
2,18.0,male,30.03,no,southeast,1,1720.3537
3,37.0,male,30.676891,no,northeast,3,6801.437542
4,58.0,male,32.01,no,southeast,1,11946.6259


In [8]:
#Aqui descobrimos as proporções do dataset
train_data.shape
#3630 linhas e 7 colunas

(3630, 7)

In [10]:
#Checando valores NaN (Valores faltantes/ Não conhecidos)
train_data.isnull().sum()

age         0
sex         0
bmi         0
smoker      0
region      0
children    0
charges     0
dtype: int64

In [11]:
#Insights do dataset
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3630 entries, 0 to 3629
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       3630 non-null   float64
 1   sex       3630 non-null   object 
 2   bmi       3630 non-null   float64
 3   smoker    3630 non-null   object 
 4   region    3630 non-null   object 
 5   children  3630 non-null   int64  
 6   charges   3630 non-null   float64
dtypes: float64(3), int64(1), object(3)
memory usage: 198.6+ KB


In [12]:
#Descrição do dataset (numérico)
train_data.describe()

Unnamed: 0,age,bmi,children,charges
count,3630.0,3630.0,3630.0,3630.0
mean,38.887036,30.629652,2.503581,12784.808644
std,12.151029,5.441307,1.712568,10746.166743
min,18.0,15.96,0.0,1121.8739
25%,29.0,26.694526,1.0,5654.818262
50%,39.170922,30.2,3.0,9443.807222
75%,48.343281,34.1,4.0,14680.407505
max,64.0,53.13,5.0,63770.42801


In [13]:
#Descrição dos elementos categóricos do dataset 
train_data.describe(include=['O'])
#Como mostrado na célula anterior, a função describe() mostra por padrão as colunas numéricas. Precisamos usar o include nesse formato para mostrar exclusivamente as colunas com informações categóricas do dataset

Unnamed: 0,sex,smoker,region
count,3630,3630,3630
unique,2,2,4
top,male,no,southeast
freq,2029,3070,1021


2 - Pré-processamento dos dados

In [37]:
#Arredondar a variável AGE(idade)
train_data['age'] = round(train_data['age'])
train_data.head(3)

Unnamed: 0,age,sex,bmi,smoker,region,children,charges
0,21.0,male,25.745,no,northeast,2,3279.86855
1,37.0,female,25.744165,yes,southeast,3,21454.494239
2,18.0,male,30.03,no,southeast,1,1720.3537


In [45]:
# OHEnconding/One Hot Encoding = Transformar as varíveis categóricas em binárias para que se tornem mais expressivas e possibilitem o trabalho de machinelearning em cima
train_data = pd.get_dummies(train_data, drop_first= True)
#Como o drop_first funciona com um exemplo: no exemplo do fumante naturalmente ele criaria duas colunas uma que o valor é 1 quando vc fuma e outra coluna que o valor é 1 quando vc n fuma. Mas o drop_first exclui a coluna com menor frequencia justamente por ser intriseco o fato de que, ou vc fuma ou vc n fuma. Uma coluna responderia isso com facilidade, como é o caso. Na coluna smoker_yes se a resposta é 0 a pessoa não fuma e se a resposta é 1 a pessoa fuma.

In [46]:
#As colunas do dataset
train_data.columns

Index(['age', 'bmi', 'children', 'charges', 'sex_male', 'smoker_yes',
       'region_northwest', 'region_southeast', 'region_southwest'],
      dtype='object')

In [55]:
#Vamos rearranjar as colunas para organização
train_data = train_data[['age','sex_male','smoker_yes','bmi','children','region_northwest','region_southeast','region_southwest','charges']]

In [56]:
#Dividindo as variaveis dependentes e independentes/ preditivas e de resultado
x = train_data.iloc[:, :-1]
y = train_data.iloc[:, -1]
#Agora as variávei que medem o resultado estão em x e a que queremos prever estão em y
#Lembrando que o iloc busca pela posição do index não pelo rótulo

In [120]:
#Train Test split / Hold-out
#Técnica de validação

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(x,y, train_size= 0.32, random_state= 3)



3 - Construção e Avaliação da Máquina Preditiva

In [80]:
#Importando as métricas de avaliação, cujo valor reflete na qualidade do modelo preditivo
from sklearn.metrics import mean_squared_error, r2_score

In [121]:
# Regressão Linear 
from sklearn.linear_model import LinearRegression
LinearRegression = LinearRegression()
LinearRegression = LinearRegression.fit(X_train, Y_train)

#Prevendo
Y_pred = LinearRegression.predict(X_test)

#Resultados 
print(r2_score(Y_test, Y_pred))
print(mean_squared_error(Y_test, Y_pred))

0.7271493924003576
32126961.397811193


In [126]:
#Random forest
from sklearn.ensemble import RandomForestRegressor
RandomForestRegressor = RandomForestRegressor()
RandomForestRegressor.fit(X_train, Y_train)

#Prevendo
Y_pred = RandomForestRegressor.predict(X_test)

#Pontuações 
print(r2_score(Y_test, Y_pred))
print(mean_squared_error(Y_test, Y_pred))


0.8843797783596743
13613773.596192595
