<a href="https://colab.research.google.com/github/chrispinheiro/tech-challenge/blob/main/TechChallengeV6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import statsmodels.api as sm
import numpy as np

In [2]:
dataset = pd.read_csv("insurance.csv")

#Conhecendo os dados

In [3]:
dataset.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [4]:
#Dimensão da base de dados
dataset.shape

(1338, 7)

In [None]:
#Verifica a existência de valores nulos
dataset.isnull().sum()

In [None]:
#Volume e informações sobre as colunas
dataset.info()

In [None]:
#estatística descritiva
dataset.describe()

In [None]:
#histogramas (apenas dados numéricos)
%matplotlib inline
import matplotlib.pyplot as plt
dataset.hist(bins=50, figsize=(20,15))

#Analisar a amplitude dos dados (Boxplot)

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.boxplot(dataset['age'])
plt.title('Age')
plt.ylabel('Valores')
plt.show()

In [None]:
print(dataset['age'].min())
print(dataset['age'].max())

In [None]:
plt.boxplot(dataset['bmi'])
plt.title('IMC')
plt.ylabel('Valores')
plt.show()

In [None]:
print(dataset['bmi'].min())
print(dataset['bmi'].max())

In [None]:
plt.boxplot(dataset['children'])
plt.title('Filhos')
plt.ylabel('Valores')
plt.show()

In [None]:
print(dataset['children'].min())
print(dataset['children'].max())

In [None]:
plt.boxplot(dataset['charges'])
plt.title('Encargos')
plt.ylabel('Valores')
plt.show()

In [None]:
print(dataset['charges'].min())
print(dataset['charges'].max())

# Ajustar e transformar os rótulos

In [8]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

dataset['sex'] = label_encoder.fit_transform(dataset['sex'])
dataset['smoker'] = label_encoder.fit_transform(dataset['smoker'])
dataset['region'] = label_encoder.fit_transform(dataset['region'])

dataset.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,0,27.9,0,1,3,16884.924
1,18,1,33.77,1,0,2,1725.5523
2,28,1,33.0,3,0,2,4449.462
3,33,1,22.705,0,0,1,21984.47061
4,32,1,28.88,0,0,1,3866.8552


#Separar base em treino e teste

In [9]:
#Separando as bases de treino e teste
from sklearn.model_selection import train_test_split

X = dataset.drop('charges', axis=1)
y = dataset['charges']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Previsão usando Random Forest Regressor

In [14]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [11]:
#Criando e treinando o modelo
randomforest = RandomForestRegressor()
randomforest.fit(X_train, y_train)

In [12]:
#Fazendo previsões no conjunto de testes
pred_randomforest = randomforest.predict(X_test)

In [15]:
#r2_randomforest = metrics.r2_score(y_test, pred_randomforest)
r2_randomforest = r2_score(y_test, pred_randomforest)
print('r2:', r2_randomforest)

r2: 0.8654911701954733



#Previsão usando Feature Scalling

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
scaler = StandardScaler()

scaler.fit(X_train)

X_train_standard_scaled = scaler.transform(X_train)
X_test_standard_scaled = scaler.transform(X_test)

In [None]:
scaler = MinMaxScaler()

scaler.fit(X_train)

X_train_minmax_scaled = scaler.transform(X_train)
X_test_minmax_scaled = scaler.transform(X_test)

In [None]:
#Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

#Fazendo previsões no conjunto de testes
y_pred = modelo.predict(X_test)

In [None]:
#Avaliando o desempenho do modelo
erro_medio_quadratico = mean_squared_error(y_test, y_pred)
erro_absoluto_medio = mean_absolute_error(y_test, y_pred)
r_quadrado = r2_score(y_test, y_pred)

print(f'Erro Médio Quadrático: {erro_medio_quadratico}')
print(f'Erro Absoluto Médio: {erro_absoluto_medio}')
print(f'R² (coeficiente de determinação): {r_quadrado}')

Erro Médio Quadrático: 33635210.431178406
Erro Absoluto Médio: 4186.508898366433
R² (coeficiente de determinação): 0.7833463107364539


In [None]:
#Normalização
modelo.fit(X_train_standard_scaled, y_train)

y_pred_standard = modelo.predict(X_test_standard_scaled)

In [None]:
erro_medio_quadratico = mean_squared_error(y_test, y_pred_standard)
erro_absoluto_medio = mean_absolute_error(y_test, y_pred_standard)
r_quadrado = r2_score(y_test, y_pred_standard)

print(f'Erro Médio Quadrático: {erro_medio_quadratico}')
print(f'Erro Absoluto Médio: {erro_absoluto_medio}')
print(f'R² (coeficiente de determinação): {r_quadrado}')

Erro Médio Quadrático: 33635210.43117845
Erro Absoluto Médio: 4186.508898366436
R² (coeficiente de determinação): 0.7833463107364536


In [None]:
#MinMax
modelo.fit(X_train_minmax_scaled, y_train)

y_pred_minmax = modelo.predict(X_test_minmax_scaled)

In [None]:
erro_medio_quadratico = mean_squared_error(y_test, y_pred_minmax)
erro_absoluto_medio = mean_absolute_error(y_test, y_pred_minmax)
r_quadrado = r2_score(y_test, y_pred_minmax)

print(f'Erro Médio Quadrático: {erro_medio_quadratico}')
print(f'Erro Absoluto Médio: {erro_absoluto_medio}')
print(f'R² (coeficiente de determinação): {r_quadrado}')

Erro Médio Quadrático: 33635210.431178406
Erro Absoluto Médio: 4186.508898366433
R² (coeficiente de determinação): 0.7833463107364539


In [None]:
#Robust
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()

scaler.fit(X_train)

X_train_robust_scaled = scaler.transform(X_train)
X_test_robust_scaled = scaler.transform(X_test)


modelo.fit(X_train_robust_scaled, y_train)

y_pred_robust = modelo.predict(X_test_robust_scaled)


erro_medio_quadratico = mean_squared_error(y_test, y_pred_robust)
erro_absoluto_medio = mean_absolute_error(y_test, y_pred_robust)
r_quadrado = r2_score(y_test, y_pred_robust)

print(f'Erro Médio Quadrático: {erro_medio_quadratico}')
print(f'Erro Absoluto Médio: {erro_absoluto_medio}')
print(f'R² (coeficiente de determinação): {r_quadrado}')

Erro Médio Quadrático: 33635210.43117842
Erro Absoluto Médio: 4186.508898366433
R² (coeficiente de determinação): 0.7833463107364538
