# **Notebook de Análise de Dados de Saúde**
**SEU NOME:** Felipe Rubens de Sousa Borges

Fonte dos dados: https://www.kaggle.com/datasets/mirichoi0218/insurance

In [None]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as pl
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')


# **Atividade Prática:**


1.   Você deve encontrar as celulas de texto que solicitem a explicação da célula ou conjunto de células logo abaixo delas e fazer uma explicação sucinta daquele trecho de código. Você pode fazer um comentário nas celulas principais.
2.   Você deve corrigir os erros nas células que apresentaram erros. Utilize o "Explain Error"





🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> Importam o csv e verificam se existem dados nulos em alguma coluna



In [None]:
# Importa csv
data = pd.read_csv("insurance.csv")
data.head()

In [None]:
# verifica se tem dados vazios (null)
data.isnull().sum()

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira célula converte dados categóricos em números inteiros e a segunda lê os dados.



In [None]:
from sklearn.preprocessing import LabelEncoder

#sex
le = LabelEncoder()
le.fit(data.sex.drop_duplicates())
data.sex = le.transform(data.sex)

#smoker or not
le.fit(data.smoker.drop_duplicates())
data.smoker = le.transform(data.smoker)

#Region
le.fit(data.region.drop_duplicates())
data.region = le.transform(data.region)



In [None]:
data.head()

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira célula ordena a correlação entre todos os dados das colunas em relação a 'charges' e a segunda cria um mapa de calor para essa correlação.



In [None]:
data.corr()['charges'].sort_values()

In [None]:
corr = data.corr()
mask = np.zeros_like(corr, dtype=bool)
f, ax = pl.subplots(figsize=(10, 8))
sns.heatmap(corr, mask=mask, cmap=sns.diverging_palette(240,10,as_cmap=True),
            square=True, ax=ax)

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira cria um histograma com os dados contidos em 'charges'. O segundo cria dois gráficos usando a distribuição de 'charges' para 'smokers' e 'non-smokers'. E o terciro cria um gráfico que mostra a distribuição de fumantes e não fumantes, divididos por sexo.



In [None]:
from bokeh.io import output_notebook, show
from bokeh.plotting import figure
output_notebook()
import scipy.special
from bokeh.layouts import gridplot
from bokeh.plotting import figure, show, output_file
p = figure(title="Distribution of charges",tools="save",
            background_fill_color="#E8DDCB")
hist, edges = np.histogram(data.charges)
p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
        fill_color="#036564", line_color="#033649")
p.xaxis.axis_label = 'x'
p.yaxis.axis_label = 'Pr(x)'

show(gridplot([p],ncols = 2, width=400, height=400, toolbar_location=None))

In [None]:
f= pl.figure(figsize=(12,5))

ax=f.add_subplot(121)
sns.distplot(data[(data.smoker == 1)]["charges"],color='c',ax=ax)
ax.set_title('Distribution of charges for smokers')

ax=f.add_subplot(122)
sns.distplot(data[(data.smoker == 0)]['charges'],color='b',ax=ax)
ax.set_title('Distribution of charges for non-smokers')

In [None]:
sns.catplot(x="smoker", kind="count",hue = 'sex', palette="pink", data=data)

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira célula, o gráfico  compara os custos, os custos médicos para mulheres fumantes tendem a ser mais altos e mais variáveis em comparação com as não fumantes.

> A segunda célula,o gráfico compara os custos médicos para fumantes tendem a ser mais altos em comparação com os não fumantes.

> A terceira célula faz uma distriuiçao por idade e mostra um pico de custos nos 20 anos.

>A quarta célula mostra o número de fumantes e não fumantes com 18 anos, diferenciados por sexo, e tem mais mulheres do que homens.

> A quinta celula mostra um gráfico cujo os custos médicos variam entre fumantes e não fumantes de 18 anos. Os fumantes tendem a ter uma maior dispersão nos custos associados aos cuidados médicos.



In [None]:
pl.figure(figsize=(12,5))
pl.title("Box plot for charges of women")
sns.boxplot(y="smoker", x="charges", data =  data[(data.sex == 1)] , orient="h", palette = 'magma')

In [None]:
pl.figure(figsize=(12,5))
pl.title("Box plot for charges of men")
sns.boxplot(y="smoker", x="charges", data =  data[(data.sex == 0)] , orient="h", palette = 'rainbow')

In [None]:
pl.figure(figsize=(12,5))
pl.title("Distribution of age")
ax = sns.distplot(data["age"], color = 'g')

In [None]:
sns.catplot(x="smoker", kind="count",hue = 'sex', palette="rainbow", data=data[(data.age == 18)])
pl.title("The number of smokers and non-smokers (18 years old)")

In [None]:
pl.figure(figsize=(12,5))
pl.title("Box plot for charges 18 years old smokers")
sns.boxplot(y="smoker", x="charges", data = data[(data.age == 18)] , orient="h", palette = 'pink')

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira célula mostra o gráfico que representa a distribuição de custos médicos e idade para não fumantes. A maior concentração de pontos de dados parece estar no centro do gráfico, sugerindo que a maioria dos custos para não fumantes está dentro dessa faixa.

> A segunda célula mostra o gráfico que representa a distribuição de custos e idades para fumantes. os dados mostram que fumantes mais velhos tendem a ter custos mais elevados relacionados à saúde

> A terceira célula o grafico mostra uma relaçao entre os dados da idade e dos fumantes em questao dos custos medicos

> A quarta célula o gráfico mostra que fumar está associado a custos médicos mais elevados e que a idade também desempenha um papel importante nas despesas médicas.



In [None]:
g = sns.jointplot(x="age", y="charges", data = data[(data.smoker == 0)],kind="kde", color="m")
g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0)
g.set_axis_labels("$X$", "$Y$")
ax.set_title('Distribution of charges and age for non-smokers')

In [None]:
g = sns.jointplot(x="age", y="charges", data = data[(data.smoker == 1)],kind="kde", color="c")
g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0)
g.set_axis_labels("$X$", "$Y$")
ax.set_title('Distribution of charges and age for smokers')

In [None]:
#non - smokers
p = figure(width=500, height=450)
p.circle(x=data[(data.smoker == 0)].age,y=data[(data.smoker == 0)].charges, size=7, line_color="navy", fill_color="pink", fill_alpha=0.9)

show(p)

In [None]:
#smokers
p = figure(width=500, height=450)
p.circle(x=data[(data.smoker == 1)].age,y=data[(data.smoker == 1)].charges, size=7, line_color="navy", fill_color="red", fill_alpha=0.9)
show(p)

In [None]:
sns.lmplot(x="age", y="charges", hue="smoker", data=data, palette = 'inferno_r', height = 7)
ax.set_title('Smokers and non-smokers')

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> A primeira célula mostra um gráfico cujo a maior densidade dos idividos tem um IMC de 30 que é na faixa da obesidade.

> A segunda célula mostra um gráfico cujo as despesas associadas ao tratamento de condições relacionadas ao IMC elevado, muitos pacientes enfrentam custos relativamente baixos.

> A terceira célula mostra um gráfico cujo os pacientes com o IMC abaixo de 30, tem menos despesas.

> A quarta célula mostra um gráfico cujo os pacientes com IMC mais alto tendem a ter despesas médicas mais elevadas.

> A quinta célula mostra um gráfico cujo quem tem o IMC mais alto e é fumante tem despesas medicas maiores.

> A sexta célula mostra um gráfico cujo a maioria das observações na amostra de dados pertence a indivíduos sem filhos, e a contagem diminui à medida que o número de filhos aumenta.

> A sétima célula mostra um gráfico que visualiza a distribuição e prevalência dos hábitos de fumar entre os pais. É interessante observar como os não fumantes superam os fumantes em ambos os sexos.

In [None]:
pl.figure(figsize=(12,5))
pl.title("Distribution of bmi")
ax = sns.distplot(data["bmi"], color = 'm')

In [None]:
pl.figure(figsize=(12,5))
pl.title("Distribution of charges for patients with BMI greater than 30")
ax = sns.distplot(data[(data.bmi >= 30)]['charges'], color = 'm')

In [None]:
pl.figure(figsize=(12,5))
pl.title("Distribution of charges for patients with BMI less than 30")
ax = sns.distplot(data[(data.bmi < 30)]['charges'], color = 'b')

In [None]:
g = sns.jointplot(x="bmi", y="charges", data = data,kind="kde", color="r")
g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0)
g.set_axis_labels("$X$", "$Y$")
ax.set_title('Distribution of bmi and charges')

In [None]:
pl.figure(figsize=(10,6))
ax = sns.scatterplot(x='bmi',y='charges',data=data,palette='magma',hue='smoker')
ax.set_title('Scatter plot of charges and bmi')

sns.lmplot(x="bmi", y="charges", hue="smoker", data=data, palette = 'magma', height = 8)

In [None]:
sns.catplot(x="children", kind="count", palette="ch:.25", data=data, height = 6)

In [None]:
sns.catplot(x="smoker", kind="count", palette="rainbow",hue = "sex",
            data=data[(data.children > 0)], height = 6)
ax.set_title('Smokers and non-smokers who have childrens')

# ⏺⏺⏺⏺⏺ **INÍCIO MACHINE LEARNING** ⏺⏺⏺⏺⏺

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> As células realizam o treinamento e avaliação de um modelo de regressão linear, calcula e imprime o coeficiente de determinação (R²) do modelo com base nos dados de teste usando o método 'score'.



In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score,mean_squared_error
from sklearn.ensemble import RandomForestRegressor

In [None]:
x = data.drop(['charges'], axis = 1)
y = data.charges

x_train,x_test,y_train,y_test = train_test_split(x,y, random_state = 0)
lr = LinearRegression().fit(x_train,y_train)

y_train_pred = lr.predict(x_train)
y_test_pred = lr.predict(x_test)

print(lr.score(x_test,y_test))

🟩🟩🟩 ❗**O que as células seguintes fazem:**❓🟩🟩🟩

> Na primeira célula ocódigo cria e treina um modelo de regressão linear que considera não apenas as features originais, mas também as combinações polinomiais de grau 2 dessas features. Isso pode ajudar o modelo a capturar relações não lineares entre as features e a variável dependente.

> Nas outras células o código faz uma estimativa prever os custos usando os dois modelos diferentes e avalia seu desempenho. O gráfico mostra o quão bem as previsões do modelo de Floresta Aleatória se alinham com os pontos de dados reais.



In [None]:
X = data.drop(['charges','region'], axis = 1)
Y = data.charges



quad = PolynomialFeatures (degree = 2)
x_quad = quad.fit_transform(X)

X_train,X_test,Y_train,Y_test = train_test_split(x_quad,Y, random_state = 0)

plr = LinearRegression().fit(X_train,Y_train)

Y_train_pred = plr.predict(X_train)
Y_test_pred = plr.predict(X_test)

print(plr.score(X_test,Y_test))

0.8849197344147227


In [None]:
forest = RandomForestRegressor(n_estimators = 100,
                              criterion = 'squared_error',
                              random_state = 1,
                              n_jobs = -1)
forest.fit(x_train,y_train)
forest_train_pred = forest.predict(x_train)
forest_test_pred = forest.predict(x_test)

print('MSE train data: %.3f, MSE test data: %.3f' % (
mean_squared_error(y_train,forest_train_pred),
mean_squared_error(y_test,forest_test_pred)))
print('R2 train data: %.3f, R2 test data: %.3f' % (
r2_score(y_train,forest_train_pred),
r2_score(y_test,forest_test_pred)))

MSE train data: 3746684.434, MSE test data: 19965476.411
R2 train data: 0.974, R2 test data: 0.873


In [None]:
pl.figure(figsize=(10,6))

pl.scatter(forest_train_pred,forest_train_pred - y_train,
          c = 'black', marker = 'o', s = 35, alpha = 0.5,
          label = 'Train data')
pl.scatter(forest_test_pred,forest_test_pred - y_test,
          c = 'c', marker = 'o', s = 35, alpha = 0.7,
          label = 'Test data')
pl.xlabel('Predicted values')
pl.ylabel('Tailings')
pl.legend(loc = 'upper left')
pl.hlines(y = 0, xmin = 0, xmax = 60000, lw = 2, color = 'red')
pl.show()