##### Um laboratório de análises clínicas que deseja prever os resultados de exames de diabetes com base em características dos pacientes,como idade, peso e altura. Para isso, vamos coletar dados de exames já realizados, onde temos as características dos pacientes e os resultados obtidos. Com esses dados, vamos treinar um algoritmo supervisionado para criar um modelo preditivo. A partir daí, poderemos usar esse modelo para prever os resultados de novos pacientes. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df_exames = pd.read_csv('./datasets/exame_diabetes.csv')
df_exames

In [None]:
# Remover coluna id_paciente
df_exames.drop(columns=['id_paciente'], axis=1, inplace=True)

# Converter uma variável categorica (genero) em numérica usando One-Hot Encoding
df_exames = pd.get_dummies(df_exames,columns=['genero'], dtype='int64')

df_exames.info()

In [None]:
# Apresentar mapa de calor com correlação entre variáveis
sns.heatmap(df_exames.corr(), vmin=-1, vmax=1, annot=True)

In [None]:
# Mapa de correlação só com a variável target (resultado)
sns.heatmap(df_exames.corr()[['resultado']].sort_values(by='resultado', ascending=False), vmin=-1, vmax=1, annot=True, cmap='BrBG')

In [None]:
# Plot de Scatter (dispersão) com correlação
pd.plotting.scatter_matrix(df_exames, alpha=0.2, figsize=(6,6), diagonal='kde')

In [None]:
# Histograma de todas as variáveis
df_exames.hist(layout=(2,3), figsize=(10,5))

In [None]:
# Criar uma feature nova
# IMC (Índice de massa corporal)
# IMC = peso (kg) / altura² (m)
df_exames['imc'] = (df_exames['peso'] / ((df_exames['altura']/100))**2)

In [None]:
df_exames.head(10)

In [None]:
df_exames.info()

In [None]:
# Apresentar mapa de calor com correlação entre variáveis
sns.heatmap(df_exames.corr(), vmin=-1, vmax=1, annot=True)

In [None]:
# Mapa de correlação só com a variável target (resultado)
sns.heatmap(df_exames.corr()[['resultado']].sort_values(by='resultado', ascending=False), vmin=-1, vmax=1, annot=True, cmap='BrBG')

In [None]:
# Plot de Scatter (dispersão) com correlação
pd.plotting.scatter_matrix(df_exames, alpha=0.2, figsize=(6,6), diagonal='kde')

In [None]:
# Histograma de todas as variáveis
df_exames.hist(layout=(2,4), figsize=(10,5))

In [None]:
dict_regressao = {'tempo_casa': [1,3,6,9,10,14,18], 'salario': [1500, 3000, 4500, 6000, 7000, 8500, 10000]}
df_regressao_simples = pd.DataFrame.from_dict(dict_regressao)

In [None]:
sns.regplot(data=df_regressao_simples, x='tempo_casa', y='salario')

In [None]:
# importar bibliotecas do sklearrn
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

In [None]:
# Modelo 1 - Sem IMC
x = df_exames.drop(columns=['imc', 'resultado'])
y = df_exames['resultado']

In [None]:
# Dividir conjunto entre treino e teste
X_train, X_test, Y_train, y_test = train_test_split(x,y, train_size=0.7, random_state=51)

In [None]:
y_test

In [None]:
# Treinar o algoritmo de Regressão Linear - Modelo 1
model_1 = LinearRegression().fit(X_train, Y_train)

In [None]:
# Gerar predições do conjunto de testes com base no Modelo 1
y_pred = model_1.predict(X_test)

In [None]:
model_1.coef_

In [None]:
model_1.intercept_

In [None]:
# R2 Score - Conjunto de Treinamento
model_1.score(X_train,Y_train)

In [None]:
# R2 Score - Conjunto de teste
model_1.score(X_test,y_test)

In [None]:
# R2 Score
r2_score(y_test, y_pred)

In [None]:
# MAE (Mean absolut error)
mean_absolute_error(y_test, y_pred)

In [None]:
# Segundo Modelo - Apenas IMC
x = pd.DataFrame(df_exames['imc'])
y = df_exames['resultado']
X_train, X_test, Y_train, y_test = train_test_split(x,y,train_size=0.7, random_state=51)

In [None]:
# Treinar novo modelo
modelo_2 = LinearRegression().fit(X_train,Y_train)

In [None]:
# Gerar predição com base no modelo para o conjunto de tests
y_pred = modelo_2.predict(X_test)

In [None]:
modelo_2.coef_

In [None]:
modelo_2.intercept_

In [None]:
# R2 score no Conjunto de treinamento
modelo_2.score(X_train, Y_train)

In [None]:
# R2 Score no Conjunto de Testes
modelo_2.score(X_test, y_test)

In [None]:
# MAE (Mean Absolut Error)
mean_absolute_error(y_test, y_pred)

In [None]:
# Mostrar como a reta foi calculada
plt.scatter(X_test, y_test, color='g')
plt.plot(X_test, y_pred, color='k')