<a href="https://colab.research.google.com/github/gcoelho3008/analise_diabetes/blob/main/modelo_diabetes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
! mkdir dados

In [None]:
!mv *.csv dados/

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# carregar arquivo para dataframe
df_exames = pd.read_csv('dados/exame_diabetes.csv')


In [None]:
#visualizar estrutura
df_exames.info()

In [None]:
# Apresentar as 10 primeiras linhas
df_exames.head(10)

In [None]:
# Remover coluna id_paciente
df_exames.drop(columns=['id_paciente'], axis=1, inplace=True)

In [None]:
# converter uma variável categórica em numérica usando one hot enconding
df_exames = pd.get_dummies(df_exames, columns=['genero'], dtype='int64')

In [None]:
df_exames.head(10)

In [None]:
# Apresentar Mapa de Calor com correlação entre variáveis
sns.heatmap(df_exames.corr(), vmin=-1, vmax=1, annot=True)

In [None]:
# Mapa de correlação só com a variável target (reultado)
sns.heatmap(df_exames.corr()[['resultado']].sort_values(by='resultado', ascending=False), vmin=-1, vmax=1, annot=True)


In [None]:
# Plot de Sccatter (Dispersão) com Distribuição
pd.plotting.scatter_matrix(df_exames, alpha=0.2, figsize=(6,6), diagonal='kde')

In [None]:
df_exames.hist(layout=(2,4), figsize=(10,5))

In [None]:
# Criar feature IMC
df_exames['imc'] = (df_exames['peso'] / ((df_exames['altura']/100)**2))
#

In [None]:
df_exames.head(10)


In [None]:
df_exames.info()

In [None]:
# importar bibliotecas
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

In [None]:
# modelo 1 sem IMC
X = df_exames.drop(columns=['resultado', 'imc'])
y = df_exames['resultado']

In [None]:
# dividir conjunto treino x teste
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=51)

In [None]:
# Treinar o algoritmo de regressão linear - Modelo 1
model_1 = LinearRegression().fit(X_train, y_train)

In [None]:
# Gerar predições do conjunto de testes com base no modelo 1
y_pred = model_1.predict(X_test)

In [None]:
# Equação da reta y = ax + b
model_1.coef_

In [None]:
# Valor de b coeficiente
model_1.intercept_

In [None]:
# R2 score conjunto de treinamento
model_1.score(X_train, y_train)

In [None]:
# R2 score conjunto de testes
model_1.score(X_test, y_test)

In [None]:
# R2 score Testes
r2_score(y_test, y_pred)

In [None]:
# MAE (erro médio absoluto)
mean_absolute_error(y_test, y_pred)

In [None]:
# segundo modelo = apenas IMC
X = pd.DataFrame(df_exames['imc'])
y = df_exames['resultado']

In [None]:
# Dividir conjunto entre treino e teste
X_train, X_test, y_train, y_test = train_test = train_test_split(X, y, train_size=0.7, random_state=51)

In [None]:
# Treinar o algoritmo de Regressão Linear = Modelo 2
model_2 = LinearRegression().fit(X_train, y_train)

In [None]:
y_pred = model_2.predict(X_test)

In [None]:
model_2.coef_

In [None]:
model_2.intercept_

In [None]:
# R2 score no conjunto de treinamento
model_2.score(X_train, y_train)

In [None]:
# R2 score no conjunto de test
model_2.score(X_test, y_test)

In [None]:
# Mae (Mean absolute error)
mean_absolute_error(y_test, y_pred)

In [None]:
# Mostrar como a reta foi calculada
plt.scatter(X_test, y_test)
plt.plot(X_test, y_pred, color='k')