# MODELO PREDITIVO - DIABETES

# André Ricardo
*03-09-2020*

[www.andrericardo.com.br](https://www.andrericardo.com.br)

## Objetivo:

Estudo de caso da base de dados de diabetes para criar um modelo preditivo, afim de definir qual a probabilidade de ter ou não diabetes.

## Origem dos dados:

- Context:

This dataset is originally from the National Institute of Diabetes and Digestive and Kidney Diseases. The objective of the dataset is to diagnostically predict whether or not a patient has diabetes, based on certain diagnostic measurements included in the dataset. Several constraints were placed on the selection of these instances from a larger database. In particular, all patients here are females at least 21 years old of Pima Indian heritage.

- Content:

The datasets consists of several medical predictor variables and one target variable, Outcome. Predictor variables includes the number of pregnancies the patient has had, their BMI, insulin level, age, and so on.

- Acknowledgements:

Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications and Medical Care (pp. 261--265). IEEE Computer Society Press.

- Link original:
https://www.kaggle.com/uciml/pima-indians-diabetes-database

## Dicionário de dados:

- Pregnancies ( Number of times pregnant )
- Glucose ( Plasma glucose concentration a 2 hours in an oral glucose tolerance test)
- BloodPressure (Diastolic blood pressure (mm Hg))
- SkinThickness (Triceps skin fold thickness (mm))
- Insulin (2-Hour serum insulin (mu U/ml))
- BMI (Body mass index (weight in kg/(height in m)^2))
- DiabetesPedigreeFunction (Diabetes pedigree function)
- Age (Age (years))
- Outcome (Class variable (0 or 1) 268 of 768 are 1, the others are 0)

# Análise Exploratória de dados



---

## Import das bibliotecas

In [None]:
#import de bibliotecas
import  numpy as np
import pandas as pd

#graficos
import matplotlib.pyplot as plt
import seaborn as sns

#treino/teste
from sklearn.model_selection import train_test_split

#modelos
from sklearn.linear_model import LogisticRegression

#avaliar o modelo
from sklearn import metrics


## Conhecendo nossa base

In [None]:
#carregando os dados
dados = pd.read_csv('../input/pima-indians-diabetes-database/diabetes.csv')

## Visualizando as primeiras linhas

In [None]:
#visualizando as primeiras linhas
dados.head()

## Verificando o tamanho

In [None]:
#verificando o tamanho
dados.shape

Temos nesta base 768 registros com 9 colunas

## Colunas

In [None]:
#verificando as colunas
dados.columns

## Tipos de dados

In [None]:
#verificando o tipo de dados
dados.dtypes

## Inferência estatística

In [None]:
#veficando os dados estatisticos da base
dados.describe(include='all').T.round(2)

## Nulos

In [None]:
#verificando se temos dados nulos
dados.isna().sum()

## Informações da base

In [None]:
#outra forma de ver as informações
dados.info()

## Correlação

In [None]:
#verificando a correção em forma de tabela
dados.corr()

In [None]:
#verificando a correlação entre as variáveis de forma gráfica / visual
plt.figure(figsize=(15,10))
mascara=np.triu(np.ones(dados.corr().shape)).astype(np.bool)
sns.heatmap(dados.corr().round(2), annot=True, cmap="BuPu", mask = mascara)
plt.show()

## Variabilidade

In [None]:
#conhecendo a variabilidade das variaveis
dados.nunique()

## Conhecendo as variáveis, uma de cada vez...

In [None]:
#criando uma função para gerar os graficos
def f_grafico(df, coluna, target):
    #df
    dados=df
    
    #target
    #target='Outcome'
    target=target
    
    #coluna
    #coluna='Pregnancies'
    coluna=coluna

    #nome da analise
    analise=dados[coluna]
    #cria os graficos
    f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.20, .80)}, figsize=(15,5))
    #titulo do grafico
    f.suptitle(pd.DataFrame(analise).columns[0])
    #faz o grafico
    sns.boxplot(analise, ax=ax_box)
    sns.distplot(analise, ax=ax_hist, bins=3, color="g" )
    #remove o nome do grafico no boxplot
    ax_box.set(xlabel='')
    #exibe o grafico
    plt.show()
    #exibe tabela com os dados
    #pd.DataFrame(analise).describe().round(2).T

    plt.figure(figsize=(15, 10))
    #plt.title('Pregnancies', fontsize=20)
    #plt.title(pd.DataFrame(analise).columns[0], fontsize=20)
    #sns.distplot(dados["Pregnancies"]) #,  bins=20
    sns.distplot(analise)
    plt.show()
    #dados[["Pregnancies"]].describe().round(2).T

    g = sns.FacetGrid(dados, col=target,height=(5))
    g = g.map(sns.distplot, coluna, kde=False, color='c')

    #exibe tabela com os dados
    print(pd.DataFrame(analise).describe().round(2).T)

### Pregnancies

In [None]:
f_grafico(dados,'Pregnancies','Outcome')

### Glucose

In [None]:
f_grafico(dados,'Glucose','Outcome')

### BloodPressure

In [None]:
f_grafico(dados,'BloodPressure','Outcome')

### SkinThickness

In [None]:
f_grafico(dados,'SkinThickness','Outcome')

### Insulin

In [None]:
f_grafico(dados,'Insulin','Outcome')

### BMI

In [None]:
f_grafico(dados,'BMI','Outcome')

### DiabetesPedigreeFunction

In [None]:
f_grafico(dados,'DiabetesPedigreeFunction','Outcome')

### Age

In [None]:
f_grafico(dados,'Age','Outcome')

### Outcome

In [None]:
dados['total']=1
dados.groupby('Outcome', as_index=False)['total'].count()

In [None]:
dados['total']=1
x=dados.groupby('Outcome', as_index=False)['total'].count()
x['Outcome'].tolist()

In [None]:
dados['total']=1
x=dados.groupby('Outcome', as_index=False)['total'].count()
#x=dados.groupby('Outcome', as_index=False).count()
labels = x['Outcome'].tolist()
sizes = x['total'].tolist()

# Plot
plt.figure(figsize=(15,5))
plt.title('Outcome')
plt.pie(sizes, labels=labels, autopct='%1.0f%%', shadow=False, startangle=15)
plt.legend(labels, loc="best")
plt.axis('equal')
plt.show()

In [None]:
dados['total']=1
dados.groupby(by='Outcome')['total'].count().plot.bar()
plt.title('Outcome')
plt.show()
temp=dados.groupby('Outcome', as_index=False)['total'].count()
temp.rename(columns={'Outcome':'Quantidade'}, inplace=True)
temp['Percentual']=temp['total']/dados.shape[0]*100
temp

### Visão Geral

In [None]:
#Visualizando todos os graficos simultaneamente
plt.style.use('ggplot')
fig, ax = plt.subplots(figsize=(20, 10))

ax.set_facecolor('#fafafa')
#ax.set(xlim=(-10, 200))
plt.ylabel('Variaveis')
plt.title("Visão Geral")
ax = sns.boxplot(data = dados, 
  orient = 'h', 
  palette = 'Set2')

# Criando a Baseline

## Target

In [None]:
#definindo o target
target=dados['Outcome']

target

## Explicativas

In [None]:
explicativas=dados.drop('Outcome', axis=1)
explicativas

## Treino e Teste

In [None]:
#separando em treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(explicativas, target, test_size=0.3, random_state=42)

## Gerando o Modelo

In [None]:
#Criando o modelo de regressão logistica
modelo_log=LogisticRegression(random_state=42, max_iter=400) 

#o valore default para o max_iter é 100, mas para não gerar erro, alteramos para 400.

### Treinando

In [None]:
#treinando o modelo
modelo_log.fit(x_treino, y_treino)

### Predizendo

In [None]:
#criando as predições
predict_log=modelo_log.predict(x_teste)

### Avaliando o modelo

#### Matriz de Confusão

Tambem conhecida como matrix de erro, permite visualizar a performance de um algoritmo.
<br>
* Accuracy : (TP +TN) / (TP + TN + FP +FN)
* Precision : TP / (TP + FP)
* Recall : TP / (TP + FN)
* F1 score : 2 x ((Precision x Recall) / (Precision + Recall))



In [None]:
#criando a matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_teste, predict_log)
cm

In [None]:
#desenhando a matrix
plt.figure(figsize = (10, 6))
sns.heatmap(cm, annot = True, fmt='1.3g')
plt.xlabel("Valor Real")
plt.ylabel("Valor Predito")

##### Acuracia

Medida que diz o quanto o nosso modelo consegue acertar com base na nossa amostra(normalmente o teste).
<br>
Verdadeiros Positivos + Verdadeiros Negativos / TUDO !
<br>
<br>
(TP +TN) / (TP + TN + FP +FN)
<br><br>
*Accuracy = (True Positives + True Negatives)/(True Positives + False Positives + False Negatives + True Negatives)*

In [None]:
#acuracia
acuracia = round(metrics.accuracy_score(y_teste, predict_log)*100,2)
acuracia

###### ROC
Representação grafica da acuracia do modelo

In [None]:
fpr_logreg, tpr_logreg, thresholds_logreg = metrics.roc_curve(y_teste, predict_log)

plt.plot(fpr_logreg, tpr_logreg, label = 'ACC = %0.2f' % acuracia, color = 'orange')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.plot([0, 1], [0, 1],'r--')
plt.rcParams['font.size'] = 12
plt.title('ROC curve - Receiver Operator Characteristic \n')
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')
plt.legend(loc="lower right", fontsize=10)
plt.grid(True)

##### Precisão

Medida utilizada para indicar o quanto o nosso modelo acertou os valores positivos.
<br>
<br>
TP / (TP + FP)


In [None]:
precisao = round(metrics.precision_score(y_teste, predict_log)*100,2)
precisao

##### Recall

Medida utilizada para indicar o quanto no modelo acertou dentre os valores positivos
<br>
<br>
TP / (TP + FN)

In [None]:
recall = metrics.recall_score(y_teste, predict_log)
recall

In [None]:
average_precision = metrics.average_precision_score(y_teste, predict_log)
disp = metrics.plot_precision_recall_curve(modelo_log, x_teste, y_teste)
disp.ax_.set_title('2-class Precision-Recall curve: '
                   'AP={0:0.2f}'.format(average_precision))

##### F1 score

Medida utilizada para calcular a média ponderada do modelo, buscando obter o valor 1 como valor ótimo.
<br>
<br>
2 x ((Precision x Recall) / (Precision + Recall))

In [None]:
f1 = metrics.f1_score(y_teste, predict_log)
f1

##### Classification Report

Tabela com as métricas

In [None]:
print(metrics.classification_report(y_teste, predict_log))