## Prevendo o risco de diabetes em estágio inicial em indivíduos usando Machine Learning

#### Datasource
+ https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset.
+ https://archive.ics.uci.edu/ml/machine-learning-databases/00529/

In [None]:
#Carregando as bibliotecas principais
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.model_selection import train_test_split

In [None]:
# Carregando a base para um dataframe pandas
df = pd.read_csv('diabetes_data_upload.csv') 

#### Sobre o conjunto de dados
+ Fonte de dados:
    - https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset.#
+ Descrição:
    - O conjunto de dados foi coletado por meio de questionários diretos de pacientes do Sylhet Diabetes Hospital em Sylhet, Bangladesh, e aprovado por um médico.
    
+ Metadados:
    - O conjunto de dados é um conjunto de dados multivariável em formato CSV.
    - Possui 520 pontos de dados e 17 atributos.
    
+ Informação dos Atributos:
    - Age 16-90
    - Sex 1. Male, 2.Female
    - Polyuria 1.Yes, 2.No.
    - Polydipsia 1.Yes, 2.No.
    - sudden weight loss 1.Yes, 2.No.
    - weakness 1.Yes, 2.No.
    - Polyphagia 1.Yes, 2.No.
    - Genital thrush 1.Yes, 2.No.
    - visual blurring 1.Yes, 2.No.
    - Itching 1.Yes, 2.No.
    - Irritability 1.Yes, 2.No.
    - delayed healing 1.Yes, 2.No.
    - partial paresis 1.Yes, 2.No.
    - muscle stiffness 1.Yes, 2.No.
    - Alopecia 1.Yes, 2.No.
    - Obesity 1.Yes, 2.No.
    - Class 1.Positive, 2.Negative.

In [None]:
df.head()

### Análise descritiva 

In [None]:
df.shape

In [None]:
df.columns

In [None]:
#Traduzindo para o português
df.columns = ['Idade',
              'Gênero',
              'Poliúria', #Expelir quantidades anormalmente grandes de urina.
              'Excesso de sede', #Sintoma para diabetes
              'Perca de peso repentina',
              'Fraqueza',
              'Polifagia', #Comer em excesso devido a fome excessiva ou apetite elevado.
              'Candidíase vaginal',
              'Visão embaçada',
              'Coceira',
              'Irritabilidade',
              'Cicatrização demorada',
              'Paralisia parcial',
              'Rigidez muscular',
              'Queda de cabelo',
              'Obesidade',
              'Tem diabetes'
            ]

In [None]:
#Deixando os nomes mais padronizados
df.columns.str.lower().str.replace(' ','_')
df.columns = df.columns.str.lower().str.replace(' ','_')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df['tem_diabetes'].value_counts()

In [None]:
# Acuracia base: 'chuta' que não tem diabetes
200/520

### Data cleaning

#### Para poder utilizar os dados nos modelos de ML, irei alterar o dados para binário, sendo:
+ Gênero: Feminino = 0 e Masculino = 1
+ Outros: Não = 0 e Sim = 1

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
#Vendo quais colunas tem o tipo Object
listaObj = df.select_dtypes(include='object').columns
listaObj

In [None]:
columns_to_label_encode = ['poliúria', 'excesso_de_sede', 'perca_de_peso_repentina',
       'fraqueza', 'polifagia', 'candidíase_vaginal', 'visão_embaçada',
       'coceira', 'irritabilidade', 'cicatrização_demorada',
       'paralisia_parcial', 'rigidez_muscular', 'queda_de_cabelo', 'obesidade']

In [None]:
LE = LabelEncoder()

In [None]:
#Tranformando todas as colunas menos Gênero e Tem Diabetes
for col in columns_to_label_encode:
    df[col] = LE.fit_transform(df[col].astype(str))

In [None]:
df.dtypes #vendo se transformou o tipo da coluna 

In [None]:
df.head()

In [None]:
# Para saber qual era a variável antes da tranformação:
print(LE.classes_)

In [None]:
#Fazendo uma função costumizada para transformar o gênero e a classificação de diabetes

#Para gênero
gender_map = {"Female":0,"Male":1} 
df['gênero'] = df['gênero'].map(gender_map)
df['gênero'].head()

In [None]:
#Para classificação
target_label_map = {"Negative":0,"Positive":1} 
df['tem_diabetes'] = df['tem_diabetes'].map(target_label_map)
df['tem_diabetes'].head()

In [None]:
df.head()

In [None]:
#Vendo novamente as informações após transformação
df.info()

### Análise exploratória

In [None]:
#Informações de máximos e mínimos, quartis e média
df.describe()

#### Trabalhando com gênero

In [None]:
df['gênero'].value_counts() #1-Masculino, 0-Feminino

#### Trabalhando com idade

In [None]:
#Criando grupos para as idades
labels = ["Menor que 10","10-20","20-30","30-40","40-50","50-60","60-70","70-80","80 e mais"]
bins= [0,10,20,30,40,50,60,70,80,90]

In [None]:
#Criando um dataframe com idades agrupadas 
idade = df.groupby(pd.cut(df['idade'],bins=bins,labels=labels)).size()

In [None]:
idade.head()

In [None]:
idade = idade.reset_index(name='Quantidade')
idade.head()

In [None]:
# Distribuição de dados por idade
plt.figure(figsize=(10,5))
plt.bar(idade['idade'],idade['Quantidade'])
plt.ylabel('Counts')
plt.title('Frequência de idade')
plt.show()

In [None]:
# Vendo outliers em idade usando BoxPlot
sns.boxplot(df['idade'])

#### Analisando as correlações e variáveis de interesse

In [None]:
# Métodod 1
df.corr()

In [None]:
# Método 2- Heatmap
plt.figure(figsize=(20,10))
sns.heatmap(df.corr(),annot=True, cmap="YlGnBu")
plt.show()

In [None]:
#Método 3 - Destacando
corr_matrix = df.corr()

highest_corr = corr_matrix[corr_matrix>=.3] #só mostra as correlações maiores que 0.30
plt.figure(figsize=(12,8))
sns.heatmap(highest_corr,annot=True, cmap="YlGnBu") #destaca as correlações mais altas (perto de 1)

## Selecionando as variáveis de interesse

Usando a função SelectKBest do scikit-learn conseguimos visualizar um score para cada variável, permitindo selecionar aquelas que aparentam ser mais importantes para definir se a pessoa tem ou não diabetes

In [None]:
from sklearn.feature_selection import SelectKBest,chi2,RFE
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
#Definindo as Features and Labels
X = df[['idade', 'gênero', 'poliúria', 'excesso_de_sede', 'perca_de_peso_repentina',
       'fraqueza', 'polifagia', 'candidíase_vaginal', 'visão_embaçada',
       'coceira', 'irritabilidade', 'cicatrização_demorada',
       'paralisia_parcial', 'rigidez_muscular', 'queda_de_cabelo','obesidade']]

y = df['tem_diabetes']

In [None]:
# Usando o Selectkbest para achar os melhores scores
skb = SelectKBest(score_func=chi2,k=10)
best_feature_fit = skb.fit(X,y) #fazendo o fit dos dados

In [None]:
# Mapeando o nome das colunas
feature_scores = pd.DataFrame(best_feature_fit.scores_,columns=['Feature_Scores'])

In [None]:
nomes_features = pd.DataFrame(X.columns,columns=['Nome_feature'])
score_das_features = pd.concat([feature_scores,nomes_features],axis=1)

In [None]:
# List Features
score_das_features

In [None]:
#Ordenando de maior score para menor
#Quanto maior o score, mais importante a feature
score_das_features.nlargest(12,'Feature_Scores')

A função ExtraTreesClassifier também da um score para cada variável. Vamos comparar os resultados com o SelectKBest

In [None]:
et_clf = ExtraTreesClassifier() #criando a instância
et_clf.fit(X,y) #fazendo o fit

feature_importance_df = pd.Series(et_clf.feature_importances_,index=X.columns) #criando o df
feature_importance_df.head()

In [None]:
feature_importance_df.nlargest(12).plot(kind='barh')

#### Análise

+ Podemos observar que idade, perca de peso e rigidez muscular estão presentes no top 5 dos dois métodos. 

+ No SelectKBest temos também irritabilidade e poliúria.

+ No ExtraTreesClassifier temos cicatrização demorada e polifagia.


## Machine Learning

+ Estaremos construindo um modelo de classificação de aprendizado de máquina supervisionado usando os seguinte algoritmos:
    - LogisticRegression
    - Decision Tree 
    
+ Fica como sugestão para o futuro fazer o KNN

In [None]:
#Importanto os modelos
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

In [None]:
print(X.columns)

In [None]:
#Fazendo o split de treino e teste
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.30, random_state=42)

In [None]:
print('Treinaremos com %d elementos e testaremos com %d elementos' % (len(x_train), len(x_test)))

### Regressão Logística

In [None]:
lr_model = LogisticRegression(random_state=42)
lr_model.fit(x_train,y_train) #fazendo o fit do modelo com os dados

In [None]:
#Acurácia RL - Método 1
scoreRL = lr_model.score(x_test,y_test)

print("Acurácia do modelo RL por método score foi de {:2f}".format(scoreRL))

In [None]:
#Acurácia RL - Método 2
y_pred = lr_model.predict(x_test)

print("Acurácia do modelo RL por comparação foi de {:2f}".format(accuracy_score(y_test,y_pred)))

#### Fazendo a análise da precisão do modelo usando:

+ Classification Report:
 - Esta função cria um relatório de texto mostrando as principais métricas de classificação, como precisão, recall, pontuação f1
 - Precisão: refere-se à capacidade do classificador de não rotular como positiva uma amostra negativa. É o número de resultados positivos verdadeiros dividido pelo número de todos os resultados positivos, incluindo aqueles não identificados corretamente.
 - Recall: refere-se à capacidade do classificador de encontrar todas as amostras positivas. É o número de resultados positivos verdadeiros dividido pelo número de todas as amostras que deveriam ter sido identificadas como positivas.
 - F1-score: o F1-score é a média harmônica da precisão e recall. O valor mais alto possível de uma pontuação F é 1,0, indicando precisão e rechamada perfeitas
 
+ Matriz de Confusão:
  - É uma tabela com duas linhas e duas colunas que relata o número de falsos positivos , falsos negativos , verdadeiros positivos e verdadeiros negativos
  
+ Curva ROC:
    - a curva ROC traça a taxa de verdadeiro positivo (outro nome para rechamada) em relação à taxa de falso positivo. Um classificador perfeito terá um ROC AUC igual a 1. De forma geral, temos a máxima da curva ROC, que diz que quanto mais para cima e esquerda, melhor o teste.

+ Curva de Recall de Precisão
    - As curvas de recuperação de precisão resumem a compensação entre a taxa positiva verdadeira e o valor preditivo positivo para um modelo preditivo usando diferentes limites de probabilidade.

+ Cross-validation

In [None]:
from sklearn.metrics import classification_report,confusion_matrix,plot_confusion_matrix,plot_precision_recall_curve,plot_roc_curve

In [None]:
#Cross-validation - função
from sklearn.model_selection import cross_val_score

def cross_validate_model(model_estimator,X,y,cv):
    """Evaluate Model using cross validation of KFolds"""
    scores = cross_val_score(model_estimator, X, y, scoring='accuracy', cv=cv)
    
    #Resultado
    result = "Acurácia média: {:2f}  Desvio padrão : {:2f}".format(np.mean(scores), np.std(scores)) 
    return result

In [None]:
#Classification Report
target_names= ["Negativo(0)","Positivo(1)"]

print(classification_report(y_test,y_pred,target_names=target_names))

In [None]:
#Matriz de confusão
confusion_matrix(y_test,y_pred)

In [None]:
plot_confusion_matrix(lr_model,x_test,y_test)

In [None]:
#Curva ROC
plot_roc_curve(lr_model, x_test, y_test)
plt.title("Curva ROC para o modelo RL")
plt.grid()
plt.show()

In [None]:
#Curva de Recall de Precisão
plot_precision_recall_curve(lr_model, x_test, y_test)
plt.title("Curva de Recall de Precisão para o modelo de RL")
plt.grid()
plt.show()

In [None]:
#Cross-validation - Modelo RL
cv_scores_for_rl_model = cross_validate_model(LogisticRegression(),X,y,5)
print(cv_scores_for_rl_model) #Quanto mais próximo de 0 for o desvio padrão, mais homogêneo são os dados

### Decision Tree

In [None]:
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(x_train,y_train) #fazendo o fit do modelo com os dados

In [None]:
#Acurácia do modelo DT - Método 2
y_pred2 = dt_model.predict(x_test)
print("Acurácia do modelo DT por comparação foi de {:2f}".format(accuracy_score(y_test,y_pred2)))

+ Comparando os dois modelos, Regressão Logística e Decision Tree, a DT possui uma acurácia maior, sendo de 0.87 em comparação com os 0,78 da RL.

In [None]:
#Classification Report
print(classification_report(y_test,y_pred2,target_names=target_names))

In [None]:
#Matriz de confusão
plot_confusion_matrix(dt_model,x_test,y_test)

In [None]:
# Curva ROC
plot_roc_curve(dt_model, x_test, y_test)
plt.title("Curva ROC para o modelo DT")
plt.grid()
plt.show()

In [None]:
#Curva de Recall de Precisão
plot_precision_recall_curve(dt_model, x_test, y_test)
plt.title("Curva de Recall de Precisão para o modelo DT")
plt.grid()
plt.show()

In [None]:
#Cross-validation para DT
cv_scores_for_dt_model = cross_validate_model(DecisionTreeClassifier(random_state=42),X,y,5)
print(cv_scores_for_dt_model)

In [None]:
#Relembrando o Cross-validation do RL
print(cv_scores_for_rl_model)

#### Usando o F1-score para comparar a harmonia dos dois modelos
 + o F1-score é a média harmônica da precisão e recall. O valor mais alto possível de uma pontuação F é 1,0, indicando precisão e rechamada perfeitas

In [None]:
from sklearn.metrics import f1_score
f1_LR = f1_score(y_test, y_pred, average='macro')
f1_DT = f1_score(y_test, y_pred2, average='macro')

print("RL F1-score %.2F" % f1_LR)
print("DT F1-score %.2F" %f1_DT)

+ Comparando os dois modelos, Regressão Logística e Decision Tree, a DT possui um F1-score maior, sendo de 0.83 em comparação com os 0,49 da RL.

In [None]:
#Vamos ver um pouco como a Decision Tree funciona
from IPython.display import Image
from sklearn import tree
import pydotplus

feature_names = X.columns

#Cria um Dot Plot
dot_data = tree.export_graphviz(dt_model,out_file=None,feature_names=feature_names,class_names=target_names)

graph = pydotplus.graph_from_dot_data(dot_data)

Image(graph.create_png())

### Conclusão

Nossa tarefa era construir um modelo de ML para prever o risco de diabetes em estágio inicial, dados os sintomas e sinais de um indivíduo.
Em nossa análise, descobrimos que as seguintes características tiveram maior importância e influência em nossa previsão do que as outras:

    - Idade
    - Perda de peso repentina
    - Rigidez muscular
    - Irritabilidade
    - Poliúria (Expelir quantidades anormalmente grandes de urina)
    - Cicatrização demorada
    - Polifagia  (Comer em excesso devido a fome excessiva ou apetite elevado)
    
Além disso, nossos modelos (LogisticRegression (0,79) e Decision Tree (0,88)) tiveram uma boa precisão, com o modelo classificador de Decision Tree sendo o mais alto.

Usando a validação cruzada, descobrimos que mesmo o modelo RL pode ser melhorado para nos dar uma precisão de 0,83 com um desvio padrão de 0,058, enquanto que o modelo DT foi de 0,91 com um desvio padrão de 0.0094.

Conclui-se então que aparentemente o DR se sai melhor do que o modelo RL.

#### Salvando os modelos

In [None]:
import joblib
print("Joblib",joblib.__version__)

In [None]:
# RL
model_file_rl = open("logistic_regression_model_diabetes.pkl","wb")
joblib.dump(lr_model,model_file_rl)
model_file_rl.close()

In [None]:
# DT
model_file_dt = open("decision_tree_model_diabetes.pkl","wb")
joblib.dump(dt_model,model_file_dt)
model_file_dt.close()