In [170]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
from sklearn import cluster, neighbors, svm, metrics, preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

df = pd.read_csv("diabetes.csv",sep=",")

print("#QUESTÃO 4.1\n\n")
#QUESTÃO 4.1


#Verifica quantos dados estão duplicados
print("Duplicado:",df.duplicated().sum())


#Verifica quantos dados estão faltando
print("\n\nFaltando: \n%s" %(df.isnull().sum()))

#QUESTÃO 4.1


Duplicado: 0


Faltando: 
Pregnancies                  0
Gender                       0
Glucose                      0
BloodPressure                0
SkinThickness                0
Insulin                      0
BMI                          0
DiabetesPedigreeFunction     0
Age                          0
Outcome                      0
CalorieIntake               15
Exercise                     0
SleepDuration                0
dtype: int64


In [172]:
#Elimina todos os registros onde Insuline tem valor 0
#Essa eliminação foi feita mediante pesquisa e consulta
#Percebeu-se que vários dos registros com insulina 0
#estavam como a pessoa sadia
#e vários dos registros com insulina 0 estavam como
#pessoa doente, o que não faz sentido.
#Para garantir, ainda, foi feita uma consulta a
#um médico e ele me confirmou que não há insulina 0,
#há insulinas bem próximas de 0 e que, nessas circuns-
#tâncias a pessoa apresenta algum quadro de diabetes.
#Portante, para garantir a integridade dos dados,
#foi feita a eliminação de todos onde a insulina é 0.
df = df.loc[df['Insulin']!=0] 

print("Valores '0':")
print("Qnt. Glucose '0':",len(df.loc[df['Glucose']==0]))
print("Qnt. BloodPressure '0':",len(df.loc[df['BloodPressure']==0]))
print("Qnt. SkinThickness '0':",len(df.loc[df['SkinThickness']==0]))
print("Qnt. Insulin '0':",len(df.loc[df['Insulin']==0]))
print("Qnt. BMI '0':",len(df.loc[df['BMI']==0]))
print("Qnt. DiabetesPedigreeFunction '0':",len(df.loc[df['DiabetesPedigreeFunction']==0]))
print("Qnt. Age '0':",len(df.loc[df['Age']==0]))
print("Qnt. CalorieIntake '0':",len(df.loc[df['CalorieIntake']==0]))
print("Qnt. SleepDuration '0':",len(df.loc[df['SleepDuration']==0]))

Valores '0':
Qnt. Glucose '0': 1
Qnt. BloodPressure '0': 0
Qnt. SkinThickness '0': 0
Qnt. Insulin '0': 0
Qnt. BMI '0': 1
Qnt. DiabetesPedigreeFunction '0': 0
Qnt. Age '0': 0
Qnt. CalorieIntake '0': 0
Qnt. SleepDuration '0': 0


In [173]:
print("Minimos e Máximos:\n\n")
#Feito a limpeza, vamos analizar a integridade dos dados
print("GLUCOSE:")
print("Max.:",max(df['Glucose']),"\tMin.:",min(df['Glucose']))
#Observando que os valores estão numa faixa considerada possível,
#exceto pelo valor mínimo da Glicose ser 0 (que iremos tratar pos-
#teriormente), não iremos tratar outliers da Glicose.

print("BLOODPRESSURE:")
print("Max.:",max(df['BloodPressure']),"\tMin.:",min(df['BloodPressure']))
#Observando que os valores estão numa faixa considerada possível,
#não iremos tratar outliers da pressão sanguínea.

print("SKINTHICKNESS:")
print("Max.:",max(df['SkinThickness']),"\tMin.:",min(df['SkinThickness']))
#Observando que os valores estão numa faixa considerada possível,
#não iremos tratar outliers da expessura da pele.

print("INSULIN:")
print("Max.:",max(df['Insulin']),"\tMin.:",min(df['Insulin']))
#Observando que os valores estão numa faixa considerada possível,
#não iremos tratar outliers da Insulina.

print("BMI:")
print("Max.:",max(df['BMI']),"\tMin.:",min(df['BMI']))
#Observando os valores, tanto o mínimo quanto o máximo estão
#fora do normal. Não existe IMC 0 e não existe IMC tão alto
#(baseado em consultas e pesquisas na internet).
#Desta forma iremos considerar o outlier a seguir.


#Substituindo o limite inferior (0) pela mediana
df['BMI'] = df['BMI'].replace(0,df['BMI'].median())

#Calcula a média e o desvio Padrão
mean  = np.mean(df['BMI'], axis=0)
sd    = np.std(df['BMI'], axis=0)

#Calcula o limite
limit = mean + 2*sd

#Exclui os registros onde há outliers positivos
df = df.loc[df['BMI']<=limit] 


print("BMI:")
print("Max.:",max(df['BMI']),"\tMin.:",min(df['BMI']))
#Agora observe que tanto o máximo, quanto o mínimo atendem ao
#esperado

print("DIABETESPEDIGREEFUNCTION:")
print("Max.:",max(df['DiabetesPedigreeFunction']),"\tMin.:",min(df['DiabetesPedigreeFunction']))
#Agora observe que tanto o máximo, quanto o mínimo atendem ao
#esperado

print('AGE')
print("Max.:",max(df['Age']),"\tMin.:",min(df['Age']))
#Agora observe que tanto o máximo, quanto o mínimo atendem ao
#esperado

print('CALORIEINTAKE')
print("Max.:",df['CalorieIntake'].max(),"\tMin.:",df['CalorieIntake'].min())
#Agora observe que tanto o máximo, quanto o mínimo atendem ao
#esperado


print('SLEEPDURATION')
print("Max.:",df['SleepDuration'].max(),"\tMin.:",df['SleepDuration'].min())
#Agora observe que tanto o máximo, quanto o mínimo atendem ao
#esperado

#A partir da consulta feita, percebe-se que existem 1 caso em que a
#glicose 0 e o IMC (BMI) também foi 0. Nessas ocasiões, pode-se
#substituir o valor pela mediana.
df['Glucose'] = df['Glucose'].replace(0, df['Glucose'].median())

Minimos e Máximos:


GLUCOSE:
Max.: 198 	Min.: 0
BLOODPRESSURE:
Max.: 110 	Min.: 24
SKINTHICKNESS:
Max.: 63 	Min.: 7
INSULIN:
Max.: 846 	Min.: 14
BMI:
Max.: 67.1 	Min.: 0.0
BMI:
Max.: 46.8 	Min.: 18.2
DIABETESPEDIGREEFUNCTION:
Max.: 2.329 	Min.: 0.085
AGE
Max.: 81 	Min.: 21
CALORIEINTAKE
Max.: 9980.0 	Min.: 1510.0
SLEEPDURATION
Max.: 15 	Min.: 4


In [174]:
#Substituindo textos por números
#M para 0 e F para 1
df['Gender'] = df['Gender'].replace('M',0)
df['Gender'] = df['Gender'].replace('F',1)

#No para 0; Morning para 1; Evening para 2; Both para 3
df['Exercise'] = df['Exercise'].replace('No',0)
df['Exercise'] = df['Exercise'].replace('Morning',1)
df['Exercise'] = df['Exercise'].replace('Evening',2)
df['Exercise'] = df['Exercise'].replace('Both',3)

#Substituindo nulos por medianas
df['CalorieIntake'] = df['CalorieIntake'].replace(np.nan,df['CalorieIntake'].median())

print("Qnt. Diabeticos: ",len(df.loc[df['Outcome']==1]))
print("Qnt. Nao Diabeticos: ",len(df.loc[df['Outcome']==0]))
#Por ter uma gritante diferença entre diabeticos e não diabeticos,
#considero mais prodente eliminar o excesso de onde há mais
#(melhor do que criar "na sorte" casos de diabeticos que podem
#"baguncar" meu IA)

df = df.loc[df['Outcome']==0].sample(n=125,random_state=2).append(df.loc[df['Outcome']==1])


print("\n\nQuantidade de diabéticos após balanceamento:")
print("Qnt. Diabeticos: ",len(df.loc[df['Outcome']==1]))
print("Qnt. Nao Diabeticos: ",len(df.loc[df['Outcome']==0]))
#Agora está devidamente balanceada

Qnt. Diabeticos:  125
Qnt. Nao Diabeticos:  261


Quantidade de diabéticos após balanceamento:
Qnt. Diabeticos:  125
Qnt. Nao Diabeticos:  125


In [175]:
#Para verificar se há algum atributo que obtenha correlação,
#abrindo espaço para redundância, verificamos o gráfico
#gerado pela função a seguir:
corr = df.corr()
corr.style.background_gradient(cmap='coolwarm')
#Como pode-se ver, praticamente não há correlação. Desta forma
#Nenhuma coluna precisa ser removida.

Unnamed: 0,Pregnancies,Gender,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,CalorieIntake,Exercise,SleepDuration
Pregnancies,1.0,0.665195,-0.032042,0.040201,-0.138753,-0.090845,-0.142462,0.0326,0.073301,-0.01709,0.036721,0.174272,0.12428
Gender,0.665195,1.0,-0.206361,-0.086178,-0.158033,-0.168196,-0.156857,0.018977,-0.268547,-0.173265,-0.069759,0.202782,0.127304
Glucose,-0.032042,-0.206361,1.0,0.205349,0.162674,0.559379,0.181377,0.122063,0.352751,0.541235,0.367387,-0.348306,0.172968
BloodPressure,0.040201,-0.086178,0.205349,1.0,0.17794,0.065332,0.249705,0.008032,0.346578,0.227399,0.135122,-0.140057,0.089185
SkinThickness,-0.138753,-0.158033,0.162674,0.17794,1.0,0.189996,0.609468,0.16368,0.122882,0.204435,0.121072,-0.200983,0.111542
Insulin,-0.090845,-0.168196,0.559379,0.065332,0.189996,1.0,0.204524,0.13064,0.257972,0.273927,0.161347,-0.220224,0.03482
BMI,-0.142462,-0.156857,0.181377,0.249705,0.609468,0.204524,1.0,0.122442,0.074325,0.240429,0.165473,-0.2149,0.116355
DiabetesPedigreeFunction,0.0326,0.018977,0.122063,0.008032,0.16368,0.13064,0.122442,1.0,0.086565,0.171757,0.124238,-0.167345,0.096808
Age,0.073301,-0.268547,0.352751,0.346578,0.122882,0.257972,0.074325,0.086565,1.0,0.407757,0.257925,-0.231684,0.284826
Outcome,-0.01709,-0.173265,0.541235,0.227399,0.204435,0.273927,0.240429,0.171757,0.407757,1.0,0.607433,-0.58009,0.44942


In [176]:
print("#QUESTÃO 4.2")
#QUESTÃO 4.2

X = df.drop(columns=['Outcome']) 
y = df['Outcome'].values

#Dividindo x do teste,
#x da base
#y do teste
#y da base
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

#QUESTÃO 4.2


In [177]:
#K = 5
knn = neighbors.KNeighborsClassifier(n_neighbors = 5, metric="euclidean", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.88
Sensibilidade: 0.52
Especificidade: 0.67
Matriz de confusão:
 [[34  3]
 [ 6 32]]


In [178]:
#K = 6
knn = neighbors.KNeighborsClassifier(n_neighbors = 6, metric="euclidean", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.87
Sensibilidade: 0.55
Especificidade: 0.90
Matriz de confusão:
 [[36  1]
 [ 9 29]]


In [180]:
#K = 7
knn = neighbors.KNeighborsClassifier(n_neighbors = 7, metric="euclidean", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.88
Sensibilidade: 0.55
Especificidade: 0.89
Matriz de confusão:
 [[36  1]
 [ 8 30]]


In [179]:
#K = 8
knn = neighbors.KNeighborsClassifier(n_neighbors = 8, metric="euclidean", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.87
Sensibilidade: 0.57
Especificidade: 1.00
Matriz de confusão:
 [[37  0]
 [10 28]]


In [181]:
#K = 9
knn = neighbors.KNeighborsClassifier(n_neighbors = 9, metric="euclidean", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.88
Sensibilidade: 0.56
Especificidade: 1.00
Matriz de confusão:
 [[37  0]
 [ 9 29]]


In [182]:
print("QUESTÃO 4.3\n")
#QUESTÃO 4.2

#K = 5 e metric = Hamming
knn = neighbors.KNeighborsClassifier(n_neighbors = 5, metric="hamming", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("\nAcurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

QUESTÃO 4.3


Acurácia: 0.92
Sensibilidade: 0.51
Especificidade: 0.67
Matriz de confusão:
 [[35  2]
 [ 4 34]]


In [183]:
#K = 5 e metric = Jaccard
knn = neighbors.KNeighborsClassifier(n_neighbors = 5, metric="jaccard", algorithm="auto")
knn.fit(X_train,y_train)
result = knn.predict(X_test)

matriz = metrics.confusion_matrix(y_test, result)
print("Acurácia: %0.2f" % (metrics.accuracy_score(y_test, result)))
print("Sensibilidade: %0.2f" % (matriz[0][0]/(matriz[0][0] + matriz[1][1])))
print("Especificidade: %0.2f" % (matriz[1][0]/(matriz[1][0] + matriz[0][1])))
print("Matriz de confusão:\n", matriz)

Acurácia: 0.97
Sensibilidade: 0.51
Especificidade: 1.00
Matriz de confusão:
 [[37  0]
 [ 2 36]]
