# Treinamento

### Carregando Arquivo de Treinamento (.csv)

In [44]:
import pandas as pd
# Carregando dados do arquivo CSV
url = 'https://raw.githubusercontent.com/junio10/KNNDiabets/main/diabetes.csv'
base_Treinamento = pd.read_csv(url,sep=',', encoding = 'latin1').values
print("--------------------------------------------------------")
print("Dados dos Pacientes - TREINAMENTO - Dimensão ",base_Treinamento.shape)
print("--------------------------------------------------------")
print(base_Treinamento)
print("---------------------------------")

# Extração dos Atributos a serem utilizadas pela rede
print("Atributos de Entrada")
print("---------------------------------")
print(base_Treinamento[:, 0:8])

print("----------------------------")
print("Classificação Supervisionada")
print("----------------------------")
print(base_Treinamento[:, 8])

--------------------------------------------------------
Dados dos Pacientes - TREINAMENTO - Dimensão  (768, 9)
--------------------------------------------------------
[[  6.    148.     72.    ...   0.627  50.      1.   ]
 [  1.     85.     66.    ...   0.351  31.      0.   ]
 [  8.    183.     64.    ...   0.672  32.      1.   ]
 ...
 [  5.    121.     72.    ...   0.245  30.      0.   ]
 [  1.    126.     60.    ...   0.349  47.      1.   ]
 [  1.     93.     70.    ...   0.315  23.      0.   ]]
---------------------------------
Atributos de Entrada
---------------------------------
[[  6.    148.     72.    ...  33.6     0.627  50.   ]
 [  1.     85.     66.    ...  26.6     0.351  31.   ]
 [  8.    183.     64.    ...  23.3     0.672  32.   ]
 ...
 [  5.    121.     72.    ...  26.2     0.245  30.   ]
 [  1.    126.     60.    ...  30.1     0.349  47.   ]
 [  1.     93.     70.    ...  30.4     0.315  23.   ]]
----------------------------
Classificação Supervisionada
------------

### Pré-processamento de Dados

In [45]:
import numpy as np 
from sklearn import preprocessing

# Binarizador de rótulo
normalizer = preprocessing.MinMaxScaler()

#A saída da transformação é também conhecido como codificação 1-de-n
#Transforma valores categóricos equidistantes em valores binários equidistantes.
#Atributos categóricos com valores sim e não
pregnancies = normalizer.fit_transform(np.array(base_Treinamento[:, 0]).reshape(-1,1))

glucose = normalizer.fit_transform(np.array(base_Treinamento[:, 1]).reshape(-1,1))

bloodPressure = normalizer.fit_transform(np.array(base_Treinamento[:, 2]).reshape(-1,1))

skinThickness = normalizer.fit_transform(np.array(base_Treinamento[:, 3]).reshape(-1,1))

insulin = normalizer.fit_transform(np.array(base_Treinamento[:, 4]).reshape(-1,1))

BMI = normalizer.fit_transform(np.array(base_Treinamento[:, 5]).reshape(-1,1))

diabetesPedigreeFunction = normalizer.fit_transform(np.array(base_Treinamento[:, 6]).reshape(-1,1))

age = normalizer.fit_transform(np.array(base_Treinamento[:, 7]).reshape(-1,1))

classes = base_Treinamento[:, 8]



#Concatenação de Atributos (Colunas) 
atributos_norm = np.column_stack((pregnancies,glucose, bloodPressure,skinThickness,insulin,BMI,diabetesPedigreeFunction,age))
print("--------------------------------")
print("Atributos de Entrada - Numéricos")
print("--------------------------------")
print(atributos_norm)

print("----------------------------------------")
print("Classificação Supervisionada - Numéricos")
print("----------------------------------------")
diagnostico_norm = np.hstack((classes))
print(diagnostico_norm)

--------------------------------
Atributos de Entrada - Numéricos
--------------------------------
[[0.35294118 0.74371859 0.59016393 ... 0.50074516 0.23441503 0.48333333]
 [0.05882353 0.42713568 0.54098361 ... 0.39642325 0.11656704 0.16666667]
 [0.47058824 0.91959799 0.52459016 ... 0.34724292 0.25362938 0.18333333]
 ...
 [0.29411765 0.6080402  0.59016393 ... 0.390462   0.07130658 0.15      ]
 [0.05882353 0.63316583 0.49180328 ... 0.4485842  0.11571307 0.43333333]
 [0.05882353 0.46733668 0.57377049 ... 0.45305514 0.10119556 0.03333333]]
----------------------------------------
Classificação Supervisionada - Numéricos
----------------------------------------
[1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 0. 1. 1.
 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0.
 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0.
 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0.
 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.

### Treinamento do KNN (K-Nearest Neighbor)

In [46]:
from sklearn.neighbors import KNeighborsClassifier
# Treinamento do Knn a partir dos atributos de entrada e classificações com K=3
modelo = KNeighborsClassifier(n_neighbors=1)
modelo.fit(atributos_norm, diagnostico_norm)

# Acurácia do modelo, que é : 1 - (predições erradas / total de predições)
# Acurácia do modelo: indica uma performance geral do modelo. 
# Dentre todas as classificações, quantas o modelo classificou corretamente;
# (VP+VN)/N
print('Acurácia: %.3f' % modelo.score(atributos_norm, diagnostico_norm))

Acurácia: 1.000


### ----------------------------------------------------------------------------

# Validação do Aprendizado 

### Predição Simples

In [51]:
Luiz = [[6,148,72,35,0,33.6,0.627,50]]
Luiz_minimax = normalizer.fit_transform(Luiz)
print("Luiz", modelo.predict(Luiz_minimax))

Laura = [[1,85,66,29,0,26.6,0.351,31]]
Laura_minimax = normalizer.fit_transform(Laura)
print("Laura", modelo.predict(Laura_minimax))

Luiz [0.]
Laura [0.]


### Predição a partir de base de dados (.csv)

In [52]:
import pandas as pd
# Carregando dados do arquivo CSV
url = 'https://raw.githubusercontent.com/junio10/KNNDiabets/main/diabetes_teste_KNN.csv'
base_Testes = pd.read_csv(url,sep=',', encoding = 'latin1').values
print("----------------------------")
print("Dados dos Pacientes - TESTES")
print("----------------------------")
print(base_Testes)
print("---------------------------------")

# Extração dos Atributos a serem utilizadas pela rede
print("Atributos de Entrada")
print("---------------------------------")
print(base_Testes[:, 0:7])

----------------------------
Dados dos Pacientes - TESTES
----------------------------
[[  4. 111.  72. ...  56.   1.   1.]
 [  5.  88.  66. ...  30.   0.   0.]
 [  8. 176.  90. ...  58.   1.   1.]
 ...
 [  1. 106.  76. ...  26.   0.   0.]
 [  2.  88.  58. ...  22.   0.   0.]
 [  5. 121.  72. ...  30.   0.   0.]]
---------------------------------
Atributos de Entrada
---------------------------------
[[4.00e+00 1.11e+02 7.20e+01 ... 2.07e+02 3.71e+01 1.39e+00]
 [5.00e+00 8.80e+01 6.60e+01 ... 2.30e+01 2.44e+01 3.42e-01]
 [8.00e+00 1.76e+02 9.00e+01 ... 3.00e+02 3.37e+01 4.67e-01]
 ...
 [1.00e+00 1.06e+02 7.60e+01 ... 0.00e+00 3.75e+01 1.97e-01]
 [2.00e+00 8.80e+01 5.80e+01 ... 1.60e+01 2.84e+01 7.66e-01]
 [5.00e+00 1.21e+02 7.20e+01 ... 1.12e+02 2.62e+01 2.45e-01]]


### Pré-processamento de Dados

In [53]:
import numpy as np 
from sklearn import preprocessing

# Binarizador de rótulo
normalizer = preprocessing.MinMaxScaler()

#A saída da transformação é também conhecido como codificação 1-de-n
#Transforma valores categóricos equidistantes em valores binários equidistantes.
#Atributos categóricos com valores sim e não
pregnancies = normalizer.fit_transform(np.array(base_Testes[:, 0]).reshape(-1,1))

glucose = normalizer.fit_transform(np.array(base_Testes[:, 1]).reshape(-1,1))

bloodPressure = normalizer.fit_transform(np.array(base_Testes[:, 2]).reshape(-1,1))

skinThickness = normalizer.fit_transform(np.array(base_Testes[:, 3]).reshape(-1,1))

insulin = normalizer.fit_transform(np.array(base_Testes[:, 4]).reshape(-1,1))

BMI = normalizer.fit_transform(np.array(base_Testes[:, 5]).reshape(-1,1))

diabetesPedigreeFunction = normalizer.fit_transform(np.array(base_Testes[:, 6]).reshape(-1,1))

age = normalizer.fit_transform(np.array(base_Testes[:, 7]).reshape(-1,1))


#Concatenação de Atributos (Colunas) 
atributos_norm = np.column_stack((pregnancies,glucose, bloodPressure,skinThickness,insulin,BMI,diabetesPedigreeFunction,age))
print("--------------------------------")
print("Atributos de Entrada - Numéricos")
print("--------------------------------")
print(atributos_norm)


--------------------------------
Atributos de Entrada - Numéricos
--------------------------------
[[0.26666667 0.55778894 0.59016393 ... 0.55290611 0.56020495 0.58333333]
 [0.33333333 0.44221106 0.54098361 ... 0.36363636 0.11272417 0.15      ]
 [0.53333333 0.88442211 0.73770492 ... 0.50223547 0.16609735 0.61666667]
 ...
 [0.06666667 0.53266332 0.62295082 ... 0.55886736 0.05081127 0.08333333]
 [0.13333333 0.44221106 0.47540984 ... 0.42324888 0.29376601 0.01666667]
 [0.33333333 0.6080402  0.59016393 ... 0.390462   0.07130658 0.15      ]]


### Predição da Base

In [54]:
base_Predicao = modelo.predict((atributos_norm))
print("Classificações: ", base_Predicao)

Classificações:  [1. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1.
 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0.
 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 1. 0. 0.
 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1.
 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1.
 1. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1.
 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0.
 0. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.
 0. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 

### Retorno aos valores Categóricos

In [None]:
import numpy as np 
from sklearn import preprocessing

# Binarizador de rótulo
lb = preprocessing.LabelBinarizer()

#A saída da transformação é também conhecido como codificação 1-de-n
#Transforma valores categóricos equidistantes em valores binários equidistantes.
#Atributos categóricos com valores sim e não
lb.fit(['sim', 'não'])
febre = lb.inverse_transform(atributos_norm[:,0])  
enjoo = lb.inverse_transform(atributos_norm[:,1])
dores = lb.inverse_transform(atributos_norm[:,3])

#Atributos categóricos com valores pequenas e grandes
lb.fit(['grandes', 'pequenas'])
manchas = lb.inverse_transform(atributos_norm[:,2])

#Atributos categóricos com valores saudável e doente
lb.fit(['saudável', 'doente'])
predicao = lb.inverse_transform(base_Predicao)

#Concatenação de Atributos (Colunas) 
atributos_cat = np.column_stack((base_Testes[:,0],febre,enjoo,manchas,dores,predicao))
print("--------------------------------")
print("Atributos de Entrada - Numéricos")
print("--------------------------------")
print(atributos_cat)


--------------------------------
Atributos de Entrada - Numéricos
--------------------------------
[['João' 'sim' 'sim' 'pequenas' 'sim' 'doente']
 ['Pedro' 'não' 'não' 'grandes' 'não' 'saudável']
 ['Maria' 'sim' 'sim' 'pequenas' 'não' 'saudável']
 ['José' 'sim' 'não' 'grandes' 'sim' 'doente']
 ['Ana' 'sim' 'não' 'pequenas' 'sim' 'saudável']
 ['Leila' 'não' 'não' 'grandes' 'sim' 'doente']
 ['Luis' 'não' 'não' 'pequenas' 'sim' 'saudável']
 ['Laura' 'sim' 'sim' 'grandes' 'sim' 'doente']]
