# Treinamento

### Carregando Arquivo de Treinamento (.csv)

In [26]:
import pandas as pd
# Carregando dados do arquivo CSV
url = 'https://raw.githubusercontent.com/Fashion-Q/Base-de-dados-para-atividade-de-IA/main/diabetes.csv'
base_Treinamento = pd.read_csv(url,sep=';', encoding = 'latin1').values
print("--------------------------------------------------------")
print("Dados dos Pacientes - TREINAMENTO - Dimensão ",base_Treinamento.shape)
print("--------------------------------------------------------")
print(base_Treinamento)
print("---------------------------------")

# Extração dos Atributos a serem utilizadas pela rede
print("Atributos de Entrada")
print("---------------------------------")
print(base_Treinamento[:, 1:8])

print("----------------------------")
print("Classificação Supervisionada")
print("----------------------------")
print(base_Treinamento[:, 8])

--------------------------------------------------------
Dados dos Pacientes - TREINAMENTO - Dimensão  (768, 9)
--------------------------------------------------------
[[  6.    148.     72.    ...   0.627  50.      1.   ]
 [  1.     85.     66.    ...   0.351  31.      0.   ]
 [  8.    183.     64.    ...   0.672  32.      1.   ]
 ...
 [  5.    121.     72.    ...   0.245  30.      0.   ]
 [  1.    126.     60.    ...   0.349  47.      1.   ]
 [  1.     93.     70.    ...   0.315  23.      0.   ]]
---------------------------------
Atributos de Entrada
---------------------------------
[[148.     72.     35.    ...  33.6     0.627  50.   ]
 [ 85.     66.     29.    ...  26.6     0.351  31.   ]
 [183.     64.      0.    ...  23.3     0.672  32.   ]
 ...
 [121.     72.     23.    ...  26.2     0.245  30.   ]
 [126.     60.      0.    ...  30.1     0.349  47.   ]
 [ 93.     70.     31.    ...  30.4     0.315  23.   ]]
----------------------------
Classificação Supervisionada
------------

### Pré-processamento de Dados

In [27]:
import numpy as np
from sklearn import preprocessing

# Binarizador de rótulo
lb = preprocessing.LabelBinarizer()

#A saída dos dados foi jogada para uma variável chamada Data e as variáveis sintomas e diagnósticos recebem respectivamente:
#Sintomas = recebe os dados vindos de Data menos a última tabela que é a tabela de diagnostico e diagnostico recebe apenas a ultima tabela.
data = np.array(base_Treinamento)
sintomas = data[:, :-1]
diagnostico = data[:, -1]

#Concatenação de Atributos (Colunas)
print("--------------------------------")
print("Atributos de Entrada - Sintomas")
print("--------------------------------")
print(sintomas)
print("----------------------------------------")
print("Classificação Supervisionada - Diagnosticos")
print("----------------------------------------")
print(diagnostico)

--------------------------------
Atributos de Entrada - Sintomas
--------------------------------
[[  6.    148.     72.    ...  33.6     0.627  50.   ]
 [  1.     85.     66.    ...  26.6     0.351  31.   ]
 [  8.    183.     64.    ...  23.3     0.672  32.   ]
 ...
 [  5.    121.     72.    ...  26.2     0.245  30.   ]
 [  1.    126.     60.    ...  30.1     0.349  47.   ]
 [  1.     93.     70.    ...  30.4     0.315  23.   ]]
----------------------------------------
Classificação Supervisionada - Diagnosticos
----------------------------------------
[1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 0. 1. 1.
 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0.
 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0.
 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0.
 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 0.
 1. 0. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.
 0

### Treinamento do KNN (K-Nearest Neighbor)

In [28]:
from sklearn.neighbors import KNeighborsClassifier
# Treinamento do Knn a partir dos atributos de entrada e classificações com K=97
modelo = KNeighborsClassifier(n_neighbors=97)
modelo.fit(sintomas,diagnostico)

# Acurácia do modelo, que é : 1 - (predições erradas / total de predições)
# Acurácia do modelo: indica uma performance geral do modelo.
# Dentre todas as classificações, quantas o modelo classificou corretamente;
# (VP+VN)/N
print('Acurácia: %.3f' % modelo.score(sintomas, diagnostico))

Acurácia: 0.751


### ----------------------------------------------------------------------------

# Validação do Aprendizado

### Predição Simples

In [29]:
Luiza = [[50,180,90,20,420,35,0.666,69,]]
print("Luiza", modelo.predict(Luiza))

Galvona = [[0,80,58,15,200,23,0.25,25,]]
print("Galvona", modelo.predict(Galvona))



Luiza [1.]
Galvona [0.]


### Predição a partir de base de dados (.csv)

In [30]:
import pandas as pd
# Carregando dados do arquivo CSV
url = 'https://raw.githubusercontent.com/Fashion-Q/Base-de-dados-para-atividade-de-IA/main/diabetes.csv'
base_Testes = pd.read_csv(url,sep=';', encoding = 'latin1').values
print("----------------------------")
print("Dados dos Pacientes - TESTES")
print("----------------------------")
print(base_Testes)
print("---------------------------------")

# Extração dos Atributos a serem utilizadas pela rede
print("Atributos de Entrada")
print("---------------------------------")
print(base_Testes[:, 1:8])

----------------------------
Dados dos Pacientes - TESTES
----------------------------
[[  6.    148.     72.    ...   0.627  50.      1.   ]
 [  1.     85.     66.    ...   0.351  31.      0.   ]
 [  8.    183.     64.    ...   0.672  32.      1.   ]
 ...
 [  5.    121.     72.    ...   0.245  30.      0.   ]
 [  1.    126.     60.    ...   0.349  47.      1.   ]
 [  1.     93.     70.    ...   0.315  23.      0.   ]]
---------------------------------
Atributos de Entrada
---------------------------------
[[148.     72.     35.    ...  33.6     0.627  50.   ]
 [ 85.     66.     29.    ...  26.6     0.351  31.   ]
 [183.     64.      0.    ...  23.3     0.672  32.   ]
 ...
 [121.     72.     23.    ...  26.2     0.245  30.   ]
 [126.     60.      0.    ...  30.1     0.349  47.   ]
 [ 93.     70.     31.    ...  30.4     0.315  23.   ]]


### Pré-processamento de Dados

In [32]:
import numpy as np
from sklearn import preprocessing

# Binarizador de rótulo
lb = preprocessing.LabelBinarizer()

#Converter todos os atributos menos o outcome(ultima linha) em um array numPy
data = np.array(base_Testes)

sintomas = data[:, :-1]
diagnostico = data[:, -1]



print("--------------------------------")
print("Atributos de Entrada - Numéricos")
print("--------------------------------")
print(sintomas)


--------------------------------
Atributos de Entrada - Numéricos
--------------------------------
[[  6.    148.     72.    ...  33.6     0.627  50.   ]
 [  1.     85.     66.    ...  26.6     0.351  31.   ]
 [  8.    183.     64.    ...  23.3     0.672  32.   ]
 ...
 [  5.    121.     72.    ...  26.2     0.245  30.   ]
 [  1.    126.     60.    ...  30.1     0.349  47.   ]
 [  1.     93.     70.    ...  30.4     0.315  23.   ]]


### Predição da Base

In [33]:
base_Predicao = modelo.predict((sintomas))
print("Classificações: ", base_Predicao)

Classificações:  [1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0.
 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0.
 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 1. 0. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0.
 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 0. 1.
 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 0.
 0. 0. 0. 0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0.
 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 

### Retorno aos valores Categóricos

In [34]:
import numpy as np
from sklearn import preprocessing

# Binarizador de rótulo
lb = preprocessing.LabelBinarizer()

#A saída da transformação é também conhecido como codificação 1-de-n
#Transforma valores categóricos equidistantes em valores binários equidistantes.
#Atributos categóricos com valores sim e não
lb.fit(['sim', 'não'])
febre = lb.inverse_transform(atributos_norm[:,0])
enjoo = lb.inverse_transform(atributos_norm[:,1])
dores = lb.inverse_transform(atributos_norm[:,3])

#Atributos categóricos com valores pequenas e grandes
lb.fit(['grandes', 'pequenas'])
manchas = lb.inverse_transform(atributos_norm[:,2])

#Atributos categóricos com valores saudável e doente
lb.fit(['saudável', 'doente'])
predicao = lb.inverse_transform(base_Predicao)

#Concatenação de Atributos (Colunas)
atributos_cat = np.column_stack((base_Testes[:,0],febre,enjoo,manchas,dores,predicao))
print("--------------------------------")
print("Atributos de Entrada - Numéricos")
print("--------------------------------")
print(atributos_cat)


NameError: ignored