<a href="https://colab.research.google.com/github/IagoMagalhaes23/Machine-Learning-do-zero/blob/main/KNN_do_zero.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#k-vizinhos mais próximos

####O algoritmo k-Nearest Neighbors ou KNN para breve é ​​uma técnica muito simples.

####Todo o conjunto de dados de treinamento é armazenado. Quando uma previsão é necessária, os k-registros mais semelhantes a um novo registro do conjunto de dados de treinamento são localizados. A partir desses vizinhos, uma previsão resumida é feita.

####A similaridade entre os registros pode ser medida de muitas maneiras diferentes. Um problema ou método específico de dados pode ser usado. Geralmente, com dados tabulares, um bom ponto de partida é a distância euclidiana .

####Uma vez que os vizinhos são descobertos, a previsão resumida pode ser feita retornando o resultado mais comum ou tomando a média. Como tal, KNN pode ser usado para problemas de classificação ou regressão.

####Não há nenhum modelo para falar além de manter todo o conjunto de dados de treinamento. Como nenhum trabalho é feito até que uma previsão seja necessária, o KNN é frequentemente referido como um método de aprendizagem preguiçoso.

####Etapas:
- Etapa 1 : Calcular a distância euclidiana.
- Etapa 2 : Obtenha os vizinhos mais próximos.
- Etapa 3 : Faça previsões.

##Etapa 1: Calcular a distância euclidiana
- Distância euclidiana = sqrt (soma i a N (x1_i - x2_i) ^ 2)

Onde x1 é a primeira linha de dados, x2 é a segunda linha de dados ei é o índice de uma coluna específica quando somamos todas as colunas.

Com a distância euclidiana, quanto menor o valor, mais semelhantes serão os dois registros. Um valor 0 significa que não há diferença entre dois registros.

In [1]:
def euclidiana_distancia(linha1, linha2):
	distancia = 0.0
	for i in range(len(linha1)-1):
		distancia += (linha1[i] - linha2[i])**2
	return sqrt(distancia)

In [2]:
from math import sqrt

dataset = [[2.7810836,2.550537003,0],
	[1.465489372,2.362125076,0],
	[3.396561688,4.400293529,0],
	[1.38807019,1.850220317,0],
	[3.06407232,3.005305973,0],
	[7.627531214,2.759262235,1],
	[5.332441248,2.088626775,1],
	[6.922596716,1.77106367,1],
	[8.675418651,-0.242068655,1],
	[7.673756466,3.508563011,1]]
linha0 = dataset[0]
for linha in dataset:
	distancia = euclidiana_distancia(linha0, linha)
	print(distancia)

0.0
1.3290173915275787
1.9494646655653247
1.5591439385540549
0.5356280721938492
4.850940186986411
2.592833759950511
4.214227042632867
6.522409988228337
4.985585382449795


##Etapa 2: Obtenha vizinhos mais próximos

In [3]:
def get_neighbors(train, test_linha, num_neighbors):
	distancias = list()
	for train_linha in train:
		dist = euclidiana_distancia(test_linha, train_linha)
		distancias.append((train_linha, dist))
	distancias.sort(key=lambda tup: tup[1])
	neighbors = list()
	for i in range(num_neighbors):
		neighbors.append(distancias[i][0])
	return neighbors

In [4]:
dataset = [[2.7810836,2.550537003,0],
	[1.465489372,2.362125076,0],
	[3.396561688,4.400293529,0],
	[1.38807019,1.850220317,0],
	[3.06407232,3.005305973,0],
	[7.627531214,2.759262235,1],
	[5.332441248,2.088626775,1],
	[6.922596716,1.77106367,1],
	[8.675418651,-0.242068655,1],
	[7.673756466,3.508563011,1]]

neighbors = get_neighbors(dataset, dataset[0], 3)
for neighbor in neighbors:
	print(neighbor)

[2.7810836, 2.550537003, 0]
[3.06407232, 3.005305973, 0]
[1.465489372, 2.362125076, 0]


##Etapa 3: Faça previsões

In [5]:
def previsao_classificacao(train, test_linha, num_neighbors):
	neighbors = get_neighbors(train, test_linha, num_neighbors)
	output_values = [linha[-1] for linha in neighbors]
	previsao = max(set(output_values), key=output_values.count)
	return previsao

In [6]:
dataset = [[2.7810836,2.550537003,0],
	[1.465489372,2.362125076,0],
	[3.396561688,4.400293529,0],
	[1.38807019,1.850220317,0],
	[3.06407232,3.005305973,0],
	[7.627531214,2.759262235,1],
	[5.332441248,2.088626775,1],
	[6.922596716,1.77106367,1],
	[8.675418651,-0.242068655,1],
	[7.673756466,3.508563011,1]]

predicao = previsao_classificacao(dataset, dataset[7], 3)
print('Expected %d, Got %d.' % (dataset[7][-1], predicao))

Expected 1, Got 1.


##Estudo de caso de espécies de flores usando o íris dataset

In [9]:
from csv import reader
from math import sqrt

def load_csv(filename):
	dataset = list()
	with open(filename, 'r') as file:
		csv_reader = reader(file)
		for row in csv_reader:
			if not row:
				continue
			dataset.append(row)
	return dataset

def str_column_to_float(dataset, coluna):
	for linha in dataset:
		linha[coluna] = float(linha[coluna].strip())

def str_column_to_int(dataset, coluna):
	class_values = [linha[coluna] for linha in dataset]
	unique = set(class_values)
	lookup = dict()
	for i, value in enumerate(unique):
		lookup[value] = i
		print('[%s] => %d' % (value, i))
	for linha in dataset:
		linha[coluna] = lookup[linha[coluna]]
	return lookup

def dataset_minmax(dataset):
	minmax = list()
	for i in range(len(dataset[0])):
		col_values = [row[i] for row in dataset]
		value_min = min(col_values)
		value_max = max(col_values)
		minmax.append([value_min, value_max])
	return minmax

def normalize_dataset(dataset, minmax):
	for linha in dataset:
		for i in range(len(linha)):
			linha[i] = (linha[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

def euclidean_distance(linha1, linha2):
	distancia = 0.0
	for i in range(len(linha1)-1):
		distancia += (linha1[i] - linha2[i])**2
	return sqrt(distancia)

def get_neighbors(train, test_row, num_neighbors):
	distances = list()
	for train_row in train:
		dist = euclidean_distance(test_row, train_row)
		distances.append((train_row, dist))
	distances.sort(key=lambda tup: tup[1])
	neighbors = list()
	for i in range(num_neighbors):
		neighbors.append(distances[i][0])
	return neighbors

def predict_classification(train, test_row, num_neighbors):
	neighbors = get_neighbors(train, test_row, num_neighbors)
	output_values = [row[-1] for row in neighbors]
	prediction = max(set(output_values), key=output_values.count)
	return prediction

filename = 'iris_teste.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])-1):
	str_column_to_float(dataset, i)

str_column_to_int(dataset, len(dataset[0])-1)

num_neighbors = 5

row = [5.7,2.9,4.2,1.3]

label = predict_classification(dataset, row, num_neighbors)
print('Data=%s, Predicted: %s' % (row, label))

[Iris-virginica] => 0
[Iris-setosa] => 1
[Iris-versicolor] => 2
Data=[5.7, 2.9, 4.2, 1.3], Predicted: 2
