#### OK - 1 - Testar com base de dados de Iris (ver se a predição deu certo) 
#### OK - 2 - Comparar com o algorítmo de KNN real
#### OK - 3 - Melhorar nomes das variáveis
#### OK - 4 - Comentar funções
#### OK - 5 - Revisar funções em private OO
#### OK - 6 - Criar função de score
#### 7 - Revisar de há algum função proibida
#### OK - 8 - Criar novas funções de cálculo de distância (Euclidiana, Manhattan, Minkowski e distância de Hamming. As primeiras três funções são usadas para a função contínua e a quarta (Hamming) para variáveis categóricas)
#### 9 - Criar Matriz de Confusão
#### 10 - Revisar textos
#### 11 - Revisar  os nomes dos methods na classe KNN (chamada)
#### 12 - Finalizar nootebook (instânciando o meu modelo e comparando com o modelo original KNN)

In [552]:
# Observações quanto ao exercício

# Funções atômicas para facilitar os testes unitários

In [553]:
import math # Para calcular a raiz quadrada
import csv # Para abrir o arquivo CSV e carregar na memória
import random # Para gerar a aleatoriedade para separar as bases de teste e train

In [554]:
class ManupulaArquivo:
    '''
    Esta classe é responsável por fornecer métodos que permitam a manipulação de arquivos para trabalhar com
    bases de dados, especificamente, para trabalhar com algorítmos de machine learning (ML).
    
    Lista de Atributos:
        N/A
    
    Lista de Métodos Públicos:
        load_dataset = carrega um dataset na memoria.
        train_test_split = separa um dataset em duas listas (variáveis repostas e variáveis preditoras) de treino
                           e duas listas (variáveis repostas e variáveis preditoras) de teste, utilizando o método
                           de validação cruzada holdout.
    
    Lista de Métodos Privados:
        __shuffle_dataset = randomiza um dataset.
        __separate_dataset = separa o dataset em duas listas de treino e teste.
        __remove_predictor_element = remove o elemento preditor das lista de treino e teste.
    '''
    
    def load_dataset(self, path_file):
        '''
        Método público que carrega um csv na memória do nootbook.
        Retorna a base de dados em formato de lista.
        
        Args:
            path_file(str): O caminho do arquivo CSV. Caso esteja na mesma pasta do nootbook, basta inserir o
                            nome do arquivo. Não é necessário adicionar a extensão do arquivo (.csv).
        
        Returns:
            dataset(list): Uma lista com os dados do CSV de entrada carregado na memória.
        '''
        with open(path_file) as csv_file:
            dataset = list(csv.reader(csv_file))
        return dataset

    def __shuffle_dataset(self, dataset, test_ratio):
        '''
        Método privado que embaralha o dataset, isto é, randomiza a base de dados.
        Retorna a base de dados randomizada e a proporção da base para teste do modelo.
        
        Args:
            dataset(list): A base de dados contendo os dados em formato de lista carregados na memória.
            
            test_ratio(float): Tamanho (proporção) da base de teste em valor percentual.
            
        Returns:
            shuffled_dataset(list): Uma lista com os dados do dataset randomizados (embaralhados).
            
            test_size(int): Tamanho (inteiro) da base de dados em valor absoluto (Ex: 200 linhas do dataset randomizado). 
        '''
        shuffled_dataset = random.sample(dataset, len(dataset))
        test_size = int(len(dataset) * test_ratio)        
        return shuffled_dataset, test_size 
    
    def __separate_dataset(self, shuffled_dataset, test_size):
        '''
        Método privado que separa um dataset, preferencialmente randomizado (embaralhados), em duas lista: uma para treino
        e outra para teste.
        Retorna as duas listas de treino e teste.
        
        Args:
            shuffled_dataset(list): Uma lista com os dados do dataset, preferencialmente randomizados (embaralhados).
            
            test_size(float): Tamanho (proporção) da base de teste.
            
        Returns:
            train_data(list): Uma lista com os dados para treinamento do modelo, de acordo com a proporção
            fornecida de teste.
            
            test_data(list): Uma lista com os dados para teste do modelo, de acordo com a proporção
            fornecida de teste.
        '''
        test_data = shuffled_dataset[:test_size]
        train_data = shuffled_dataset[test_size:]
        return train_data, test_data
    
    def __remove_predictor_element(self, train_data, test_data):
        '''
        Método privado que remove o elemento preditor, considerando como sendo o último elemento, do dataset.
        Retorna quatro lista contendo os elementos seletores (varíaveis respostas) e os valores preditores
        de treino e teste.
        
        Args:
            train_data(list): Uma lista com os dados para treinamento do modelo, de acordo com a proporção
            fornecida de teste.
            
            test_data(list): Uma lista com os dados para teste do modelo, de acordo com a proporção
            fornecida de teste.
        
        Returns:
            train_x(list): Uma lista contendo os elementos seletores (varíaveis respostas) da lista de treino.
            
            train_y(list): Uma lista contendo os elementos seletores (varíaveis respostas) da lista de teste.
            
            test_x(list): Uma lista contendo os elementos preditores (varíaveis preditoras) da lista de treino.
            
            test_y(list): Uma lista contendo os elementos preditores (varíaveis preditoras) da lista de teste.
        '''
        last_element = -1
        train_x = [sample[:last_element] for sample in train_data]
        train_y = [sample[last_element] for sample in train_data]
        test_x = [sample[:last_element] for sample in test_data]
        test_y = [sample[last_element] for sample in test_data]
        return train_x, train_y, test_x, test_y
    
    def train_test_split(self, dataset, test_ratio=0.3):
        '''
        Método público que separa uma base de dados em quatro listas para treino e teste de um modelo de machine learning
        utilizando o método de validação cruzada holdout.
        Retorna quatro lista contendo os elementos seletores (varíaveis respostas) e os valores preditores
        de treino e teste.
        
        Args:
            dataset(list): A base de dados contendo os dados em formato de lista carregados na memória.
            
            test_ratio(float): Tamanho (proporção) da base de teste em valor percentual. Por default o valor
            desta variável é 0.3 (30%).
        
        Returns:
            train_x(list): Uma lista contendo os elementos seletores (varíaveis respostas) da lista de treino.
            
            train_y(list): Uma lista contendo os elementos seletores (varíaveis respostas) da lista de teste.
            
            test_x(list): Uma lista contendo os elementos preditores (varíaveis preditoras) da lista de treino.
            
            test_y(list): Uma lista contendo os elementos preditores (varíaveis preditoras) da lista de teste.
        '''
        shuffled_dataset, test_size = self.__shuffle_dataset(dataset, test_ratio)
        train_data, test_data = self.__separate_dataset(shuffled_dataset, test_size)
        train_x, train_y, test_x, test_y = self.__remove_predictor_element(train_data, test_data)
        return train_x, train_y, test_x, test_y    

In [555]:
# Classe KNN
class KNeighborsClassifier:
    '''
    Esta classe contém os métodos para utilização do classificador KNN (k-nearest neighbors). O nome
    'KNeighborsClassifier' desta classe foi utilizado para manter o mesmo padrão do classificador original
    (classe KNeighborsClassifier).
    
    Lista de Atributos:
        k(int) = é o valor de k do classificador KNN. Neste classificador, K representa o k-ésimo vizinho mais
                 próximo das amostras da base de treino.

        distance_calculation_method(str) = é o método de cálculo da distância entre os pontos do plano (amostras
                                           treino).
        
        x_train(list) = é a lista de pontos utilizada para o 'treino' do algorítmo. Embora, o classificador KNN
                        não realize o treino das instâncias de teste, mas é necessário armazenar os pontos de 
                        treino na memória do programa para que seja possível calcular a distância entre os pontos
                        de treino e teste.
        
        y_train(list) = é a lista de pontos contendo os resultados de treino. Podem assumir os tipos str, inteiro
                        ou float.
    
    Lista de Métodos Públicos:
        __init__ = inicializa as variáveis k e distance_calculation_method
        fit = treina o modelo com base no dataset de entrada
        predict = prediz os valores do dataset de teste com base no treino realizado com a função .fit() 
        prediction_report = apresenta um relatório dos resultados da predição
        accuracy_report = apresenta um relatório da acurácia da predição
    
    Lista de Métodos Privados:
        __calculate_distance = cálcula a distância de dois pontos (p e q) 
        __append_distance = realiza um append numa lista dos resultados do cálculo de distância
        __find_shorter_distance = encontra as menores distância numa lista de acordo com o valor da variável k
        __find_label = encontra as labels da lista de entrada
        __predict_label = realiza a predição da label conforme lista de entrada
    
    '''

    def __init__(self, k=3, distance_calculation_method='euclidean'):
        '''
        Método público utilizado para inicializar as principais variáveis do classificador.
        Não há retorno para este método.
        
        Args:
            k(int): é o valor de k do classificador KNN. Neste classificador, K representa o k-ésimo vizinho mais
                    próximo das amostras da base de treino. Por default o valor de k é 3.

            distance_calculation_method(str): é o método de cálculo da distância entre os pontos do plano (amostras
                                              treino). Por default o valor de distance_calculation_method é
                                              'euclidean'.
        
        Returns:
            N/A
        '''
        self.k = k
        self.distance_calculation_method = distance_calculation_method
    
    def fit(self, x_train, y_train):
        '''
        Método público utilizado para setar (inicializar) a base de dados de train (variáveis resultados e
        preditoras). Embora, o classificador KNN não realize o treino das instâncias de teste, mas é necessário
        armazenar os pontos de treino na memória do programa para que seja possível calcular a distância entre
        os pontos de treino e teste. O nome 'fit' foi utilizado para manter o mesmo padrão do classificador
        original (classe KNeighborsClassifier).
        Não há retorno para este método.
        
        Args:
            x_train(list): é a lista de pontos utilizada para o 'treino' do algorítmo. Embora, o classificador KNN
                           não realize o treino das instâncias de teste, mas é necessário armazenar os pontos de 
                           treino na memória do programa para que seja possível calcular a distância entre os
                           pontos de treino e teste.
        
            y_train(list): é a lista de pontos contendo os resultados de treino. Podem assumir os tipos str,
                           inteiro ou float.
        
        Returns:
            N/A
        '''
        self.x_train = x_train
        self.y_train = y_train
    
    def __calculate_distance(self, point_p, point_q):
        '''
        Método privado utilizado para cálcular a distância entre dois pontos (point_p e point_q). É possível
        calcular a distância utilizando dois métodos distintos: a distância euclidiana; e a distância de manhattan.
        Para isso, se deve setar corretamente a variável distance_calculation_method.
        A distância euclidiana é dada por: raiz quadrada do somatório da diferença entre os pontos p e q elevados
        ao quadrado. Fórmula: sqrt(sum_points), onde sum_points += (float(point_p[i]) - float(point_q[i]))**2.
        A distância de manhattan é dada por: somatório do módulo da diferença entre os pontos p e q.
        Fórmula: sum_points += abs(float(point_p[i]) - float(point_q[i])).
        Retorna o resultado do cálculo da distância de dois pontos (p e q).
        
        Args:
            point_p(list): é a lista de pontos (variáveis resultados) do i-ésimo elemento de treino, onde i
                            corresponde a um sample.
        
            point_q(list): é a lista de pontos (variáveis resultados) do i-ésimo elemento de teste, onde i
                            corresponde a um sample. Essa varíavel corresponde a instância de teste corrente
                            (a instância de teste a ser calculada sua distância em relação aos i-ésimos elementos
                            de treino).
        
        Returns:
            calculation_result(float): é o resultado (float) do cálculo da distância dos pontos p e q. 
        '''
        sum_points = 0
        calculation_result = 0
        dimension_point = len(point_p)
        
        # Cálculo da distância euclidiana. Fonte: https://pt.wikipedia.org/wiki/Dist%C3%A2ncia_euclidiana
        if self.distance_calculation_method == 'euclidean': 
            for i in range(dimension_point):
                sum_points += (float(point_p[i]) - float(point_q[i]))**2
            calculation_result = math.sqrt(sum_points)
        
        # Cálculo da distância de manhattam. Fonte: https://pt.wikipedia.org/wiki/Geometria_pombalina
        elif self.distance_calculation_method == 'manhattan':
            for i in range(dimension_point):
                sum_points += abs(float(point_p[i]) - float(point_q[i]))
            calculation_result = sum_points
        
        return calculation_result
    
    def __append_distance(self, instance_test):
        '''
        Método privado que realizar um append (adiciona um elemento a lista) nos resultados do cálculo da 
        distância dos pontos p e q de cada sample.
        Retorna uma lista contendo todos os resultados do cálculo da distância de dois pontos (p e q) de cada
        sample.
        
        Args:
            instance_test(list): é um sample da lista de teste. Contém os valores das varíaveis resultados de
            uma instância de teste (sample).
            
        Returns:
            append_result(list): é uma lista contendo todos os resultados do cálculo da distância de dois
            pontos (p e q) de cada sample de entrada.
        '''
        append_result = []
        dimension_x_train = len(self.x_train)
        for sample in range(dimension_x_train):
            append_result.append(self.__calculate_distance(self.x_train[sample], instance_test))
        return append_result
    
    def __find_shorter_distance(self, distance_result):
        '''
        Método privado que encontra a menor distância da lista de resultado de cálculo da distâncias entre dois
        pontos (p e q).
        Retorna os k elementos de menor valor do vetor de entrada.
        
        Args:
            distance_result(list): é uma lista contendo todos os resultados do cálculo da distância entre dois
            pontos (p e q).
        
        Returns:
            k_shorter_distances(list): é uma lista com os k menores distâncias da lista de entrada.      
        '''
        ranged_distance_result = range(len(distance_result))
        k_shorter_distances = sorted(ranged_distance_result, key=lambda i: distance_result[i])[:self.k]
        return k_shorter_distances
    
    def __find_label(self, k_shorter_distances):
        '''
        Método privado que encontra as labels da lista de k menores distâncias.
        Retorna uma lista com os labels dos k menores distâncias da lista de entrada.
        
        Args:
            k_shorter_distances(list): é uma lista com os k menores distâncias.
        
        Returns:
            k_labels(list): é uma lista com os labels dos k menores distâncias da lista de entrada.
        '''
        k_labels = []
        for i in k_shorter_distances:
            k_labels.append(self.y_train[i])
        return k_labels
    
    def __predict_label(self, labels_k):
        '''
        Método privado que cálcula, utilizando a função max(..., key=labels_k.count), a quantidade de labels
        mais frequente na lista de labels de entrada.
        Retorna a label que apereceu com maior frequência na lista de entrada.
        
        Args:
            labels_k(list): é uma lista com os labels dos k menores distâncias.
            
        Returns:
            max_label(str): é a label que aparece com maior frequência na lista de entrada.
        '''
        max_label = max(labels_k, key=labels_k.count)
        return max_label

    def predict(self, x_test):
        '''
        Método público que realiza a predição da lista de entrada com base no dataset de treino inicializado
        com o método fit(). O nome 'predict' foi utilizado para manter o mesmo padrão do classificador original
        (classe KNeighborsClassifier).
        Retorna uma lista do resultado da predição.
        
        Args:
            x_test(list): é uma lista com as variáveis resultados (x_test) do dataset de teste.
            
        Returns:
            predict_result(list): é uma lista com os resultados da predição da lista de teste de entrada.
        '''
        predict_result = []
        for instance_x_test in x_test:
            distance_result = self.__append_distance(instance_x_test)
            k_shorter_distances = self.__find_shorter_distance(distance_result)
            k_labels = self.__find_label(k_shorter_distances)
            max_label = self.__predict_label(k_labels)
            predict_result.append(max_label)                
        return predict_result
    
    def prediction_report(self, predictions, y_test):
        '''
        Método público que apresenta na tela o resultado da predição de cada sample. Seguinte o padrão:
        Teste Nº: [sample]        Real: [valor real]        Predito: [valor predito]
        Não há retorno para este método.
        
        Args:
            predict_result(list): é uma lista com os resultados da predição.
        
            y_test(list): é a lista de pontos contendo os resultados de teste. Podem assumir os tipos str,
                          inteiro ou float.
        
        Returns:
            N/A
        '''
        for sample, prediction in enumerate(predictions):
            print('Teste Nº:', (sample+1) , '\t Real:', y_test[sample], '\t Predito:', prediction)

    def accuracy_report(self, predictions, y_test):
        '''
        Método público que apresenta na tela a acurácia do resultado da predição de cada sample. Seguinte
        o padrão:
        Quantidade de Treinos: [tamanho do dataset de treino]
        Quantidade de Testes: [tamanho do dataset de teste]
        Quantidade de Acertos: [número de acertos quando o valor do dataset de teste é igual ao valor predito]
        Quantidade de Erros: [diferença do tamanho dataset de teste pela quantidade de acertos]
        Acurácia do Modelo: [Percentual de acertos em relação a quantidade de elemento no dataset de teste]
        Não há retorno para este método.

        Args:
            predict_result(list): é uma lista com os resultados da predição.
        
            y_test(list): é a lista de pontos contendo os resultados de teste. Podem assumir os tipos str,
                          inteiro ou float.
        
        Returns:
            N/A
        '''
        hits = 0
        for prediction, sample in zip(predictions, y_test):
            if prediction == sample:
                hits += 1
                
        print('Quantidade de Treinos:', len(self.x_train))
        print('Quantidade de Testes:', len(y_test))
        print('Quantidade de Acertos:', hits)
        print('Quantidade de Erros:', (len(y_test)-hits))
        print('Acurácia do Modelo: %.2f%%' % (hits*100/len(y_test)))
        
        # Matriz de Confusão

In [572]:
ma = ManupulaArquivo()
dataset = ma.load_dataset('iris.data')
train_X, train_y, test_X, test_y = ma.train_test_split(dataset, test_ratio=0.2)
print('\n',len(train_X), len(train_y), len(test_X), len(test_y))
print(train_X[:3], '\n', train_y[:3], '\n', test_X[:3], '\n', test_y[:3])


 120 120 30 30
[['6.1', '2.9', '4.7', '1.4'], ['5.8', '2.8', '5.1', '2.4'], ['6.2', '3.4', '5.4', '2.3']] 
 ['Iris-versicolor', 'Iris-virginica', 'Iris-virginica'] 
 [['7.2', '3.2', '6.0', '1.8'], ['5.4', '3.9', '1.7', '0.4'], ['5.7', '2.9', '4.2', '1.3']] 
 ['Iris-virginica', 'Iris-setosa', 'Iris-versicolor']


In [573]:
knn2 = KNeighborsClassifier(k=9, distance_calculation_method='euclidean')
#knn2 = KNeighborsClassifier(distance_calculation_method='manhattan')
knn2.fit(train_X,train_y)
print(len(train_X))

120


In [574]:
result = knn2.predict(test_X)

In [575]:
knn2.accuracy_report(result, test_y)

Quantidade de Treinos: 120
Quantidade de Testes: 30
Quantidade de Acertos: 28
Quantidade de Erros: 2
Acurácia do Modelo: 93.33%


In [576]:
knn2.prediction_report(result, test_y)

Teste Nº: 1 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 2 	 Real: Iris-setosa 	 Predito: Iris-setosa
Teste Nº: 3 	 Real: Iris-versicolor 	 Predito: Iris-versicolor
Teste Nº: 4 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 5 	 Real: Iris-setosa 	 Predito: Iris-setosa
Teste Nº: 6 	 Real: Iris-versicolor 	 Predito: Iris-versicolor
Teste Nº: 7 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 8 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 9 	 Real: Iris-versicolor 	 Predito: Iris-versicolor
Teste Nº: 10 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 11 	 Real: Iris-setosa 	 Predito: Iris-setosa
Teste Nº: 12 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 13 	 Real: Iris-setosa 	 Predito: Iris-setosa
Teste Nº: 14 	 Real: Iris-versicolor 	 Predito: Iris-versicolor
Teste Nº: 15 	 Real: Iris-virginica 	 Predito: Iris-virginica
Teste Nº: 16 	 Real: Iris-versicolor 	 Predito: Iris-versicolor
Teste Nº: 17 	 Real: Iris-virgi

In [577]:
# Imports necessários
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import sklearn.neighbors
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
import numpy as np

In [578]:
dataset = load_iris()
X_train1, X_test1, Y_train1, Y_test1 = train_test_split(dataset['data'], dataset['target'], random_state=0)
print(X_train1.shape)
print(X_test1.shape)

(112, 4)
(38, 4)


In [579]:
# Instanciando o modelo KNN
knn = sklearn.neighbors.KNeighborsClassifier(n_neighbors = 9)

# Treinando os dados
knn.fit(train_X,train_y)

# Para medir a accuracy, utiliza-se o método score passando a base de teste e os valores preditos
knn.score(test_X, test_y)

0.9333333333333333

In [355]:
def load_dataseta(path_file):
    with open(path_file) as csv_file:
        dataset = list(csv.reader(csv_file))
    return dataset

In [200]:
print(ma.load_dataset.__doc__)


        Função que carrega um csv na memória do nootbook.
        Returna a base de dados em formato de lista
        
        Args:
            path_file(str): O caminho do arquivo CSV. Caso esteja na mesma pasta do nootbook, basta inserir o
                            nome do arquivo. Não é necessário adicionar a extensão do arquivo (.csv).
        
        Returns:
            dataset(list): Uma lista com os dados do CSV de entrada carregado na memória.
        
        


In [150]:
def hamming_distance(s1, s2):
    assert len(s1) == len(s2)
    return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2))

In [173]:
s1 = ["100"]
s2 = ["011"]

In [172]:
hamming_distance(s1,s2)

1

In [222]:
print(knn2.fit.__doc__)


        Método público utilizado para setar (inicializar) a base de dados de train (variáveis resultados e
        preditoras). Embora, o classificador KNN não realize o treino das instâncias de teste, mas é necessário
        armazenar os pontos de treino na memória do programa para que seja possível calcular a distância entre
        os pontos de treino e teste. O nome "fit" foi utilizado para manter o mesmo padrão do classificador
        original (classe KNeighborsClassifier).
        Não há retorno para este método.
        
        Args:
            x_train(list): é a lista de pontos utilizada para o "treino" do algorítmo. Embora, o classificador KNN
                           não realize o treino das instâncias de teste, mas é necessário armazenar os pontos de 
                           treino na memória do programa para que seja possível calcular a distância entre os
                           pontos de treino e teste.
        
            y_ train(list): é a lista de pontos 