# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Solução Exercício do Capítulo 6</font>

Neste exercício você vai praticar suas habilidades de pesquisador, fundamental para quem pretende trabalhar como Cientista de Dados. Seu trabalho será desenvolver o algoritmo KNN usando apenas linguagem Python e Numpy, sem o uso de frameworks (como Scikit-Learn). Você poderá usar o paper abaixo como referência para montar o algoritmo.

Paper de referência do KNN: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.2.815&rep=rep1&type=pdf

Seu problema de negócio é a classificação de plantas em 3 categorias. No dataset fornecido, cada planta possui 4 variáveis preditoras representando características da planta e uma variável representando a classe. Seu algoritmo KNN deve prever a classe de uma nova planta uma vez que as 4 características sejam fornecidas.

Para ajudar você, parte do código já está sendo fornecido. Analise e estude o código. Você deve incluir sua solução no espaço indicado por "Escrever solução aqui" nas células abaixo.

A solução será apresentada no capítulo seguinte!

In [1]:
# Imports
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
# Carregando o dataset
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'classe']
iris_data = pd.read_csv('dados/iris.data', names = names)
iris_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classe
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
# Separando variáveis preditoras e variável target
X = iris_data.iloc[:,:4].values
y = iris_data.iloc[:,4]

# Labels da variável target
target_class = pd.get_dummies(iris_data['classe']).columns
target_names = np.array(target_class)

In [4]:
# Convertendo as classes para valores numéricos correspondentes
y = y.replace(target_names[0], 0)
y = y.replace(target_names[1], 1)
y = y.replace(target_names[2], 2)
y = np.array(y)

In [5]:
# Separando os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 33)
print(X_train.shape, y_train.shape)

(105, 4) (105,)


In [6]:
# Função para calcular a distância euclidiana
def distancia_euclidiana(att1, att2):
    dist = 0
    for i in range(len(att1)):
        dist += pow((att1[i] - att2[i]),2)
    return np.sqrt(dist)

In [7]:
# Algoritmo KNN
def KNN(array, k):
    
    # Array para o resultado final
    resultado = []
    
    # Loop por todos os elementos do array recebido como entrada
    for i in range(len(array)):
        valor = array[i]
        
        # Votação
        def vote(item):
            val = []
            for i in range(len(knn)):
                temp = item[i][1]
                val.append(temp)
            class_val = max(set(val), key = val.count) 
            return class_val
        
        # Aplicando a função de distância aos dados
        distance = []
        for j in range(len(X_train)) :
            
            # Calcula a distância de cada ponto de dado de entrada (array) para cada ponto de dado de treino
            euclidean_distance = distancia_euclidiana(valor, X_train[j])
            
            # Cria uma lista contendo a distância calculada e o valor do label do dado de treino em j
            temp = [euclidean_distance, y_train[j]]
            
            # Adiciona o item anterior à lista de distâncias
            distance.append(temp)
            
        # Ordena    
        distance.sort()
        
        # Obtém o valor de k para os vizinhos mais próximos
        knn = distance[:k]

        # Faz a votação
        resultado.append(vote(knn))
    return resultado

In [8]:
# Avaliando o modelo
y_test_pred = KNN(X_test, 5)
y_test_prediction = np.asarray(y_test_pred)

In [9]:
# Calculando a acurácia
acc = y_test - y_test_prediction
err = np.count_nonzero(acc)
acuracia = ((len(y_test) - err) / len(y_test)) * 100
acuracia

95.55555555555556

In [10]:
# Fazendo previsões para 5 novas plantas com K igual a 3
previsoes = KNN([[6.7,3.1,4.4,1.4],[4.6,3.2,1.4,0.2],[4.6,3.2,1.4,0.2],[6.4,3.1,5.5,1.8],[6.3,3.2,5.6,1.9]], 3)
previsoes

[1, 0, 0, 2, 2]

In [11]:
# Fazendo previsões para 5 novas plantas com K igual a 5
previsoes = KNN([[6.7,3.1,4.4,1.4],[4.6,3.2,1.4,0.2],[4.6,3.2,1.4,0.2],[6.4,3.1,5.5,1.8],[6.3,3.2,5.6,1.9]], 5)
previsoes

[1, 0, 0, 2, 2]

# Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>