# Perceptron - Iris Dataset

Este notebook tem como intenção implementar um perceptron para classificar o Iris Dataset. Como um perceptron pode fazer apenas uma classificação linear, a base de dados foi reduzida para que houvesse apenas duas classes. Por padrão, foi removida a classe Iris-virginica, mas pode ser facilmente modificada.

## Importações

Para execução do código é necessária a importação dos pacotes random e pprint, como no bloco executável abaixo.

In [7]:
import random
import pprint

O Perceptron foi implementado como uma estrutra de dados de mesmo nome e está definida no bloco abaixo. Para instanciá-lo é necessário passar como parâmetro a quantidade de entradas e, opicionalmente, o learning rate e a quantidade de eras.
A função de ativação (activation_fn) foi definida como uma função binária, já que existem apenas duas classes.
A função de treinamento (fit) recebe como parâmetro uma matriz com as entradas de cada uma instância teste e um vetor de resultados para cada instância.

In [8]:
class Perceptron(object):
    def __init__(self, input_size, lr=1, epochs=100):
        self.weights = [0] * (input_size + 1)
        # add one for bias
        self.epochs = epochs
        self.lr = lr

    def activation_fn(self, x):
        #print( " x=", x)
        #funcao binaria
        return 1 if x >= 0 else 0

        #funcao bipolar
        # return 1 if x >= 0 else -1



    def weighted_sum(self, x, w):
        if(len(x) != len(w)):
            raise Exception("List with differents sizes")
        r = 0
        for i in range(len(w)):
            r += x[i] * w[i]
        return r

    def predict(self, x):
        z = self.weighted_sum(self.weights, x)
        a = self.activation_fn(z)
        return a

    def fit(self, X, d):
        for _ in range(self.epochs):
            for i in range(len(d)):
                x = [1] + X[i]
                y = self.predict(x)
                e = d[i] - y
                for j  in range(len(self.weights)):
                    self.weights[j] = self.weights[j] + self.lr * e * x[j]

## Ajuste do Dataset

O código abaixo lê o arquivo de dados ignorando a classe armazenada variável "excluded_class" que, por padrão, foi definida como a classe "Iris-virginica".

In [9]:
first_class = "Iris-setosa"
second_class = "Iris-versicolor"
excluded_class = "Iris-virginica"
number_of_class_values = 4

data_set = []
with open("iris.txt", "r") as data_set_file:
    lines = data_set_file.read().split()
    for i in range(len(lines)):
        lines[i] = lines[i].split(",")
    for line in lines:
        if(line[-1] != excluded_class):
            for j in range(len(line) - 1):
                line[j] = float(line[j])
            data_set.append(line)

if(data_set == []):
    print("Erro na leitura de arquivo ou arquivo vazio")

## Separação do Dataset

O trecho abaixo separa o Dataset em dois conjuntos: um de treinamento e um de teste, cada um deles com metade do tamanho do conjunto de dados inicial. Além disso ele cria um conjunto de resultados para cada novo conjunto, onde cada elemento desses conjuntos recebe o valor 1, se for "first_class" (definido por padrão como Iris-setosa) ou 0 se for "second_class" (definido por padrão como Iris-versicolor). Nota-se que 

In [10]:
data_set_size = len(data_set)
training_set_size = int(data_set_size / 2)
testing_set_size = data_set_size - training_set_size

data_set_index_to_train = random.sample(range(0, data_set_size), training_set_size)
data_set_index_to_test = list(set(range(0, data_set_size)) - set(data_set_index_to_train))


training_set = []
training_set_answer = []
for index in data_set_index_to_test:
    training_set.append(data_set[index][:-1])

    if(data_set[index][-1] == first_class):
        training_set_answer.append(1)
    elif(data_set[index][-1] == second_class):
        training_set_answer.append(0)

testing_set = []
testing_set_answer = []
mapping_test_index_to_data_index = []
for index in data_set_index_to_test:
    testing_set.append(data_set[index][:-1])

    if(data_set[index][-1] == first_class):
        testing_set_answer.append(1)
    elif(data_set[index][-1] == second_class):
        testing_set_answer.append(0)

## Treinamento

O código abaixo instancia o perceptron e executa seu treinamento, imprimindo, em seu fim, o peso de cada entrada.

In [11]:
perceptron = Perceptron(number_of_class_values, 0.1, 100)

perceptron.fit(training_set, training_set_answer)

for index, value in enumerate(perceptron.weights):
    print("W_" + str(index) + ": " + str(value))

W_0: 0.1
W_1: 0.10999999999999993
W_2: 0.36
W_3: -0.5200000000000001
W_4: -0.21999999999999997


## Teste

O código abaixo executa o teste no perceptron já treinado, calculando e imprimindo o número de acertos e erros, assim como a predição e resultado de cada teste.

In [12]:
number_of_right_answers = 0
number_of_wrong_answers = 0

list_prediction_answer = []

for index, test in enumerate(testing_set):
    test = [0] + test
    prediction = perceptron.predict(test)

    if(prediction == testing_set_answer[index]):
        number_of_right_answers += 1
    else:
        number_of_wrong_answers += 1

    prediction_answer = [index]
    if(prediction == 1):
        prediction_answer.append(first_class)
    else:
        prediction_answer.append(second_class)

    if(testing_set_answer[index] == 1):
        prediction_answer.append(first_class)
    else:
        prediction_answer.append(second_class)

    list_prediction_answer.append(prediction_answer)

pprint.pprint(list_prediction_answer)

print("Total de acertos: " + str(number_of_right_answers))
print("Total de erros: " + str(number_of_wrong_answers))

[[0, 'Iris-setosa', 'Iris-setosa'],
 [1, 'Iris-setosa', 'Iris-setosa'],
 [2, 'Iris-setosa', 'Iris-setosa'],
 [3, 'Iris-setosa', 'Iris-setosa'],
 [4, 'Iris-setosa', 'Iris-setosa'],
 [5, 'Iris-setosa', 'Iris-setosa'],
 [6, 'Iris-setosa', 'Iris-setosa'],
 [7, 'Iris-setosa', 'Iris-setosa'],
 [8, 'Iris-setosa', 'Iris-setosa'],
 [9, 'Iris-setosa', 'Iris-setosa'],
 [10, 'Iris-setosa', 'Iris-setosa'],
 [11, 'Iris-setosa', 'Iris-setosa'],
 [12, 'Iris-setosa', 'Iris-setosa'],
 [13, 'Iris-setosa', 'Iris-setosa'],
 [14, 'Iris-setosa', 'Iris-setosa'],
 [15, 'Iris-setosa', 'Iris-setosa'],
 [16, 'Iris-setosa', 'Iris-setosa'],
 [17, 'Iris-setosa', 'Iris-setosa'],
 [18, 'Iris-setosa', 'Iris-setosa'],
 [19, 'Iris-setosa', 'Iris-setosa'],
 [20, 'Iris-setosa', 'Iris-setosa'],
 [21, 'Iris-setosa', 'Iris-setosa'],
 [22, 'Iris-setosa', 'Iris-setosa'],
 [23, 'Iris-setosa', 'Iris-setosa'],
 [24, 'Iris-setosa', 'Iris-setosa'],
 [25, 'Iris-versicolor', 'Iris-versicolor'],
 [26, 'Iris-versicolor', 'Iris-versicolo