## Classificador linear passo a passo - 2D 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Base de dados :

In [2]:
data = pd.read_csv('iris.csv', header = None)
print(data)

FileNotFoundError: [Errno 2] No such file or directory: 'iris.csv'

## Transformação das classes :

In [None]:
data = data[:100]
data[4] = np.where(data.iloc[:, -1]=='Iris-setosa', -1, 1)
print(data)

## Preparação da base de dados para utilização no classificador :

In [None]:
xo = np.ones(100) #incluindo o intercept dentro da matriz de features

features = np.asmatrix([xo, data[0] , data[2]]) #features consideradas no classificador

features = features.transpose() #ajuste da matriz de features

print(features[:10,:])

In [None]:
labels = np.array(data[4]) #target de cada linha da base de dados
print(labels[:100])

## Visualização das classes :

In [None]:
plt.scatter(np.array(features[:50,1]), np.array(features[:50,2]), marker='o', label='setosa')
plt.scatter(np.array(features[50:,1]), np.array(features[50:,2]), marker='x', label='versicolor')
plt.xlabel('petal length')
plt.ylabel('sepal length')
plt.legend()
plt.show()

### Machine Learning "From scratch"

Modelo Matemático:

$x_1, x_2 \rightarrow{}$ features

$y \rightarrow{}$ target

$\hat{y_{i}} = w_2x_{2}^{(i)}+w_1x_{1}^{(i)}+w_0x_{0}^{(i)}=w^{T}X^{(i)}$ $\rightarrow{}$ target estimado

Não há erro se $\rightarrow{} y_{i}\hat{y}_{i} = y_{i}(w^{T}X^{(i)}) \geq 0$

$Erro = \{X^{(i)} \mid y_{i}(w^{T}X^{(i)})< 0\} \rightarrow$ erro gerado para cada linha da base de dados

$Custo(\hat{y_{i}})= Custo(w_{2}, w_{1}, w_{0}) = -\sum_{i=1\mid X_{i}\in E}^{N}y_{i}(w^{T}X^{(i)}) \rightarrow{}$ função custo para cada equação da reta estimada

$\frac{\partial (Custo)}{\partial w_{0}} = -\sum_{i=1\mid X_{i}\in E}^{N}y_{i}(w^{T}x_{0}^{(i)}) \rightarrow{}$ derivada parcial da função custo em relação ao parâmetro $w_{0}$ da equação da reta

$\frac{\partial (Custo)}{\partial w_{1}} = -\sum_{i=1\mid X_{i}\in E}^{N}y_{i}(w^{T}x_{1}^{(i)}) \rightarrow{}$ derivada parcial da função custo em relação ao parâmetro $w_{1}$ da equação da reta

$\frac{\partial (Custo)}{\partial w_{2}} = -\sum_{i=1\mid X_{i}\in E}^{N}y_{i}(w^{T}x_{2}^{(i)}) \rightarrow{}$ derivada parcial da função custo em relação ao parâmetro $w_{2}$ da equação da reta

$\frac{\partial (Custo)}{\partial w_{0}} = 0 \rightarrow$ ponto de mínimo da função custo em relação ao parâmetro $w_{0}$

$\frac{\partial (Custo)}{\partial w_{1}} = 0 \rightarrow$ ponto de mínimo da função custo em relação ao parâmetro $w_{1}$

$\frac{\partial (Custo)}{\partial w_{2}} = 0 \rightarrow$ ponto de mínimo da função custo em relação ao parâmetro $w_{2}$

Modelo computacional:

- escolher parâmetros inciais $w_{2}$, $w_{1}$ e $w_{0}$
- calcular $\hat{y_{i}}$ para todas as linhas da base de dados
- calcular função Custo
- atualizar os parâmetros $w_{2}$, $w_{1}$ e $w_{0}$ a cada iteração, fazendo:

    - $w_{0} \leftarrow w_{0}+\alpha \frac{\partial (Custo)}{\partial w_{0}}$
    - $w_{1} \leftarrow w_{1}+\alpha \frac{\partial (Custo)}{\partial w_{1}}$
    - $w_{2} \leftarrow w_{2}+\alpha \frac{\partial (Custo)}{\partial w_{2}}$

## Inicialização e parâmetros do classificador :

In [None]:
w = np.array([0, 0.1, 1]).reshape(-1,3)
print(w)
misclassified_ = [] 

misclassified = 0

print('Inicializacao dos coeficientes w do classificador =', w)

In [None]:
plt.scatter(np.array(features[:50,1]), np.array(features[:50,2]), marker='o', label='setosa')
plt.scatter(np.array(features[50:,1]), np.array(features[50:,2]), marker='x', label='versicolor')
plt.plot((np.array(features[:,1])), -w[0][0]/w[0][2]-w[0][1]/w[0][2]*(np.array(features[:,1])), label='classificador', color='red')
plt.xlabel('petal length')
plt.ylabel('sepal length')
plt.legend()
plt.show()

## Algoritmo classificador passo a passo:

### $1^{a}$ iteração

In [None]:
x = features[0]
y = labels[0]
print('Valores das features na primeira linha da base de dados =', x)
print('Valor do target na primeira linha da base de dados =', y)
print('Valores dos coeficientes w do classificador =', w)

In [None]:
y_hat = np.dot(w, x.transpose())
print('Valor do label estimado da primeira linha da base de dados =', y_hat)

In [None]:
classe = 1.0 if (y_hat > 0) else -1.0 #verificacao se o valor encontrado corresponde a classe correta
print('Valor da classe estimada da primeira linha da base de dados =', classe)

In [None]:
erro = (classe - y)
print('Valor do erro da primeira linha da base de dados =', erro)

In [None]:
if(erro):
    misclassified += 1
    w += 0.05*(y * x)
    
print('Valores dos coeficientes w do classificador após 1a iteração =', w)

In [None]:
plt.scatter(np.array(features[:50,1]), np.array(features[:50,2]), marker='o', label='setosa')
plt.scatter(np.array(features[50:,1]), np.array(features[50:,2]), marker='x', label='versicolor')
plt.plot((np.array(features[:,1])), -w[0][0]/w[0][2]-w[0][1]/w[0][2]*(np.array(features[:,1])), label='classificador', color='red')
plt.xlabel('petal length')
plt.ylabel('sepal length')
plt.legend()
plt.show()

In [None]:
misclassified_.append(erro)
print('Erro após 1a iteração =', misclassified_)

### $2^{a}$ iteração

In [None]:
x = features[1]
y = labels[1]
print('Valores das features na segunda linha da base de dados =', x)
print('Valor do target na segunda linha da base de dados =', y)
print('Valores dos coeficientes w do classificador =', w)

In [None]:
y_hat = np.dot(w, x.transpose())
print('Valor do label estimado da segunda linha da base de dados =', y_hat)

In [None]:
classe = 1.0 if (y_hat > 0) else -1.0 #verificacao se o valor encontrado corresponde a classe correta
print('Valor da classe estimada da segunda linha da base de dados =', classe)

In [None]:
erro = (classe - y)
print('Valor do erro da segunda linha da base de dados =', erro)

In [None]:
if(erro):
    misclassified += 1
    w += 0.05*(y * x)
    
print('Valores dos coeficientes w do classificador após 2a iteração =', w)

In [None]:
plt.scatter(np.array(features[:50,1]), np.array(features[:50,2]), marker='o', label='setosa')
plt.scatter(np.array(features[50:,1]), np.array(features[50:,2]), marker='x', label='versicolor')
plt.plot((np.array(features[:,1])), -w[0][0]/w[0][2]-w[0][1]/w[0][2]*(np.array(features[:,1])), label='classificador', color='red')
plt.xlabel('petal length')
plt.ylabel('sepal length')
plt.legend()
plt.show()

In [None]:
misclassified_.append(erro)
print('Erro após 2a iteração =', misclassified_)

## Erro de classificação :

In [None]:
plt.plot(range(len(misclassified_)), misclassified_)
plt.xlabel('iteração')
plt.ylabel('error')
plt.show()

## Visualização do classificador :

In [None]:
plt.scatter(np.array(features[:50,1]), np.array(features[:50,2]), marker='o', label='setosa')
plt.scatter(np.array(features[50:,1]), np.array(features[50:,2]), marker='x', label='versicolor')
plt.plot((np.array(features[:,1])), -w[0][0]/w[0][2]-w[0][1]/w[0][2]*(np.array(features[:,1])), label='classificador', color='red')
plt.xlabel('petal length')
plt.ylabel('sepal length')
plt.legend()
plt.show()

## API

In [None]:
nova_planta = np.array([1, 6.7, 5.2])
classe_planta_nova = np.dot(w,nova_planta.transpose())
print('Valor do classificador =' + '' + str(classe_planta_nova))
classe_final = 'Versicolor' if (classe_planta_nova > 0) else 'Setosa'
print('A nova planta é da espécie:' , classe_final)