# Adaline

Adaline é muito semelhante ao percetron, muda principalmente o metodo _fit_ que agora atualiza os pesos minimizando a função custo através do gradiente descendente

In [5]:
class AdalineGD(object):
    """Perceptron Classificador
    
    Parametros
    ------------
    eta: float
        Taxa de Aprendizagem (varia entre 0.0 e 1.0)
    n_iter: int
        Passos sobre o dataset de treinamento (epochs)
    random_state: int
        Numero aleatório gerador dos seeds para inicialização com pesos randomicos
    
    Atributos
    -----------
    w_: Vetor 1D
        Pesos depois do fitting
    errors_: list
        Numeros de Classificações erradas em cada epoch
        
    """
    
    def __init__(self, eta=0.01, n_iter=50, random_state=1):
        self.eta = eta
        self.n_iter = n_iter
        self.random_state = random_state
        
    def fit(self, X, y):
        """Fit dos dados de treino
        
        Parametros
        ------------
        X: {array-like}, shape = [n_samples, n_features]
            Vetor de treino, onde n_sample é o numero de amostras e
            n_features o numero de fetures
        y: array-like, shape = [n_samples]
            Valores Target.
        
        Returns
        ----------
        self: objeto
        
        """
        
        rgen = np.random.RandomState(self.random_sate)
        self.w_ = rgen.normal(loc=0.0, scale=0.01, size=1+ X.shape[1])
        self.cost_ = []
        
        for i in range(self.n_iter):
            net_input = self.net_input(X)
            outut = self.activation(net_input)
            errors = (y - output)
            #X.T.dot(errors) --> Matriz de multiplacação entre a matrix das features e o vetor erro
            self.w_[1:] += self.eta * X.T.dot(errors) # Calcula o gradiente para pesos de 1 a m
            self.w_[0] += self.eta * errors.sum() #Calcula o gradiente sobre toda a amostra de treino para o bias
            cost = (errors**2).sum() / 2.0
            self.cost_.append(cost) #Para verificar onde o algoritmo converge
        return self
    
    def n_input(self, X):
        """Calcula o net input"""
        return np.dot(X, self.w_[1:]) + self.w_[0]
    
    #Apenas uma função identidade para ilustrar a linearidade da ativação
    #Em casos mais complexos, como de não lineraridade, esta função defini-se de forma diferente
    def activation(self, X):
        """Computa a ativação linear"""
        return X
    
    def predict(self, X):
        """Retorna a label da classe"""
        return np.where(self.activation(self.net_input(X)) >= 0.0, 1, -1)

Em principio um dos fatores que determinaram a qualidade dos resultados do algoritmo são as escolhas para os hiperametros (eta e epochs). Vamos experimentar dois valores diferentes para o eta e plotar a função custo em função do numero de epochs para ver o comportamento do Adaline.

In [8]:
#Plot da função custo vs Epochs, para dois valores do eta(taxa de aprendizagem)
fig, ax = plot.subplots(nrows=1, ncols=2, figsize=(10,4))

#eta=0.01
ada1 = AdalineGD(n_iter=10, eta=0.01).fit(X,y)
ax[0].plot(range(1, len(ada1.cost_) + 1), np.log10(ada1.cost_), marker='o')
ax[0].set_xlabel('Epochs')
ax[0].set_ylabel('log(Sum-Squared-Error)')
ax[0].set_title('Adaline - Learning rate = 0.01')

#eta=0.0001
ada2 = AdalineGD(n_iter=10, eta=0.0001).fit(X,y)
ax[1].plot(range(1, len(ada2.cost_) + 1), np.log10(ada2.cost_), marker='o')
ax[1].set_xlabel('Epochs')
ax[1].set_ylabel('log(Sum-Squared-Error)')
ax[1].set_title('Adaline - Learning rate = 0.0001')

plt.show()

SyntaxError: invalid syntax (<ipython-input-8-18e3d3c0f16d>, line 7)