In [1]:
import numpy as np
import pandas as pd

In [2]:
def trainperceptron (xin, yd, eta, tol, maxepocas):
    
    '''
    Função que aplica o metodo para treinamento de perceptron
    yd: tem que ser garado para as xin (concatenado xall), metade 0 e metade 1
    xin: Entrada Nxn de dados de matriz
    eta: Peso de atualizacao do passo
    tol: tolerancia do erro
    maxepocas: numero maximo de epocas permitido
    retorna:
        - wt: parametros da função avaliada
        - evec: erro médio por época
    '''

    N = xin.shape[0]  #recebe as linhas
    n = xin.shape[1] # recebe as colunas
    xin = np.append(np.ones((N,1)), xin,axis = 1)

    wt = np.random.randn(n+1, 1)*0.01

    nepocas = 0
    eepoca = tol+1
    # inicializa vetor erro evec 
    evec = np.empty([maxepocas+1, 1])
    while ((nepocas < maxepocas) and (eepoca>tol)): #eepocas erro da epoca e tol tolerancia
        ei2 = 0
        if (nepocas+1)%100 == 0:
            print(f'Epoca: {nepocas+1}') 
        #sequencia aleatoria para treinamento
        xseq = (np.arange(N))
        np.random.shuffle(xseq)
        for i in range(N):
            #padrao para sequencia aleatoria
            irand = xseq[i]
            yhati = (np.matmul(xin[None, irand, :], wt)) >= 0
            ei = yd[irand]-yhati
            dw = eta * ei * xin[None, irand, :]
            #atualizacao do peso w
            wt = wt + dw.T
            #erro acumulado
            ei2 = ei2+ei*ei
        #numero de epocas
        nepocas = nepocas+1
        evec[nepocas] = ei2/N
        #erro por epoca
        eepoca = evec[nepocas]
    return wt, evec[1:nepocas]

def yperceptron(xin, w):

    '''
    Função que retorna a saída de um sistema cujo parametros foram obtidos usando a função trainadaline
    xin: vetor x de entrada
    w: parametros a serem considerados
    retorna: vetor y correspondente ao modelo com parametros w
    '''

    return ((np.matmul(np.append(np.ones((xin.shape[0],1)), xin,axis = 1 ), w))>=0).astype(int)

In [3]:
data = pd.read_csv('mammographic_masses_frac.data', index_col = 0)
test = pd.read_csv('mammographic_masses_frac.test', index_col = 0)

In [4]:
X_data_train = data.iloc[:, 0:-1].to_numpy()
Y_data_train = data.iloc[:, -1].to_numpy()

X_data_test = test.iloc[:, 0:-1].to_numpy()
Y_data_test = test.iloc[:, -1].to_numpy()

In [5]:
acc = []
for i in range(10):
    model, eva = trainperceptron (X_data_train, Y_data_train, 0.01, 0.001, 500)
    y_pred = yperceptron(X_data_test, model)
    acc.append((y_pred.reshape(-1) == Y_data_test.T).mean())

Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500
Epoca: 100
Epoca: 200
Epoca: 300
Epoca: 400
Epoca: 500


In [78]:
np.mean(acc)

0.713840830449827

In [6]:
acc

[0.6816608996539792,
 0.740484429065744,
 0.6505190311418685,
 0.643598615916955,
 0.5051903114186851,
 0.7508650519031141,
 0.6920415224913494,
 0.7474048442906575,
 0.6470588235294118,
 0.5051903114186851]