In [9]:
import numpy as np
import matplotlib.pyplot as plt  # Biblioteca para gerar gráficos
import random

In [3]:
def sigmoide(Z):
    return 1 / (1 + np.exp((-1 * Z)))

In [4]:
def GradienteDescendente(X, Y, epocas, alpha):
    Erros = []
    
    #Cria um array para 
    W = np.zeros((X.shape[1], 1))
    
    for t in range(0, epocas):
        #Calculo do erro na iteração t
        Y_ = (X @ W)
        Erro  = Y - sigmoide(Y_)
        Erros.append(np.mean(Erro))
        
        #Ajuste dos pesos na iteração t
        X_ = Erro * X
        Media = np.mean((Erro), axis = 0, keepdims=True)
        W = W + alpha * Media.T
        
    return (W, Y_, Erros)

In [5]:
def kfold(qtd_linhas, seed = 42, k = 10):
    #Cria uma lista com os indices do dataset
    indices_dataset = list(range(qtd_linhas))
    
    #Define o tamanho do dataset
    tamanho_subset = round(len(indices_dataset) / k)
    
    #Cria uma lista de subconjuto de indices
    random.Random(42).shuffle(indices_dataset)
    lista_subsets = [indices_dataset[x : x + tamanho_subset] for x in range(0, len(indices_dataset), tamanho_subset)]

    kfolds = []
    for i in range(k):
        teste = lista_subsets[i]
        treino = []
        for subset in lista_subsets:
            if subset != teste:
                treino.append(subset)
        kfolds.append((teste, treino))
        
    return kfolds

In [6]:
def montar_instancias(lista_indices, data_set, treino = True):
    instancias = []
    
    if treino:
        for lista in lista_indices:
            for indice in lista:
                instancias.append(data_set[indice])
    else:
        for indice in lista_indices:
            instancias.append(data_set[indice])
            
    return np.array(instancias)

In [24]:
data_set = np.genfromtxt('breastcancer.csv', delimiter = ',')
k = 10

#Por questão de legibilidade
qtd_linhas, qtd_colunas = data_set.shape
data_set = np.c_[np.ones((1, qtd_linhas)).T, data_set]

#Calcula os conjuntos de teste e treino
kfolds = kfold(qtd_linhas) 

testes = []
treinos = []
for teste, treino in kfolds:
    testes.append(montar_instancias(teste, data_set,  treino=False))
    treinos.append(montar_instancias(treino, data_set, treino=True))
    
resultado = []

for i in range(0, k):
    
    menor_erro = 10
    for treino in treinos:
        X_treino = treino[:, :-1]
        Y_treino = treino[:, [-1]]
        W, Y_, Erros = GradienteDescendente(X_treino, Y_treino, 2000, 0.001)
        
        if Erros[-1] < menor_erro:
            menor_erro = Erros[-1]
            melhor_w = W
            
    # resultado_treino.append((melhor_w, Erros[-1]))
    X_teste = testes[i][:, :-1]
    Y_teste = testes[i][:, [-1]]
    
    Y_ = X_teste @ melhor_w
    erro_teste = np.mean(( Y_teste - sigmoide(Y_)))
    
    resultado.append((melhor_w, Erros[-1], erro_teste))
    

In [25]:
resultado

[(array([[0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663]]),
  2.077610338479825e-17,
  0.10673106145454755),
 (array([[0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
         [0.00029663],
      