In [3]:
import numpy as np
import matplotlib.pyplot as plt  # Biblioteca para gerar gráficos

In [60]:
def sigmoide(Z):
    return 1 / (1 + np.exp((-1 * Z)))

In [59]:
def GradienteDescendente(X, Y, epocas, alpha):
    Erros = []
    
    #Cria um array para 
    W = np.zeros((X.shape[1], 1))
    
    for t in range(0, epocas):
        #Calculo do erro na iteração t
        Y_ = (X @ W)
        Erro  = Y - sigmoide(Y_)
        Erros.append(np.mean(Erro))
        
        #Ajuste dos pesos na iteração t
        X_ = Erro * X
        Media = np.mean((Erro), axis = 0, keepdims=True)
        W = W + alpha * Media.T
        
    return (W, Y_, Erros)

In [111]:
def kfold(qtd_linhas, seed = 42, k = 10):
    #Cria uma lista com os indices do dataset
    indices_dataset = list(range(qtd_linhas))
    
    #Define o tamanho do dataset
    tamanho_subset = round(len(indices_dataset) / k)
    
    #Cria uma lista de subconjuto de indices
    random.Random(42).shuffle(indices_dataset)
    lista_subsets = [indices_dataset[x : x + tamanho_subset] for x in range(0, len(indices_dataset), tamanho_subset)]

    kfolds = []
    for i in range(k):
        teste = lista_subsets[i]
        treino = []
        for subset in lista_subsets:
            if subset != teste:
                treino.append(subset)
        kfolds.append((teste, treino))
        
    return kfolds

In [217]:
def montar_instancias(lista_indices, data_set, treino = True):
    instancias = []
    
    if treino:
        for lista in lista_indices:
            for indice in lista:
                instancias.append(data_set[indice])
    else:
        for indice in lista_indices:
            instancias.append(data_set[indice])
            
    return np.array(instancias)

In [245]:
data_set = np.genfromtxt('breastcancer.csv', delimiter = ',')

#Por questão de legibilidade
qtd_linhas, qtd_colunas = data_set.shape

data_set = np.c_[np.ones((1, qtd_linhas)).T, data_set]

#Calcula os conjuntos de teste e treino
kfolds = kfold(qtd_linhas) 

testes = []
treinos = []
for teste, treino in kfolds:
    testes.append(montar_instancias(teste, data_set,  treino=False))
    treinos.append(montar_instancias(treino, data_set, treino=True))
    
resultado_treino = []
for treino in treinos:
    X_treino = treino[:, :-1]
    Y_treino = treino[:, [-1]]
    W, Y_, Erros = GradienteDescendente(X_treino, Y_treino, 2000, 0.001)
    
    resultado_treino.append((W, Erros[-1]))
    
for i, teste in enumerate(testes):
    X_teste = testes[i][:, :-1]
    Y_teste = testes[i][:, [-1]]
    
    Y_ = X_teste @ W
    erro_teste = np.mean(( Y_teste - sigmoide(Y_)))
    
    resultado.append((W, Erros[-1], erro_teste))
    

## Analise do Discriminante Gaussiano

In [43]:
#Por questões de legibilidade
qtd_linhas, qtd_colunas = data_set.shape

#Conta a quantidade de classes, cada posição no vetor representa uma classe
N_classes = [0, 0]
for inf in data_set:
    if inf[-1] == 0.0:
        N_classes[0] += 1
    else:
        N_classes[1] += 1
        
N = qtd_linhas
# Prob_classe é um vetor onde cada posíção representa uma classe e o valor associado a probabilidade
pob_classe = [0, 0]
for c in range(0, Nk):
    pob_classe[c] = N_classes[c] / N

#Calculando Médias das classes:
medias = np.zeros(2)
for inf in data_set:
    if inf[-1] == 0.0:
        medias[0] += inf[:-1].sum()
    else:
        medias[1] += inf[:-1].sum()

medias[0] = medias[0] / N_classes[0]
medias[1] = medias[1] / N_classes[1]

#Calculando os desvios padrão de cada classe
sigmas = np.zeros(2)
for inf in data_set:
    if inf[-1] == 0:
        sigmas[0] += (inf[:-1] - medias[0]) @ (inf[:-1] - medias[0]).T
    else:
        sigmas[1] += (inf[:-1] - medias[1]) @ (inf[:-1] - medias[1]).T
        
sigmas[0] = sigmas[0] / (N_classes[0] - 1)
sigmas[1] = sigmas[1] / (N_classes[1] - 1)

In [20]:
data_set = np.genfromtxt('breastcancer.csv', delimiter = ',')
data_set[1][0]

20.57

[212, 357]

In [39]:
for inf in data_set:
    print(inf[:-1].sum())

3566.1784719999996
3740.923467
3387.392551
1240.0018479999999
3336.6842149999993
1505.5453019999998
3067.937363000001
1814.437947
1564.8972399999996
1493.4343990000002
2312.5449510000003
2463.1949549999995
2968.470789
2001.8772510000001
1587.871452
1959.529563
2177.458183
2510.3809779999997
4197.341490999999
1555.2877620000002
1414.6986020000002
782.2373839999998
2032.3994029999994
4555.2255049999985
3614.9335990000004
2842.9153629999996
1875.952953
2950.240347
2402.10621
2573.2181889999997
3259.9456479999994
1651.1699880000006
2662.693942
3440.8845840000004
2430.4289890000005
2481.654891
1755.9797500000002
1323.1384279999997
1787.423189
1594.4313039999997
1645.4290370000003
1147.296884
3281.8367839999996
1768.9813290000002
1563.014513
3077.9306789999996
620.6711339999999
1588.1779350000004
1285.34489
1553.5451309999999
1207.909859
1497.931274
1209.821755
2799.219737
2079.454916
1164.161936
3796.265666
1985.3286369999998
1431.052847
670.417669
909.6721249999999
703.3599960000001
1975.5