# Notebook para meter ruido en las etiquetas de una base de datos


In [1]:
def meter_ruido(y,pr):
    
    import numpy as np
    import copy
    import random
    
    """
    Función que mete ruido en unas etiquetas dadas
    yy : etiquetas donde queremos meter el ruido
    pr : porcentaje de ruido que metemos en las etiquetas
    """

    yy = copy.deepcopy(y)
    clases = np.unique(y)
    n = len(clases) #Numero de clases que hay 
    #Index donde se metera el ruido en la base de datos
    a = len(y) #Numero de ejemplos
    nr = int(a*pr) #Numero de ejemplos que seran ruido
    index = random.sample(range(0, a-1),nr)  #Índices datos que cambiaremos       
    for i in index:
        m=0
        # buscar la posición en clases del elemento i-ésimo de y
        while clases[m]!=y[i]:
            m+=1
        num = random.randint(0,n-2)
        if num<m:
            yy[i] = clases[num]
        else:
            yy[i] = clases[num+1]
    ruido = np.array(y) != yy
    return yy,ruido


def excel_con_ruido(y_mal, ruido, filename, name_dataset):
    
    """
    Función que genera un excel con el ruido introducido en un dataset
    y_mal : etiquetas con ruido
    ruido : vector de true o false con los lugares donde se ha cambiado la etiqueta
    filename : nombre del archivo
    name_dataset : nombre del dataset donde se ha introducido ruido
    """
    
    import csv 
    import os
    
    path = "ruido_en_" + name_dataset + "_" + filename + ".csv" #Nombre del file con ruido
    open(path, mode='w', newline='')

    """
    Estructura archivo:
    - Nombre Dataset
    - Titulos de las dos siguientes filas
    - Etiquetas con ruido: la clase asociado para cada ejemplo del dataset una vez introducido el ruido
    - Vector de True y False: True cuando hay ruido y False cuando no hay
    """
    with open(path, mode='a', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(["Etiquetas con ruido", "Valores donde hay ruido"])
        for i in range(0,len(y_mal)):
            writer.writerow([y_mal[i],ruido[i]])
    file.close()
            
    return path

In [2]:
from ipynb.fs.full.datasets import *

datasets = {"mnist_numbers" : mnist_numbers(), "mnist_with_clothes" : mnist_with_clothes(), "chinese_mnist" : chinese_mnist(),   \
            "wine" : wine(), "gamma_telescope" : gamma_telescope(),   \
            "image_segmentation": image_segmentation(), "digits_dataset": digits_dataset(), "breast_cancer": load_breast_cancer()}

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  "execution_count": 13,


In [7]:
for df_str in datasets:
    df = datasets.get(df_str)
    y = df["label"].to_numpy() #Etiquetas
    y_mal,ruido = meter_ruido(y,0.75)
    file_con_ruido = excel_con_ruido(y_mal,ruido,"0.75",df_str)
    print(file_con_ruido)

ruido_en_mnist_numbers_0.75.csv
ruido_en_mnist_with_clothes_0.75.csv
ruido_en_chinese_mnist_0.75.csv
ruido_en_wine_0.75.csv
ruido_en_gamma_telescope_0.75.csv
ruido_en_image_segmentation_0.75.csv
ruido_en_digits_dataset_0.75.csv
ruido_en_breast_cancer_0.75.csv
