In [4]:
import numpy as np
import pandas as pd  
from matplotlib import pyplot as plt
import zipfile
import builtins  
from sklearn.model_selection import train_test_split

In [2]:


def unzip(archivo_zip, variable_name):
    """
    Extrae y carga el contenido del único archivo dentro de un ZIP en una variable global.
    
    Parámetros:
    - archivo_zip: Ruta al archivo ZIP.
    - variable_name: Nombre de la variable global donde se guardará el DataFrame.
    """
    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        # Obtiene directamente el primer (y único) archivo
        file_name = zip_ref.namelist()[0]
        with zip_ref.open(file_name) as txt_file:
            # Leer el archivo como un DataFrame de pandas
            df = pd.read_csv(txt_file, sep='\t', index_col=0)
            
            # Asignar el DataFrame a una variable global con el nombre proporcionado
            builtins.__dict__[variable_name] = df

# Ejemplo de uso
zip_file_train= '../data/raw/yeast_genotype_train.txt.zip'
zip_file_test = '../data/raw/yeast_genotype_test.txt.zip'

# Llamar a la función para descomprimir y guardar los DataFrames en variables globales
unzip(zip_file_train, 'df_train')  # Se guarda en la variable global df_train
unzip(zip_file_test, 'df_test')   # Se guarda en la variable global df_test

In [5]:
df_train_split, df_val_split = train_test_split(df_train, test_size=0.2, random_state=42)

In [6]:
def introduce_missingness(data, missing_perc=0.1):
    """
    Introduce valores faltantes (NaN) en un porcentaje determinado de celdas en el DataFrame.
    """
    data_missing = data.copy()

    # Calcular el número de valores a modificar
    n_samples, n_features = data_missing.shape
    n_missing = int(np.floor(n_samples * n_features * missing_perc))

    # Seleccionar aleatoriamente las posiciones donde se introducirán los valores faltantes (NaN)
    missing_indices = np.random.choice(n_samples * n_features, n_missing, replace=False)

    # Introducir los valores faltantes (NaN) en las posiciones seleccionadas
    for index in missing_indices:
        i = index // n_features
        j = index % n_features
        data_missing.iloc[i, j] = np.nan  # Introducir NaN como valor faltante

    return data_missing

# Aplicar la función al conjunto de test
df_test_missing_10 = introduce_missingness(df_test, missing_perc=0.1)

KeyboardInterrupt: 