GENERAR DATOS FALTANTES (SIN INCREMENTAR)

In [None]:
import pandas as pd
import numpy as np
import os

# Cargar el dataframe original (ajusta la ruta según sea necesario)
X_train = pd.read_csv("../../data/metilacion_nm.csv", index_col=0)

# Establecer una semilla para la reproducibilidad
np.random.seed(5)

def introduce_missing_data(df, missing_percentage):
    """Introduce datos faltantes aleatorios en el dataframe con un porcentaje especificado por muestra"""
    # Crear una copia del dataframe para no modificar el original
    df_copy = df.copy()
    
    # Calcular el número total de celdas que queremos hacer faltar en todo el dataframe
    total_cells = df_copy.size
    missing_cells = int(total_cells * missing_percentage / 100)
    
    # Distribuir los NaNs aleatoriamente entre las filas y columnas
    for row in df_copy.index:
        # Calcular el número de NaNs a introducir en esta fila
        row_missing_cells = int(missing_cells / len(df_copy.index))
        
        # Seleccionar aleatoriamente las columnas para introducir NaNs en esta fila
        cols_to_nan = np.random.choice(df_copy.columns, row_missing_cells, replace=False)
        
        # Introducir NaNs en las columnas seleccionadas de esta fila
        df_copy.loc[row, cols_to_nan] = np.nan

    return df_copy

# Crear la carpeta 'missing' si no existe
output_dir = "../../data/metilacion_with_missing"
os.makedirs(output_dir, exist_ok=True)

# Crear las nuevas bases de datos con diferentes porcentajes de datos faltantes
X_train_5 = introduce_missing_data(X_train, 5)
X_train_10 = introduce_missing_data(X_train, 10)
X_train_20 = introduce_missing_data(X_train, 20)
X_train_30 = introduce_missing_data(X_train, 30)
X_train_50 = introduce_missing_data(X_train, 50)


# Verificar los primeros registros de cada uno
print(X_train_5.head(), X_train_10.head(), X_train_20.head(), X_train_30.head(), X_train_50.head())


          156186305  156186313  156186321  156186325  156186342  156186356  \
18B13387  11.373671  10.867598  14.055282  21.170409  23.345484   5.290853   
18B2795   47.451735  29.009670  34.580896        NaN  25.681129  15.870852   
17B25620  57.289880  44.306507  36.287625  46.039604  32.319894  13.771865   
15B744    59.362809  27.294192  40.876844  38.203370  28.490648  21.537592   
18B7048   32.332706  31.588237  23.390077  22.074986  19.222065   8.418182   

          156186357  156186358  156186359  156186375  ...        69      72.1  \
18B13387   0.117268   9.289617   3.094445   5.349425  ...  0.631151  1.249594   
18B2795   15.949583  21.737521  22.653662        NaN  ...  0.039108       NaN   
17B25620  18.107057  17.125155  27.727205  19.114350  ...  0.035398  0.040519   
15B744    23.189354  24.095683  24.033392   0.000000  ...  0.009384  0.015509   
18B7048   10.233941  13.757971  15.698416  15.168765  ...  0.231275  0.026120   

                75        76        79      

In [8]:
# Verificar el porcentaje de datos faltantes por columna
def check_missing_data(df):
    missing_data = df.isnull().mean() * 100  # Porcentaje de NaN por columna
    return missing_data

# Verificar los datos faltantes en los diferentes datasets
missing_5 = check_missing_data(X_train_5)
missing_10 = check_missing_data(X_train_10)
missing_20 = check_missing_data(X_train_20)
missing_30 = check_missing_data(X_train_30)
missing_50 = check_missing_data(X_train_50)

# Mostrar los resultados
print("Porcentaje de datos faltantes en X_train_5:")
print(missing_5)
print("\nPorcentaje de datos faltantes en X_train_10:")
print(missing_10)
print("\nPorcentaje de datos faltantes en X_train_20:")
print(missing_20)
print("\nPorcentaje de datos faltantes en X_train_30:")
print(missing_30)
print("\nPorcentaje de datos faltantes en X_train_50:")
print(missing_50)


Porcentaje de datos faltantes en X_train_5:
156186305    4.761905
156186313    4.761905
156186321    9.523810
156186325    4.761905
156186342    0.000000
               ...   
80           0.000000
83           0.000000
84           9.523810
87           0.000000
88           0.000000
Length: 491, dtype: float64

Porcentaje de datos faltantes en X_train_10:
156186305     9.523810
156186313     4.761905
156186321     4.761905
156186325     9.523810
156186342    23.809524
               ...    
80            4.761905
83           19.047619
84            0.000000
87            4.761905
88            9.523810
Length: 491, dtype: float64

Porcentaje de datos faltantes en X_train_20:
156186305    28.571429
156186313    23.809524
156186321     9.523810
156186325    23.809524
156186342    33.333333
               ...    
80           14.285714
83            9.523810
84           19.047619
87            9.523810
88           14.285714
Length: 491, dtype: float64

Porcentaje de datos faltantes e

In [9]:
# Función para calcular estadísticas descriptivas sobre los datos faltantes
def calculate_missing_data_variability(df):
    missing_percentage = df.isnull().mean() * 100  # Porcentaje de NaN por fila
    min_missing = missing_percentage.min()  # Mínimo porcentaje de datos faltantes
    max_missing = missing_percentage.max()  # Máximo porcentaje de datos faltantes
    mean_missing = missing_percentage.mean()  # Promedio del porcentaje de datos faltantes
    std_missing = missing_percentage.std()  # Desviación estándar
    
    # Rango de la variabilidad
    range_missing = max_missing - min_missing
    
    return min_missing, max_missing, mean_missing, std_missing, range_missing

# Calcular la variabilidad en los diferentes datasets
min_5, max_5, mean_5, std_5, range_5 = calculate_missing_data_variability(X_train_5)
min_10, max_10, mean_10, std_10, range_10 = calculate_missing_data_variability(X_train_10)
min_20, max_20, mean_20, std_20, range_20 = calculate_missing_data_variability(X_train_20)
min_30, max_30, mean_30, std_30, range_30 = calculate_missing_data_variability(X_train_30)
min_50, max_50, mean_50, std_50, range_50 = calculate_missing_data_variability(X_train_50)

# Mostrar los resultados
print("X_train_5 - Estadísticas sobre el porcentaje de datos faltantes:")
print(f"Min: {min_5:.2f}%, Max: {max_5:.2f}%, Mean: {mean_5:.2f}%, Std: {std_5:.2f}%, Rango: {range_5:.2f}%\n")

print("X_train_10 - Estadísticas sobre el porcentaje de datos faltantes:")
print(f"Min: {min_10:.2f}%, Max: {max_10:.2f}%, Mean: {mean_10:.2f}%, Std: {std_10:.2f}%, Rango: {range_10:.2f}%\n")

print("X_train_20 - Estadísticas sobre el porcentaje de datos faltantes:")
print(f"Min: {min_20:.2f}%, Max: {max_20:.2f}%, Mean: {mean_20:.2f}%, Std: {std_20:.2f}%, Rango: {range_20:.2f}%\n")

print("X_train_30 - Estadísticas sobre el porcentaje de datos faltantes:")
print(f"Min: {min_30:.2f}%, Max: {max_30:.2f}%, Mean: {mean_30:.2f}%, Std: {std_30:.2f}%, Rango: {range_30:.2f}%\n")

print("X_train_50 - Estadísticas sobre el porcentaje de datos faltantes:")
print(f"Min: {min_50:.2f}%, Max: {max_50:.2f}%, Mean: {mean_50:.2f}%, Std: {std_50:.2f}%, Rango: {range_50:.2f}%\n")


X_train_5 - Estadísticas sobre el porcentaje de datos faltantes:
Min: 0.00%, Max: 23.81%, Mean: 4.89%, Std: 4.68%, Rango: 23.81%

X_train_10 - Estadísticas sobre el porcentaje de datos faltantes:
Min: 0.00%, Max: 33.33%, Mean: 9.98%, Std: 6.43%, Rango: 33.33%

X_train_20 - Estadísticas sobre el porcentaje de datos faltantes:
Min: 0.00%, Max: 47.62%, Mean: 19.96%, Std: 9.06%, Rango: 47.62%

X_train_30 - Estadísticas sobre el porcentaje de datos faltantes:
Min: 4.76%, Max: 57.14%, Mean: 29.94%, Std: 9.99%, Rango: 52.38%

X_train_50 - Estadísticas sobre el porcentaje de datos faltantes:
Min: 14.29%, Max: 80.95%, Mean: 49.90%, Std: 11.74%, Rango: 66.67%



In [10]:
def count_non_missing_per_sample(df, name):
    non_missing_counts = df.notnull().sum(axis=1)
    print(f"{name} - Valores NO faltantes por muestra (fila):")
    print(non_missing_counts.describe())  # Estadísticas descriptivas
    print()
    return non_missing_counts

non_missing_5 = count_non_missing_per_sample(X_train_5, "X_train_5")
non_missing_10 = count_non_missing_per_sample(X_train_10, "X_train_10")
non_missing_20 = count_non_missing_per_sample(X_train_20, "X_train_20")
non_missing_30 = count_non_missing_per_sample(X_train_30, "X_train_30")
non_missing_50 = count_non_missing_per_sample(X_train_50, "X_train_50")

X_train_5 - Valores NO faltantes por muestra (fila):
count     21.0
mean     467.0
std        0.0
min      467.0
25%      467.0
50%      467.0
75%      467.0
max      467.0
dtype: float64

X_train_10 - Valores NO faltantes por muestra (fila):
count     21.0
mean     442.0
std        0.0
min      442.0
25%      442.0
50%      442.0
75%      442.0
max      442.0
dtype: float64

X_train_20 - Valores NO faltantes por muestra (fila):
count     21.0
mean     393.0
std        0.0
min      393.0
25%      393.0
50%      393.0
75%      393.0
max      393.0
dtype: float64

X_train_30 - Valores NO faltantes por muestra (fila):
count     21.0
mean     344.0
std        0.0
min      344.0
25%      344.0
50%      344.0
75%      344.0
max      344.0
dtype: float64

X_train_50 - Valores NO faltantes por muestra (fila):
count     21.0
mean     246.0
std        0.0
min      246.0
25%      246.0
50%      246.0
75%      246.0
max      246.0
dtype: float64



In [11]:
# Verificar el porcentaje total de datos faltantes en el dataframe completo
def calculate_total_missing_percentage(df):
    total_cells = df.size  # Total de celdas en el dataframe
    missing_cells = df.isnull().sum().sum()  # Total de celdas con NaN
    missing_percentage = (missing_cells / total_cells) * 100  # Porcentaje de celdas con NaN
    return missing_percentage

# Calcular el porcentaje de datos faltantes en los datasets con diferentes porcentajes de datos faltantes
missing_percentage_5 = calculate_total_missing_percentage(X_train_5)
missing_percentage_10 = calculate_total_missing_percentage(X_train_10)
missing_percentage_20 = calculate_total_missing_percentage(X_train_20)
missing_percentage_30 = calculate_total_missing_percentage(X_train_30)
missing_percentage_50 = calculate_total_missing_percentage(X_train_50)

# Mostrar los resultados
print(f"Porcentaje total de datos faltantes en X_train_5: {missing_percentage_5:.2f}%")
print(f"Porcentaje total de datos faltantes en X_train_10: {missing_percentage_10:.2f}%")
print(f"Porcentaje total de datos faltantes en X_train_20: {missing_percentage_20:.2f}%")
print(f"Porcentaje total de datos faltantes en X_train_30: {missing_percentage_30:.2f}%")
print(f"Porcentaje total de datos faltantes en X_train_50: {missing_percentage_50:.2f}%")


Porcentaje total de datos faltantes en X_train_5: 4.89%
Porcentaje total de datos faltantes en X_train_10: 9.98%
Porcentaje total de datos faltantes en X_train_20: 19.96%
Porcentaje total de datos faltantes en X_train_30: 29.94%
Porcentaje total de datos faltantes en X_train_50: 49.90%


In [12]:
# Guardar las nuevas bases de datos con los datos faltantes en los archivos correspondientes
X_train_5.to_csv(f"{output_dir}/X_missing5_nan.csv")
X_train_10.to_csv(f"{output_dir}/X_missing10_nan.csv")
X_train_20.to_csv(f"{output_dir}/X_missing20_nan.csv")
X_train_30.to_csv(f"{output_dir}/X_missing30_nan.csv")
X_train_50.to_csv(f"{output_dir}/X_missing50_nan.csv")

print("Archivos guardados exitosamente.")

Archivos guardados exitosamente.
