In [None]:
import pandas as pd

df = pd.read_csv("parkinsons_disease_data.csv")
df = df.drop("DoctorInCharge",axis=1)

In [None]:
import sys


In [None]:
import numpy as np
import pandas as pd
import os
from sklearn.metrics import pairwise_distances

def agregar_nulos_KNN1_recoverables(df, fraccion=0.1, random_state=None):
    """
    Inserta NaNs en el DataFrame de forma que, usando KNNImputer con n_neighbors=1,
    se recuperen al 100% los valores eliminados.
    
    Se garantiza:
      - Que cada fila tenga a lo sumo un NaN.
      - Que para cada celda (i, col) seleccionada, el vecino más cercano (calculado con las demás columnas)
        tiene exactamente el mismo valor en dicha columna.
      - Que la celda del vecino en esa columna permanezca completa (no se inserte NaN allí).
    
    Parámetros:
      - df: DataFrame original (sin NaNs).
      - fraccion: Fracción del total de celdas a eliminar. Dado que solo se puede eliminar 1 por fila,
                  el máximo es el número de filas recuperables.
      - random_state: Semilla para reproducibilidad.
      
    Devuelve:
      - df_mod: Copia del DataFrame con NaNs insertados en posiciones garantizadas para recuperación perfecta.
    """
    np.random.seed(random_state)
    df_mod = df.copy()
    n_rows, n_cols = df.shape
    
    # Paso 1: Identificar candidatos recuperables.
    # Para cada fila i y cada columna col, calculamos el vecino más cercano (usando las demás columnas)
    # y si el valor del vecino en 'col' es igual al de la fila i, registramos el candidato.
    candidatos = {}  # clave: fila, valor: lista de tuplas (columna, vecino)
    
    for i in range(n_rows):
        if i%20 == 0:
            print(i/n_rows*100)
        
        for col in df.columns:
            # Usamos todas las columnas excepto 'col' para calcular la distancia.
            otras_cols = [c for c in df.columns if c != col]
            X = df[otras_cols].values
            # Calculamos la matriz de distancias Euclidianas.
            D = pairwise_distances(X, metric='euclidean')
            dists = D[i].copy()
            dists[i] = np.inf  # Excluir la propia fila.
            
            if n_rows > 1:
                # Vecino más cercano (único, pues n_neighbors=1)
                neighbor_idx = np.argmin(dists)
                # Verificamos que el valor en la celda de vecino sea idéntico.
                if df.iloc[neighbor_idx][col] == df.iloc[i][col]:
                    if i not in candidatos:
                        candidatos[i] = []
                    candidatos[i].append((col, neighbor_idx))
    
    # Paso 2: Seleccionar candidatos sin conflicto.
    # Se debe evitar que se elimine la celda (neighbor, col) si ese valor se necesita para imputar.
    locked = set()         # Conjunto de celdas (fila, col) que NO se deben borrar (ya que son fuente para otro)
    seleccionados = {}     # Para cada fila, el candidato elegido: fila -> (col, neighbor)
    
    # Procesamos las filas candidatas en orden aleatorio.
    filas_disponibles = list(candidatos.keys())
    np.random.shuffle(filas_disponibles)
    
    print(f"filas_disponibles: {len(filas_disponibles)}")
    for i in filas_disponibles:
        # Iteramos sobre los candidatos de la fila i en orden aleatorio.
        candidatos_i = candidatos[i].copy()
        np.random.shuffle(candidatos_i)
        for (col, neighbor) in candidatos_i:
            # Si la celda del vecino en esa columna ya está bloqueada, no se puede usar.
            if (neighbor, col) in locked:
                continue
            # Seleccionamos este candidato para la fila i.
            seleccionados[i] = (col, neighbor)
            # Bloqueamos la celda (neighbor, col) para evitar que se elimine en otra fila.
            locked.add((neighbor, col))
            break  # Solo se permite un candidato por fila.
    
    # Paso 3: Insertar los NaNs en función de la fracción deseada.
    total_cells = n_rows * n_cols
    max_missing = len(seleccionados)  # Máximo de NaNs posibles (1 por fila recuperable)
    desired_missing = int(fraccion * total_cells)
    n_missing = min(max_missing, desired_missing)
    
    # Seleccionamos aleatoriamente n_missing filas de las que tienen candidato.
    filas_con_candidato = list(seleccionados.keys())
    if len(filas_con_candidato) > n_missing:
        filas_seleccionadas = np.random.choice(filas_con_candidato, size=n_missing, replace=False)
    else:
        filas_seleccionadas = filas_con_candidato
    
    # Insertamos los NaNs en df_mod.
    for i in filas_seleccionadas:
        col, neighbor = seleccionados[i]
        df_mod.at[i, col] = np.nan
    
    return df_mod


In [None]:
import numpy as np
import pandas as pd

def comparar_datasets(df1, df2, tol=0.05):
    """
    Compara dos DataFrames y devuelve el número de celdas que difieren más allá de la tolerancia especificada.
    
    Parámetros:
      - df1: Primer DataFrame.
      - df2: Segundo DataFrame (debe tener la misma forma que df1).
      - tol: Tolerancia relativa para la comparación (por defecto 0.05, es decir, 5%).
      
    Devuelve:
      - n_diferencias: Número total de celdas que difieren.
    
    Notas:
      - Se utiliza np.isclose para la comparación, con atol=0 y rtol=tol.
      - Si ambos valores son NaN en la misma posición, se consideran iguales.
    """
    # Verificar que ambos DataFrames tengan la misma forma
    if df1.shape != df2.shape:
        raise ValueError("Los DataFrames tienen dimensiones diferentes.")
    
    # Convertir los DataFrames a arrays de NumPy
    arr1 = df1.to_numpy()
    arr2 = df2.to_numpy()
    
    # Comparar usando np.isclose: se consideran iguales si la diferencia relativa es menor que tol.
    # equal_nan=True hace que si ambos valores son NaN se consideren iguales.
    comparacion = np.isclose(arr1, arr2, rtol=tol, atol=0, equal_nan=True)
    
    # Contar el número de celdas que NO cumplen la condición (diferentes)
    n_diferencias = np.size(comparacion) - np.sum(comparacion)
    
    return n_diferencias

In [None]:
# Ejemplo de uso
#df = pd.DataFrame(np.random.randint(0,100,size=(100, 100)))


df_con_nulos = agregar_nulos_KNN1_recoverables(df, fraccion=0.1, random_state=42)
display(df.head())
display(df_con_nulos.head())


(df_con_nulos != df).sum().sum()

In [None]:
df_con_nulos.to_csv("df_con_nulos.csv")

In [None]:
imputer = KNNImputer(n_neighbors=1)  
df_recuperado = pd.DataFrame(imputer.fit_transform(df_con_nulos), columns=df.columns)

(df_recuperado != df).sum().sum()

In [None]:
import pandas as pd

df_con_nulos = pd.read_csv("df_con_nulos.csv",index_col=0)

In [None]:
df_con_nulos.head()

LevodopaDailyDose (float):
Dosis diaria de levodopa en miligramos.

MotorScore (int):
Puntuación global de síntomas motores en una escala definida (por ejemplo, de 0 a 100).

NonMotorScore (int):
Puntuación global de síntomas no motores, en una escala similar.

AnnualHospitalizations (int):
Número de hospitalizaciones durante el último año.

DailyStepCount (int):
Número de pasos diarios medidos mediante un dispositivo wearable o podómetro.

SleepDuration (float):
Duración promedio del sueño en horas por noche.

CognitiveReactionTime (float):
Tiempo de reacción en pruebas cognitivas, medido en milisegundos.

MedicationCount (int):
Número de medicamentos que el paciente toma diariamente.

DopamineLevel (float):
Nivel de dopamina en sangre, medido en una unidad específica (por ejemplo, picogramos por mililitro).

In [None]:
import numpy as np
df_con_nulos["LevodopaDailyDoseFake"] = np.random.uniform(0.0, 10.0, size=len(df_con_nulos))
df_con_nulos["MotorScoreFake"] = np.random.randint(0, 100, size=len(df_con_nulos))

df_con_nulos["NonMotorScoreFake"] = np.random.randint(0, 100, size=len(df_con_nulos))
df_con_nulos["AnnualHospitalizationsFake"] = np.random.randint(1, 8, size=len(df_con_nulos))
df_con_nulos["DailyStepCountFake"] = np.random.randint(1500, 6000, size=len(df_con_nulos))

df_con_nulos["SleepDurationFake"] = np.random.uniform(3.0, 10.0, size=len(df_con_nulos))
df_con_nulos["CognitiveReactionTimeFake"] = np.random.uniform(0.5, 5.0, size=len(df_con_nulos))

df_con_nulos["MedicationCountFake"] = np.random.randint(0, 8, size=len(df_con_nulos))
df_con_nulos["DopamineLevelFake"] = np.random.uniform(0.5, 15.0, size=len(df_con_nulos))


In [None]:
atts = list(df_con_nulos.columns)
atts.remove("Diagnosis")
atts.append("Diagnosis")

In [None]:
df_con_nulos[atts].to_csv("data.csv")

In [None]:
# ojito, le quite valores a la clase tambien

In [1]:
import pandas as pd

df = pd.read_csv("parkinsons_disease_data.csv")
df = df.drop("DoctorInCharge",axis=1)

df_con_nulos = pd.read_csv("./data/data.csv",index_col=0)

In [2]:
df.shape,df_con_nulos.shape

((2105, 34), (2105, 43))

In [6]:
df_con_nulos.Diagnosis = df.Diagnosis


In [10]:
df_con_nulos.drop("UPDRS",axis=1)

Unnamed: 0,PatientID,Age,Gender,Ethnicity,EducationLevel,BMI,Smoking,AlcoholConsumption,PhysicalActivity,DietQuality,...,LevodopaDailyDoseFake,MotorScoreFake,NonMotorScoreFake,AnnualHospitalizationsFake,DailyStepCountFake,SleepDurationFake,CognitiveReactionTimeFake,MedicationCountFake,DopamineLevelFake,Diagnosis
0,3058,85.0,0.0,3.0,1.0,19.619878,0.0,5.108241,1.380660,3.893969,...,6.723289,18,74,6,1505,3.836579,4.048667,2,14.259334,0
1,3059,75.0,0.0,0.0,2.0,16.247339,1.0,6.027648,8.409804,8.513428,...,9.139299,74,8,6,3149,9.122020,1.801746,1,12.184397,1
2,3060,70.0,1.0,0.0,0.0,15.368239,,2.242135,0.213275,6.498805,...,8.620195,51,34,1,1626,7.886650,3.713104,6,5.263363,1
3,3061,52.0,0.0,0.0,0.0,15.454557,0.0,5.997788,1.375045,6.715033,...,5.051444,12,10,6,4507,9.117671,2.769782,5,6.290959,1
4,3062,87.0,0.0,0.0,1.0,18.616042,0.0,9.775243,1.188607,4.657572,...,4.035046,92,33,1,3518,5.841760,1.974326,5,2.647060,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2100,5158,87.0,1.0,,2.0,38.483841,0.0,12.674393,5.325900,5.947278,...,6.373210,14,9,1,3739,7.043761,4.286967,4,3.252801,0
2101,5159,67.0,0.0,0.0,1.0,33.694396,1.0,0.977018,0.108599,4.825187,...,8.626435,24,23,2,3695,9.216742,3.442063,1,7.568254,1
2102,5160,65.0,0.0,0.0,2.0,22.829631,0.0,6.152286,5.775103,0.334244,...,9.236504,60,33,3,3825,9.130009,4.867946,2,3.182037,1
2103,5161,61.0,1.0,0.0,0.0,16.871030,1.0,0.292094,2.280475,9.598513,...,0.489585,86,67,1,4882,9.328973,0.957460,5,13.660786,1


In [11]:
df_con_nulos.to_csv("data.csv")