> ü©∫ Este notebook forma parte del proyecto **NutriSynthCare**, un entorno de simulaci√≥n sobre salud p√∫blica y recomendaciones nutricionales personalizadas.  
>
> üë• Desarrollado por:  
> - Daniel Cruz ‚Äì [dCruzCoding](https://github.com/dCruzCoding)  
> - An√≠bal Garc√≠a ‚Äì [Aniballll](https://github.com/Aniballll)  
>
> üìÅ Repositorio completo: [NutriSynthCare](https://github.com/tu-repo-aqui)  
>
> üìú Licencia: Este proyecto est√° disponible bajo la licencia MIT. Consulta el archivo `LICENSE` para m√°s informaci√≥n.  
>
> üôè Agradecimientos especiales a todas las fuentes de datos y literatura cient√≠fica que han hecho posible la creaci√≥n de las bases sint√©ticas utilizadas en este proyecto.  
>
> ü§ù ¬øTe interesa colaborar? ¬°Est√°s invitado!  
> Puedes contribuir mejorando los notebooks, proponiendo nuevas ideas o corrigiendo errores:  
> - Haz un fork del repo  
> - Crea una rama (`git checkout -b mejora/nueva-idea`)  
> - Abre un Pull Request explicando tu propuesta


# Objetivo del Notebook

En este notebook se aborda la **desnormalizaci√≥n** de ciertas variables que previamente fueron normalizadas para facilitar la uni√≥n de db_cardio y db_diabetes. 

Cada cohorte (`cardio` y `diabetes`) conten√≠a muestras distintas con sus propias distribuciones, por lo que la normalizaci√≥n se realiz√≥ por separado en cada grupo, utilizando sus propios par√°metros (media y desviaci√≥n est√°ndar).

Para revertir esta normalizaci√≥n y volver a obtener los valores en sus escalas originales, se aplicar√° la desnormalizaci√≥n usando los par√°metros espec√≠ficos de cada cohorte. Esto permite trabajar con los datos integrados sin perder la interpretaci√≥n cl√≠nica y estad√≠stica original de las variables.

Este proceso es clave para validar la correcta integraci√≥n de los datos y para asegurar que los an√°lisis posteriores se realicen sobre valores representativos y cl√≠nicamente interpretables.


In [13]:
import pandas as pd
import numpy as np

# Cargamos los csv y lo convertimos en dataframes
df = pd.read_csv("db_cardiabetes.csv")      # Dataset normalizado con cohortes mezcladas
df_cardio = pd.read_csv("db_cardio.csv")    # Dataset original cohorte cardio
df_diabetes = pd.read_csv("db_diabetes.csv")# Dataset original cohorte diabetes


In [14]:
from sklearn.preprocessing import StandardScaler 

# Columnas que se van a normalizar y desnormalizar
cols_to_normalize = ['Trigliceridos', 'PAS', 'PAD','Edad', 'IMC']

def normalizar_para_guardar_parametros(df, cols):
    """
    Normaliza las columnas indicadas usando StandardScaler y guarda los par√°metros (media y std).
    Retorna el dataframe normalizado y un diccionario con los par√°metros de escala.
    """
    scaler = StandardScaler()
    df_normalizado = df.copy()
    df_normalizado[cols] = df_normalizado[cols].astype('float64')  # Asegurar tipo float para escala
    df_normalizado.loc[:, cols] = scaler.fit_transform(df[cols])
    parametros = {'media': scaler.mean_, 'std': scaler.scale_}     # Guardamos media y desviaci√≥n est√°ndar
    return df_normalizado, parametros

# Aplicar normalizaci√≥n a cada cohorte por separado para obtener par√°metros espec√≠ficos
_, params_cardio = normalizar_para_guardar_parametros(df_cardio, cols_to_normalize)
_, params_diabetes = normalizar_para_guardar_parametros(df_diabetes, cols_to_normalize)

# Guardamos los par√°metros en un diccionario por cohorte para uso posterior
params_norm = {
    'cardio': params_cardio,
    'diabetes': params_diabetes
}

In [15]:
def desnormalizar_con_standard(df, params_norm, cols_to_normalize):
    """
    Desnormaliza las columnas indicadas de un dataframe normalizado `df`
    usando los par√°metros guardados `params_norm` (media y std) seg√∫n cohorte.
    """
    df_desnormalizado = df.copy()
    
    # Para cada cohorte, desnormalizamos solo las filas que pertenecen a ella
    for cohorte in params_norm.keys():
        mask = df['Cohorte'] == cohorte
        for i, col in enumerate(cols_to_normalize):
            mean = params_norm[cohorte]['media'][i]
            std = params_norm[cohorte]['std'][i]
            # Aplicamos la f√≥rmula inversa del StandardScaler: x_original = x_norm * std + mean
            df_desnormalizado.loc[mask, col] = (df[col][mask] * std) + mean
    
    return df_desnormalizado

# Aplicamos la desnormalizaci√≥n sobre el dataframe general con cohortes mezcladas
df_desnormalizado = desnormalizar_con_standard(df, params_norm, cols_to_normalize)

In [16]:
def verificar_desnormalizacion(df_desnormalizado, df_originales, cols):
    """
    Compara las estad√≠sticas (media y std) entre el dataframe desnormalizado y
    los dataframes originales por cohorte para verificar que la desnormalizaci√≥n es correcta.
    """
    resultados = []
    for cohorte in ['cardio', 'diabetes']:
        mask = df_desnormalizado['Cohorte'] == cohorte
        for col in cols:
            original_mean = df_originales[cohorte][col].mean()
            original_std = df_originales[cohorte][col].std()
            desnorm_mean = df_desnormalizado[mask][col].mean()
            desnorm_std = df_desnormalizado[mask][col].std()
            
            resultados.append({
                'Variable': col,
                'Cohorte': cohorte,
                'Original_Mean': original_mean,
                'Desnorm_Mean': desnorm_mean,
                'Original_Std': original_std,
                'Desnorm_Std': desnorm_std
            })
    return pd.DataFrame(resultados)


In [17]:
def comparar_global(df, df_desnormalizado, variables):
    """
    Compara estad√≠sticos globales (media, std, percentiles) entre el dataframe
    normalizado y el desnormalizado para las variables indicadas.
    """
    resultados = []
    
    for var in variables:
        # Estad√≠sticas del DataFrame normalizado
        stats_norm = {
            'Variable': var,
            'Estado': 'Normalizado',
            'Media': df[var].mean(),
            'Std': df[var].std(),
            'Min': df[var].min(),
            'P25': df[var].quantile(0.25),
            'P50 (Mediana)': df[var].median(),
            'P75': df[var].quantile(0.75),
            'Max': df[var].max()
        }
        
        # Estad√≠sticas del DataFrame desnormalizado
        stats_desnorm = {
            'Variable': var,
            'Estado': 'Desnormalizado',
            'Media': df_desnormalizado[var].mean(),
            'Std': df_desnormalizado[var].std(),
            'Min': df_desnormalizado[var].min(),
            'P25': df_desnormalizado[var].quantile(0.25),
            'P50 (Mediana)': df_desnormalizado[var].median(),
            'P75': df_desnormalizado[var].quantile(0.75),
            'Max': df_desnormalizado[var].max()
        }
        
        resultados.extend([stats_norm, stats_desnorm])
    
    return pd.DataFrame(resultados)

# Variables a comparar en el reporte global
variables = ['Edad', 'IMC', 'Trigliceridos', 'PAS', 'PAD']

# Generamos y mostramos reporte global
df_comparacion_global = comparar_global(df, df_desnormalizado, variables)
print("üìä Comparaci√≥n Global (Normalizado vs Desnormalizado):")
display(df_comparacion_global.round(2))

üìä Comparaci√≥n Global (Normalizado vs Desnormalizado):


Unnamed: 0,Variable,Estado,Media,Std,Min,P25,P50 (Mediana),P75,Max
0,Edad,Normalizado,-0.0,0.99,-2.94,-0.66,0.05,0.68,2.95
1,Edad,Desnormalizado,52.92,11.03,21.0,46.0,54.0,61.0,81.0
2,IMC,Normalizado,0.0,1.0,-2.97,-0.76,-0.05,0.75,2.83
3,IMC,Desnormalizado,30.35,5.76,17.0,25.8,30.7,34.6,45.6
4,Trigliceridos,Normalizado,0.0,1.0,-2.99,-0.8,0.01,0.79,2.83
5,Trigliceridos,Desnormalizado,192.85,56.66,90.0,143.39,182.41,243.14,300.0
6,PAS,Normalizado,-0.0,0.99,-2.81,-0.75,0.0,0.74,2.94
7,PAS,Desnormalizado,149.66,16.79,99.0,138.4,151.3,161.6,194.6
8,PAD,Normalizado,0.0,0.99,-2.9,-0.76,-0.01,0.73,2.97
9,PAD,Desnormalizado,91.49,9.45,64.3,84.9,92.4,98.3,116.7


In [18]:
def verificar_fila_a_fila_desnormalizacion(df_norm, df_desnorm, params_norm, cols, tolerancia=0.1, mostrar_resumen=True):
    """
    Verifica fila a fila si la desnormalizaci√≥n de cada valor es correcta,
    comparando el valor desnormalizado calculado (valor_normalizado*std+mean)
    con el valor real obtenido en df_desnorm.
    Retorna un DataFrame con la comparaci√≥n y opcionalmente muestra un resumen.
    """
    resultados = []

    for idx, row in df_norm.iterrows():
        cohorte = row['Cohorte']
        for col in cols:
            valor_normalizado = row[col]
            std = params_norm[cohorte]['std'][cols.index(col)]
            media = params_norm[cohorte]['media'][cols.index(col)]

            valor_esperado = (valor_normalizado * std) + media
            valor_desnormalizado = df_desnorm.loc[idx, col]
            diferencia = abs(valor_esperado - valor_desnormalizado)

            resultados.append({
                '√çndice': idx,
                'Cohorte': cohorte,
                'Variable': col,
                'Valor_Normalizado': valor_normalizado,
                'Esperado_Desnormalizado': valor_esperado,
                'Obtenido_Desnormalizado': valor_desnormalizado,
                'Diferencia': diferencia,
                'OK': diferencia < tolerancia
            })

    df_resultado = pd.DataFrame(resultados)
    n_total = len(df_resultado)
    n_errores = (~df_resultado['OK']).sum()
    n_correctos = n_total - n_errores

    if mostrar_resumen:
        if n_errores == 0:
            print(f"‚úÖ Verificaci√≥n completada: {n_total} comparaciones, 100% correctas.")
        else:
            print(f"‚ùå Verificaci√≥n incompleta: {n_correctos}/{n_total} correctas.")
            print(f"    ‚Üí {n_errores} comparaciones con error. Revisa el DataFrame.")

    return df_resultado

# Ejecutamos la verificaci√≥n fila a fila
df_verif_filas = verificar_fila_a_fila_desnormalizacion(df, df_desnormalizado, params_norm, cols_to_normalize)

# Mostrar solo las filas con errores (si las hubiera)
if not df_verif_filas[df_verif_filas['OK'] == False].empty:
    display(df_verif_filas[df_verif_filas['OK'] == False].round(3))

‚úÖ Verificaci√≥n completada: 79745 comparaciones, 100% correctas.


In [19]:
df_desnormalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15949 entries, 0 to 15948
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   A√±o_Registro           15949 non-null  int64  
 1   Edad                   15949 non-null  float64
 2   IMC                    15949 non-null  float64
 3   Diabetes               15949 non-null  int64  
 4   Colesterol_Total       15949 non-null  float64
 5   Trigliceridos          15949 non-null  float64
 6   PAS                    15949 non-null  float64
 7   PAD                    15949 non-null  float64
 8   Cohorte                15949 non-null  object 
 9   HbA1c                  15949 non-null  float64
 10  Insulina               15949 non-null  float64
 11  LDL                    15949 non-null  float64
 12  HDL                    15949 non-null  float64
 13  Nivel_Estres           15949 non-null  object 
 14  Actividad_Fisica       15949 non-null  object 
 15  R

In [20]:
# An√°lisis descriptivo de las variables solicitadas en df_desnormalizado
variables_analisis = ['Edad', 'Trigliceridos', 'PAS', 'PAD', 'Insulina']

desc_stats = df_desnormalizado[variables_analisis].describe().T
desc_stats['missing'] = df_desnormalizado[variables_analisis].isnull().sum()
desc_stats = desc_stats[['count', 'missing', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']]

print("üìä An√°lisis descriptivo de Edad, Trigliceridos, PAS, PAD, Insulina:")
display(desc_stats.round(2))

üìä An√°lisis descriptivo de Edad, Trigliceridos, PAS, PAD, Insulina:


Unnamed: 0,count,missing,mean,std,min,25%,50%,75%,max
Edad,15949.0,0,52.92,11.03,21.0,46.0,54.0,61.0,81.0
Trigliceridos,15949.0,0,192.85,56.66,90.0,143.39,182.41,243.14,300.0
PAS,15949.0,0,149.66,16.79,99.0,138.4,151.3,161.6,194.6
PAD,15949.0,0,91.49,9.45,64.3,84.9,92.4,98.3,116.7
Insulina,15949.0,0,82.13,56.6,0.0,34.95,76.73,124.27,294.32


## Interpretaci√≥n Cl√≠nica de Resultados

A continuaci√≥n se presenta una evaluaci√≥n cl√≠nica b√°sica de las variables principales del dataset, basada en sus estad√≠sticas descriptivas.

| Variable     | Media    | Rango (min - max) | Comentarios Cl√≠nicos |
|--------------|----------|-------------------|---------------------|
| **Edad**     | 52.9 a√±os| 21 - 81 a√±os      | Edad t√≠pica en estudios de riesgo cardiovascular y diabetes tipo 2, cubriendo adultos j√≥venes a personas mayores. |
| **Triglic√©ridos (mg/dL)** | 193      | 90 - 300           | Valores elevados respecto al rango normal (<150 mg/dL), frecuentes en pacientes con riesgo metab√≥lico o diabetes. |
| **Presi√≥n Arterial Sist√≥lica (PAS, mmHg)** | 150      | 99 - 194           | Media indica hipertensi√≥n grado 1 o m√°s, com√∫n en poblaciones con riesgo cardiovascular. |
| **Presi√≥n Arterial Diast√≥lica (PAD, mmHg)** | 91.5     | 64 - 117           | Valores elevados (>80 mmHg), indicativos de hipertensi√≥n diast√≥lica frecuente en la muestra. |
| **Insulina (¬µU/mL)**        | 82       | 0 - 294            | Valores elevados respecto a rangos normales en ayunas (2-25 ¬µU/mL), sugiriendo hiperinsulinemia y resistencia a la insulina asociadas a diabetes tipo 2. |

---

### Resumen

Los valores estad√≠sticos del dataset son cl√≠nicamente plausibles y consistentes con una poblaci√≥n de pacientes con riesgo metab√≥lico, diabetes y enfermedad cardiovascular.  
No se observan valores aberrantes que indiquen errores de medici√≥n o entrada de datos.  

Esta informaci√≥n valida la calidad del dataset y su utilidad para an√°lisis cl√≠nicos y epidemiol√≥gicos relacionados con estas patolog√≠as.



In [21]:
df_desnormalizado

Unnamed: 0,A√±o_Registro,Edad,IMC,Diabetes,Colesterol_Total,Trigliceridos,PAS,PAD,Cohorte,HbA1c,Insulina,LDL,HDL,Nivel_Estres,Actividad_Fisica,Riesgo_Cardiovascular,Sexo,Tipo_Diabetes
0,2016,53.0,30.464413,0,203.053597,228.381680,146.4,89.7,cardio,5.483777,10.602855,111.284292,71.456754,Alto,Moderado,Bajo,Hombre,No diabetes
1,2013,66.0,21.307639,0,214.198250,246.749168,151.8,87.2,cardio,5.212008,56.952216,124.064267,48.292897,Moderado,Sedentario,Bajo,Mujer,No diabetes
2,2017,68.0,32.672495,0,178.338545,214.823232,157.4,88.1,cardio,6.750564,92.875636,123.757918,55.659980,Moderado,Moderado,Bajo,Mujer,Diabetes latente
3,2014,60.0,41.167111,0,208.059981,242.028543,175.5,95.1,cardio,4.659614,188.637574,110.158158,54.487884,Moderado,Sedentario,Bajo,Mujer,Diabetes latente
4,2016,61.0,31.813888,1,260.781259,243.954935,164.6,93.9,cardio,7.436320,66.564019,120.410972,52.990636,Moderado,Sedentario,Riesgo Elevado,Mujer,Diabetes latente
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15944,2017,40.0,27.900000,1,210.750000,134.360000,129.3,81.8,diabetes,5.840000,4.450000,96.230000,53.870000,Bajo,Moderado,Bajo,Hombre,Tipo 1
15945,2012,38.0,33.000000,1,226.150000,158.550000,135.6,90.3,diabetes,7.810000,79.930000,107.710000,43.000000,Alto,Moderado,Riesgo Elevado,Hombre,Tipo 2
15946,2012,46.0,25.900000,1,215.130000,115.980000,130.2,82.9,diabetes,7.370000,12.610000,103.980000,50.240000,Bajo,Activo,Bajo,Hombre,Tipo 1
15947,2016,63.0,21.400000,1,228.540000,144.610000,146.3,82.7,diabetes,8.100000,0.390000,108.890000,54.810000,Alto,Sedentario,Riesgo Elevado,Mujer,Tipo 1


In [22]:
# Guardar el df desnoramalizado
df_cardiabetes_desnorm = df_desnormalizado.copy()
df_cardiabetes_desnorm.to_csv("db_cardiabetes_desnorm.csv", index=False)