# Normalización
La normalización de datos es un paso crucial en el preprocesamiento de datos para el entrenamiento de redes neuronales profundas.  
Este proceso transforma las características numéricas a una escala común, lo que facilita el aprendizaje del modelo y mejora su rendimiento.  
En nuestro caso, trabajamos con un conjunto de datos médicos donde buscamos clasificar muestras en dos categorías (M: Maligno, B: Benigno), y la normalización nos ayuda a manejar características que originalmente están en diferentes escalas y rangos.

Realizaremos cuatro técnicas de normalización:

1. **Z-score normalization**: Estandariza los datos para que tengan media 0 y desviación estándar 1.
2. **Min-Max Scaling**: Escala los datos al rango [0,1], facilitando la interpretación de valores normalizados.
3. **Robust Scaling**: Utiliza estadísticas robustas (mediana e IQR) para manejar mejor los valores atípicos.
4. **Log Transform**: Aplica una transformación logarítmica para manejar distribuciones sesgadas y valores extremos.

Se generarán los siguientes archivos:
1. `data/processed/log_normalized.csv`
2. `data/processed/minmax_normalized.csv`
3. `data/processed/robust_normalized.csv`
4. `data/processed/zscore_normalized.csv`

In [1]:
import numpy as np
import pandas as pd
from tabulate import tabulate
import os

## Cargar los datos del archivo `data.csv`

### Leer el Dataset

In [2]:
# Cargar el dataset desde el archivo CSV
file_path = "../data/raw/data.csv"
df = pd.read_csv(file_path, header=None)

### Preparar los datos

In [3]:
# Crear nombres cortos para las características
feature_names = [f'feat{str(i+1).zfill(2)}' for i in range(30)]

# Eliminar columna ID
df = df.drop([0], axis=1)  # El ID no aporta información

# Asignar nombres cortos a las columnas de características
df.columns = ['diagnosis'] + feature_names  # Concatenamos la lista

## Normalización `Z-score normalization`

In [4]:
# Mapear diagnóstico de M/B a 0/1
df['diagnosis'] = df['diagnosis'].map({'M': 0, 'B': 1})

# Separar características para normalización
X = df[feature_names]

# Calcular media y desviación estándar
mean_vals = X.mean()
std_vals = X.std()

# Normalizar las características
X_normalized = (X - mean_vals) / std_vals

# Crear DataFrame final con diagnóstico y características normalizadas
df_normalized = pd.DataFrame(X_normalized, columns=feature_names)
df_normalized.insert(0, 'diagnosis', df['diagnosis'])  # Insertar diagnosis al principio

# Crear directorio si no existe
output_dir = "../data/processed"
os.makedirs(output_dir, exist_ok=True)

# Guardar datos normalizados
output_path = os.path.join(output_dir, "zscore_normalized.csv")
df_normalized.to_csv(output_path, index=False)

print(f"Datos normalizados guardados en: {output_path}")
print(f"Forma del dataset: {df_normalized.shape}")
print("\nPrimeras filas del dataset normalizado:")
print(tabulate(df_normalized.head(21), headers='keys', tablefmt='rst', showindex=True, floatfmt='.4f'))

Datos normalizados guardados en: ../data/processed/zscore_normalized.csv
Forma del dataset: (569, 31)

Primeras filas del dataset normalizado:
  ..    diagnosis    feat01    feat02    feat03    feat04    feat05    feat06    feat07    feat08    feat09    feat10    feat11    feat12    feat13    feat14    feat15    feat16    feat17    feat18    feat19    feat20    feat21    feat22    feat23    feat24    feat25    feat26    feat27    feat28    feat29    feat30
   0       0.0000    1.0961   -2.0715    1.2688    0.9835    1.5671    3.2806    2.6505    2.5302    2.2156    2.2538    2.4875   -0.5648    2.8305    2.4854   -0.2138    1.3157    0.7234    0.6602    1.1477    0.9063    1.8850   -1.3581    2.3016    1.9995    1.3065    2.6144    2.1077    2.2941    2.7482    1.9353
   1       0.0000    1.8282   -0.3533    1.6845    1.9070   -0.8262   -0.4866   -0.0238    0.5477    0.0014   -0.8679    0.4988   -0.8755    0.2631    0.7417   -0.6048   -0.6923   -0.4404    0.2599   -0.8047   -0.0994    

## Normalización `Min-Max Scaling`
La **normalización cero-uno** o normalización mín-máx es una técnica que ajusta los valores de un conjunto de datos para que se ajusten al rango específico de, donde el valor mínimo se convierte en 0 y el máximo en 1.

La principal diferencia está en la fórmula de normalización:
- Z-score usa: (X - mean) / std
- Min-Max usa: (X - X_min) / (X_max - X_min)

Esta normalización Min-Max garantiza que todos los valores estarán en el rango [0,1], donde:
- El valor mínimo de cada característica se transformará en 0
- El valor máximo se transformará en 1
- Los valores intermedios se escalarán proporcionalmente dentro de este rango

In [5]:
# Separar características para normalización
X = df[feature_names]

# Calcular valores mínimos y máximos
min_vals = X.min()
max_vals = X.max()

# Normalizar las características usando Min-Max Scaling
# Fórmula: X_norm = (X - X_min) / (X_max - X_min)
X_normalized = (X - min_vals) / (max_vals - min_vals)

# Crear DataFrame final con diagnóstico y características normalizadas
df_normalized = pd.DataFrame(X_normalized, columns=feature_names)
df_normalized.insert(0, 'diagnosis', df['diagnosis'])  # Insertar diagnosis al principio

# Crear directorio si no existe
output_dir = "../data/processed"
os.makedirs(output_dir, exist_ok=True)

# Guardar datos normalizados
output_path = os.path.join(output_dir, "minmax_normalized.csv")
df_normalized.to_csv(output_path, index=False)

print(f"Datos normalizados con Min-Max guardados en: {output_path}")
print(f"Forma del dataset: {df_normalized.shape}")
print("\nPrimeras filas del dataset normalizado:")
print(tabulate(df_normalized.head(21), headers='keys', tablefmt='rst', showindex=True, floatfmt='.4f'))

Datos normalizados con Min-Max guardados en: ../data/processed/minmax_normalized.csv
Forma del dataset: (569, 31)

Primeras filas del dataset normalizado:
  ..    diagnosis    feat01    feat02    feat03    feat04    feat05    feat06    feat07    feat08    feat09    feat10    feat11    feat12    feat13    feat14    feat15    feat16    feat17    feat18    feat19    feat20    feat21    feat22    feat23    feat24    feat25    feat26    feat27    feat28    feat29    feat30
   0       0.0000    0.5210    0.0227    0.5460    0.3637    0.5938    0.7920    0.7031    0.7311    0.6864    0.6055    0.3561    0.1205    0.3690    0.2738    0.1593    0.3514    0.1357    0.3006    0.3116    0.1830    0.6208    0.1415    0.6683    0.4507    0.6011    0.6193    0.5686    0.9120    0.5985    0.4189
   1       0.0000    0.6431    0.2726    0.6158    0.5016    0.2899    0.1818    0.2036    0.3488    0.3798    0.1413    0.1564    0.0826    0.1244    0.1257    0.1194    0.0813    0.0470    0.2538    0.0845  

## Normalización `Robust Scaling`
Similar a Min-Max pero usa estadísticas más robustas - la mediana y el rango intercuartílico (IQR). Es menos sensible a valores atípicos.  
El Robust Scaling es un método de normalización que es más robusto a outliers (valores atípicos) que Min-Max o Z-score.  

Fórmula: X_scaled = (X - mediana) / IQR

Donde:
- X es el valor original
- IQR (Rango Intercuartílico) = Q3 - Q1
- Q1 es el percentil 25
- Q3 es el percentil 75


¿Por qué es más robusto?
- La mediana no se ve tan afectada por valores extremos como la media
- El IQR ignora el 25% de los valores más bajos y el 25% de los más altos, por lo que no le afectan los outliers

In [6]:
# Guardar la columna diagnosis
diagnosis = df['diagnosis']

# Separar características para normalización (excluyendo diagnosis)
X = df[feature_names]

# Calcular mediana e IQR
median_vals = X.median()
q1 = X.quantile(0.25)
q3 = X.quantile(0.75)
iqr = q3 - q1

# Normalizar las características usando Robust Scaling
X_normalized = (X - median_vals) / iqr

# Crear DataFrame final
df_normalized = pd.DataFrame(X_normalized, columns=feature_names)
df_normalized.insert(0, 'diagnosis', diagnosis)

# Crear directorio si no existe
output_dir = "../data/processed"
os.makedirs(output_dir, exist_ok=True)

# Guardar datos normalizados
output_path = os.path.join(output_dir, "robust_normalized.csv")
df_normalized.to_csv(output_path, index=False)

print(f"Datos normalizados con Robust Scaling guardados en: {output_path}")
print(f"Forma del dataset: {df_normalized.shape}")
print("\nPrimeras filas del dataset normalizado:")
print(tabulate(df_normalized.head(21), headers='keys', tablefmt='rst', showindex=True, floatfmt='.4f'))

Datos normalizados con Robust Scaling guardados en: ../data/processed/robust_normalized.csv
Forma del dataset: (569, 31)

Primeras filas del dataset normalizado:
  ..    diagnosis    feat01    feat02    feat03    feat04    feat05    feat06    feat07    feat08    feat09    feat10    feat11    feat12    feat13    feat14    feat15    feat16    feat17    feat18    feat19    feat20    feat21    feat22    feat23    feat24    feat25    feat26    feat27    feat28    feat29    feat30
   0       0.0000    1.1324   -1.5027    1.2637    1.2414    1.1902    2.8248    2.3587    2.1159    1.8550    2.0392    3.1270   -0.3167    3.5991    4.7136    0.0064    1.4760    1.0326    0.6985    1.3582    1.3013    1.8010   -0.9352    2.1056    2.3431    1.0510    2.3643    1.8077    1.7152    2.6356    1.8846
   1       0.0000    1.7647   -0.1901    1.6129    2.1382   -0.5880   -0.2137    0.2507    0.6830    0.0592   -0.5784    0.8897   -0.5844    0.6345    1.8124   -0.3880   -0.3805   -0.2704    0.3493   -0

## Normalización `Log Transform`
- Aplica logaritmo natural a los datos.
- Útil para manejar datos con distribución asimétrica (skewed) o cuando hay valores atípicos grandes.

La transformación logarítmica (Log Transform) es una técnica útil para manejar datos con distribución asimétrica (skewed) o cuando hay valores atípicos grandes.

Características importantes:

1. **¿Por qué funciona?**
   - Comprime rangos grandes de valores
   - Hace que distribuciones exponenciales se vuelvan más lineales
   - Reduce el impacto de valores atípicos grandes

2. **Casos de uso:**
   - Datos financieros (precios, salarios)
   - Medidas biológicas (poblaciones, tamaños)
   - Cualquier dato con crecimiento exponencial

3. **Consideraciones importantes:**
   - Solo funciona con valores positivos
   - Usamos `np.log1p()` en lugar de `np.log()` para manejar valores cercanos o iguales a 0
   - La función calcula log(1 + x)
   - La transformación inversa sería `np.expm1()` (exp(x) - 1)

4. **Ventajas:**
   - Reduce el sesgo en la distribución
   - Hace que los outliers sean más manejables
   - Puede ayudar a cumplir el supuesto de normalidad en algunos modelos

5. **Desventajas:**
   - No es interpretable directamente como las otras normalizaciones
   - No es apropiado para datos que ya tienen una distribución normal
   - Puede ser problemático con valores negativos

In [7]:
# Guardar la columna diagnosis
diagnosis = df['diagnosis']

# Separar características para normalización (excluyendo diagnosis)
X = df[feature_names]

# Aplicar transformación logarítmica
# Nota: Agregamos 1 para manejar valores de 0 (log(0) no está definido)
X_normalized = np.log1p(X)  # equivalente a log(1 + x)

# Crear DataFrame final
df_normalized = pd.DataFrame(X_normalized, columns=feature_names)
df_normalized.insert(0, 'diagnosis', diagnosis)

# Crear directorio si no existe
output_dir = "../data/processed"
os.makedirs(output_dir, exist_ok=True)

# Guardar datos normalizados
output_path = os.path.join(output_dir, "log_normalized.csv")
df_normalized.to_csv(output_path, index=False)

print(f"Datos transformados con Log Transform guardados en: {output_path}")
print(f"Forma del dataset: {df_normalized.shape}")
print("\nPrimeras filas del dataset transformado:")
print(tabulate(df_normalized.head(21), headers='keys', tablefmt='rst', showindex=True, floatfmt='.4f'))

Datos transformados con Log Transform guardados en: ../data/processed/log_normalized.csv
Forma del dataset: (569, 31)

Primeras filas del dataset transformado:
  ..    diagnosis    feat01    feat02    feat03    feat04    feat05    feat06    feat07    feat08    feat09    feat10    feat11    feat12    feat13    feat14    feat15    feat16    feat17    feat18    feat19    feat20    feat21    feat22    feat23    feat24    feat25    feat26    feat27    feat28    feat29    feat30
   0       0.0000    2.9439    2.4319    4.8187    6.9098    0.1119    0.2450    0.2624    0.1372    0.2166    0.0758    0.7396    0.6446    2.2606    5.0395    0.0064    0.0479    0.0523    0.0157    0.0296    0.0062    3.2726    2.9085    5.2236    7.6109    0.1503    0.5102    0.5376    0.2354    0.3785    0.1123
   1       0.0000    3.0713    2.9323    4.8971    7.1907    0.0813    0.0757    0.0833    0.0678    0.1665    0.0551    0.4341    0.5504    1.4811    4.3186    0.0052    0.0130    0.0184    0.0133    0.0

## Comparación de los métodos de normalización

In [8]:
# Cargar los datos normalizados
normalizations = {
    'Z-score': pd.read_csv("../data/processed/zscore_normalized.csv"),
    'Min-Max': pd.read_csv("../data/processed/minmax_normalized.csv"),
    'Robust': pd.read_csv("../data/processed/robust_normalized.csv"),
    'Log': pd.read_csv("../data/processed/log_normalized.csv")
}

# Crear un diccionario para almacenar las estadísticas descriptivas
stats_dict = {}

# Calcular estadísticas descriptivas para cada método
for method, df in normalizations.items():
    # Excluir la columna 'diagnosis' para las estadísticas
    numeric_df = df.drop('diagnosis', axis=1)
    
    # Calcular estadísticas descriptivas y concatenar en una sola fila
    stats = numeric_df.describe().loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max']]
    stats_mean = stats.mean(axis=1)
    stats_dict[method] = stats_mean

# Convertir el diccionario a DataFrame
comparison_df = pd.DataFrame(stats_dict).round(4)

# Renombrar los índices para mejor claridad
index_names = {
    'mean': 'Media',
    'std': 'Desviación Estándar',
    'min': 'Mínimo',
    '25%': 'Primer Cuartil (Q1)',
    '50%': 'Mediana',
    '75%': 'Tercer Cuartil (Q3)',
    'max': 'Máximo'
}
comparison_df.index = [index_names[i] for i in comparison_df.index]

# Imprimir la tabla usando tabulate
print("\nComparación de Estadísticas Descriptivas por Método de Normalización:")
print(tabulate(comparison_df, headers='keys', tablefmt='fancy_grid', floatfmt='.4f'))


Comparación de Estadísticas Descriptivas por Método de Normalización:
╒═════════════════════╤═══════════╤═══════════╤══════════╤════════╕
│                     │   Z-score │   Min-Max │   Robust │    Log │
╞═════════════════════╪═══════════╪═══════════╪══════════╪════════╡
│ Media               │   -0.0000 │    0.2389 │   0.2049 │ 1.3770 │
├─────────────────────┼───────────┼───────────┼──────────┼────────┤
│ Desviación Estándar │    1.0000 │    0.1402 │   0.9076 │ 0.1555 │
├─────────────────────┼───────────┼───────────┼──────────┼────────┤
│ Mínimo              │   -1.6732 │    0.0000 │  -1.2525 │ 1.0235 │
├─────────────────────┼───────────┼───────────┼──────────┼────────┤
│ Primer Cuartil (Q1) │   -0.6773 │    0.1424 │  -0.3993 │ 1.2689 │
├─────────────────────┼───────────┼───────────┼──────────┼────────┤
│ Mediana             │   -0.2183 │    0.2081 │   0.0000 │ 1.3528 │
├─────────────────────┼───────────┼───────────┼──────────┼────────┤
│ Tercer Cuartil (Q3) │    0.4621 │    0.3072