# Normalización
- Realizaremos una normalización con el Dataset completo para usarlo en el siguiente Notebook de Visualización.
- Usaremos la **Z-score normalization** que estandariza los datos para que tengan media 0 y desviación estándar 1.
- Se generará el archivo: `data/processed/zscore_normalized_all.csv`

In [1]:
import pandas as pd
from tabulate import tabulate

## Cargar los datos del archivo `cleaned_data.csv`
Contenido del archivo:
- Primera columna 'diagnosis' compuesta de ceros y unos. 1 -> M, 0 -> B
- 30 columnas con las características: f01 - f30

### Leer el Dataset

In [2]:
# Cargar el dataset desde el archivo CSV
df = pd.read_csv('../data/processed/cleaned_data.csv')

## Normalización Z-score
Aplicamos la normalización Z-score:
$$ Z = \frac{X - \mu}{\sigma} $$
donde:
- $Z$ es $X_{\text{norm}}$
- $\mu$ es la media
- $\sigma$ es la desviación estándar  

Calculamos estos parámetros sobre el dataset completo y normalizamos todas las columnas numéricas (excluyendo 'diagnosis').

### Función de Normalización
- Se normalizan las 30 columnas numéricas de tipo float
- Se excluye 'diagnosis' porque es la variable objetivo (categórica) y no debe normalizarse

In [3]:
# Seleccionar solo las columnas numéricas de tipo float
X = df.select_dtypes(include=['float64'])

# Calcular media y desviación estándar
mean_vals = X.mean()
std_vals = X.std()

# Normalizar las características
# restando la media y dividiendo por la desviación estándar
X_normalized = (X - mean_vals) / std_vals

In [4]:
# Crear el DataFrame normalizado añadiendo al inicio la columna 'diagnosis'
df_normalized = pd.DataFrame(X_normalized)
df_normalized.insert(0, 'diagnosis', df['diagnosis'])  # Insertar diagnosis al principio

In [5]:
df_normalized.head()

Unnamed: 0,diagnosis,f01,f02,f03,f04,f05,f06,f07,f08,f09,...,f21,f22,f23,f24,f25,f26,f27,f28,f29,f30
0,1,1.0961,-2.071512,1.268817,0.98351,1.567087,3.280628,2.650542,2.530249,2.215566,...,1.885031,-1.358098,2.301575,1.999478,1.306537,2.614365,2.107672,2.294058,2.748204,1.935312
1,1,1.828212,-0.353322,1.684473,1.90703,-0.826235,-0.486643,-0.023825,0.547662,0.001391,...,1.80434,-0.368879,1.533776,1.888827,-0.375282,-0.430066,-0.14662,1.086129,-0.243675,0.280943
2,1,1.578499,0.455786,1.565126,1.557513,0.941382,1.052,1.36228,2.03544,0.938859,...,1.510541,-0.023953,1.346291,1.455004,0.526944,1.08198,0.854222,1.953282,1.151242,0.201214
3,1,-0.768233,0.253509,-0.592166,-0.763792,3.280667,3.399917,1.914213,1.450431,2.864862,...,-0.281217,0.133866,-0.24972,-0.549538,3.391291,3.889975,1.987839,2.173873,6.040726,4.930672
4,1,1.748758,-1.150804,1.775011,1.824624,0.280125,0.538866,1.369806,1.427237,-0.009552,...,1.297434,-1.465481,1.337363,1.219651,0.220362,-0.313119,0.61264,0.728618,-0.86759,-0.396751


## Grabar el Dataset normalizado

In [6]:
# Guardar los datos normalizados
df_normalized.to_csv('../data/processed/zscore_normalized_all.csv', index=False)
print("Dataset normalizado guardado en '../data/processed/zscore_normalized_all.csv'")

Dataset normalizado guardado en '../data/processed/zscore_normalized_all.csv'


### Verificación de que la media es ~0 tras normalizar
Comprobamos que las 30 características tienen media próxima a cero.

In [7]:
df_normalized.mean()

diagnosis    3.725835e-01
f01         -1.311195e-16
f02          6.243785e-17
f03         -1.248757e-16
f04         -2.185325e-16
f05         -8.366672e-16
f06          1.998011e-16
f07          3.746271e-17
f08         -4.995028e-17
f09          1.748260e-16
f10          4.838933e-16
f11          2.497514e-16
f12         -1.123881e-16
f13         -1.373633e-16
f14         -1.186319e-16
f15         -1.545337e-16
f16          1.873136e-16
f17          1.685822e-16
f18          2.497514e-17
f19          9.365678e-17
f20         -6.243785e-18
f21         -8.241796e-16
f22          1.248757e-17
f23         -3.496520e-16
f24          0.000000e+00
f25         -2.122887e-16
f26         -3.621395e-16
f27          8.741299e-17
f28          2.122887e-16
f29          2.622390e-16
f30         -5.744282e-16
dtype: float64

### Verificación de que la desviación estándar ~1 tras normalizar
Comprobamos que las 30 características tienen desviación estándar próxima a uno.

In [8]:
df_normalized.std()

diagnosis    0.483918
f01          1.000000
f02          1.000000
f03          1.000000
f04          1.000000
f05          1.000000
f06          1.000000
f07          1.000000
f08          1.000000
f09          1.000000
f10          1.000000
f11          1.000000
f12          1.000000
f13          1.000000
f14          1.000000
f15          1.000000
f16          1.000000
f17          1.000000
f18          1.000000
f19          1.000000
f20          1.000000
f21          1.000000
f22          1.000000
f23          1.000000
f24          1.000000
f25          1.000000
f26          1.000000
f27          1.000000
f28          1.000000
f29          1.000000
f30          1.000000
dtype: float64