# Preprocessing

## Objetivos del Cuaderno

1. **Escalado de Características** (`StandardScaler`)

**Técnicas Implementadas**

### 1. KNNImputer

* **Concepto:** Imputación basada en los $k$-vecinos más cercanos ($k=5$).
* **Ventajas:**
    * Mantiene relaciones no lineales entre variables.
    * Considera la similitud entre registros completos.

### 2. SoftImpute

* **Concepto:** Imputación basada en factorización matricial (descomposición SVD).
* **Ventajas:**
    * Eficiente para matrices grandes y dispersas.
    * Maneja bien patrones de datos faltantes aleatorios.


In [84]:
# Opción 1: KNNImputer
knn_imputer = KNNImputer(n_neighbors=5)
df_knn = pd.DataFrame(
    knn_imputer.fit_transform(df_features_final),
    columns=df_features_final.columns,
    index=df_features_final.index
)
df_knn.to_csv("dataset/features_KNNImputer.csv")

# Opción 2: SoftImpute
soft_imputer = SoftImpute()
df_soft = pd.DataFrame(
    soft_imputer.fit_transform(df_features_final),
    columns=df_features_final.columns,
    index=df_features_final.index
)
df_soft.to_csv("dataset/features_SoftImpute.csv")

# Opción 3: Dataset original (sin imputar) para comparación
df_drop.to_csv("dataset/features_drop.csv")

[SoftImpute] Max Singular Value of X_init = 115082.524340
[SoftImpute] Iter 1: observed MAE=23.523659 rank=6
[SoftImpute] Iter 2: observed MAE=23.523622 rank=6
[SoftImpute] Iter 3: observed MAE=23.523051 rank=6
[SoftImpute] Iter 4: observed MAE=23.524372 rank=6
[SoftImpute] Iter 5: observed MAE=23.525516 rank=6
[SoftImpute] Iter 6: observed MAE=23.525970 rank=6
[SoftImpute] Iter 7: observed MAE=23.526142 rank=6
[SoftImpute] Iter 8: observed MAE=23.526207 rank=6
[SoftImpute] Stopped after iteration 8 for lambda=2301.650487


In [85]:
tiene_nans = df_knn.isnull().any().any()

if tiene_nans:

    columnas_con_nans = df_features_final.columns[df_features_final.isnull().any()].tolist()
    print(f"Las columnas con valores NaN son: {columnas_con_nans}")

    nans_por_columna = df_features_final.isnull().sum()
    print("\nNúmero de NaNs por columna:")
    print(nans_por_columna[nans_por_columna > 0])

else:
    print("El dataset no contiene ningún valor NaN.")

El dataset no contiene ningún valor NaN.


### Aqui eligimos con que dataset hacemos las cosas (por ahora KNNIMPUTER)

In [86]:
df = pd.read_csv("dataset/features_KNNImputer.csv", index_col='cups')

In [87]:
num_columnas = df.shape[1]
print(f"El DataFrame df_features_final tiene {num_columnas} columnas.")
nombres_columnas = df.columns.tolist()
print(f"Los nombres de las columnas son: {nombres_columnas}")

El DataFrame df_features_final tiene 45 columnas.
Los nombres de las columnas son: ['media_invierno', 'std_invierno', 'skewness_invierno', 'kurtosis_invierno', 'energia_fft_invierno', 'frecuencia_dominante_invierno', 'mediana_invierno', 'p25_invierno', 'p75_invierno', 'media_otoño', 'std_otoño', 'skewness_otoño', 'kurtosis_otoño', 'energia_fft_otoño', 'frecuencia_dominante_otoño', 'mediana_otoño', 'p25_otoño', 'p75_otoño', 'media_primavera', 'std_primavera', 'skewness_primavera', 'kurtosis_primavera', 'energia_fft_primavera', 'frecuencia_dominante_primavera', 'mediana_primavera', 'p25_primavera', 'p75_primavera', 'media_verano', 'std_verano', 'skewness_verano', 'kurtosis_verano', 'energia_fft_verano', 'frecuencia_dominante_verano', 'mediana_verano', 'p25_verano', 'p75_verano', 'media_anual', 'std_anual', 'skewness_anual', 'kurtosis_anual', 'energia_fft_anual', 'frecuencia_dominante_anual', 'mediana_anual', 'p25_anual', 'p75_anual']


In [88]:
columnas_invierno = [col for col in nombres_columnas if re.search(r'_invierno', col)]
columnas_primavera = [col for col in nombres_columnas if re.search(r'_primavera', col)]
columnas_verano = [col for col in nombres_columnas if re.search(r'_verano', col)]
columnas_otoño = [col for col in nombres_columnas if re.search(r'_otoño', col)]
columnas_anuales = [col for col in nombres_columnas if re.search(r'_anual', col)]

print("\nColumnas relacionadas con Invierno:")
print(len(columnas_invierno))
print(columnas_invierno)
print("\nColumnas relacionadas con Primavera:")
print(len(columnas_primavera))
print(columnas_primavera)
print("\nColumnas relacionadas con Verano:")
print(len(columnas_verano))
print(columnas_verano)
print("\nColumnas relacionadas con Otoño:")
print(len(columnas_otoño))
print(columnas_otoño)
print("\nColumnas con agregación Anual:")
print(len(columnas_anuales))
print(columnas_anuales)


Columnas relacionadas con Invierno:
9
['media_invierno', 'std_invierno', 'skewness_invierno', 'kurtosis_invierno', 'energia_fft_invierno', 'frecuencia_dominante_invierno', 'mediana_invierno', 'p25_invierno', 'p75_invierno']

Columnas relacionadas con Primavera:
9
['media_primavera', 'std_primavera', 'skewness_primavera', 'kurtosis_primavera', 'energia_fft_primavera', 'frecuencia_dominante_primavera', 'mediana_primavera', 'p25_primavera', 'p75_primavera']

Columnas relacionadas con Verano:
9
['media_verano', 'std_verano', 'skewness_verano', 'kurtosis_verano', 'energia_fft_verano', 'frecuencia_dominante_verano', 'mediana_verano', 'p25_verano', 'p75_verano']

Columnas relacionadas con Otoño:
9
['media_otoño', 'std_otoño', 'skewness_otoño', 'kurtosis_otoño', 'energia_fft_otoño', 'frecuencia_dominante_otoño', 'mediana_otoño', 'p25_otoño', 'p75_otoño']

Columnas con agregación Anual:
9
['media_anual', 'std_anual', 'skewness_anual', 'kurtosis_anual', 'energia_fft_anual', 'frecuencia_dominant

Falta poir quitar las ultimas dos cups que no tienen datos de invierno por ahora
luego normalizar los datos
luego aplicar kmeans y por metedos de sacar k

### StandardScaler

StandardScaler, es una técnica fundamental de preprocesamiento de datos utilizada en machine learning, especialmente antes de aplicar algoritmos sensibles a la escala de las características (features). Su objetivo principal es transformar las características de manera que tengan una media de 0 y una desviación estándar de 1.

**La Fórmula Matemática:**

Para cada valor \(x_i\) de una característica dada, StandardScaler aplica la siguiente fórmula:

$$
z_i = \frac{x_i - \mu}{\sigma}
$$

Donde:

* \(z_i\) es el valor escalado (el z-score) del dato \(x_i\).
* \(x_i\) es el valor original del dato.
* \(\mu\) (mu) es la media de todos los valores de esa característica en el conjunto de entrenamiento.
* \(\sigma\) (sigma) es la desviación estándar de todos los valores de esa característica en el conjunto de entrenamiento.

In [89]:
features = df.values

scaler = StandardScaler()

scaled_features = scaler.fit_transform(features)

df_scaled_features = pd.DataFrame(scaled_features, index=df.index, columns=df.columns)

df_scaled_features.to_csv("dataset/features_StandardScaler.csv")

In [90]:
df = pd.read_csv("dataset/features_StandardScaler.csv", index_col='cups')