# Preprocessing

## Objetivos del Cuaderno

1. **Escalado de Características** (`StandardScaler`)

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import silhouette_score, mean_absolute_error, davies_bouldin_score
import warnings

warnings.filterwarnings("ignore")

### Aqui eligimos con que dataset hacemos las cosas (por ahora KNNIMPUTER)

In [2]:
df = pd.read_csv("dataset/features_KNNImputer.csv", index_col='cups')

### StandardScaler

StandardScaler, es una técnica fundamental de preprocesamiento de datos utilizada en machine learning, especialmente antes de aplicar algoritmos sensibles a la escala de las características (features). Su objetivo principal es transformar las características de manera que tengan una media de 0 y una desviación estándar de 1.

**La Fórmula Matemática:**

Para cada valor \(x_i\) de una característica dada, StandardScaler aplica la siguiente fórmula:

$$
z_i = \frac{x_i - \mu}{\sigma}
$$

Donde:

* \(z_i\) es el valor escalado (el z-score) del dato \(x_i\).
* \(x_i\) es el valor original del dato.
* \(\mu\) (mu) es la media de todos los valores de esa característica en el conjunto de entrenamiento.
* \(\sigma\) (sigma) es la desviación estándar de todos los valores de esa característica en el conjunto de entrenamiento.

In [3]:
features = df.values

scaler = StandardScaler()

scaled_features = scaler.fit_transform(features)

df_scaled_features = pd.DataFrame(scaled_features, index=df.index, columns=df.columns)

df_scaled_features.to_csv("dataset/features_StandardScaler.csv")

### MinMaxScaler

minMaxScaler es otra técnica de preprocesamiento de datos que se utiliza para escalar características a un rango específico, generalmente entre 0 y 1. Es especialmente útil cuando los datos tienen diferentes escalas y se desea normalizarlos para que tengan una representación uniforme.

In [4]:
features = df.values

scaler = MinMaxScaler()

scaled_features = scaler.fit_transform(features)

df_scaled_features = pd.DataFrame(scaled_features, index=df.index, columns=df.columns)

df_scaled_features.to_csv("dataset/features_MinMaxScaler.csv")