## Requisitos de scikit-learn

Incluir rasgos categóricos en el proceso de construcción del modelo puede mejorar el rendimiento, ya que permiten añadir información que contribuya a la precisión de la predicción.

- Datos numéricos
- Sin valores faltantes

#### Con datos del mundo real:
Esto rara vez ocurre

### Manejo de características categóricas

- Scikit-learn no acepta características categóricas por defecto.
- Es necesario convertir las características categóricas en valores numéricos.
- Convertir a características binarias llamadas variables ficticias.

  - 0: La observación NO era esa categoría.
  - 1: La observación era esa categoría.

### Ejemplo:

<img src="images/imagen6.png" width="80%">

### Manejo de características categóricas en Python

- **scikit-learn:** OneHotEncoder()
- **pandas:** get_dummies()

### Music Case [Ejemplo]

In [23]:
import pandas as pd

df = pd.read_csv('../data/music_clean.csv')
print(df.columns)
df.head()

Index(['Unnamed: 0', 'popularity', 'acousticness', 'danceability',
       'duration_ms', 'energy', 'instrumentalness', 'liveness', 'loudness',
       'speechiness', 'tempo', 'valence', 'genre'],
      dtype='object')


Unnamed: 0.1,Unnamed: 0,popularity,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,genre
0,36506,60.0,0.896,0.726,214547.0,0.177,2e-06,0.116,-14.824,0.0353,92.934,0.618,Hip-Hop
1,37591,63.0,0.00384,0.635,190448.0,0.908,0.0834,0.239,-4.795,0.0563,110.012,0.637,Electronic
2,37658,59.0,7.5e-05,0.352,456320.0,0.956,0.0203,0.125,-3.634,0.149,122.897,0.228,Electronic
3,36060,54.0,0.945,0.488,352280.0,0.326,0.0157,0.119,-12.02,0.0328,106.063,0.323,Blues
4,35710,55.0,0.245,0.667,273693.0,0.647,0.000297,0.0633,-7.787,0.0487,143.995,0.3,Country


In [2]:
music_dummies = pd.get_dummies(df, columns=["genre"], drop_first=True).astype(int)
music_dummies.head()

Unnamed: 0.1,Unnamed: 0,popularity,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,...,valence,genre_Anime,genre_Blues,genre_Classical,genre_Country,genre_Electronic,genre_Hip-Hop,genre_Jazz,genre_Rap,genre_Rock
0,36506,60,0,0,214547,0,0,0,-14,0,...,0,0,0,0,0,0,1,0,0,0
1,37591,63,0,0,190448,0,0,0,-4,0,...,0,0,0,0,0,1,0,0,0,0
2,37658,59,0,0,456320,0,0,0,-3,0,...,0,0,0,0,0,1,0,0,0,0
3,36060,54,0,0,352280,0,0,0,-12,0,...,0,0,1,0,0,0,0,0,0,0
4,35710,55,0,0,273693,0,0,0,-7,0,...,0,0,0,0,1,0,0,0,0,0


In [3]:
music_dummies = pd.concat([df, music_dummies], axis = 1)
music_dummies = music_dummies.drop("genre", axis = 1)
music_dummies.head()

Unnamed: 0.1,Unnamed: 0,popularity,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,...,valence,genre_Anime,genre_Blues,genre_Classical,genre_Country,genre_Electronic,genre_Hip-Hop,genre_Jazz,genre_Rap,genre_Rock
0,36506,60.0,0.896,0.726,214547.0,0.177,2e-06,0.116,-14.824,0.0353,...,0,0,0,0,0,0,1,0,0,0
1,37591,63.0,0.00384,0.635,190448.0,0.908,0.0834,0.239,-4.795,0.0563,...,0,0,0,0,0,1,0,0,0,0
2,37658,59.0,7.5e-05,0.352,456320.0,0.956,0.0203,0.125,-3.634,0.149,...,0,0,0,0,0,1,0,0,0,0
3,36060,54.0,0.945,0.488,352280.0,0.326,0.0157,0.119,-12.02,0.0328,...,0,0,1,0,0,0,0,0,0,0
4,35710,55.0,0.245,0.667,273693.0,0.647,0.000297,0.0633,-7.787,0.0487,...,0,0,0,0,1,0,0,0,0,0


In [4]:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

X = music_dummies.drop("popularity", axis=1).values
y = music_dummies["popularity"].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

kf = KFold(n_splits=5, shuffle = True, random_state=42)
linreg = LinearRegression()
linreg_cv = cross_val_score(linreg, X_train, y_train, cv=kf, scoring="neg_mean_squared_error")
print(np.sqrt(-linreg_cv))

[11.39143405 10.76843578  9.98040972 10.58812927 11.17198595]


### Datos faltantes

- No hay valor para una característica en una fila específica.
- Esto puede ocurrir porque:
- Es posible que no haya habido ninguna observación.
- Los datos podrían estar corruptos.
- Necesitamos solucionar los datos faltantes.

In [5]:
print(df.isna().sum().sort_values())

Unnamed: 0          0
popularity          0
acousticness        0
danceability        0
duration_ms         0
energy              0
instrumentalness    0
liveness            0
loudness            0
speechiness         0
tempo               0
valence             0
genre               0
dtype: int64


Un enfoque común es eliminar las observaciones faltantes que representan menos del 5% de todos los datos.

In [6]:
df = df.dropna(subset=["genre", "popularity", "loudness", "liveness", "tempo"])

Si faltan valores en nuestra columna de subconjunto, se elimina toda la fila.

In [7]:
print(df.isna().sum().sort_values())

Unnamed: 0          0
popularity          0
acousticness        0
danceability        0
duration_ms         0
energy              0
instrumentalness    0
liveness            0
loudness            0
speechiness         0
tempo               0
valence             0
genre               0
dtype: int64


### Imputación de valores

**Imputación:** Utilizar la experiencia en la materia para sustituir los datos faltantes con estimaciones fundamentadas.

- Es común usar la media.
- También se puede usar la mediana u otro valor.
- Para valores categóricos, solemos usar el valor más frecuente: la moda.
- Primero debemos dividir los datos para evitar fugas.

### Ejemplo con Scikit Learn [Imputación]

In [21]:
from sklearn.impute import SimpleImputer

X_cat = df["genre"].values.reshape(-1, 1) #Variables Categoricas
X_num = df.drop(["genre", "popularity"], axis=1).values #Variables numericas

y = df["popularity"].values

X_train_cat, X_test_cat, y_train, y_test = train_test_split(X_cat, y, test_size=0.2,
random_state=12)
X_train_num, X_test_num, y_train, y_test = train_test_split(X_num, y, test_size=0.2,
random_state=12)

#Imputador para variables categoricas
imp_cat = SimpleImputer (strategy="most_frequent")
X_train_cat = imp_cat.fit_transform(X_train_cat)
X_test_cat = imp_cat.transform(X_test_cat)

#Imputador para variables numericas
imp_num = SimpleImputer()
X_train_num = imp_num.fit_transform(X_train_num)
X_test_num = imp_num.transform(X_test_num)

#Definición de variables de entrenamiento y prueba.
X_train = np.append(X_train_num, X_train_cat, axis=1)
X_test = np.append(X_test_num, X_test_cat, axis=1)

Debido a la capacidad de los imputadores para transformar los datos, se le conocen como transformadores.

### Imputación por medio de Pipelines

```python
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

df = df.dropna(subset=["genre", "popularity", "loudness", "liveness", "tempo"])
df["genre"] = np.where(df["genre"] == "Rock", 1, 0)
X = df.drop("genre", axis=1).values
y = df ["genre"].values

steps = [
    ("imputation", SimpleImputer()),
    ("logistic_regression", LogisticRegression())
]

pipeline = Pipeline(steps)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
pipeline.fit(X_train, y_train)
pipeline.score(X_test, y_test)
```

### Centrado y escalado

#### ¿Por qué escalar nuestros datos?

- Muchos modelos utilizan algún tipo de distancia para fundamentarlos.
- Las características a mayor escala pueden influir desproporcionadamente en el modelo.
- Ejemplo: KNN utiliza la distancia explícitamente al realizar predicciones.
- Buscamos que las características tengan una escala similar.
- Normalización o estandarización (escalado y centrado).

#### Ejemplo

In [10]:
print(df[["duration_ms", "loudness", "speechiness"]].describe())

        duration_ms     loudness  speechiness
count  1.000000e+03  1000.000000  1000.000000
mean   2.172204e+05    -8.253305     0.077879
std    1.175582e+05     5.158523     0.089451
min   -1.000000e+00   -38.718000     0.023400
25%    1.806562e+05    -9.775500     0.033100
50%    2.163000e+05    -6.855000     0.043600
75%    2.605025e+05    -4.977750     0.074950
max    1.617333e+06    -0.883000     0.710000


#### Conclusiones sobre la necesidad de escalar

Las características tienen escalas muy diferentes:

- **duration_ms:** tiene una media de `~217,220 ms` (más de 3 minutos), con valores que van hasta `1,617,333 ms`, y una desviación estándar muy grande (`117,558`).
- **loudness:** tiene una media de `-8.25` y varía entre `-38.72` y `-0.88`.
- **speechiness:** está en una escala completamente distinta, entre `~0.02` y `~0.71`.

➡️ Esto confirma que estas variables no están en la misma escala, lo que puede afectar el rendimiento de modelos que usan medidas de distancia (como KNN, SVM, regresión logística o PCA).

#### ¿Por qué es un problema?

- Si no se escalan, duration_ms dominará el cálculo de distancias, simplemente porque sus valores son mucho más grandes (en el orden de 100,000 a millones).
- Modelos basados en distancia como KNN interpretarán esas diferencias de magnitud como más importantes, incluso si no lo son.

#### Recomendación

- Aplicar escalamiento: usar `StandardScaler` o `MinMaxScaler` de scikit-learn para que todas las características tengan igual peso en el modelo.
- Esto es especialmente importante antes de usar KNN, SVM, PCA, clustering, regresión logística u otros modelos sensibles a la escala.

### Cómo escalar nuestros datos

#### 1. Estandarización (Standardization)

**Definición:** Se resta la media y se divide por la desviación estándar.

**Fórmula:**

$$\huge x_{\text{scaled}} = \frac{x - \mu}{\sigma}$$

- Centrado en cero: la media será 0
- Varianza unitaria: la desviación estándar será 1

**Ejemplo en Python:**

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform([[10], [20], [30]])
```

**Resultado estimado:**

```
[[-1.22], [0.0], [1.22]]
```

#### 2. Escalado Min-Max

**Definición:** Se resta el mínimo y se divide por el rango (máximo - mínimo).

**Fórmula:**

$$\huge x_{\text{scaled}} = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}$$

- Rango: Los valores estarán entre 0 y 1

**Ejemplo en Python:**

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform([[10], [20], [30]])
```

**Resultado estimado:**

```
[[0.0], [0.5], [1.0]]
```

### 3. Normalización a [-1, +1]

**Definición:** Similar al Min-Max pero se escala al rango de -1 a 1

**Fórmula generalizada:**

$$\huge x_{\text{scaled}} = 2 \cdot \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} - 1$$

**Ejemplo en Python:**

```python
from sklearn.preprocessing import MinMaxScaler
import numpy as np

scaler = MinMaxScaler(feature_range=(-1, 1))
X_scaled = scaler.fit_transform(np.array([[10], [20], [30]]))
```

**Resultado estimado:**

```
[[-1.0], [0.0], [1.0]]
```

#### ¿Cuándo usar cada uno?

| **Técnica**              | **Ideal para…**                                                                  |
|--------------------------|----------------------------------------------------------------------------------|
| **Estandarización**      | Modelos que asumen distribución normal (SVM, PCA, regresión)                    |
| **Min-Max Scaling**      | Redes neuronales, KNN, visualización                                             |
| **Normalización [-1,1]** | Modelos sensibles al signo o simetría (algunas redes neuronales)                |

In [12]:
from sklearn.preprocessing import StandardScaler

X = df.drop("genre", axis=1).values
y = df["genre"].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(np.mean(X), np.std(X))
print(np.mean(X_train_scaled), np.std(X_train_scaled))

20666.58258561808 68890.98734103922
3.611925573447176e-16 0.9999999999999996


In [16]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline

steps = [('scaler', StandardScaler()),
         ('knn', KNeighborsClassifier(n_neighbors=6))]

pipeline = Pipeline(steps)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=21)

knn_scaled = pipeline.fit(X_train, y_train)
y_pred = knn_scaled.predict(X_test)

print(knn_scaled.score(X_test, y_test))

0.085


### Comparación del rendimiento utilizando datos sin escalar

In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=21)
knn_unscaled = KNeighborsClassifier(n_neighbors=6).fit(X_train, y_train)
print(knn_unscaled.score(X_test, y_test))

0.14


### GridSearchCV y escalamiento en una tubería

In [22]:
from sklearn.model_selection import GridSearchCV


steps = [('scaler', StandardScaler()),
         ('knn', KNeighborsClassifier())]

pipeline = Pipeline(steps)

parameters = {"knn__n_neighbors": np.arange(1, 50)}
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=21)

cv = GridSearchCV(pipeline, param_grid=parameters)
cv.fit(X_train, y_train)
y_pred = cv.predict(X_test)

print(cv.best_score_)
print(cv.best_params_)



0.06999999999999999
{'knn__n_neighbors': np.int64(49)}
