# Preparar los datos

In [1]:
import pandas as pd
import numpy as np
import sklearn

In [2]:
workflow = [
    "1. Obtener y preparar los datos",
    "2. Dividir los datos",
    "3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**",
    "4. Ajustar el modelo/algoritmo a los datos de entrenamiento",
    "5. Hacer predicciones",
    "6. Evaluar el modelo",
    "7. Mejorar el modelo",
    "8. Guardar y cargar el modelo"
]

In [3]:
workflow

['1. Obtener y preparar los datos',
 '2. Dividir los datos',
 '3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**',
 '4. Ajustar el modelo/algoritmo a los datos de entrenamiento',
 '5. Hacer predicciones',
 '6. Evaluar el modelo',
 '7. Mejorar el modelo',
 '8. Guardar y cargar el modelo']

In [4]:
# Obtener los datos
data = pd.read_csv("../../data/raw/scikit-learn-data/car-sales-extended.csv")
car_sales = pd.DataFrame(data)
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431,4,15323
1,BMW,Blue,192714,5,19943
2,Honda,White,84714,4,28343
3,Toyota,White,154365,4,13434
4,Nissan,Blue,181577,3,14043


In [5]:
data = pd.read_csv("../../data/raw/scikit-learn-data/heart-disease.csv")
heart_disease = pd.DataFrame(data)
heart_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [6]:
X = heart_disease.drop("target", axis=1) # Todas las columnas menos la columna 'target'
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [7]:
y = heart_disease["target"]
y.head()

0    1
1    1
2    1
3    1
4    1
Name: target, dtype: int64

#### Preparar nuestros datos para ser utilizados con machine learning 
Tres cosas principales que tenemos que hacer:
  1. **Dividir** los datos en características y etiquetas (generalmente X e y)
  2. **Rellenar** (también llamado ***imputación***) o **desestimar los valores faltantes**
  3. **Convertir valores no numéricos a valores numéricos** (también llamado ***codificación*** de características)

## 1. Dividir los datos (Splitting Data)

In [8]:
# Dividir los datos en conjunto de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [9]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((242, 13), (61, 13), (242,), (61,))

## 2. Convertir valores no numéricos a valores numéricos *(codificación - encoding)*

In [10]:
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431,4,15323
1,BMW,Blue,192714,5,19943
2,Honda,White,84714,4,28343
3,Toyota,White,154365,4,13434
4,Nissan,Blue,181577,3,14043


In [11]:
car_sales.dtypes

Make             object
Colour           object
Odometer (KM)     int64
Doors             int64
Price             int64
dtype: object

In [12]:
car_sales["Doors"].value_counts() # columna categórica

Doors
4    856
5     79
3     65
Name: count, dtype: int64

In [13]:
len(car_sales)

1000

In [14]:
# Dividir en X & y
X = car_sales.drop("Price", axis=1)
y = car_sales["Price"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((800, 4), (200, 4), (800,), (200,))

In [15]:
# Construir modelo de machine learning
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor()
# model.fit(X_train, y_train) # ValueError: could not convert string to float: 'Nissan'
# model.score(X_test, y_test)

In [16]:
# Pasar las categorias a valores numéricos
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ["Make", "Colour", "Doors"]
one_hot = OneHotEncoder() # Crea columnas binarias (0 o 1) para cada categoría
transformer = ColumnTransformer([("one_hot", one_hot, categorical_features)],
                                remainder="passthrough"  # Deja las columnas no especificadas sin cambios
                               )
transformed_X = transformer.fit_transform(X)
transformed_X

array([[0.00000e+00, 1.00000e+00, 0.00000e+00, ..., 1.00000e+00,
        0.00000e+00, 3.54310e+04],
       [1.00000e+00, 0.00000e+00, 0.00000e+00, ..., 0.00000e+00,
        1.00000e+00, 1.92714e+05],
       [0.00000e+00, 1.00000e+00, 0.00000e+00, ..., 1.00000e+00,
        0.00000e+00, 8.47140e+04],
       ...,
       [0.00000e+00, 0.00000e+00, 1.00000e+00, ..., 1.00000e+00,
        0.00000e+00, 6.66040e+04],
       [0.00000e+00, 1.00000e+00, 0.00000e+00, ..., 1.00000e+00,
        0.00000e+00, 2.15883e+05],
       [0.00000e+00, 0.00000e+00, 0.00000e+00, ..., 1.00000e+00,
        0.00000e+00, 2.48360e+05]])

In [17]:
X

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431,4
1,BMW,Blue,192714,5
2,Honda,White,84714,4
3,Toyota,White,154365,4
4,Nissan,Blue,181577,3
...,...,...,...,...
995,Toyota,Black,35820,4
996,Nissan,White,155144,3
997,Nissan,Blue,66604,4
998,Honda,White,215883,4


In [18]:
pd.DataFrame(transformed_X)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,35431.0
1,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,84714.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,154365.0
4,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,35820.0
996,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,155144.0
997,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,66604.0
998,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,215883.0


`transformed_X` es una **representación transformada** de los datos originales `X`, es decir: 
- `X` es el conjunto original de características (features) de nuestro dataset.
    - Por lo general, es un DataFrame o una matriz que contiene datos categóricos, numéricos o mixtos
    - Sirve como entrada para los algoritmos de machine learning.
- `transformed_X` es el resultado de aplicar una transformación (como `OneHotEncoder`) sobre `X` para convertir sus datos en una forma adecuada para que los algoritmos de machine learning puedan procesarlos.
    - Es una versión numérica y lista para ser procesada por modelos de machine learning 

**Cómo cambia `X` a `transformed_X`:**
1. Las columnas categóricas (como `Colour`, `Doors` o `Make`) son transformadas mediante **OneHotEncoding**.
   - Esto significa que cada categoría única en las columnas categóricas se convierte en una columna binaria separada (0 o 1).
2. Las columnas numéricas (como `Odometer (KM)`) permanecen sin cambios (gracias al parámetro `remainder="passthrough"` en el `ColumnTransformer`).

**Ventajas y Desventajas de `OneHotEncoding`**
- **Ventajas:** Evita relaciones ordinales falsas.
- **Desventajas:** Incrementa el tamaño del dataset si hay muchas categorías.

In [19]:
dummies = pd.get_dummies(car_sales[["Make", "Colour", "Doors"]], dtype=int)
dummies

Unnamed: 0,Doors,Make_BMW,Make_Honda,Make_Nissan,Make_Toyota,Colour_Black,Colour_Blue,Colour_Green,Colour_Red,Colour_White
0,4,0,1,0,0,0,0,0,0,1
1,5,1,0,0,0,0,1,0,0,0
2,4,0,1,0,0,0,0,0,0,1
3,4,0,0,0,1,0,0,0,0,1
4,3,0,0,1,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...
995,4,0,0,0,1,1,0,0,0,0
996,3,0,0,1,0,0,0,0,0,1
997,4,0,0,1,0,0,1,0,0,0
998,4,0,1,0,0,0,0,0,0,1


**`pd.get_dummies()`:**
   - Convierte cada categoría única en las columnas seleccionadas en una columna binaria separada.
   - Por ejemplo, si la columna `Colour` tiene valores únicos `["Red", "Blue", "Black"]`, se crean tres nuevas columnas:
       - `Colour_Black`, `Colour_Blue`, y `Colour_Red`.

**`dummies`:** Es el nuevo DataFrame transformado, donde las categorías originales han sido reemplazadas por columnas binarias.

Cada fila original ahora tiene un **1** en las columnas que corresponden a sus valores categóricos, y un **0** en las demás.

**Limitaciones de `pd.get_dummies`:**
- **Inflación dimensional:** Si hay muchas categorías únicas, el número de columnas resultantes puede crecer rápidamente (esto se llama **curse of dimensionality** o "maldición de la dimensionalidad").
   - Ejemplo: Si tienes una columna `City` con 10,000 ciudades únicas, obtendrás 10,000 columnas nuevas.

- **Pérdida de contexto ordinal:** Si los datos categóricos tienen un orden implícito (por ejemplo, `small < medium < large`), `get_dummies` no lo captura.

En estos casos, puedes considerar otros métodos como **Label Encoding** o técnicas avanzadas como embeddings.

In [20]:
# Reentrenar el modelo
np.random.seed(42)
X_train, X_test, y_train, y_test = train_test_split(transformed_X, y, test_size=0.2)
model.fit(X_train, y_train)

In [21]:
model.score(X_test, y_test)

0.3235867221569877

Ahora no obtenemos ningún error porque todos nuestros datos son numéricos.

Aunque no es el mejor resultado, esto probablemente se debe a que estamos tratando de predecir el precio de un automóvil con solo 4 características, lo que limita la información. Más adelante analizaremos las métricas de evaluación.

In [22]:
X.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431,4
1,BMW,Blue,192714,5
2,Honda,White,84714,4
3,Toyota,White,154365,4
4,Nissan,Blue,181577,3


## 3. Manejar valores faltantes

**¿Qué pasaría si hubiera valores faltantes?**  
- Rellénalos con algún valor (también conocido como ***imputación***).  
- Elimina las muestras con datos faltantes por completo.

In [23]:
# Importar dataset con valores faltantes
data = pd.read_csv("../../data/raw/scikit-learn-data/car-sales-extended-missing-data.csv")
car_sales_missing = pd.DataFrame(data)
car_sales_missing.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431.0,4.0,15323.0
1,BMW,Blue,192714.0,5.0,19943.0
2,Honda,White,84714.0,4.0,28343.0
3,Toyota,White,154365.0,4.0,13434.0
4,Nissan,Blue,181577.0,3.0,14043.0


In [24]:
car_sales_missing.isna().sum() # ver valores faltantes

Make             49
Colour           50
Odometer (KM)    50
Doors            50
Price            50
dtype: int64

In [25]:
car_sales_missing["Doors"].value_counts()

Doors
4.0    811
5.0     75
3.0     64
Name: count, dtype: int64

### Opción 1: Rellenar valores faltantes con Pandas

In [26]:
# Rellenar la columna 'Make'
car_sales_missing["Make"] = car_sales_missing["Make"].fillna("missing")

# Rellenar la columna 'Colour'
car_sales_missing["Colour"] = car_sales_missing["Colour"].fillna("missing")

# Rellenar la columna 'Odometer (KM)'
car_sales_missing["Odometer (KM)"] = car_sales_missing["Odometer (KM)"].fillna(car_sales_missing["Odometer (KM)"].mean())

# Rellenar la columna 'Doors'
car_sales_missing["Doors"] = car_sales_missing["Doors"].fillna(4)

In [27]:
# Comprobar el dataframe
car_sales_missing.isna().sum()

Make              0
Colour            0
Odometer (KM)     0
Doors             0
Price            50
dtype: int64

In [28]:
len(car_sales_missing)

1000

In [29]:
X = car_sales_missing.drop("Price", axis=1)
y = car_sales_missing["Price"]

In [30]:
# Pasar las categorias a valores numéricos
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ["Make", "Colour", "Doors"]
one_hot = OneHotEncoder() # Crea columnas binarias (0 o 1) para cada categoría
transformer = ColumnTransformer([("one_hot", one_hot, categorical_features)],
                                remainder="passthrough"  # Deja las columnas no especificadas sin cambios
                               )
transformed_X = transformer.fit_transform(X)
transformed_X

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 4000 stored elements and shape (1000, 15)>

### Opción 2: Rellenar valores faltantes con Scikit-Learn

In [31]:
car_sales_missing = pd.read_csv("../../data/raw/scikit-learn-data/car-sales-extended-missing-data.csv")
car_sales_missing.isna().sum()

Make             49
Colour           50
Odometer (KM)    50
Doors            50
Price            50
dtype: int64

In [32]:
# Primero, eliminamos los registros que tienen valores faltantes en 'Price'
car_sales_missing.dropna(subset=["Price"], inplace=True)
car_sales_missing.isna().sum()

Make             47
Colour           46
Odometer (KM)    48
Doors            47
Price             0
dtype: int64

In [33]:
# Dividir los datos
X = car_sales_missing.drop("Price", axis=1)
y = car_sales_missing["Price"]

In [34]:
# Rellenar valores faltantes con Scikit-Learn
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer

## Rellenar valores categóricos con 'missing' y valores numéricos con la media
cat_imputer = SimpleImputer(strategy="constant", fill_value="missing")
door_imputer = SimpleImputer(strategy="constant", fill_value=4)
num_imputer = SimpleImputer(strategy="mean")

# Definir columnas
cat_features = ["Make", "Colour"]
door_feature = ["Doors"]
num_features = ["Odometer (KM)"]

# Crear un imputador (algo que rellena datos faltantes)
imputer = ColumnTransformer([
    ("cat_imputer", cat_imputer, cat_features),
    ("door_imputer", door_imputer, door_feature),
    ("num_features", num_imputer, num_features)
])

# Transformar los datos
filled_X = imputer.fit_transform(X)
filled_X

array([['Honda', 'White', 4.0, 35431.0],
       ['BMW', 'Blue', 5.0, 192714.0],
       ['Honda', 'White', 4.0, 84714.0],
       ...,
       ['Nissan', 'Blue', 4.0, 66604.0],
       ['Honda', 'White', 4.0, 215883.0],
       ['Toyota', 'Blue', 4.0, 248360.0]], dtype=object)

In [35]:
car_sales_filled = pd.DataFrame(filled_X,
                                columns=["Make", "Colour", "Doors", "Odometer(KM)"])
car_sales_filled.head()

Unnamed: 0,Make,Colour,Doors,Odometer(KM)
0,Honda,White,4.0,35431.0
1,BMW,Blue,5.0,192714.0
2,Honda,White,4.0,84714.0
3,Toyota,White,4.0,154365.0
4,Nissan,Blue,3.0,181577.0


In [36]:
car_sales_filled.isna().sum()

Make            0
Colour          0
Doors           0
Odometer(KM)    0
dtype: int64

In [37]:
# Pasar las categorias a valores numéricos
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ["Make", "Colour", "Doors"]
one_hot = OneHotEncoder() # Crea columnas binarias (0 o 1) para cada categoría
transformer = ColumnTransformer([("one_hot", one_hot, categorical_features)],
                                remainder="passthrough"  # Deja las columnas no especificadas sin cambios
                               )
transformed_X = transformer.fit_transform(car_sales_filled)
transformed_X

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 3800 stored elements and shape (950, 15)>

In [38]:
# Ahora tenemos nuestros datos como numéricos y completos (no hay valores faltantes)
# Vamos a ajustar el modelo
np.random.seed(42)
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(transformed_X, y, test_size=0.2)
model = RandomForestRegressor()
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.21990196728583944

In [39]:
len(car_sales_filled), len(car_sales)

(950, 1000)

**Nota:** Los 50 valores menores en los datos transformados se deben a que eliminamos las filas (un total de 50) con valores faltantes en la columna Precio.