# 游닇 Pr치ctica

El objetivo de este ejercicio es evaluar el impacto de usar una codificaci칩n entera arbitraria para variables categ칩ricas junto con un modelo de clasificaci칩n lineal como la Regresi칩n Log칤stica.

Para ello, intentemos usar `OrdinalEncoder` para preprocesar las variables categ칩ricas. Este preprocesador se ensambla en un pipeline con `LogisticRegression`. El rendimiento de generalizaci칩n del pipeline se puede evaluar mediante validaci칩n cruzada y luego comparar con el puntaje obtenido al usar `OneHotEncoder` o con alg칰n otro puntaje de referencia.

Primero, cargamos el conjunto de datos.

In [34]:
import pandas as pd

adult_census = pd.read_csv("adult.csv")

In [35]:
target_name = "income"
target = adult_census[target_name]
data = adult_census.drop(columns=[target_name, "education.num"])

En el notebook previo, utilizamos `sklearn.compose.make_column_selector` para seleccionar autom치ticamente las columnas con un tipo de dato espec칤fico (tambi칠n llamado `dtype`). Aqu칤, usamos este selector para obtener solo las columnas que contienen cadenas (columnas con dtype `object`), que corresponden a las caracter칤sticas categ칩ricas en nuestro conjunto de datos.

In [36]:
from sklearn.compose import make_column_selector as selector

categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(data)
data_categorical = data[categorical_columns]

data_categorical.head()

Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country
0,?,HS-grad,Widowed,?,Not-in-family,White,Female,United-States
1,Private,HS-grad,Widowed,Exec-managerial,Not-in-family,White,Female,United-States
2,?,Some-college,Widowed,?,Unmarried,Black,Female,United-States
3,Private,7th-8th,Divorced,Machine-op-inspct,Unmarried,White,Female,United-States
4,Private,Some-college,Separated,Prof-specialty,Own-child,White,Female,United-States


In [37]:
data_categorical['workclass'].value_counts()

Unnamed: 0_level_0,count
workclass,Unnamed: 1_level_1
Private,22696
Self-emp-not-inc,2541
Local-gov,2093
?,1836
State-gov,1298
Self-emp-inc,1116
Federal-gov,960
Without-pay,14
Never-worked,7


Notar치s que `workclass` y `occupation` tienen muchos valores desconocidos: ?. Elimina esas dos caracter칤sticas.

In [38]:
data_categorical = data_categorical.drop(columns=['workclass', 'occupation'])
data_categorical.head()

Unnamed: 0,education,marital.status,relationship,race,sex,native.country
0,HS-grad,Widowed,Not-in-family,White,Female,United-States
1,HS-grad,Widowed,Not-in-family,White,Female,United-States
2,Some-college,Widowed,Unmarried,Black,Female,United-States
3,7th-8th,Divorced,Unmarried,White,Female,United-States
4,Some-college,Separated,Own-child,White,Female,United-States


Define un pipeline de scikit-learn compuesto por un `OrdinalEncoder` y un clasificador `LogisticRegression`.

Dado que `OrdinalEncoder` puede generar errores si encuentra una categor칤a desconocida en el momento de la predicci칩n, puedes establecer los par치metros `handle_unknown="use_encoded_value"` y `unknown_value`. Puedes consultar la [documentaci칩n de scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) para obtener m치s detalles sobre estos par치metros.

In [39]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OrdinalEncoder
from sklearn.linear_model import LogisticRegression

model = make_pipeline(
    OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1),
    LogisticRegression(max_iter=1000, random_state=42)
)

Tu modelo ya est치 definido. Eval칰alo utilizando validaci칩n cruzada con `sklearn.model_selection.cross_validate`.

Nota

Ten en cuenta que si ocurre un error durante la validaci칩n cruzada, `cross_validate` emitir치 una advertencia y devolver치 NaN (Not a Number) como puntajes. Para hacer que genere una excepci칩n est치ndar de Python con un traceback, puedes pasar el argumento `error_score="raise"` en la llamada a `cross_validate`. Se generar치 una excepci칩n en lugar de una advertencia ante el primer problema encontrado y `cross_validate` se detendr치 de inmediato en lugar de devolver valores NaN. Esto es particularmente 칰til cuando se desarrollan pipelines complejos de aprendizaje autom치tico.

In [40]:
from sklearn.model_selection import cross_validate

cv_results = cross_validate(
    model,
    data_categorical,
    target,
    cv=5,
    error_score="raise"
)

print("Resultados de validaci칩n cruzada:")
print(cv_results)

Resultados de validaci칩n cruzada:
{'fit_time': array([0.21720672, 0.25177026, 0.20239139, 0.2458303 , 0.25498843]), 'score_time': array([0.03248453, 0.02975917, 0.02973676, 0.03353572, 0.03313422]), 'test_score': array([0.75295563, 0.7536855 , 0.754914  , 0.75660319, 0.75506757])}


In [41]:
scores = cv_results["test_score"]

print(f"The accuracy is: {scores.mean():.3f} 췀 {scores.std():.3f}")

The accuracy is: 0.755 췀 0.001


Ahora, compara el rendimiento de generalizaci칩n del modelo anterior con un nuevo modelo donde, en lugar de usar un `OrdinalEncoder`, utilizamos un `OneHotEncoder`. Repite la evaluaci칩n del modelo utilizando validaci칩n cruzada. Compara el puntaje de ambos modelos y concluye sobre el impacto de elegir una estrategia de codificaci칩n espec칤fica al usar un modelo lineal.

In [42]:
from sklearn.preprocessing import OneHotEncoder

model_onehot = make_pipeline(
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000, random_state=42)
)

cv_results_onehot = cross_validate(
    model_onehot,
    data_categorical,
    target,
    cv=5,
    scoring="accuracy",
    error_score="raise"
)

print("=== Resultados con OneHotEncoder ===")
scores_onehot = cv_results_onehot["test_score"]


=== Resultados con OneHotEncoder ===


In [43]:
print(f"Puntajes de validaci칩n cruzada: {scores_onehot}")
print(f"Accuracy: {scores_onehot.mean():.3f} 췀 {scores_onehot.std():.3f}")

Puntajes de validaci칩n cruzada: [0.83816981 0.81265356 0.81418919 0.82232801 0.81603194]
Accuracy: 0.821 췀 0.009


In [None]:
"""El OneHotEncoder generalmente funciona mejor con modelos lineales como la Regresi칩n Log칤stica. Esto se debe a que:
- OrdinalEncoder asume un orden impl칤cito entre las categor칤as (0 < 1 < 2...)
- Este orden arbitrario puede confundir a los modelos lineales
- OneHotEncoder trata cada categor칤a de forma independiente sin asumir orden
- Esto es m치s apropiado para variables categ칩ricas nominales (sin orden natural)"""