<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Usando variables num√©ricas y categ√≥ricas juntas</font>**

‚ù§ https://scikit-learn.org/stable/

<p align="justify">
üëÄ En los Colabs anteriores, mostramos el preprocesamiento para variables num√©ricas y variables categ√≥ricas. Sin embargo, ese proceso lo realizamos para tratar cada tipo de variable individualmente, es decir, por un lado las variables num√©ricas y por otro, las variables categ√≥ricas. En este Colab, vamos a mostrar c√≥mo combinar estos pasos de preprocesamiento.
<br><br>
Primero cargamos todo el conjunto de datos del censo de adultos.
</p>



In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [None]:
target_name = "class"
target = adult_census[target_name]
data = adult_census.drop(columns=[target_name])

In [None]:
data.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   education-num   48842 non-null  int64 
 4   marital-status  48842 non-null  object
 5   occupation      48842 non-null  object
 6   relationship    48842 non-null  object
 7   race            48842 non-null  object
 8   sex             48842 non-null  object
 9   capital-gain    48842 non-null  int64 
 10  capital-loss    48842 non-null  int64 
 11  hours-per-week  48842 non-null  int64 
 12  native-country  48842 non-null  object
dtypes: int64(5), object(8)
memory usage: 4.8+ MB


 # **<font color="DeepPink">Selecci√≥n basada en tipos de datos</font>**

<p align="justify">
üëÄ Separaremos variables categ√≥ricas y num√©ricas usando sus tipos de datos para identificarlas, ya que vimos anteriormente que objeto corresponde a las columnas categ√≥ricas (cadenas de caracteres). Hacemos uso del <code>make_column_selector</code> para seleccionar las columnas correspondientes.
</p>


In [None]:
from sklearn.compose import make_column_selector as selector

<p align="justify">
üëÄ En el selector de las columnas numericas excluimos los tipos de datos <code>object</code> porque podemos tener numeros enteros o numeros decimales.
</p>


In [None]:
numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

In [None]:
numerical_columns = numerical_columns_selector(data)
categorical_columns = categorical_columns_selector(data)

In [None]:
numerical_columns

['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']

In [None]:
categorical_columns

['workclass',
 'education',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native-country']

 # **<font color="DeepPink">Enviar columnas a un procesador espec√≠fico</font>**

<p align="justify">
üëÄ Anteriormente vimos que debemos tratar los datos de manera diferente dependiendo de su naturaleza, es decir, si los datos son num√©ricos o si los datos son categ√≥ricos.
<br><br>
<code>scikit-learn</code> proporciona una clase denominada <code>ColumnTransformer</code> que enviar√° informaci√≥n espec√≠fica de las columnas a un transformador espec√≠fico, lo que facilita el ajuste del modelo predictivo en un conjunto de datos que combina ambos tipos de variables, las num√©ricas y las categ√≥ricas, concluyendo en datos tabulares tipificados heterog√©neamente.
<br><br>Entonces, primero definimos las columnas dependiendo de su tipo de datos:
</p>


<ol align="justify">
<li>
Se aplicar√° <code>one-hot-encoding</code> a las columnas categ√≥ricas. Adem√°s, usaremos <code>handle_unknown="ignore"</code> para resolver problemas potenciales debido a categor√≠as.
</li>
<li>
Se aplicar√° el escalado num√©rico para caracter√≠sticas num√©ricas que ser√°n estandarizadas.
</li>
</ol>

<p align="justify">
üëÄ Ahora, creamos nuestro <code>ColumnTransformer</code> especificando tres valores:</p><br>

1. el nombre del preprocesador,
1. el transformador y
1. las columnas.

<br>
<p align="justify">
üëÄ Ahora vamos a crear los preprocesadores para los datos num√©ricos y los datos categ√≥ricos.



In [None]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [None]:
categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
numerical_preprocessor = StandardScaler()

<p align="justify">
üëÄ Ahora, creamos el transformador y asociamos cada uno de estos preprocesadores con sus respectivas columnas.
</p>

https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

In [None]:
from sklearn.compose import ColumnTransformer

In [None]:
preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ('standard_scaler', numerical_preprocessor, numerical_columns)])

In [None]:
preprocessor

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/ColumnTransformers-001.png?raw=true" width="600">
</p>


`ColumnTransformer` hace lo siguiente:
<br><br>
<ul align="justify">
<li>
Divide las columnas del conjunto de datos original seg√∫n los nombres de las columnas o los √≠ndices proporcionados. Obtendremos tantos subconjuntos como transformadores pasen al ColumnTransformer.
</li>
<li>
Transforma cada subconjunto. Se aplica un transformador espec√≠fico a cada subconjunto: llamar√° internamente a <code>fit_transform</code> o <code>transform</code>. El resultado de este paso es un conjunto de conjuntos de datos transformados.
</li>
<li>
Luego concatena los conjuntos de datos transformados en un √∫nico conjunto de datos.
</li>
</ul>
<br>
<p align="justify">
Lo importante es que <code>ColumnTransformer</code> es como cualquier otro transformador de <code>scikit-learn</code>. En particular, se puede combinar con un clasificador en un Pipeline:
</p>

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

In [None]:
model = make_pipeline(preprocessor, LogisticRegression(max_iter=500))
model

El modelo final es m√°s complejo que los modelos anteriores:
<br><br>
<ul align="justify">
<li>
Se llama al m√©todo <code>fit</code> para preprocesar los datos y luego entrenar al clasificador de los datos preprocesados.
</li>
<li>
El m√©todo <code>predict</code> hace predicciones sobre los nuevos datos.
</li>
<li>
El m√©todo <code>score</code> se utiliza para predecir los datos de prueba y comparar las predicciones con las etiquetas de prueba esperadas para calcular la precisi√≥n.
</li>
</ul>

<br>
<p align="justify">
Comencemos por dividir nuestros datos en el conjunto de datos de entrenamiento y en el conjunto de datos de prueba.

 # **<font color="DeepPink">Train-test, divisi√≥n del conjunto de datos</font>**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
data_train, data_test, target_train, target_test = train_test_split(data, target, random_state=42)

<p align="justify">
üëÄ Tenga en cuenta que usamos <code>train_test_split</code> con fines did√°cticos, para mostrar <code>scikit-learn</code>. En un entorno real, uno podr√≠a preferir usar la validaci√≥n cruzada para poder evaluar tambi√©n la incertidumbre de nuestra estimaci√≥n del rendimiento de un modelo, como se demostr√≥ anteriormente.
</p>

In [None]:
_ = model.fit(data_train, target_train)

 # **<font color="DeepPink">Ajuste y prediccion</font>**

<p align="justify">
üëÄ Luego, podemos enviar el conjunto de datos sin procesar directamente al Pipeline. De hecho, no necesitamos realizar ning√∫n preprocesamiento manual, ni llamar a los m√©todos <code>transform</code> o <code>fit_transform</code>, ya que se resolver√° al llamar al m√©todo <code>predict</code>.
<br><br>
Como ejemplo, predecimos sobre las $10$ primeras muestras del conjunto de datos de prueba...
</p>

In [None]:
data_test.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
7762,56,Private,HS-grad,9,Divorced,Other-service,Unmarried,White,Female,0,0,40,United-States
23881,25,Private,HS-grad,9,Married-civ-spouse,Transport-moving,Own-child,Other,Male,0,0,40,United-States
30507,43,Private,Bachelors,13,Divorced,Prof-specialty,Not-in-family,White,Female,14344,0,40,United-States
28911,32,Private,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States
19484,39,Private,Bachelors,13,Married-civ-spouse,Sales,Wife,White,Female,0,0,30,United-States


In [None]:
model.predict(data_test)[:10]

array([' <=50K', ' <=50K', ' >50K', ' <=50K', ' >50K', ' <=50K', ' <=50K',
       ' >50K', ' <=50K', ' <=50K'], dtype=object)

In [None]:
target_test[:10]

7762      <=50K
23881     <=50K
30507      >50K
28911     <=50K
19484     <=50K
43031     <=50K
28188     <=50K
12761      >50K
40834     <=50K
27875     <=50K
Name: class, dtype: object

<p align="justify">
üëÄ Para obtener directamente la m√©trica <code>Accuracy</code>, necesitamos llamar los m√©todos <code>score</code>. Esto computa el puntaje de <code>Accuracy</code> en el conjunto de datos de prueba.
</p>

In [None]:
model.score(data_test, target_test).round(4)

0.8578

 # **<font color="DeepPink">Evaluaci√≥n del modelo con Cross-validation</font>**

<p align="justify">
üëÄ Un modelo predictivo puede ser evaluado con validaci√≥n cruzada....
</p>


In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, data, target, cv=5)
cv_results

{'fit_time': array([1.30357432, 1.28648901, 1.14758754, 1.25318527, 1.28302526]),
 'score_time': array([0.04149365, 0.04128408, 0.0427022 , 0.05727148, 0.04176998]),
 'test_score': array([0.85116184, 0.8498311 , 0.84756347, 0.85268223, 0.85513923])}

In [None]:
scores = cv_results["test_score"]
print("")
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} ¬± {scores.std():.3f}")


The mean cross-validation accuracy is: 0.851 ¬± 0.003


<p align="justify">
üëÄ El modelo compuesto tiene una mayor precisi√≥n predictiva que los dos modelos que utilizan variables num√©ricas y categ√≥ricas de forma aislada.
</p>


 # **<font color="DeepPink">Adaptando un modelo m√°s potente</font>**

<p align="justify">
üëÄ Los modelos lineales son buenos porque suelen ser mas simples para entrenar,
peque√±os para implementar y r√°pidos para predecir.
<br><br>
Sin embargo, a menudo es √∫til comprobar si los modelos m√°s complejos, como un conjunto de √°rboles de decisi√≥n puede conducir a un mayor rendimiento predictivo. Usaremos un modelo llamado <code> gradient-boosting trees</code> y podemos evaluar su rendimiento.
<br><br>
M√°s precisamente, el modelo de <code>scikit-learn</code> que usaremos se llama <code>HistGradientBoostingClassifier</code>. Tenga en cuenta que
estos tipos de modelos, los modelos boosting, se desarrollar√°n en otros Colabs.
<br><br>
Para modelos basados en √°rboles, el manejo de variables num√©ricas y categ√≥ricas es m√°s simple que para los modelos lineales...
</p>


* No necesitamos escalar las caracter√≠sticas num√©ricas.
* Usan una codificaci√≥n ordinal para las variables categ√≥ricas.


<p align="justify">
üëÄ Por lo tanto, para <code>HistGradientBoostingClassifier</code>, el Pipeline de preprocesamiento es un poco m√°s simple que el que vimos antes para <code>LogisticRegression</code>:
</p>


https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.preprocessing import OrdinalEncoder

In [None]:
categorical_preprocessor = OrdinalEncoder(handle_unknown="use_encoded_value",
                                          unknown_value=-1)

In [None]:
preprocessor = ColumnTransformer([
    ('categorical', categorical_preprocessor, categorical_columns)],
    remainder="passthrough")

In [None]:
model = make_pipeline(preprocessor, HistGradientBoostingClassifier())

In [None]:
%%time
_ = model.fit(data_train, target_train)

CPU times: user 1.97 s, sys: 23.2 ms, total: 2 s
Wall time: 1.12 s


In [None]:
model.score(data_test, target_test).round(4)

0.8806

<p align="justify">
üëÄ Podemos observar que obtenemos precisiones significativamente m√°s altas con el modelo <code>Gradient Boosting</code>. Esto es a menudo lo que observamos cuando el conjunto de datos tiene una gran cantidad de muestras y una cantidad limitada de caracter√≠sticas, por ejemplo menos de 1000 con una combinaci√≥n de variables num√©ricas y categ√≥ricas.
<br><br>
üòÄ Esto explica por qu√© las <code>Gradient Boosted Machines</code> son muy populares entre los Cient√≠ficos de Datos que trabajan con datos tabulares.
</p>


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:<br>
<br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.
<br>
‚úÖ Se us√≥ un <code>ColumnTransformer</code> para  variables categ√≥ricas y num√©ricas.
<br>
‚úÖ Se us√≥ un Pipeline para encadenar el preprocesamiento de <code>ColumnTransformer</code>.
<br>
‚úÖ Se vio que hay modelos que pueden superar a los modelos lineales.
</p>




<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
