<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Preprocesamiento para variables num√©ricas</font>**

<p align="justify">
üëÄ El preprocesamiento de variables num√©ricas en scikit-learn se refiere al proceso de transformar y preparar variables num√©ricas antes de utilizarlas para entrenar modelos de aprendizaje autom√°tico. Este preprocesamiento es esencial para garantizar que los datos sean adecuados y est√©n en el formato correcto para que los algoritmos de aprendizaje autom√°tico puedan funcionar de manera efectiva.
<br><br>
Algunas de las t√©cnicas comunes de preprocesamiento de variables num√©ricas en scikit-learn incluyen:
<br><br>
<ol align="justify">
<li>
<b>Escalamiento de caracter√≠sticas:</b> El escalamiento de caracter√≠sticas es el proceso de estandarizar o normalizar las caracter√≠sticas num√©ricas para que tengan una escala uniforme. Esto es importante porque muchos algoritmos de aprendizaje autom√°tico asumen que todas las caracter√≠sticas est√°n en la misma escala. scikit-learn proporciona clases como <code>StandardScaler</code> y <code>MinMaxScaler</code> para realizar este tipo de escalamiento.
</li>
<li>
<b>Imputaci√≥n de valores perdidos:</b> La imputaci√≥n de valores perdidos implica rellenar los valores faltantes en los datos num√©ricos con alg√∫n valor apropiado, como la media, la mediana o alg√∫n valor espec√≠fico. scikit-learn proporciona la clase <code>SimpleImputer</code> para realizar este tipo de imputaci√≥n.
</li>
<li>
<b>Transformaciones de caracter√≠sticas:</b> A veces, es √∫til aplicar transformaciones matem√°ticas a las caracter√≠sticas num√©ricas para hacerlas m√°s adecuadas para los algoritmos de aprendizaje autom√°tico. Por ejemplo, se pueden aplicar transformaciones logar√≠tmicas o polinomiales para cambiar la distribuci√≥n de las caracter√≠sticas. scikit-learn proporciona la clase <code>FunctionTransformer</code> para aplicar transformaciones personalizadas a las caracter√≠sticas.
</li>
<li>
<b>Detecci√≥n y manejo de valores at√≠picos:</b> Los valores at√≠picos pueden afectar negativamente el rendimiento de los modelos de aprendizaje autom√°tico. scikit-learn proporciona varias t√©cnicas para detectar y manejar valores at√≠picos en los datos num√©ricos, como el uso de estad√≠sticas descriptivas o algoritmos de detecci√≥n de anomal√≠as.
</li></ol>

‚ù§ https://scikit-learn.org/stable/

<p align="justify">
üëÄ En este Colab, seguiremos con caracter√≠sticas num√©ricas, pero se agregan  nuevas tareas, como por ejemplo:</p><br>

- El preprocesamiento escalando variables num√©ricas, convertirlas en una escala.
- El uso de un Pipeline de <code>scikit-learn</code> para encadenar el preprocesamiento y el entrenamiento de un modelo.

<br>
<p align="justify">
üëÄ Y seguimos con el mismo conjunto de datos...</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

<p align="justify">
üëÄ Armando nuestro <code>DataFrame</code>...</p>

In [None]:
adult_census.drop(columns=["education-num"], inplace=True)
adult_census.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


In [None]:
adult_census.shape

(48842, 13)

<p align="justify">
üëÄ Separamos la variable objetivo, de las variables explicativas.
</p>


In [None]:
y = adult_census["class"]
X = adult_census.drop(columns=["class"])

In [None]:
adult_census.shape

(48842, 13)

In [None]:
X.shape

(48842, 12)

<p align="justify">
üëÄ Y obtenemos un resumen de nuestra variable $y$, nuestra variable objetivo...</p>

In [None]:
y.info()

<class 'pandas.core.series.Series'>
RangeIndex: 48842 entries, 0 to 48841
Series name: class
Non-Null Count  Dtype 
--------------  ----- 
48842 non-null  object
dtypes: object(1)
memory usage: 381.7+ KB


 # **<font color="DeepPink">Seleccionando las columnas num√©ricas</font>**

<p align="justify">
üëÄ Ahora vamos a seleccionar las columnas num√©ricas, para ello, vemos un resumen de informaci√≥n del vector de caracteristicas, denominado $X$...</p>

In [None]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   marital-status  48842 non-null  object
 4   occupation      48842 non-null  object
 5   relationship    48842 non-null  object
 6   race            48842 non-null  object
 7   sex             48842 non-null  object
 8   capital-gain    48842 non-null  int64 
 9   capital-loss    48842 non-null  int64 
 10  hours-per-week  48842 non-null  int64 
 11  native-country  48842 non-null  object
dtypes: int64(4), object(8)
memory usage: 4.5+ MB


<p align="justify">
üëÄ Y creamos una lista con los nombres de las columnas num√©ricas...</p>

In [None]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]
X_numeric = X[numerical_columns]

<p align="justify">
üëÄ Podemos ver nuestro <code>DataFrame</code> numerico...</p>

In [None]:
X_numeric

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30
...,...,...,...,...
48837,27,0,0,38
48838,40,0,0,40
48839,58,0,0,40
48840,22,0,0,20


 # **<font color="DeepPink">Train-test, divisi√≥n del conjunto de datos</font>**

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

<p align="justify">
üëÄ Procedemos a dividir el conjunto de datos con <code>train_test_split</code>... vemos que al no especificar los tama√±os del conjunto de datos de prueba o del conjunto de datos de entrenamiento, por defecto toma los valores $25$% y $75$% respectivamente</p>

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_numeric,
                                                    y,
                                                    random_state=123)

In [None]:
X_train.shape

(36631, 4)

In [None]:
X_test.shape

(12211, 4)

<p align="justify">
üëÄ Tama√±o del conjunto de datos de entrenamiento, respecto del total de datos...</p>

In [None]:
round(((X_train.shape[0])/(X_train.shape[0]+X_test.shape[0])),4)

0.75

<p align="justify">
üëÄ Tama√±o del conjunto de datos de prueba, respecto del total de datos...</p>

In [None]:
round(((X_test.shape[0])/(X_train.shape[0]+X_test.shape[0])),4)

0.25

 # **<font color="DeepPink">Ajuste del modelo con preprocesamiento</font>**

<p align="justify">
üëÄ Una gama de algoritmos de preprocesamiento en <code>scikit-learn</code> permite transformar los datos del vector de caracteristicas antes de entrenar un modelo respectivo. En el presente caso, estandarizaremos los datos y luego entrenaremos un nuevo modelo de regresi√≥n log√≠stica con esa nueva versi√≥n del conjunto de datos, es decir, con los datos estandarizados.
<br><br>
üëÄ Comenzamos entonces viendo algunas estad√≠sticas sobre el conjunto de datos de entrenamiento...

In [None]:
X_train.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,36631.0,38.62,13.67,17.0,28.0,37.0,48.0,90.0
capital-gain,36631.0,1089.05,7511.18,0.0,0.0,0.0,0.0,99999.0
capital-loss,36631.0,87.11,403.69,0.0,0.0,0.0,0.0,4356.0
hours-per-week,36631.0,40.39,12.34,1.0,40.0,40.0,45.0,99.0


<p align="justify">
üëÄ Vemos que las caracter√≠sticas de este conjunto de datos abarcan diferentes rangos. Algunos algoritmos hacen algunas suposiciones con respecto a las distribuciones de caracter√≠sticas y, por lo general, la estandarizaci√≥n de las caracter√≠sticas ser√° √∫til para abordar estas suposiciones.


 ## **<font color="DeepPink">Escalado de datos</font>**

<p align="justify">
üíñ <b>Algunas razones para escalar caracter√≠sticas:</b>
<br><br>
<ul align="justify">
<li>
Los modelos que se basan en la distancia entre un par de muestras, por ejemplo, los $k$ vecinos m√°s cercanos, deben entrenarse en caracter√≠sticas estandarizadas para que cada caracter√≠stica contribuya aproximadamente por igual a los c√°lculos de distancia. Muchos modelos, como la regresi√≥n log√≠stica, utilizan un solucionador num√©rico, basado en el gradiente descendente, para encontrar sus par√°metros √≥ptimos. Este solucionador converge m√°s r√°pido cuando se escalan las caracter√≠sticas.
</li>
<li>
El hecho de que un modelo de aprendizaje autom√°tico requiera o no escalar las caracter√≠sticas depende de la familia del modelo.
</li>
<li>
Los modelos lineales, como la regresi√≥n log√≠stica, generalmente se benefician al escalar las caracter√≠sticas, mientras que otros modelos, como los √°rboles de decisi√≥n, en principio no necesitan dicho preprocesamiento. Ahora mostramos c√≥mo aplicar dicha estandarizaci√≥n usando un transformador de aprendizaje de <code>scikit-learn</code> llamado <code>StandardScaler</code>. Este transformador cambia y escala cada caracter√≠stica individualmente para que todas tengan una media de $0$ y una desviaci√≥n est√°ndar de $1$, es decir, que correspondan a una distribuci√≥n normal.
</li></ul>
<br>
<p align="justify">
üëÄ Investigaremos diferentes pasos utilizados en <code>scikit-learn</code> para lograr la transformaci√≥n de los datos, pero primero uno necesita llamar al m√©todo <code>fit</code> para luego poder escalar los datos.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

<p align="justify">
üëÄ El m√©todo <code>fit</code> para transformadores es similar al m√©todo <code>fit</code> para predictores. La principal diferencia es que el primero tiene un solo argumento (la matriz de datos), mientras que el segundo tiene dos argumentos (la matriz de datos y la variable objetivo).

<p align="justify">
üëÄ En este caso, el algoritmo necesita calcular la media y la desviaci√≥n est√°ndar de cada caracter√≠stica y almacenarlas en matrices <code>NumPy</code>. Aqu√≠, estas estad√≠sticas son los famosos estados del modelo que mencionabamos en los Colabs anteriores.
<br><br>
üóí <b>Nota</b>
<br><br>
El hecho de que los estados del modelo de este escalador sean matrices de medias y desviaciones est√°ndar es algo espec√≠fico de <code>StandardScaler</code>. Otros transformadores de <code>scikit-learn</code> calcular√°n diferentes estad√≠sticas y las almacenar√°n como estados del modelo, de la misma manera.
<br><br>
üëÄ Podemos inspeccionar las medias calculadas y las desviaciones est√°ndar con atributos del <code>StandardScaler</code>.

In [None]:
X_train.columns

Index(['age', 'capital-gain', 'capital-loss', 'hours-per-week'], dtype='object')

In [None]:
scaler.mean_

array([  38.62168655, 1089.05115885,   87.10619421,   40.38519287])

In [None]:
scaler.scale_

array([  13.66951337, 7511.07873828,  403.68282498,   12.34168499])

<p align="justify">
üóí <b>Nota</b>
<br><br>
Convenci√≥n de <code>scikit-learn</code>: si un atributo aprende de los datos, su nombre termina con un gui√≥n bajo, como en <code>mean_</code> y <code>scale_</code> para <code>StandardScaler</code>. La escala de los datos se aplica a cada caracter√≠stica individualmente (es decir, cada columna en la matriz de datos). Para cada caracter√≠stica, restamos su media y dividimos por su desviaci√≥n est√°ndar.
<br><br>
Una vez que hemos llamado al m√©todo <code>fit</code>, podemos realizar la transformaci√≥n de datos llamando al m√©todo <code>transform</code>.

In [None]:
X_train_scaled = scaler.transform(X_train)
X_train_scaled

array([[ 0.24714219, -0.14499264, -0.2157788 , -0.27428936],
       [-0.26494627,  0.87856206, -0.2157788 , -0.19326315],
       [ 0.90554163, -0.14499264, -0.2157788 , -0.43634179],
       ...,
       [ 0.39345318, -0.14499264, -0.2157788 ,  0.77905141],
       [-0.26494627, -0.14499264, -0.2157788 , -0.03121072],
       [ 0.61291966,  1.85525266, -0.2157788 ,  0.77905141]])

<p align="justify">
üëÄ El m√©todo <code>transform</code> para transformadores es similar al m√©todo <code>predict</code> para predictores. Utiliza una funci√≥n predefinida, denominada funci√≥n de transformaci√≥n, y utiliza los estados del modelo y los datos de entrada. Sin embargo, en lugar de generar predicciones, el trabajo del m√©todo <code>transform</code> es generar una versi√≥n transformada de los datos de entrada.
<br><br>
Finalmente, el m√©todo <code>fit_transform</code> es un m√©todo abreviado para llamar sucesivamente al m√©todo <code>fit</code> y luego al m√©todo <code>transform</code>.

In [None]:
X_train_scaled = scaler.fit_transform(X_train)
X_train_scaled

array([[ 0.24714219, -0.14499264, -0.2157788 , -0.27428936],
       [-0.26494627,  0.87856206, -0.2157788 , -0.19326315],
       [ 0.90554163, -0.14499264, -0.2157788 , -0.43634179],
       ...,
       [ 0.39345318, -0.14499264, -0.2157788 ,  0.77905141],
       [-0.26494627, -0.14499264, -0.2157788 , -0.03121072],
       [ 0.61291966,  1.85525266, -0.2157788 ,  0.77905141]])

<p align="justify">
üëÄ Vamos a dar algunas opciones a nuestro <code>DataFrame</code> para ver numeros sin el formato cient√≠fico y con dos decimales...
</p>


In [None]:
pd.options.display.precision = 2
pd.options.display.float_format = "{:.2f}".format

<p align="justify">
üëÄ Ahora podemos verificar, luedo de la estandarizaci√≥n, para cada una de las variables, las columnas, que el valor de media es cercana a $0$ y la desviaci√≥n est√°ndar es cercana a $1$...
</p>


In [None]:
X_train_scaled = pd.DataFrame(X_train_scaled, columns = X_train.columns)
X_train_scaled.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,36631.0,-0.0,1.0,-1.58,-0.78,-0.12,0.69,3.76
capital-gain,36631.0,-0.0,1.0,-0.14,-0.14,-0.14,-0.14,13.17
capital-loss,36631.0,-0.0,1.0,-0.22,-0.22,-0.22,-0.22,10.57
hours-per-week,36631.0,-0.0,1.0,-3.19,-0.03,-0.03,0.37,4.75


<p align="justify">
üëÄ Tambi√©n podemos visualizar el efecto de <code>StandardScaler</code> usando un gr√°fico de dispersi√≥n de cualquier par de caracter√≠sticas num√©ricas al mismo tiempo. Podemos observar que <code>StandardScaler</code> no cambia la estructura de los datos en s√≠, pero los ejes se desplazan y escalan.

In [None]:
import plotly.express as px

<p align="justify">
üëÄ Datos sin escalar...
</p>


In [None]:
px.scatter(X_train[:300],
           x="age",
           y="hours-per-week",
           template="gridon",
           title="age vs. hours per week before StandarScaler")

<p align="justify">
üëÄ Datos escalados...
</p>


In [None]:
px.scatter(X_train_scaled[:300],
           x="age",
           y="hours-per-week",
           template="gridon",
           title="age vs. hours per week after StandarScaler")

 ## **<font color="DeepPink">Combinaci√≥n de operaciones secuenciales - Pipeline</font>**

<p align="justify">
üëÄ Ahora podemos combinar f√°cilmente todas las operaciones secuenciales con un <code>Pipeline</code> de <code>scikit-learn</code>, que encadena las operaciones y se usa como cualquier otro clasificador o regresor.
<br><br>
La funci√≥n auxiliar <code>make_pipeline()</code> crear√° un <code>Pipeline</code> y tomar√° como argumentos las sucesivas transformaciones a realizar en el conjunto de datos, seguidas del clasificador o modelo regresor que se est√© formulando. Lo vemos a continuaci√≥n:

https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html

In [None]:
import time
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

In [None]:
model = make_pipeline(StandardScaler(), LogisticRegression())
model

<p align="justify">
üëÄ La funci√≥n <code>make_pipeline</code> no requiere que se le d√© un nombre a cada paso secuencial. De hecho, n√≥tese que se asign√≥ autom√°ticamente el nombre "standardscaler" en el <code>Pipeline</code> resultante. Podemos comprobar el nombre de cada paso de nuestro modelo de la siguiente forma, utilizando la propiedad <code>named_steps</code>:

In [None]:
model.named_steps

{'standardscaler': StandardScaler(),
 'logisticregression': LogisticRegression()}

 # **<font color="DeepPink">Ajuste y prediccion</font>**

In [None]:
start = time.time()
model.fit(X_train, y_train)
elapsed_time = time.time() - start

<p align="justify">
üëÄ Al llamar al m√©todo <code>model.fit</code>, se llamar√° al m√©todo <code>fit_transform</code> de cada transformador subyacente (aqu√≠, en este modelo hay un solo transformador) en el <code>Pipeline</code> para:
<br><br>

* Ajustar el modelo.
* Transformar los datos de entrenamiento.

<br>
<p align="justify">
Finalmente, los datos preprocesados se proporcionan para entrenar al predictor.

In [None]:
predicted_target = model.predict(X_test)
predicted_target[:10]

array([' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K',
       ' <=50K', ' <=50K', ' <=50K', ' <=50K'], dtype=object)

<p align="justify">
üëÄ Se llama al m√©todo <code>transform</code> de cada transformador (aqu√≠, en este modelo tenemos un solo transformador) para preprocesar los datos.
<br><br>
Hay que tener en cuenta que no es necesario llamar al m√©todo de ajuste para estos transformadores porque estamos usando los estados del modelo calculados al llamar a <code>model.fit</code>. Luego, los datos preprocesados se proporcionan al predictor que generar√° el objetivo pronosticado utilizando el m√©todo <code>predict</code>.


 # **<font color="DeepPink">Score</font>**

<p align="justify">
üëÄ Ahora podemos comprobar la puntuaci√≥n llamando al m√©todo <code>model.score</code>. Por lo tanto, verificamos el rendimiento computacional y de generalizaci√≥n del <code>Pipeline</code> predictivo:


In [None]:
model_name = model.__class__.__name__
score = model.score(X_test, y_test)
print("")
print(f"The accuracy using a {model_name} is {score:.3f} \n"
      f"with a fitting time of {elapsed_time:.3f} seconds \n"
      f"in {model[-1].n_iter_[0]} iterations...")


The accuracy using a Pipeline is 0.799 
with a fitting time of 0.121 seconds 
in 12 iterations...


 # **<font color="DeepPink">Comparando...</font>**

<p align="justify">
üëÄ Podr√≠amos comparar el modelo predictivo anterior, con el modelo predictivo que no escala el vector de caracter√≠sticas:


In [None]:
model = LogisticRegression()
start = time.time()
model.fit(X_train, y_train)
elapsed_time = time.time() - start

In [None]:
model_name = model.__class__.__name__
score = model.score(X_test, y_test)
print("")
print(f"The accuracy using a {model_name} is {score:.3f} \n"
      f"with a fitting time of {elapsed_time:.3f} seconds \n"
      f"in {model.n_iter_[0]} iterations...")


The accuracy using a LogisticRegression is 0.799 
with a fitting time of 0.262 seconds 
in 56 iterations...


<p align="justify">
üëÄ Vemos que escalar los datos antes de entrenar la regresi√≥n log√≠stica fue beneficioso en t√©rminos de rendimiento computacional. De hecho, el n√∫mero de iteraciones disminuy√≥ al igual que el tiempo de entrenamiento. El rendimiento  no cambi√≥ ya que ambos modelos convergieron en el mismo valor de <code>accuracy</code>.

Trabajar con datos no escalados forzar√° potencialmente al algoritmo a iterar m√°s, como se muestra en el ejemplo anterior. Tambi√©n existe un escenario catastr√≥fico donde el n√∫mero de iteraciones requeridas podr√≠a ser mayor que el n√∫mero m√°ximo de iteraciones permitidas por el par√°metro predictor (controlado por <code>max_iter</code>).
<br><br>
‚ùó Por lo tanto, antes de aumentar <code>max_iter</code>, hay que asegurarse de que los datos est√©n bien escalados.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:<br><br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>‚úÖ Examinamos las variables num√©ricas.<br>‚úÖ
Tambien hicimos un modelo dividiendo el conjunto de datos con <code>train_test_split()</code> <br>‚úÖ Escalamos el vector de caracteristicas. <br>‚úÖ Hicimos un Pipeline. <br>‚úÖ Entrenamos un modelo de regresi√≥n log√≠stica. <br>‚úÖ Predecimos en el modelo.<br>‚úÖ Y por √∫ltimo comparamos con un modelo sin escalar el vector de caracter√≠sticas.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
