<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.03/bds_pipeline_003_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Preprocesamiento para variables numéricas</font>**

<p align="justify">
👀 El preprocesamiento de variables numéricas en scikit-learn se refiere al proceso de transformar y preparar variables numéricas antes de utilizarlas para entrenar modelos de aprendizaje automático. Este preprocesamiento es esencial para garantizar que los datos sean adecuados y estén en el formato correcto para que los algoritmos de aprendizaje automático puedan funcionar de manera efectiva.
<br><br>
Algunas de las técnicas comunes de preprocesamiento de variables numéricas en scikit-learn incluyen:
<br><br>

1. **Escalamiento de características:** El escalamiento de características es el proceso de estandarizar o normalizar las características numéricas para que tengan una escala uniforme. Esto es importante porque muchos algoritmos de aprendizaje automático asumen que todas las características están en la misma escala. scikit-learn proporciona clases como `StandardScaler` y `MinMaxScaler` para realizar este tipo de escalamiento.

2. **Imputación de valores perdidos:** La imputación de valores perdidos implica rellenar los valores faltantes en los datos numéricos con algún valor apropiado, como la media, la mediana o algún valor específico. scikit-learn proporciona la clase `SimpleImputer` para realizar este tipo de imputación.

3. **Transformaciones de características:** A veces, es útil aplicar transformaciones matemáticas a las características numéricas para hacerlas más adecuadas para los algoritmos de aprendizaje automático. Por ejemplo, se pueden aplicar transformaciones logarítmicas o polinomiales para cambiar la distribución de las características. scikit-learn proporciona la clase `FunctionTransformer` para aplicar transformaciones personalizadas a las características.

4. **Detección y manejo de valores atípicos:** Los valores atípicos pueden afectar negativamente el rendimiento de los modelos de aprendizaje automático. scikit-learn proporciona varias técnicas para detectar y manejar valores atípicos en los datos numéricos, como el uso de estadísticas descriptivas o algoritmos de detección de anomalías.


❤ https://scikit-learn.org/stable/

<p align="justify">
👀 En este Colab, seguiremos con características numéricas, pero se agregan  nuevas tareas, como por ejemplo:</p>

- El preprocesamiento escalando variables numéricas, convertirlas en una escala.
- El uso de un Pipeline de <code>scikit-learn</code> para encadenar el preprocesamiento y el entrenamiento de un modelo.

<br>
<p align="justify">
👀 Y seguimos con el mismo conjunto de datos...</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

<p align="justify">
👀 Armando nuestro <code>DataFrame</code>...</p>

In [None]:
adult_census.drop(columns=["education-num"], inplace=True)
adult_census.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


In [None]:
adult_census.shape

(48842, 13)

<p align="justify">
👀 Separamos la variable objetivo, de las variables explicativas.
</p>


In [None]:
y = adult_census["class"]
X = adult_census.drop(columns=["class"])

<p align="justify">
👀 Y obtenemos un resumen de nuestra variable $y$, nuestra variable objetivo...</p>

In [None]:
y.info()

<class 'pandas.core.series.Series'>
RangeIndex: 48842 entries, 0 to 48841
Series name: class
Non-Null Count  Dtype 
--------------  ----- 
48842 non-null  object
dtypes: object(1)
memory usage: 381.7+ KB


 # **<font color="DeepPink">Seleccionando las columnas numéricas</font>**

<p align="justify">
👀 Ahora vamos a seleccionar las columnas numéricas, para ello, vemos un resumen de información del vector de caracteristicas, denominado $X$...</p>

In [None]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   marital-status  48842 non-null  object
 4   occupation      48842 non-null  object
 5   relationship    48842 non-null  object
 6   race            48842 non-null  object
 7   sex             48842 non-null  object
 8   capital-gain    48842 non-null  int64 
 9   capital-loss    48842 non-null  int64 
 10  hours-per-week  48842 non-null  int64 
 11  native-country  48842 non-null  object
dtypes: int64(4), object(8)
memory usage: 4.5+ MB


<p align="justify">
👀 Y creamos una lista con los nombres de las columnas numéricas...</p>

In [None]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]
X_numeric = X[numerical_columns]

<p align="justify">
👀 Podemos ver nuestro <code>DataFrame</code> numerico...</p>

In [None]:
X_numeric

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30
...,...,...,...,...
48837,27,0,0,38
48838,40,0,0,40
48839,58,0,0,40
48840,22,0,0,20


 # **<font color="DeepPink">Train-test, división del conjunto de datos</font>**

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

<p align="justify">
👀 Procedemos a dividir el conjunto de datos con <code>train_test_split</code>... vemos que al no especificar los tamaños del conjunto de datos de prueba o del conjunto de datos de entrenamiento, por defecto toma los valores $25$% y $75$% respectivamente</p>

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_numeric,
                                                    y,
                                                    random_state=123)

In [None]:
X_train.shape

(36631, 4)

In [None]:
X_test.shape

(12211, 4)

<p align="justify">
👀 Tamaño del conjunto de datos de entrenamiento, respecto del total de datos...</p>

In [None]:
round(((X_train.shape[0])/(X_train.shape[0]+X_test.shape[0])),4)

0.75

<p align="justify">
👀 Tamaño del conjunto de datos de prueba, respecto del total de datos...</p>

In [None]:
round(((X_test.shape[0])/(X_train.shape[0]+X_test.shape[0])),4)

0.25

 # **<font color="DeepPink">Ajuste del modelo con preprocesamiento</font>**

<p align="justify">
👀 Una gama de algoritmos de preprocesamiento en <code>scikit-learn</code> permite transformar los datos del vector de caracteristicas antes de entrenar un modelo respectivo. En el presente caso, estandarizaremos los datos y luego entrenaremos un nuevo modelo de regresión logística con esa nueva versión del conjunto de datos, es decir, con los datos estandarizados.
<br><br>
👀 Comenzamos entonces viendo algunas estadísticas sobre el conjunto de datos de entrenamiento...

In [None]:
X_train.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,36631.0,38.62,13.67,17.0,28.0,37.0,48.0,90.0
capital-gain,36631.0,1089.05,7511.18,0.0,0.0,0.0,0.0,99999.0
capital-loss,36631.0,87.11,403.69,0.0,0.0,0.0,0.0,4356.0
hours-per-week,36631.0,40.39,12.34,1.0,40.0,40.0,45.0,99.0


<p align="justify">
👀 Vemos que las características de este conjunto de datos abarcan diferentes rangos. Algunos algoritmos hacen algunas suposiciones con respecto a las distribuciones de características y, por lo general, la estandarización de las características será útil para abordar estas suposiciones.


 ## **<font color="DeepPink">Escalado de datos</font>**

<p align="justify">
💖 <b>Algunas razones para escalar características:</b>
<br><br>
◼ Los modelos que se basan en la distancia entre un par de muestras, por ejemplo, los $k$ vecinos más cercanos, deben entrenarse en características estandarizadas para que cada característica contribuya aproximadamente por igual a los cálculos de distancia. Muchos modelos, como la regresión logística, utilizan un solucionador numérico, basado en el gradiente descendente, para encontrar sus parámetros óptimos. Este solucionador converge más rápido cuando se escalan las características.
<br><br>
◼ El hecho de que un modelo de aprendizaje automático requiera o no escalar las características depende de la familia del modelo.
<br><br>
◼ Los modelos lineales, como la regresión logística, generalmente se benefician al escalar las características, mientras que otros modelos, como los árboles de decisión, en principio no necesitan dicho preprocesamiento. Ahora mostramos cómo aplicar dicha estandarización usando un transformador de aprendizaje de <code>scikit-learn</code> llamado <code>StandardScaler</code>. Este transformador cambia y escala cada característica individualmente para que todas tengan una media de $0$ y una desviación estándar de $1$, es decir, que correspondan a una distribución normal.
<br><br>
👀 Investigaremos diferentes pasos utilizados en <code>scikit-learn</code> para lograr la transformación de los datos, pero primero uno necesita llamar al método <code>fit</code> para luego poder escalar los datos.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

<p align="justify">
👀 El método <code>fit</code> para transformadores es similar al método <code>fit</code> para predictores. La principal diferencia es que el primero tiene un solo argumento (la matriz de datos), mientras que el segundo tiene dos argumentos (la matriz de datos y la variable objetivo).

<p align="justify">
👀 En este caso, el algoritmo necesita calcular la media y la desviación estándar de cada característica y almacenarlas en matrices <code>NumPy</code>. Aquí, estas estadísticas son los famosos estados del modelo que mencionabamos en los Colabs anteriores.
<br><br>
🗒 <b>Nota</b>
<br><br>
El hecho de que los estados del modelo de este escalador sean matrices de medias y desviaciones estándar es algo específico de <code>StandardScaler</code>. Otros transformadores de <code>scikit-learn</code> calcularán diferentes estadísticas y las almacenarán como estados del modelo, de la misma manera.
<br><br>
👀 Podemos inspeccionar las medias calculadas y las desviaciones estándar con atributos del <code>StandardScaler</code>.

In [None]:
X_train.columns

Index(['age', 'capital-gain', 'capital-loss', 'hours-per-week'], dtype='object')

In [None]:
scaler.mean_

array([  38.62168655, 1089.05115885,   87.10619421,   40.38519287])

In [None]:
scaler.scale_

array([  13.66951337, 7511.07873828,  403.68282498,   12.34168499])

<p align="justify">
🗒 <b>Nota</b>
<br><br>
Convención de <code>scikit-learn</code>: si un atributo aprende de los datos, su nombre termina con un guión bajo, como en <code>mean_</code> y <code>scale_</code> para <code>StandardScaler</code>. La escala de los datos se aplica a cada característica individualmente (es decir, cada columna en la matriz de datos). Para cada característica, restamos su media y dividimos por su desviación estándar.
<br><br>
Una vez que hemos llamado al método <code>fit</code>, podemos realizar la transformación de datos llamando al método <code>transform</code>.

In [None]:
X_train_scaled = scaler.transform(X_train)
X_train_scaled

array([[ 0.24714219, -0.14499264, -0.2157788 , -0.27428936],
       [-0.26494627,  0.87856206, -0.2157788 , -0.19326315],
       [ 0.90554163, -0.14499264, -0.2157788 , -0.43634179],
       ...,
       [ 0.39345318, -0.14499264, -0.2157788 ,  0.77905141],
       [-0.26494627, -0.14499264, -0.2157788 , -0.03121072],
       [ 0.61291966,  1.85525266, -0.2157788 ,  0.77905141]])

<p align="justify">
👀 El método <code>transform</code> para transformadores es similar al método <code>predict</code> para predictores. Utiliza una función predefinida, denominada función de transformación, y utiliza los estados del modelo y los datos de entrada. Sin embargo, en lugar de generar predicciones, el trabajo del método <code>transform</code> es generar una versión transformada de los datos de entrada.
<br><br>
Finalmente, el método <code>fit_transform</code> es un método abreviado para llamar sucesivamente al método <code>fit</code> y luego al método <code>transform</code>.

In [None]:
X_train_scaled = scaler.fit_transform(X_train)
X_train_scaled

array([[ 0.24714219, -0.14499264, -0.2157788 , -0.27428936],
       [-0.26494627,  0.87856206, -0.2157788 , -0.19326315],
       [ 0.90554163, -0.14499264, -0.2157788 , -0.43634179],
       ...,
       [ 0.39345318, -0.14499264, -0.2157788 ,  0.77905141],
       [-0.26494627, -0.14499264, -0.2157788 , -0.03121072],
       [ 0.61291966,  1.85525266, -0.2157788 ,  0.77905141]])

<p align="justify">
👀 Vamos a dar algunas opciones a nuestro <code>DataFrame</code> para ver numeros sin el formato científico y con dos decimales...
</p>


In [None]:
pd.options.display.precision = 2
pd.options.display.float_format = "{:.2f}".format

<p align="justify">
👀 Ahora podemos verificar, luedo de la estandarización, para cada una de las variables, las columnas, que el valor de media es cercana a $0$ y la desviación estándar es cercana a $1$...
</p>


In [None]:
X_train_scaled = pd.DataFrame(X_train_scaled, columns = X_train.columns)
X_train_scaled.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,36631.0,-0.0,1.0,-1.58,-0.78,-0.12,0.69,3.76
capital-gain,36631.0,-0.0,1.0,-0.14,-0.14,-0.14,-0.14,13.17
capital-loss,36631.0,-0.0,1.0,-0.22,-0.22,-0.22,-0.22,10.57
hours-per-week,36631.0,-0.0,1.0,-3.19,-0.03,-0.03,0.37,4.75


<p align="justify">
👀 También podemos visualizar el efecto de <code>StandardScaler</code> usando un gráfico de dispersión de cualquier par de características numéricas al mismo tiempo. Podemos observar que <code>StandardScaler</code> no cambia la estructura de los datos en sí, pero los ejes se desplazan y escalan.

In [None]:
import plotly.express as px

<p align="justify">
👀 Datos sin escalar...
</p>


In [None]:
px.scatter(X_train[:300],
           x="age",
           y="hours-per-week",
           template="gridon",
           title="age vs. hours per week before StandarScaler")

<p align="justify">
👀 Datos escalados...
</p>


In [None]:
px.scatter(X_train_scaled[:300],
           x="age",
           y="hours-per-week",
           template="gridon",
           title="age vs. hours per week after StandarScaler")

 ## **<font color="DeepPink">Combinación de operaciones secuenciales - Pipeline</font>**

<p align="justify">
👀 Ahora podemos combinar fácilmente todas las operaciones secuenciales con un <code>Pipeline</code> de <code>scikit-learn</code>, que encadena las operaciones y se usa como cualquier otro clasificador o regresor.
<br><br>
La función auxiliar <code>make_pipeline()</code> creará un <code>Pipeline</code> y tomará como argumentos las sucesivas transformaciones a realizar en el conjunto de datos, seguidas del clasificador o modelo regresor que se esté formulando. Lo vemos a continuación:

https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html

In [None]:
import time
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

In [None]:
model = make_pipeline(StandardScaler(), LogisticRegression())
model

<p align="justify">
👀 La función <code>make_pipeline</code> no requiere que se le dé un nombre a cada paso secuencial. De hecho, nótese que se asignó automáticamente el nombre "standardscaler" en el <code>Pipeline</code> resultante. Podemos comprobar el nombre de cada paso de nuestro modelo de la siguiente forma, utilizando la propiedad <code>named_steps</code>:

In [None]:
model.named_steps

{'standardscaler': StandardScaler(),
 'logisticregression': LogisticRegression()}

 # **<font color="DeepPink">Ajuste y prediccion</font>**

In [None]:
start = time.time()
model.fit(X_train, y_train)
elapsed_time = time.time() - start

<p align="justify">
👀 Al llamar al método <code>model.fit</code>, se llamará al método <code>fit_transform</code> de cada transformador subyacente (aquí, en este modelo hay un solo transformador) en el <code>Pipeline</code> para:


* Ajustar el modelo.
* Transformar los datos de entrenamiento.

Finalmente, los datos preprocesados se proporcionan para entrenar al predictor.

In [None]:
predicted_target = model.predict(X_test)
predicted_target[:10]

array([' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K',
       ' <=50K', ' <=50K', ' <=50K', ' <=50K'], dtype=object)

<p align="justify">
👀 Se llama al método <code>transform</code> de cada transformador (aquí, en este modelo tenemos un solo transformador) para preprocesar los datos.
<br><br>
Hay que tener en cuenta que no es necesario llamar al método de ajuste para estos transformadores porque estamos usando los estados del modelo calculados al llamar a <code>model.fit</code>. Luego, los datos preprocesados se proporcionan al predictor que generará el objetivo pronosticado utilizando el método <code>predict</code>.


 # **<font color="DeepPink">Score</font>**

<p align="justify">
👀 Ahora podemos comprobar la puntuación llamando al método <code>model.score</code>. Por lo tanto, verificamos el rendimiento computacional y de generalización del <code>Pipeline</code> predictivo:


In [None]:
model_name = model.__class__.__name__
score = model.score(X_test, y_test)
print("")
print(f"The accuracy using a {model_name} is {score:.3f} \n"
      f"with a fitting time of {elapsed_time:.3f} seconds \n"
      f"in {model[-1].n_iter_[0]} iterations...")


The accuracy using a Pipeline is 0.799 
with a fitting time of 0.113 seconds 
in 12 iterations...


 # **<font color="DeepPink">Comparando...</font>**

<p align="justify">
👀 Podríamos comparar el modelo predictivo anterior, con el modelo predictivo que no escala el vector de características:


In [None]:
model = LogisticRegression()
start = time.time()
model.fit(X_train, y_train)
elapsed_time = time.time() - start

In [None]:
model_name = model.__class__.__name__
score = model.score(X_test, y_test)
print("")
print(f"The accuracy using a {model_name} is {score:.3f} \n"
      f"with a fitting time of {elapsed_time:.3f} seconds \n"
      f"in {model.n_iter_[0]} iterations...")


The accuracy using a LogisticRegression is 0.799 
with a fitting time of 0.238 seconds 
in 56 iterations...


<p align="justify">
👀 Vemos que escalar los datos antes de entrenar la regresión logística fue beneficioso en términos de rendimiento computacional. De hecho, el número de iteraciones disminuyó al igual que el tiempo de entrenamiento. El rendimiento  no cambió ya que ambos modelos convergieron en el mismo valor de <code>accuracy</code>.

Trabajar con datos no escalados forzará potencialmente al algoritmo a iterar más, como se muestra en el ejemplo anterior. También existe un escenario catastrófico donde el número de iteraciones requeridas podría ser mayor que el número máximo de iteraciones permitidas por el parámetro predictor (controlado por <code>max_iter</code>).
<br><br>
❗ Por lo tanto, antes de aumentar <code>max_iter</code>, hay que asegurarse de que los datos estén bien escalados.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br><br>
✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>✅ Examinamos las variables numéricas.<br>✅
Tambien hicimos un modelo dividiendo el conjunto de datos con <code>train_test_split()</code> <br>✅ Escalamos el vector de caracteristicas. <br>✅ Hicimos un Pipeline. <br>✅ Entrenamos un modelo de regresión logística. <br>✅ Predecimos en el modelo.<br>✅ Y por último comparamos con un modelo sin escalar el vector de características.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
