<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Evaluación Pipeline de scikit-learn</font>**

<p align="justify">
👀 Un pipeline en scikit-learn es una forma conveniente de encadenar múltiples pasos de preprocesamiento y modelado en un único objeto. Un pipeline permite combinar varias etapas de procesamiento de datos, como la imputación de valores faltantes, la codificación de variables categóricas y el escalado de características, junto con un estimador final, como un modelo de aprendizaje automático, en una única secuencia de pasos.
<br><br>
✅ La evaluación consiste en completar las consignas requeridas, y volcar los resultados en el cuestionario.


❤ https://scikit-learn.org/stable/

<p align="justify">
En este Colab desarrollaremos el Pipeline de <code>scikit-learn</code>. Primero cargamos un conjunto de datos. Para ello, vamos a ejecutar las celdas siguientes...
</p>



In [None]:
import numpy as np
import pandas as pd

In [None]:
url="https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/Prestamos.csv"

In [None]:
data = pd.read_csv(url)

In [None]:
data.head()

Unnamed: 0,ID,Edad,Experiencia,Ingresos,Codigo Postal,Familiares,Promedio Gastos,Educacion,Hipotecas,Prestamos,Activos Financieros,Online,Tarjeta
0,1,25,1,490000,91107,4,1.6,No graduado,0,No,Si,No,No
1,2,45,19,340000,90089,3,1.5,No graduado,0,No,Si,No,No
2,3,39,15,110000,94720,1,1.0,No graduado,0,No,No,No,No
3,4,35,9,1000000,94112,1,2.7,Graduado,0,No,No,No,No
4,5,35,8,450000,91330,4,1.0,Graduado,0,No,No,No,Si


<p align="justify">
👀 Acerca del conjunto de datos:


- ID : Identificación del cliente
- Edad : Edad del cliente
- Experiencia : Años de experiencia del cliente
- Ingresos : Ingresos mensuales del cliente
- Codigo Postal : Codigo Postal de la dirección del cliente
- Familiares : Número de miembros familiares del cliente
- Promedio Gastos : Promedio de Gasto en Tarjetas de crédito por mes
- Educacion : Nivel de Educación
- Hipotecas : Valor de hipoteca, si existiera
- Préstamos : Aceptó el cliente el prestamo ofrecido en la última campaña?
- Activos financieros : El cliente tiene una cuenta con activos financieros con el banco?
- Online : El cliente usa medios banca por internet?
- Tarjeta : El cliente usa tarjeta de crédito manejada por algún otro banco?

<br>
<p align="justify">
👀 Nuestra variable objetivo será <mark>Prestamos</mark>. Ejecutamos esta celda...

In [None]:
target_name = "Prestamos"
target = data[target_name]
data = data.drop(columns=[target_name])

 # **<font color="DeepPink">1. Selección de variables categóricas y numéricas</font>**

<p align="justify">
👀 Vamos a separar variables categóricas y numéricas usando sus tipos de datos para identificarlas. Para ello, usar <code>make_column_selector</code> para seleccionar las columnas categóricas (tipo object) y las columnas numéricas (las que no son tipo object).
</p>


In [None]:
from sklearn.compose import # completar

In [None]:
numerical_columns_selector = # completar
categorical_columns_selector = # completar

In [None]:
# desarrollar
# desarrollar

 # **<font color="DeepPink">2. Preprocesamiento y transformación de datos</font>**

* Se aplicará `one-hot-encoding` a las columnas categóricas. Además, usaremos `handle_unknown="ignore"` .
* Se aplicará el escalado numérico estándar para características numéricas.

In [None]:
from sklearn.preprocessing import # completar

In [None]:
categorical_preprocessor = # completar
numerical_preprocessor = # completar

<p align="justify">
👀 Crear el transformador y asociar cada preprocesador (numérico y categórico) con sus respectivas columnas.
</p>

In [None]:
from sklearn.compose import # completar

In [None]:
preprocessor = # completar

<p align="justify">
👀 Visualizar el pipeline del preprocesamiento de datos.
</p>

In [None]:
preprocessor

 # **<font color="DeepPink">3. Definición del modelo y Pipeline</font>**

<p align="justify">
👀 Crear una regresión logística con máxima iteración de 500 (<code>max_iter=500</code>). Luego crear el pipeline con el preprocesamiento y el modelo seleccionado.

In [None]:
from sklearn.linear_model import # completar
from sklearn.pipeline import # completar

In [None]:
model = # completar

 # **<font color="DeepPink">4. Train-test, división del conjunto de datos</font>**

<p align="justify">
👀 Dividir el conjunto de datos en entrenamiento y testeo. El valor semilla es 100. No se indica en parámetros el porcentaje de división del conjunto de datos.

In [None]:
from sklearn.model_selection import # completar

 # **<font color="DeepPink">5. Prediccion y evaluación (score)</font>**

<p align="justify">
👀 Utilizar el método <code>predict</code> y predecir sobre las $50$ primeras muestras del conjunto de datos de prueba...
</p>

In [None]:
data_test.head()

In [None]:
model.predict # completar

In [None]:
target_test # completar

In [None]:
model.score # completar

 # **<font color="DeepPink">6. Cross-validation</font>**

<p align="justify">
👀 Utilizar <code>cv=5</code> para la validación cruzada...

In [None]:
from sklearn.model_selection import # completar

In [None]:
cv_results = # completar