<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.03/bds_pipeline_007_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Visualización del Pipeline de scikit-learn</font>**

<p align="justify">
👀 Un pipeline en scikit-learn es una forma conveniente de encadenar múltiples pasos de preprocesamiento y modelado en un único objeto. Un pipeline permite combinar varias etapas de procesamiento de datos, como la imputación de valores faltantes, la codificación de variables categóricas y el escalado de características, junto con un estimador final, como un modelo de aprendizaje automático, en una única secuencia de pasos.
<br><br>
Los pipelines son útiles por varias razones:
<br>

1. **Facilitan el flujo de trabajo:** Con un pipeline, todas las transformaciones de datos y el ajuste del modelo se pueden realizar en un solo paso, lo que simplifica el código y hace que el flujo de trabajo sea más fácil de entender y de mantener.

2. **Evitan fugas de datos:** Al encapsular todas las transformaciones de datos y el modelo en un pipeline, se evita el riesgo de que se apliquen diferentes transformaciones a los datos de entrenamiento y de prueba, lo que puede provocar fugas de datos y resultados incorrectos.

3. **Permiten la optimización de hiperparámetros de forma conjunta:** Los pipelines también facilitan la optimización de hiperparámetros de forma conjunta para todas las etapas del proceso, lo que puede llevar a mejores resultados de modelado.

<br>
<p align="justify">
✅ Un pipeline en scikit-learn se define utilizando la clase <code>Pipeline</code> del módulo <code>pipeline</code>. Se especifica una lista de tuplas, donde cada tupla contiene el nombre de la etapa y el objeto correspondiente que implementa esa etapa (por ejemplo, un transformador de datos o un estimador).

❤ https://scikit-learn.org/stable/

<p align="justify">
En este Colab desarrollaremos el Pipeline de <code>scikit-learn</code>. Primero cargamos un conjunto de datos.
</p>



In [None]:
import numpy as np
import pandas as pd

In [None]:
url="https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/house_prices.csv"

In [None]:
data = pd.read_csv(url, na_values="?")

In [None]:
data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [None]:
target_name = "SalePrice"
X = data.drop(columns=target_name)
y = data[target_name]

In [None]:
X

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,2,2008,WD,Normal
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,5,2007,WD,Normal
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,9,2008,WD,Normal
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,2,2006,WD,Abnorml
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,12,2008,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,8,2007,WD,Normal
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,,0,2,2010,WD,Normal
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,0,,GdPrv,Shed,2500,5,2010,WD,Normal
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,4,2010,WD,Normal


In [None]:
y

0       208500
1       181500
2       223500
3       140000
4       250000
         ...  
1455    175000
1456    210000
1457    266500
1458    142125
1459    147500
Name: SalePrice, Length: 1460, dtype: int64

In [None]:
y = (y > 200000).astype(int)
y

0       1
1       0
2       1
3       0
4       1
       ..
1455    0
1456    1
1457    1
1458    0
1459    0
Name: SalePrice, Length: 1460, dtype: int64

In [None]:
data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


 # **<font color="DeepPink">Selección de variables predictoras</font>**

<p align="justify">
👀 Seleccionamos algunas variables predictoras y generamos $3$ subsets.
</p>


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [None]:
numeric_data = ["LotArea", "FullBath", "HalfBath"]
categorical_data = ["Neighborhood", "HouseStyle"]

In [None]:
X = X[numeric_data + categorical_data]
X

Unnamed: 0,LotArea,FullBath,HalfBath,Neighborhood,HouseStyle
0,8450,2,1,CollgCr,2Story
1,9600,2,0,Veenker,1Story
2,11250,2,1,CollgCr,2Story
3,9550,1,0,Crawfor,2Story
4,14260,2,1,NoRidge,2Story
...,...,...,...,...,...
1455,7917,2,1,Gilbert,2Story
1456,13175,2,0,NWAmes,1Story
1457,9042,2,0,Crawfor,2Story
1458,9717,1,0,NAmes,1Story


 # **<font color="DeepPink">Creamos el Pipeline</font>**

 ## **<font color="DeepPink">Preprocesamiento de los datos</font>**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

In [None]:
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy = 'median')),
    ('scaler', StandardScaler())])


In [None]:
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

In [None]:
X.Neighborhood.value_counts()

NAmes      225
CollgCr    150
OldTown    113
Edwards    100
Somerst     86
Gilbert     79
NridgHt     77
Sawyer      74
NWAmes      73
SawyerW     59
BrkSide     58
Crawfor     51
Mitchel     49
NoRidge     41
Timber      38
IDOTRR      37
ClearCr     28
StoneBr     25
SWISU       25
MeadowV     17
Blmngtn     17
BrDale      16
Veenker     11
NPkVill      9
Blueste      2
Name: Neighborhood, dtype: int64

 ## **<font color="DeepPink">Transformaciones de los datos</font>**

<p align="justify">
👀 El siguiente paso es aplicar las transformaciones usando <code>ColumnTransformer</code>

</p>


In [None]:
from sklearn.compose import ColumnTransformer

In [None]:
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_data),
    ('cat', categorical_transformer, categorical_data)])

In [None]:
preprocessor

 ## **<font color="DeepPink">Modelo de los datos</font>**

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())])

 # **<font color="DeepPink">Visualizamos el Pipeline</font>**

In [None]:
model

 # **<font color="DeepPink">Evaluación del modelo</font>**

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, X, y, cv = 5)
cv_results

{'fit_time': array([0.19560266, 0.04428911, 0.04167461, 0.04478931, 0.044173  ]),
 'score_time': array([0.01005888, 0.00947547, 0.0113821 , 0.00970554, 0.01027536]),
 'test_score': array([0.8630137 , 0.87328767, 0.88013699, 0.84589041, 0.83219178])}

In [None]:
scores = cv_results['test_score']

In [None]:
print("")
print("La media de Accuracy en la Validación cruzada es: "
f"{scores.mean():.3f} +/- {scores.std():.3f}")


La media de Accuracy en la Validación cruzada es: 0.859 +/- 0.018


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br>
<br>✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.
<br>✅ Se creó y visualizo el Pipeline.
<br>✅ Se evalúa el modelo.
</p>




<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
