<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.03/bds_pipeline_007_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Visualización del Pipeline</font>**

❤ https://scikit-learn.org/stable/

<p align="justify">
En este Colab desarrollaremos el Pipeline de <code>scikit-learn</code>. Primero cargamos un conjunto de datos, y trabajaremos con todas las variables del conjunto de datos. Ademas, vamos a ver como queda el <code>DataFrame</code> despues de las transformaciones...
</p>



In [None]:
import numpy as np
import pandas as pd

In [None]:
url="https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/house_prices.csv"

In [None]:
data = pd.read_csv(url, na_values="?")

In [None]:
data.head(15)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
5,6,50,RL,85.0,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000
6,7,20,RL,75.0,10084,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,307000
7,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000
8,9,50,RM,51.0,6120,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2008,WD,Abnorml,129900
9,10,190,RL,50.0,7420,Pave,,Reg,Lvl,AllPub,...,0,,,,0,1,2008,WD,Normal,118000


In [None]:
target_name = "SalePrice"
X = data.drop(columns=target_name)
y = data[target_name]

In [None]:
X.shape

(1460, 80)

In [None]:
y.shape

(1460,)

In [None]:
y = (y > 200000).astype(int)

 # **<font color="DeepPink">Selección de variables predictoras</font>**

<p align="justify">
👀 Trabajaremos con todas variables predictoras. Hacemos uso del <code>make_column_selector</code> para seleccionar las columnas correspondientes
</p>


In [None]:
from sklearn.compose import make_column_selector as selector

<p align="justify">
👀 En el selector de las columnas numericas excluimos los tipos de datos <code>object</code> porque podemos tener numeros enteros o numeros decimales.
</p>


In [None]:
numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

In [None]:
numeric_data = numerical_columns_selector(X)
categorical_data = categorical_columns_selector(X)

In [None]:
numeric_data

['Id',
 'MSSubClass',
 'LotFrontage',
 'LotArea',
 'OverallQual',
 'OverallCond',
 'YearBuilt',
 'YearRemodAdd',
 'MasVnrArea',
 'BsmtFinSF1',
 'BsmtFinSF2',
 'BsmtUnfSF',
 'TotalBsmtSF',
 '1stFlrSF',
 '2ndFlrSF',
 'LowQualFinSF',
 'GrLivArea',
 'BsmtFullBath',
 'BsmtHalfBath',
 'FullBath',
 'HalfBath',
 'BedroomAbvGr',
 'KitchenAbvGr',
 'TotRmsAbvGrd',
 'Fireplaces',
 'GarageYrBlt',
 'GarageCars',
 'GarageArea',
 'WoodDeckSF',
 'OpenPorchSF',
 'EnclosedPorch',
 '3SsnPorch',
 'ScreenPorch',
 'PoolArea',
 'MiscVal',
 'MoSold',
 'YrSold']

In [None]:
categorical_data

['MSZoning',
 'Street',
 'Alley',
 'LotShape',
 'LandContour',
 'Utilities',
 'LotConfig',
 'LandSlope',
 'Neighborhood',
 'Condition1',
 'Condition2',
 'BldgType',
 'HouseStyle',
 'RoofStyle',
 'RoofMatl',
 'Exterior1st',
 'Exterior2nd',
 'MasVnrType',
 'ExterQual',
 'ExterCond',
 'Foundation',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinType2',
 'Heating',
 'HeatingQC',
 'CentralAir',
 'Electrical',
 'KitchenQual',
 'Functional',
 'FireplaceQu',
 'GarageType',
 'GarageFinish',
 'GarageQual',
 'GarageCond',
 'PavedDrive',
 'PoolQC',
 'Fence',
 'MiscFeature',
 'SaleType',
 'SaleCondition']

 # **<font color="DeepPink">Creamos el Pipeline</font>**

 ## **<font color="DeepPink">Preprocesamiento de los datos</font>**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

In [None]:
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy = 'median')),
    ('scaler', StandardScaler())])

In [None]:
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

 ## **<font color="DeepPink">Transformaciones de los datos</font>**

<p align="justify">
👀 El siguiente paso es aplicar las transformaciones usando <code>ColumnTransformer</code>

</p>


<p align="justify">
👀 <code>scikit-learn</code> proporciona la clase denominada <code>ColumnTransformer</code> que enviará información específica de las columnas a un transformador específico para esas columnas, lo que facilita el ajuste del modelo predictivo en un conjunto de datos que combina ambos tipos de variables, las numéricas y las categóricas, concluyendo en datos tabulares tipificados heterogéneamente.
<br><br>Entonces, primero definimos las columnas dependiendo de su tipo de datos:
</p>


* Se aplicará `one-hot-encoding` a las columnas categóricas. Además, usaremos `handle_unknown="ignore"` para resolver problemas potenciales debido a categorías.
* Se aplicará el escalado numérico para características numéricas que serán estandarizadas.

In [None]:
from sklearn.compose import ColumnTransformer

<p align="justify">
👀 Ahora, creamos nuestro <code>ColumnTransformer</code> especificando tres valores:</p>

1. el nombre del preprocesador,
1. el transformador y
1. las columnas.



In [None]:
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_data),
    ('cat', categorical_transformer, categorical_data)])

In [None]:
preprocessor

`ColumnTransformer` hace lo siguiente:

* Divide las columnas del conjunto de datos original según los nombres de las columnas o los índices proporcionados. Obtendremos tantos subconjuntos como transformadores pasen al ColumnTransformer.
* Transforma cada subconjunto. Se aplica un transformador específico a cada subconjunto: llamará internamente a` fit_transform` o `transform`. El resultado de este paso es un conjunto de conjuntos de datos transformados.
* Luego concatena los conjuntos de datos transformados en un único conjunto de datos.

<p align="justify">
Lo importante es que <code>ColumnTransformer</code> es como cualquier otro transformador de <code>scikit-learn</code>.

 ## **<font color="DeepPink">Modelo de los datos</font>**

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier())])

 # **<font color="DeepPink">Visualizamos el Pipeline</font>**

In [None]:
model

 # **<font color="DeepPink">Train-test, división del conjunto de datos</font>**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
data_train, data_test, target_train, target_test = train_test_split(X, y, random_state=42)

<p align="justify">
👀 Tenga en cuenta que usamos <code>train_test_split</code> con fines didácticos, para mostrar <code>scikit-learn</code>. En un entorno real, es preferible usar la validación cruzada para poder evaluar también la incertidumbre de nuestra estimación del rendimiento de un modelo.
</p>

In [None]:
data_train

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
1023,1024,120,RL,43.0,3182,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,5,2008,WD,Normal
810,811,20,RL,78.0,10140,Pave,,Reg,Lvl,AllPub,...,0,648,Fa,GdPrv,,0,1,2006,WD,Normal
1384,1385,50,RL,60.0,9060,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,,0,10,2009,WD,Normal
626,627,20,RL,,12342,Pave,,IR1,Lvl,AllPub,...,0,0,,GdWo,Shed,600,8,2007,WD,Normal
813,814,20,RL,75.0,9750,Pave,,Reg,Lvl,AllPub,...,0,0,,,Shed,500,4,2007,COD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1095,1096,20,RL,78.0,9317,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,3,2007,WD,Normal
1130,1131,50,RL,65.0,7804,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,,0,12,2009,WD,Normal
1294,1295,20,RL,60.0,8172,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,4,2006,WD,Normal
860,861,50,RL,55.0,7642,Pave,,Reg,Lvl,AllPub,...,0,0,,GdPrv,,0,6,2007,WD,Normal


In [None]:
data_test

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
892,893,20,RL,70.0,8414,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,,0,2,2006,WD,Normal
1105,1106,60,RL,98.0,12256,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,4,2010,WD,Normal
413,414,30,RM,56.0,8960,Pave,Grvl,Reg,Lvl,AllPub,...,0,0,,,,0,3,2010,WD,Normal
522,523,50,RM,50.0,5000,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,10,2006,WD,Normal
1036,1037,20,RL,89.0,12898,Pave,,IR1,HLS,AllPub,...,0,0,,,,0,9,2009,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
988,989,60,RL,,12046,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2007,WD,Normal
243,244,160,RL,75.0,10762,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,4,2009,WD,Normal
1342,1343,60,RL,,9375,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,8,2007,WD,Normal
1057,1058,60,RL,,29959,Pave,,IR2,Lvl,AllPub,...,0,0,,,,0,1,2009,WD,Normal


In [None]:
target_train

1023    0
810     0
1384    0
626     0
813     0
       ..
1095    0
1130    0
1294    0
860     0
1126    0
Name: SalePrice, Length: 1095, dtype: int64

In [None]:
target_test

892     0
1105    1
413     0
522     0
1036    1
       ..
988     0
243     0
1342    1
1057    1
1418    0
Name: SalePrice, Length: 365, dtype: int64

 # **<font color="DeepPink">Ajuste y prediccion</font>**

In [None]:
_ = model.fit(data_train, target_train)

In [None]:
model.predict(data_test)

array([0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1,
       1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [None]:
model.score(data_test, target_test).round(4)

0.9425

 # **<font color="DeepPink">Evaluación del modelo</font>**

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, X, y, cv = 5)
cv_results

{'fit_time': array([0.5626595 , 0.58321857, 0.56729937, 0.54068398, 0.55256104]),
 'score_time': array([0.03423452, 0.03380322, 0.03513622, 0.03350973, 0.03757262]),
 'test_score': array([0.94178082, 0.93493151, 0.96575342, 0.90068493, 0.92808219])}

In [None]:
scores = cv_results['test_score']

In [None]:
print("")
print("La media de Accuracy en la Validación cruzada es: "
f"{scores.mean():.4f} +/- {scores.std():.4f}")


La media de Accuracy en la Validación cruzada es: 0.9342 +/- 0.0210


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br>
<br>✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.
<br>✅ Se creó y visualizo el Pipeline.
<br>✅ Se evalúa el modelo.
</p>




<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
