# Ejercicios sobre pipelines

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

import pandas as pd
import numpy as np

from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris
iris = load_iris(as_frame=True).frame
X = iris.drop(columns='target', axis=1)
y = iris['target']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Ejercicio 1

Crea un pipeline que tenga como tarea normalizar, para ello, utiliza la clase MinMaxScaler. Comprueba el resultado.

In [3]:
from sklearn.preprocessing import MinMaxScaler

pipeline = Pipeline([
    ('normalizar', MinMaxScaler())
])

In [4]:
pipeline.fit_transform(X_train)

array([[0.08823529, 0.66666667, 0.        , 0.04166667],
       [0.41176471, 1.        , 0.0877193 , 0.125     ],
       [0.70588235, 0.45833333, 0.59649123, 0.54166667],
       [0.14705882, 0.58333333, 0.10526316, 0.04166667],
       [0.02941176, 0.5       , 0.05263158, 0.04166667],
       [0.58823529, 0.20833333, 0.70175439, 0.75      ],
       [0.61764706, 0.5       , 0.61403509, 0.58333333],
       [0.26470588, 0.625     , 0.0877193 , 0.04166667],
       [0.20588235, 0.66666667, 0.07017544, 0.04166667],
       [0.26470588, 0.875     , 0.0877193 , 0.        ],
       [0.44117647, 0.29166667, 0.71929825, 0.75      ],
       [0.5       , 0.58333333, 0.61403509, 0.625     ],
       [0.70588235, 0.45833333, 0.64912281, 0.58333333],
       [0.32352941, 0.79166667, 0.05263158, 0.125     ],
       [0.32352941, 0.70833333, 0.0877193 , 0.04166667],
       [0.35294118, 0.16666667, 0.47368421, 0.375     ],
       [0.58823529, 0.33333333, 0.71929825, 0.58333333],
       [0.61764706, 0.45833333,

Crea un pipeline que tenga como tarea estandarizar, para ello, utiliza la clase StandardScaler. Comprueba el resultado.

In [5]:
from sklearn.preprocessing import MinMaxScaler

pipeline2 = Pipeline([
    ('estandarizar', StandardScaler())
])

In [6]:
pipeline2.fit_transform(X_train)

array([[-1.47393679,  1.20365799, -1.56253475, -1.31260282],
       [-0.13307079,  2.99237573, -1.27600637, -1.04563275],
       [ 1.08589829,  0.08570939,  0.38585821,  0.28921757],
       [-1.23014297,  0.75647855, -1.2187007 , -1.31260282],
       [-1.7177306 ,  0.30929911, -1.39061772, -1.31260282],
       [ 0.59831066, -1.25582892,  0.72969227,  0.95664273],
       [ 0.72020757,  0.30929911,  0.44316389,  0.4227026 ],
       [-0.74255534,  0.98006827, -1.27600637, -1.31260282],
       [-0.98634915,  1.20365799, -1.33331205, -1.31260282],
       [-0.74255534,  2.32160658, -1.27600637, -1.44608785],
       [-0.01117388, -0.80864948,  0.78699794,  0.95664273],
       [ 0.23261993,  0.75647855,  0.44316389,  0.55618763],
       [ 1.08589829,  0.08570939,  0.55777524,  0.4227026 ],
       [-0.49876152,  1.87442714, -1.39061772, -1.04563275],
       [-0.49876152,  1.4272477 , -1.27600637, -1.31260282],
       [-0.37686461, -1.47941864, -0.01528151, -0.24472256],
       [ 0.59831066, -0.

## Ejercicio 2

Crea tu propio transformador que normalize un conjunto. Recuerda que la fórmula para normalizar es la siguiente:

```
xi_normalizada = xi - min(x) / max(ex) - min(ex)
```

Donde:
* *xi* es el valor a normalizar.
* *min(x)* es el mínimo del conjunto de los datos.
* *min(x)* es el máximo del conjunto de los datos.
* *xi_normalizada* es el valor de xi normalizado.


In [7]:
from sklearn.base import BaseEstimator, TransformerMixin

# Definir un transformador personalizado
class TransformadorCrisis(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.minimo = X.min()
        self.maximo = X.max()
        return self

    def transform(self, X):
        X = (X - self.minimo) / (self.maximo - self.minimo)
        return X.values


Comprueba que el resultado es igual que el que el de la clase MinMaxScaler

In [8]:
pipeline3 = Pipeline([
    ('normalizacion', TransformadorCrisis())
])

pipeline3.fit_transform(X_train)

array([[0.08823529, 0.66666667, 0.        , 0.04166667],
       [0.41176471, 1.        , 0.0877193 , 0.125     ],
       [0.70588235, 0.45833333, 0.59649123, 0.54166667],
       [0.14705882, 0.58333333, 0.10526316, 0.04166667],
       [0.02941176, 0.5       , 0.05263158, 0.04166667],
       [0.58823529, 0.20833333, 0.70175439, 0.75      ],
       [0.61764706, 0.5       , 0.61403509, 0.58333333],
       [0.26470588, 0.625     , 0.0877193 , 0.04166667],
       [0.20588235, 0.66666667, 0.07017544, 0.04166667],
       [0.26470588, 0.875     , 0.0877193 , 0.        ],
       [0.44117647, 0.29166667, 0.71929825, 0.75      ],
       [0.5       , 0.58333333, 0.61403509, 0.625     ],
       [0.70588235, 0.45833333, 0.64912281, 0.58333333],
       [0.32352941, 0.79166667, 0.05263158, 0.125     ],
       [0.32352941, 0.70833333, 0.0877193 , 0.04166667],
       [0.35294118, 0.16666667, 0.47368421, 0.375     ],
       [0.58823529, 0.33333333, 0.71929825, 0.58333333],
       [0.61764706, 0.45833333,

## Ejercicio 3

Crea tu propio transformador que estandarice un conjunto. Recuerda que la fórmula para estandarizar es la siguiente:

```
xi_estandarizada = (xi - media(x)) / std(x)
```

Donde:
* *xi* es el valor a estandarizar.
* *media(x)* es la media de los datos.
* *std(x)* es la desviación típica de los datos.
* *xi_estandarizada* es el valor de xi estandarizado.




In [9]:
from sklearn.base import BaseEstimator, TransformerMixin

# Definir un transformador personalizado
class TransformadorCrisis2(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.media = X.mean()
        self.desvi = X.std()
        return self

    def transform(self, X):
        X = (X - self.media) / (self.desvi)
        return X


In [10]:
pipeline4 = Pipeline([
    ('estandarizacion2', TransformadorCrisis2())
])

pipeline4.fit_transform(X_train)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
22,-1.467783,1.198632,-1.556011,-1.307122
15,-0.132515,2.979881,-1.270679,-1.041267
65,1.081364,0.085352,0.384247,0.288010
11,-1.225007,0.753320,-1.213612,-1.307122
42,-1.710558,0.308008,-1.384811,-1.307122
...,...,...,...,...
71,0.353037,-0.582617,0.155981,0.155082
106,-1.103619,-1.250585,0.441314,0.686793
14,-0.011127,2.089257,-1.441878,-1.307122
92,-0.011127,-1.027929,0.155981,0.022155


Comprueba que el resultado es igual que el de StandardScaler

## Ejercicio 4.

Crea tu propio transformador, aplicará el mismo LabelEncoder a todas las columnas categóricas del siguiente dataset.

In [11]:
# Cargar el conjunto de datos Iris
iris = load_iris(as_frame=True).frame
X = iris.drop(columns='target', axis=1)
y = iris['target']

# Calculo la mitad del dataset
midpoint = len(X) // 2

# Asigno valores diferentes a la mitad de la columna
X.loc[:midpoint, 'categorica1'] = 'valor1'
X.loc[midpoint:, 'categorica1'] = 'valor2'

# Asigno valores diferentes a la mitad de la columna
X.loc[:midpoint, 'categorica2'] = 'valor2'
X.loc[midpoint:, 'categorica2'] = 'valor1'


# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import LabelEncoder

class Transformador3(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.columnas_categoricas = list(X.dtypes[X.dtypes==object].index)

        valores_unicos = list()
        for c in self.columnas_categoricas:
            valores_unicos.extend(X[c].unique())

        valores_unicos = np.unique(valores_unicos)
        self.valores_unicos = valores_unicos
        self.le = LabelEncoder()
        self.le.fit(valores_unicos)
        return self

    def transform(self, X, y=None):
        for c in self.columnas_categoricas:
            X[c] = self.le.transform(X[c])
        return X

In [13]:
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import LabelEncoder

class Transformador3(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.columnas_categoricas = list(X.dtypes[X.dtypes==object].index)

        valores_unicos = list()
        for c in self.columnas_categoricas:
            valores_unicos.extend(X[c].unique())

        valores_unicos = np.unique(valores_unicos)
        self.class_mapping = {}

        for i in range(0,len(valores_unicos)):
          self.class_mapping[valores_unicos[i]] = i
        return self

    def transform(self, X, y=None):
      for c in self.columnas_categoricas:
          X[c] = X[c].map(self.class_mapping)
      return X


In [14]:
pipeline4 = Pipeline([
    ('labelencoder2', Transformador3())
])

pipeline4.fit_transform(X_train)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),categorica1,categorica2
22,4.6,3.6,1.0,0.2,0,1
15,5.7,4.4,1.5,0.4,0,1
65,6.7,3.1,4.4,1.4,0,1
11,4.8,3.4,1.6,0.2,0,1
42,4.4,3.2,1.3,0.2,0,1
...,...,...,...,...,...,...
71,6.1,2.8,4.0,1.3,0,1
106,4.9,2.5,4.5,1.7,1,0
14,5.8,4.0,1.2,0.2,0,1
92,5.8,2.6,4.0,1.2,1,0


## Ejercicio 5

Crea tu propio transformador para aplicar la técnica de one_hot_encoding a un conjunto de columnas que pasaré como parámetro.

In [15]:
# Cargar el conjunto de datos Iris
iris = load_iris(as_frame=True).frame
X = iris.drop(columns='target', axis=1)
y = iris['target']

# Calculo la mitad del dataset
midpoint = len(X) // 2

# Asigno valores diferentes a la mitad de la columna
X.loc[:midpoint, 'categorica1'] = 'valor1'
X.loc[midpoint:, 'categorica1'] = 'valor2'

# Asigno valores diferentes a la mitad de la columna
X.loc[:midpoint, 'categorica2'] = 'valor2'
X.loc[midpoint:, 'categorica2'] = 'valor1'


# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [16]:
X_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),categorica1,categorica2
22,4.6,3.6,1.0,0.2,valor1,valor2
15,5.7,4.4,1.5,0.4,valor1,valor2
65,6.7,3.1,4.4,1.4,valor1,valor2
11,4.8,3.4,1.6,0.2,valor1,valor2
42,4.4,3.2,1.3,0.2,valor1,valor2
...,...,...,...,...,...,...
71,6.1,2.8,4.0,1.3,valor1,valor2
106,4.9,2.5,4.5,1.7,valor2,valor1
14,5.8,4.0,1.2,0.2,valor1,valor2
92,5.8,2.6,4.0,1.2,valor2,valor1


In [17]:
import pandas as pd

class Transformador4(BaseEstimator, TransformerMixin):

    def __init__(self, columns):
        self.columns = columns

    def fit(self, X, y=None):
        return self

    def transform(self, X):
      for c in self.columns:
          X = pd.concat([X, pd.get_dummies(X[c], prefix=c)], axis=1)
          X = X.drop(c, axis=1)
      return X



Aplica el transformador a las columnas categóricas del siguiente dataset

In [18]:
pipeline5 = Pipeline([
    ('onehoteroalgoasi', Transformador4(columns=['categorica1']))
])

pipeline5.fit_transform(X_train)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),categorica2,categorica1_valor1,categorica1_valor2
22,4.6,3.6,1.0,0.2,valor2,True,False
15,5.7,4.4,1.5,0.4,valor2,True,False
65,6.7,3.1,4.4,1.4,valor2,True,False
11,4.8,3.4,1.6,0.2,valor2,True,False
42,4.4,3.2,1.3,0.2,valor2,True,False
...,...,...,...,...,...,...,...
71,6.1,2.8,4.0,1.3,valor2,True,False
106,4.9,2.5,4.5,1.7,valor1,False,True
14,5.8,4.0,1.2,0.2,valor2,True,False
92,5.8,2.6,4.0,1.2,valor1,False,True


# Ejercicio 6

Crea un transformador llamado MultiplierTransformer que tome un conjunto de datos y multiplique todas las características numéricas por un factor específico.

In [19]:
class Transformador5(BaseEstimator, TransformerMixin):

    def __init__(self, valor):
      self.valor = valor

    def fit(self, X, y=None):
      return self

    def transform(self, X):
      X = X * self.valor
      return X

Escribe un ejemplo de uso utilizando el siguiente dataset:

In [24]:
# Ejemplo de uso con un DataFrame de pandas
import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

In [25]:
pipeline6 = Pipeline([
    ('onehoteroalgoasi', Transformador5(valor=12))
])

pipeline6.fit_transform(df)

Unnamed: 0,A,B,C
0,12,48,84
1,24,60,96
2,36,72,108


# Ejercicio 7

Desarrolla un transformador llamado MissingDataImputerNumerical que sustituya los datos faltantes en las columnas por el valor de la media de cada columna.

In [36]:
class TransformadorAntiVacio(BaseEstimator, TransformerMixin):

    def fit(self, X, y=None):
      self.medias = X.mean()
      return self

    def transform(self, X):
      return X.fillna(self.medias)

Ejecuta un ejemplo utilizando el siguiente dataset

In [37]:
import pandas as pd

data = {'A': [1, 2, np.nan], 'B': [4, np.nan, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

In [38]:
pipeline7 = Pipeline([
    ('TransformadorAntiVacio', TransformadorAntiVacio())
])

pipeline7.fit_transform(df)

Unnamed: 0,A,B,C
0,1.0,4.0,7
1,2.0,5.0,8
2,1.5,6.0,9


# Ejercicio 8

Desarrolla un transformador llamado MissingDataImputerCategorical que sustituya los datos faltantes en las columnas categóricas por el valor que más veces aparezca.

In [70]:
class TransformadorModa(BaseEstimator, TransformerMixin):

    def fit(self, X, y=None):
      self.modas = {}

      for i in X.columns:
        self.modas[i] = X[i].mode().iloc[0]
      return self

    def transform(self, X):
      return X.fillna(self.modas)

Ejecuta un ejemplo utilizando el siguiente dataset

In [65]:
import pandas as pd

data = {'A': [1, 2, np.nan, 4], 'B': [4, np.nan, 6, 5], 'C': [7, 8, 9, 10], 'D': ['a', 'a', np.nan,'b'], 'E': ['x', 'c', np.nan,'x']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D,E
0,1.0,4.0,7,a,x
1,2.0,,8,a,c
2,,6.0,9,,
3,4.0,5.0,10,b,x


In [71]:
pipeline8 = Pipeline([
    ('TransformadorModa', TransformadorModa())
])

pipeline8.fit_transform(df)

Unnamed: 0,A,B,C,D,E
0,1.0,4.0,7,a,x
1,2.0,4.0,8,a,c
2,1.0,6.0,9,a,x
3,4.0,5.0,10,b,x
