<a href="https://colab.research.google.com/github/rulogar1234/nuclio-1/blob/develop/1_BEST_PRACTICES_PANDAS_SKLEARN_1_2_CORE_CLASE_22022024_PARTE1_REPASO_EN_CASA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivos del notebook
---
En este notebook vamos a explorar algunas de las ***best practices*** de las librerías **pandas** y **sklearn**.

**[pandas](https://pandas.pydata.org)** es una librería enfocada al análisis y manipulación de datos tabulares.<br>
**[sklearn](https://scikit-learn.org/stable/)** a su vez es una librería enfocada al machine learning. Contiene una colección de algoritmos de entrenamiento así como objetos para el preprocesamiento de datos y validación de modelos de ML.

Estos dos paquetes junto con [numpy](https://numpy.org), [matplotlib](https://matplotlib.org), [xgboost](https://xgboost.readthedocs.io/en/stable/) constituyen las principales librerías del ecosistema Data Science/Machine Learning en Python.

El notebook busca fomentar el trabajo en clase. Por este motivo, a lo largo del notebook se irán proponiendo diferentes preguntas y casos prácticos.

Al final del notebook, el alumno se tiene que sentir cómodo con los siguientes funcionalidades de pandas y sklearn.

---
## pandas
En el apartado de pandas queremos dar a conocer algunas de las funciones "ocultas" de pandas y que pueden ser muy útiles a la hora de manipular un dataset. En concreto, buscamos:

1. Entender en que consiste el **pandas groupby** y como podemos utilizarlo para hacer cálculo de manera **rápida, limpia y eficiente.**
2. Aprender a realizar **varios cálculos a la vez sobre diferentes columnas (CORE IDEA)** de un df todo dento del pandas groupby.
3. Entender el método de **pandas transform (CORE IDEA)**.
4. Definir y utilizar **funciones propias (custom functions)** dentro de un groupby.
5. Ver como podemos utilizar las **funciones propias** para hacer un cálculo dentro de un groupby utilizando **A LA VEZ** la información de 2 columnas diferentes (o más).
---

## sklearn
Scikit-learn es una de las librerías **CORE** de Machine Learning. Su impacto es tan grande, que muchas de las librerías nuevas que aparecen en el ecosistema, "imitan" la filosofía, el diseño y siguen los patrones de código marcados por sklearn. Por este motivo vamos a dar a conocer algunas de sus funcionalidades más avanzadas y que puede ayudar al alumno a la hora de: **procesar sus datos, prevenir "data leakage" en los modelos, "concatenar" varias operaciones de procesamineto con pipelines, optimizar los hiperparametros de los modelos así como disponer de nuevas técnicas para evaluar los modelos.**

Buscamos que el alumno al final de la sesión se sienta cómodo con:

1. Saber utilizar los **Transformers (CORE IDEA)** de sklearn.
2. Concatenar diferentes Transformers con un **Pipeline (CORE IDEA)**.
3. Aprender a utilizar el **ColumnTransformer (CORE IDEA)** para poder realizar diferentes transformaciones sobre diferentes columnas.
4. Aprender diferentes técnicas de **Cross Validation** disponibles dentro de sklearn.
5. Poder utilizar el **GridSearch** o **RandomizedGridSearch** para optimizar los hiperparametros de un modelo de Machine Learning.
6. **Saber optimizar los hiperparametros de un Pipeline de Machine Learning.**
---

El presente notebook contiene muchas funcionalidades avanzadas que puede requerir varias lecturas para su comprensión.
Pensamos que las secciones marcadas con **CORE IDEA** son las que mayor beneficio le reportarán al alumno. Por este motivo, le animamos a que dedique especial atención a estas ideas.

Al final del notebook, hay un sección de referencias y lecturas recomendables para que el alumno pueda seguir profundizando en estos conceptos.

---

<a id='index'></a>
## Índice

[Imports del notebook](#imports_notebook)<br>


## Best practices pandas
[Helpers pandas](#helpers_pandas)<br>
[¿Que es el pandas groupby?](#pandas_groupby)<br>
[Pandas transform (**CORE IDEA**)](#pandas_transform)<br>
[Groupby eficiente (**CORE IDEA**)](#pandas_gbe)<br>
[Funciones personalizadas](#pandas_custom_func)<br>

## Best practices sklearn
[Helpers sklearn](#helpers_sklearn)<br>
[sklearn Transformers (**CORE IDEA**)](#transformers)<br>
[sklearn Pipeline (**CORE IDEA**)](#pipeline)<br>
[ColumnTransformer (**CORE IDEA**)](#column_transformer)<br>
[Ejercicio Práctico](#practice)<br>

## Conclusión
[Conclusión](#conclusion)<br>

## Referencias
[Referencias y lecturas recomendables](#referencias)<br>

<a id='imports_notebook'></a>
# Imports del notebook
[Volver al índice](#index)

En este apartado hacemos los principales imports del notebook.<br>
Sobre todo vamos a trabajar con **numpy**, **pandas** y **sklearn**.

In [163]:
import time

import warnings
warnings.simplefilter(action = 'ignore', category = FutureWarning)

# imports best practice pandas
import os

import numpy as np
import pandas as pd

#--------------------------------------------------------
# imports best practice sklearn
import sklearn
from sklearn import set_config

from sklearn.tree import DecisionTreeClassifier

# transformers
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, OneHotEncoder

# pipelines
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# model selection e hiperparameters optimization
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, RepeatedKFold, KFold

from sklearn.metrics import accuracy_score

Todos aquellos alumnos que trabajan en Colab, deben actualizar su versión de sklearn a 1.2 para que funcione el notebook.

En caso de no poder hacerlo, es mejor que utilicen el notebook **1_BEST_PRACTICES_PANDAS_SKLEARN**

In [164]:
sklearn.__version__

'1.2.2'

In [165]:
# !pip install scikit-learn==1.2

![PipInstallColab](pictures/colab_sklearn_1_2.png)

In [166]:
 from google.colab import drive
 drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [167]:
CWD = os.getcwd()
DATA_PATH = os.path.join(CWD, "data")


print(CWD)
print(DATA_PATH)

/content
/content/data


In [168]:
! ls {DATA_PATH}

ls: cannot access '/content/data': No such file or directory


In [169]:
DATA_PATH = "ruta_donde_estan_los_ficheros"
#DATA_PATH = "/Users/nicolaepopescul/Desktop/pyprojects/nuclio_2311/pandas_y_sklearn/data"
DATA_PATH='/content/drive/MyDrive/Colab Notebooks/pandas_y_sklearn/data'

In [170]:
print("Working with these versions of libraries\n")
print("-"*50)
print(f"Numpy version {np.__version__}")
print(f"Pandas version {pd.__version__}")
print(f"Sklearn version {sklearn.__version__}")

Working with these versions of libraries

--------------------------------------------------
Numpy version 1.25.2
Pandas version 1.5.3
Sklearn version 1.2.2


# Best practices pandas

<a id='helpers_pandas'></a>
# Helpers pandas
[Volver al índice](#index)

En este apartado definimos las principales funciones auxiliares y que serán de ayuda en el resto del notebook.

Para todos los ejercicios de **pandas**, vamos a utilizar un dataset dummy.

In [171]:
def get_category(nr_rows):
    '''
    Generates random category.
    '''
    categories = ["España", "Francia", "Alemania", "EEUU", "Rusia", "China"]
    random_categories = np.random.choice(categories, size = nr_rows)

    return random_categories

In [172]:
def generate_dummy_dataframe(nr_rows, nr_columns, nr_categoricals):
    '''
    Generates a dummy DataFrame.
    '''
    la = []

    for nr_ in range(nr_columns):
        la.append(np.random.randint(-1000, 1000, size = nr_rows))

    df = pd.DataFrame(la).T

    dummy_column_names = ["_{}".format(i) for i in range(1, nr_columns + 1)]

    df.columns = dummy_column_names

    for nr_categorical in range(nr_categoricals):
        df["Categorical_{}".format(nr_categorical + 1)] = get_category(nr_rows = nr_rows)

    return df


In [173]:
df = pd.read_csv(os.path.join(DATA_PATH, "pd_sklearn_dummy.csv"))

Veamos nuestro dataframe

In [174]:
df.head(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
0,-792,-125,51,X,Y,Z
1,-866,-397,723,Y,B,A
2,192,513,942,X,C,Y
3,73,984,-620,A,B,A
4,-225,168,-50,A,B,C


<a id='pandas_groupby'></a>
## ¿Que es el pandas groupby?
[Volver al índice](#index)<br>

La gran mayoría de los ejemplos que siguen a continuación, se van a basar en el **pandas groupby**.<br>
Por este motivo, es de vital importancia entender que hay **"dentro"** de un pandas groupby y saber cuando es el momento de usarlo.

Veamos un ejemplo práctico con nuestro dataset.

### Pregunta 1: hacer la suma de Column_1 cuando Categorical_1 == "B"

In [175]:
# code goes here

In [176]:
# posible solución
df[df["Categorical_1"] == "B"]["Column_1"].sum()

1006

In [177]:
sorted(df["Categorical_1"].unique())

['A', 'B', 'C', 'X', 'Y', 'Z']

In [178]:
result_dict = {}

for cat_ in sorted(df["Categorical_1"].unique()):
    suma_ = df[df["Categorical_1"] == cat_]["Column_1"].sum()
    print(cat_, suma_)

    result_dict[cat_] = suma_

A 1988
B 1006
C -1595
X 11813
Y 6122
Z 9769


In [179]:
result_dict

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}

In [180]:
df.groupby(["Categorical_1"])["Column_1"].sum()

Categorical_1
A     1988
B     1006
C    -1595
X    11813
Y     6122
Z     9769
Name: Column_1, dtype: int64

In [181]:
gbdf = df.groupby(["Categorical_1", "Categorical_2"])

In [182]:
df[(df["Categorical_1"] == "A") & (df["Categorical_2"] == "A")].head(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
7,707,786,-570,A,A,Z
55,-882,697,298,A,A,Z
72,895,129,483,A,A,X
101,-695,-203,-928,A,A,Z
196,-672,-810,-191,A,A,C


In [183]:
#CON GET GROUP VEMOS EL CONTENIDO DEL DATAFRAME DE GROUPBY. UN GROUP ES UN CONJUNTO DE DATAFRAMES PREFILTRADOS, LE DEBEREMOS PASAR COMO TUPLA LOS VALORES, VEMOS QUE ES LO MISMO QUE UN FILTRO APLICADO EN EL PASO ANTERIOR
gbdf.get_group(("A", "A")).head(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
7,707,786,-570,A,A,Z
55,-882,697,298,A,A,Z
72,895,129,483,A,A,X
101,-695,-203,-928,A,A,Z
196,-672,-810,-191,A,A,C


In [184]:
gbdf.get_group(("A","A"))["Column_1"].sum()

-1413

In [185]:
df.groupby(["Categorical_1"])["Column_1"].sum().to_dict()

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}

Cuando queremos hacer un cálculo rápido y sencillo, podemos utilizar los **filtros de pandas** para hacer una selección de un subconjunto de datos y aplicar nuestra fórmula.

No obstante, ¿Que pasaría si necesitamos calcular esta suma para todas las categorías que hay en Categorical_1?

Una implementación rápida sería utilizar una for loop, como en el siguiente ejemplo.

In [186]:
# posible solución
result_dict = {}

for category in sorted(df["Categorical_1"].unique()):
    result_dict[category] = df[df["Categorical_1"] == category]["Column_1"].sum()

result_dict

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}

La implementación anterior es válida, pero hay un forma mucho mejor de hacerlo. Utilizar el pandas groupby.

In [187]:
# creamos un objeto de pandas groupby y lo asignamos a gb_df
gb_df = df.groupby("Categorical_1")
gb_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7dc5a39e4430>

Cuando montamos un pandas groupby e inspeccionamos el objetvo, vemos que el resultado es algo similar a esto:
#### **<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe5c81de430>**

Lo que obtenemos no es más que la dirección en memoria del pandas groupby (en nuestro caso, gb_df).

Ahora bien, una forma muy sencilla para ver el contenido del gb_df es utilizar el método **get_group**. Al método get_group le debemos pasar una tupla. El tamaño de la tupla debe ser igual al número de columnas por las cuales has hecho el groupby.

Por ejemplo:<br>

---

**Agrupamos por 2 columnas, la tupla debe ser de 2 elementos**

gb_df = df.groupby(["Cat1", "Cat2"])<br>
gb_df.get_group(**(e1, e2)**)

**Agrupamos por 3 columnas, la tupla debe ser de 3 elementos**

gb_df = df.groupby(["Cat1", "Cat2", "Cat3"])<br>
gb_df.get_group(**(e1, e2, e3)**)

Donde e1, e2 y e3 son elemento 1, elemento 2 y elemento 3 y son categorías que existen en la Columna Cat1, Cat2 y Cat3 respectivamente (e1 existe en Cat1, e2 existe en Cat2 y e3 existe en Cat3).

---

### La única condición que deben cumplir los elementos de la tupla, es ser categorías que existen dentro de las columnas del groupby.

Veamos unos ejemplos con nuestro dataframe.

In [188]:
# Hice el groupby por Categorical_1, la categoría A existe dentro de Categorical_1
# Por este motivo, cuando hago get_group(("A")) veo que todos los elementos de Categorical_1 == "A"
gb_df.get_group(("A")).head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
3,73,984,-620,A,B,A
4,-225,168,-50,A,B,C
7,707,786,-570,A,A,Z
9,509,-522,795,A,B,A
14,-495,-227,-548,A,Z,Z


In [189]:
# lo mismo pero con el grupo C
gb_df.get_group(("C")).head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
5,59,990,-185,C,X,C
11,863,-718,736,C,X,Z
15,543,-164,-787,C,A,A
28,-32,103,-729,C,X,C
29,-825,-828,-543,C,Y,A


In [190]:
# que pasaría si intento buscar el grupo I
try:
    gb_df.get_group(("I")).head()
except:
    print('El gb_df.get_group(("I")).head() ha fallado! :(')

El gb_df.get_group(("I")).head() ha fallado! :(


¡La ejecución anterior nos ha dado un error! Intenté buscar una categoría que no existe.

### (CORE IDEA) Podemos pensar en un groupby como un conjunto de dataframes pequeños (donde las categorías siempre coinciden). Por tanto, puedo aplicar la mayoría de las transformaciones propias de un df.<br>
De hecho, hacer el get_group es idéntico a hacer un filtro de pandas groupby.

In [191]:
df[df["Categorical_1"] == "A"].head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
3,73,984,-620,A,B,A
4,-225,168,-50,A,B,C
7,707,786,-570,A,A,Z
9,509,-522,795,A,B,A
14,-495,-227,-548,A,Z,Z


In [192]:
gb_df.get_group(("A")).head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3
3,73,984,-620,A,B,A
4,-225,168,-50,A,B,C
7,707,786,-570,A,A,Z
9,509,-522,795,A,B,A
14,-495,-227,-548,A,Z,Z


In [193]:
df[df["Categorical_1"] == "A"].equals(gb_df.get_group(("A"))) # comprobamos que son iguales

True

<a id='tip_1_pandas_gb_index'></a>
### Si nos fijamos de manera detenida, vemos que el index del df filtrado, es el mismo que el index del get_group.

Esta parte va a ser muy importante cuando vamos a trabajar con **pandas transform**.

De momento, nos quedamos con la idea de que hacer un filtro o get_group de groupby **me permite acceder a un subconjunto del dataframe en cuestión.**

In [194]:
print(result_dict)

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}


In [195]:
# best praxis
gb_df["Column_1"].sum().to_dict()

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}

<a id='pandas_transform'></a>
### Pandas transform (CORE IDEA)
[Volver al índice](#index)<br>

### Pregunta 2: añadir una nueva columna al df que sea la suma total de Column_1 respetando cada categoría de Categorical_1

In [196]:
result_dict

{'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769}

In [197]:
# code goes here
#Transform se usa para
df["suma_transform"] = df.groupby("Categorical_1")["Column_1"].transform(sum)

In [198]:
#Manera tradicional, creamos un datafram temporal y lo unimos al original, tiene dos pasos más
df_ = df.groupby("Categorical_1")["Column_1"].sum().reset_index()
df_.rename({"Column_1":"Suma_con_merge"}, inplace = True, axis = 1)
pd.merge(left = df, right = df_, on = ["Categorical_1"], how = "left")

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,Suma_con_merge
0,-792,-125,51,X,Y,Z,11813,11813
1,-866,-397,723,Y,B,A,6122,6122
2,192,513,942,X,C,Y,11813,11813
3,73,984,-620,A,B,A,1988,1988
4,-225,168,-50,A,B,C,1988,1988
...,...,...,...,...,...,...,...,...
995,-750,397,-833,B,C,Y,1006,1006
996,-508,917,-443,Y,A,C,6122,6122
997,213,-781,692,X,B,C,11813,11813
998,628,-926,-316,X,Z,X,11813,11813


In [199]:
df.head(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform
0,-792,-125,51,X,Y,Z,11813
1,-866,-397,723,Y,B,A,6122
2,192,513,942,X,C,Y,11813
3,73,984,-620,A,B,A,1988
4,-225,168,-50,A,B,C,1988


In [200]:
#el resultado es distinto, cuando hago el groupby a secas me devuelve 6 registros, como una pivot
df.groupby(["Categorical_1"])["Column_1"].sum()

Categorical_1
A     1988
B     1006
C    -1595
X    11813
Y     6122
Z     9769
Name: Column_1, dtype: int64

In [201]:
#me devuelve tantos registros como el dataframe original, pandas repetira todas las categorias para ponerlo en todos los registros
df.groupby(["Categorical_1"])["Column_1"].transform(sum)

0      11813
1       6122
2      11813
3       1988
4       1988
       ...  
995     1006
996     6122
997    11813
998    11813
999    -1595
Name: Column_1, Length: 1000, dtype: int64

In [202]:
df.shape

(1000, 7)

In [203]:
df["SumaTransform"] = df.groupby(["Categorical_1"])["Column_1"].transform(sum)

In [204]:
df

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform
0,-792,-125,51,X,Y,Z,11813,11813
1,-866,-397,723,Y,B,A,6122,6122
2,192,513,942,X,C,Y,11813,11813
3,73,984,-620,A,B,A,1988,1988
4,-225,168,-50,A,B,C,1988,1988
...,...,...,...,...,...,...,...,...
995,-750,397,-833,B,C,Y,1006,1006
996,-508,917,-443,Y,A,C,6122,6122
997,213,-781,692,X,B,C,11813,11813
998,628,-926,-316,X,Z,X,11813,11813


In [205]:
df_

Unnamed: 0,Categorical_1,Suma_con_merge
0,A,1988
1,B,1006
2,C,-1595
3,X,11813
4,Y,6122
5,Z,9769


In [206]:
df.head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform
0,-792,-125,51,X,Y,Z,11813,11813
1,-866,-397,723,Y,B,A,6122,6122
2,192,513,942,X,C,Y,11813,11813
3,73,984,-620,A,B,A,1988,1988
4,-225,168,-50,A,B,C,1988,1988


In [207]:
# posible solución (también con variable temporal, es peor que trasnform)
result_dict_gb = df.groupby("Categorical_1")["Column_1"].sum().to_dict()

df["SumaconMap"] = df["Categorical_1"].map(result_dict_gb)

df

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap
0,-792,-125,51,X,Y,Z,11813,11813,11813
1,-866,-397,723,Y,B,A,6122,6122,6122
2,192,513,942,X,C,Y,11813,11813,11813
3,73,984,-620,A,B,A,1988,1988,1988
4,-225,168,-50,A,B,C,1988,1988,1988
...,...,...,...,...,...,...,...,...,...
995,-750,397,-833,B,C,Y,1006,1006,1006
996,-508,917,-443,Y,A,C,6122,6122,6122
997,213,-781,692,X,B,C,11813,11813,11813
998,628,-926,-316,X,Z,X,11813,11813,11813


La implementación anterior utiliza una variable temporal, en nuestro caso result_dict_gb para guardar los resultados y después mappear el resultado al df.  Puede parecer una buena forma de hacerlo hasta que conocemos al pandas **transform**.

In [208]:
# best praxis
df["New_col_1_bp"] = df.groupby("Categorical_1")["Column_1"].transform(np.sum)

In [209]:
df.head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp
0,-792,-125,51,X,Y,Z,11813,11813,11813,11813
1,-866,-397,723,Y,B,A,6122,6122,6122,6122
2,192,513,942,X,C,Y,11813,11813,11813,11813
3,73,984,-620,A,B,A,1988,1988,1988,1988
4,-225,168,-50,A,B,C,1988,1988,1988,1988


Pandas **transform** es una mejor solución porque permite conseguir el mismo resultado
en 1 única línea de código. No hay necesidad de guardar nada de manera temporal. Con esto conseguimos un código más limpio y elegante.

Internamente dentro de groupby lo que ocurre es:
1. Calculamos la suma de Column_1 para cada categoría.
2. Hacemos el merge con el df orignal, por el index del dataframe.

[¿Os acordáis cuando decíamos que dentro del get_group se preserva el index original?](#tip_1_pandas_gb_index)

Si nos fijamos en la siguiente línea de código, el index es idéntico al df original.

In [210]:
df.groupby("Categorical_1")["Column_1"].transform(np.sum).head()

0    11813
1     6122
2    11813
3     1988
4     1988
Name: Column_1, dtype: int64

In [211]:
df.head(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp
0,-792,-125,51,X,Y,Z,11813,11813,11813,11813
1,-866,-397,723,Y,B,A,6122,6122,6122,6122
2,192,513,942,X,C,Y,11813,11813,11813,11813
3,73,984,-620,A,B,A,1988,1988,1988,1988
4,-225,168,-50,A,B,C,1988,1988,1988,1988


<a id='pandas_gbe'></a>
### Groupby eficiente (CORE IDEA)
[Volver al índice](#index)<br>

En más de una ocasión, queremos hacer varios cálculos dentro de un pandas groupby (por ejemplo: hacer diferentes funciones de agregación como la suma, media, máximos sobre diferentes columnas) y después **concatenar** estos resultados en un nuevo dataframe. Hacemos esto a menudo durante el **EDA** en un proyecto de Machine Learning.

---
Habitualmente el patrón que se sigue es:

1. variable_1 = df.groupby(["CAT_1", "CAT_2"])["COLUMNA_1"].funcion_agregación()
2. variable_2 = df.groupby(["CAT_1", "CAT_2"])["COLUMNA_2"].otra_funcion_agregación()
3. df_resumen = pd.concat([variable_1, variable_2], axis = 1)

### Pregunta 3: crear un df_resumen que contenga la suma, media (para Column_1) y un contador de los valores positivos para la columna Column_2, agrupados por Categorical_1

El resultado que nos debería dar un df similar a este.

In [212]:
df.head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp
0,-792,-125,51,X,Y,Z,11813,11813,11813,11813
1,-866,-397,723,Y,B,A,6122,6122,6122,6122
2,192,513,942,X,C,Y,11813,11813,11813,11813
3,73,984,-620,A,B,A,1988,1988,1988,1988
4,-225,168,-50,A,B,C,1988,1988,1988,1988


In [213]:
result_data_dict = {
    'Sum_column_1': {'A': 1988, 'B': 1006, 'C': -1595, 'X': 11813, 'Y': 6122, 'Z': 9769},
    'Mean_column_1': {'A': 10.57, 'B': 5.78, 'C': -9.27, 'X': 78.75, 'Y': 35.59, 'Z': 67.84},
    'Counter_non_negative_values_column_2': {'A': 101, 'B': 85, 'C': 89, 'X': 77, 'Y': 91,'Z': 73}
}

In [214]:
pd.DataFrame(data = result_data_dict)

Unnamed: 0,Sum_column_1,Mean_column_1,Counter_non_negative_values_column_2
A,1988,10.57,101
B,1006,5.78,85
C,-1595,-9.27,89
X,11813,78.75,77
Y,6122,35.59,91
Z,9769,67.84,73


In [215]:
df.groupby(["Categorical_1"]).agg(sum)

Unnamed: 0_level_0,Column_1,Column_2,Column_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp
Categorical_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,1988,10738,-13213,373744,373744,373744,373744
B,1006,-11723,-8966,175044,175044,175044,175044
C,-1595,4665,2810,-274340,-274340,-274340,-274340
X,11813,-2990,5900,1771950,1771950,1771950,1771950
Y,6122,7239,-4852,1052984,1052984,1052984,1052984
Z,9769,83,7137,1406736,1406736,1406736,1406736


In [216]:
df.groupby(["Categorical_1"]).agg([sum, max])

Unnamed: 0_level_0,Column_1,Column_1,Column_2,Column_2,Column_3,Column_3,Categorical_2,Categorical_2,Categorical_3,Categorical_3,suma_transform,suma_transform,SumaTransform,SumaTransform,SumaconMap,SumaconMap,New_col_1_bp,New_col_1_bp
Unnamed: 0_level_1,sum,max,sum,max,sum,max,sum,max,sum,max,sum,max,sum,max,sum,max,sum,max
Categorical_1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
A,1988,987,10738,986,-13213,971,BBABZCBZXXYABZAZBYCAYZYYYZBBBBCXZXYAXCZAAZCXAB...,Z,ACZAZYAAXZZZYXXXXZCZZXZBXCCXAYAYXBZCXCXZBBABCX...,Z,373744,1988,373744,1988,373744,1988,373744,1988
B,1006,989,-11723,968,-8966,980,AAXZZBYYABZAXXBYCXBCZAXBZCZXZCXYXZYYAXBCYXABAC...,Z,ZBYAACXCZZXZYAXXBACXABAZCBCAXZBXXCYZACCBCCCYYY...,Z,175044,1006,175044,1006,175044,1006,175044,1006
C,-1595,958,4665,997,2810,997,XXAXYCXAXYYXCXYXXACZBZZZCAAXCCCBCYCZZBCZBAYAZZ...,Z,CZACACZYBXYYCZBXXCYXXCYXYCCZBCXXZXAZZXZBXACZZZ...,Z,-274340,-1595,-274340,-1595,-274340,-1595,-274340,-1595
X,11813,995,-2990,978,5900,990,YCXCZABXZYCZZCCBXBZYAACYXXCZACABAZBACBCZYCXZYY...,Z,ZYAZZBZXYBBZBXZBBXXZYYXXXXAZXBYBAXZYYBBCYCBAZY...,Z,1771950,11813,1771950,11813,1771950,11813,1771950,11813
Y,6122,999,7239,997,-4852,987,BACAZCBBBYXZABAZYAZZYBBXYXBXZZBZXZXCYAXCXYCZAB...,Z,AZXZAAAYYCYABACYXBZCCAACYZXBAYBYYAXXZYYXAXZYZA...,Z,1052984,6122,1052984,6122,1052984,6122,1052984,6122
Z,9769,998,83,999,7137,977,YYAXCZABCAZYYAYZBBZABYBXXYACAYBZXYXCCXBXBZXZCY...,Z,CZBCZZAABXZYAYZAZBYAZXCZBXAZCXZCXBZYYXBACXYZCX...,Z,1406736,9769,1406736,9769,1406736,9769,1406736,9769


In [217]:
df.groupby(["Categorical_1"]).agg({"Column_1":sum})

Unnamed: 0_level_0,Column_1
Categorical_1,Unnamed: 1_level_1
A,1988
B,1006
C,-1595
X,11813
Y,6122
Z,9769


In [218]:
#para implementar una función, vamos a ver primero como funciomna, generamos unas serie con groupby
series = df.groupby(["Categorical_1"]).get_group(("A"))["Column_1"]

In [219]:
series

3       73
4     -225
7      707
9      509
14    -495
      ... 
979    -80
980   -802
987    892
991    184
992   -397
Name: Column_1, Length: 188, dtype: int64

In [220]:
1 == True

True

In [221]:
0 == False

True

In [222]:
# implementación, hacemos una suma de los valores mayores de 0
(series >= 0).sum()

99

In [223]:
# refactor
def counter_positive_values(series):
    '''
    Aquí ponemos la ayuda que se verá cuando se llame a la función sin parámetros
    Recibo val1 , val2, val3, val4

    '''
    return (series >= 0).sum()

In [224]:
counter_positive_values

In [225]:
#Lambda no se suele usar para funciones complejas como esta, para eso se usan funciones, se descarta hacer este tipo de cosas. OJO COMO SE PASAN VARIOS PARÁMETROS
lambda val1, val2, val3, val4: 1 if (((val1 ** val2)/val3) + val4) >= 1 else 0

<function __main__.<lambda>(val1, val2, val3, val4)>

In [226]:
#pero si podemos usarlo para hacer la función, todo lo que va después de los dos puntos es el retorno, los parametros pueden ser varios
counter_positive_values2 = lambda series: (series >= 0).sum()

In [227]:
counter_positive_values2

<function __main__.<lambda>(series)>

In [228]:
counter_positive_values(series = series)

99

In [229]:
# LA MEJOR MANERA DE USAR EL GROUP BY Y CREAR NUEVAS COLUMNAS ES ESTA, podemos pasarle funciones siempre y cuando el resultado sea un valor agregado
#también funciones simplificadas lambda (atencion con LA FUNCIÓN LAMBDA O ANóNIMAS SON PARA FORMULAS FÁCILES), las funciones lambda también puede tener más de un parámetro...
df.groupby(["Categorical_1"]).agg(
    SumaColumna1 = ("Column_1", np.sum),
    MeanColumna1 = ("Column_2", np.mean),
    MaxColumna3 = ("Column_3", np.max),
    CounterColumn2 = ("Column_2", counter_positive_values),
    CounterColumn2Lambda = ("Column_2", lambda series: (series >= 0).sum())
)

Unnamed: 0_level_0,SumaColumna1,MeanColumna1,MaxColumna3,CounterColumn2,CounterColumn2Lambda
Categorical_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1988,57.117021,971,101,101
B,1006,-67.373563,980,85,85
C,-1595,27.122093,997,89,89
X,11813,-19.933333,990,77,77
Y,6122,42.087209,987,91,91
Z,9769,0.576389,977,73,73


In [230]:
#Que hace pandas?
#Selecciona un objeto groupby con la Categorical_1 para la columna 1
df.groupby(["Categorical_1"])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7dc5a36e2c80>

In [231]:
#sobre esta columna hacemos el getgroup sobre la categoria A y la columna que me interesa
df.groupby(["Categorical_1"]).get_group(("A"))["Column_1"]

3       73
4     -225
7      707
9      509
14    -495
      ... 
979    -80
980   -802
987    892
991    184
992   -397
Name: Column_1, Length: 188, dtype: int64

In [232]:
#y lo sumamos, igual que sumamos una lista con numpy sum
np.sum([1, 2, 3])
np.sum(df.groupby(["Categorical_1"]).get_group(("A"))["Column_1"])

1988

In [233]:
# posible solución crear df por separado y después unirlos, mucho más ineficiente y largo
suma_column_1_categorical_1 = df.groupby("Categorical_1")["Column_1"].sum()
mean_column_1_categorical_1 = df.groupby("Categorical_1")["Column_1"].mean()
positive_counter = df.groupby("Categorical_1")["Column_2"].agg(lambda series: len(series[series >= 0]))

df_resumen = pd.concat([
    suma_column_1_categorical_1,
    mean_column_1_categorical_1,
    positive_counter
], axis = 1)

df_resumen.columns = ["Sum_column_1", "Mean_column_1", "Counter_non_negative_values_column_2"]

del suma_column_1_categorical_1, mean_column_1_categorical_1, positive_counter

df_resumen.round(2)

Unnamed: 0_level_0,Sum_column_1,Mean_column_1,Counter_non_negative_values_column_2
Categorical_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1988,10.57,101
B,1006,5.78,85
C,-1595,-9.27,89
X,11813,78.75,77
Y,6122,35.59,91
Z,9769,67.84,73


Si miramos de manera crítica la celda anterior, podemos ver las siguientes ineficiencias:
1. Generamos 3 variables temporales que no nos hacen falta a posteriori.
2. Debemos añadir varias líneas de código para concatenar estos resultados.
3. Tenemos que hacer limpieza de las variables temporales (buena praxis).
4. Debemos renombrar las columnas del df_resumen.

Todos los pasos anteriores para conseguir un df_resumen.

Veamos una forma mucho más elegante y eficiente de hacerlo.

In [234]:
# best praxis
df.groupby("Categorical_1").agg(
    Sum_column_1 = ("Column_1", np.sum),
    Max_column_1 = ("Column_1", np.max),
    Mean_column_1 = ("Column_1", np.mean),
    Counter_non_negative_values_column_2 = ("Column_2", lambda series: len(series[series >= 0])),
    Sum_non_negative_values_column_2 = ("Column_2", lambda series: np.sum(series[series >= 0])),
).round(2)

Unnamed: 0_level_0,Sum_column_1,Max_column_1,Mean_column_1,Counter_non_negative_values_column_2,Sum_non_negative_values_column_2
Categorical_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1988,987,10.57,101,51758
B,1006,989,5.78,85,33793
C,-1595,958,-9.27,89,43271
X,11813,995,78.75,77,35980
Y,6122,999,35.59,91,48768
Z,9769,998,67.84,73,33750


Conseguimos el mismo resultado que antes, pero de una manera más rápida y elegante.

**En realidad, hacemos 2 operaciones adicionales y todo con menos líneas de código.**

### ¿Todos los alumnos has conseguido sacar el resultado Counter_non_negative_values_column_2?

<a id='pandas_custom_func'></a>
### Funciones personalizadas
[Volver al índice](#index)<br>

En el ejemplo anterior, para calcular **Counter_non_negative_values_column_2** tuvimos que crear una función personalizada (custom function) en forma de ***lambda***.

Esto es de extrema relevancia porque significa que dentro de un **pandas groupby** yo puedo utilizar no solo las funciones tipo: suma, media, máximo etc. sino **cualquier función siempre y cuando haga un cálculo y devuelva un resultado agregado.** De hecho, el resultado podría hasta ser un string.

Veamos algunos ejemplos.

In [235]:
def custom_func_non_negative_sum(series):
    '''
    Sums non negative values from a pandas series
    '''
    return np.sum(series[series >= 0])

La función anterior es idéntica a la siguiente función anónima **lambda series: np.sum(series[series >= 0])**

In [236]:
df.groupby("Categorical_1")["Column_2"].agg(custom_func_non_negative_sum)

Categorical_1
A    51758
B    33793
C    43271
X    35980
Y    48768
Z    33750
Name: Column_2, dtype: int64

Por supuesto la función anterior la podemos utilizar con un pandas transform

In [237]:
df["New_col_2_cf_bp"] = df.groupby("Categorical_1")["Column_2"].transform(custom_func_non_negative_sum)

In [238]:
df.head()

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp,New_col_2_cf_bp
0,-792,-125,51,X,Y,Z,11813,11813,11813,11813,35980
1,-866,-397,723,Y,B,A,6122,6122,6122,6122,48768
2,192,513,942,X,C,Y,11813,11813,11813,11813,35980
3,73,984,-620,A,B,A,1988,1988,1988,1988,51758
4,-225,168,-50,A,B,C,1988,1988,1988,1988,51758


Antes hemos comentado, que la función de agregación customizada puede hasta devolver un string como resultado.

Veamos un ejemplo rápido.

In [239]:
def custom_func_returns_string(series):
    '''
    Custom function that returns a string as a result
    '''
    positive_values = len(series[series >= 0])
    negative_values = len(series[series < 0])

    return f"Positive Values: {positive_values} Negative Values: {negative_values}"

In [240]:
print(df.groupby("Categorical_1")["Column_1"].agg(custom_func_returns_string))

Categorical_1
A    Positive Values: 99 Negative Values: 89
B    Positive Values: 89 Negative Values: 85
C    Positive Values: 91 Negative Values: 81
X    Positive Values: 82 Negative Values: 68
Y    Positive Values: 83 Negative Values: 89
Z    Positive Values: 81 Negative Values: 63
Name: Column_1, dtype: object


In [241]:
df["New_col_2_cfs_bp"] = df.groupby("Categorical_1")["Column_1"].transform(custom_func_returns_string)

In [242]:
df.sample(5)

Unnamed: 0,Column_1,Column_2,Column_3,Categorical_1,Categorical_2,Categorical_3,suma_transform,SumaTransform,SumaconMap,New_col_1_bp,New_col_2_cf_bp,New_col_2_cfs_bp
397,-226,202,884,A,A,C,1988,1988,1988,1988,51758,Positive Values: 99 Negative Values: 89
805,-787,-816,35,X,C,Z,11813,11813,11813,11813,35980,Positive Values: 82 Negative Values: 68
916,42,-77,-144,C,A,Z,-1595,-1595,-1595,-1595,43271,Positive Values: 91 Negative Values: 81
392,755,-554,660,X,C,X,11813,11813,11813,11813,35980,Positive Values: 82 Negative Values: 68
636,933,962,304,Y,Y,B,6122,6122,6122,6122,48768,Positive Values: 83 Negative Values: 89


En la práctica no obstante, usamos este tipo de funciones sólo cuando queremos hacer un reporting sobre un dataframe e incluirlo en un informe final.

---
# Best Practices con sklearn

<a id='helpers_sklearn'></a>
# Helpers sklearn
[Volver al índice](#index)

In [243]:
'''
El DataLoader es una clase auxiliar que va a cargar nuestros datasets
Le suministramos la ruta del train/X y del test/dataset producción (prod) y nos devuelve los dos datasets
También le tenemos que pasar la columna del target y del index
Para que el objeto DataLoader distinga estas dos columnas
'''

class DataLoader(object):
    '''
    DataLoader helps you import you train and test data and do some basic preprocessing on them.
    '''
    def __init__(self, train_path, test_path, train_columns, target, index):
        '''
        Constructor for the class.
        Needs the train and test path and train_columns (features), index and target column.
        '''
        self.train_path = train_path
        self.test_path = test_path

        self.train_columns = train_columns
        self.target = target
        self.index = index

    def _process_df(self, df):
        '''
        Converts the columns to upper, sets index and splits between X and y.
        '''
        df.columns = map(str.upper, df.columns)
        df.set_index(self.index, inplace = True)

        if self.target in df.columns:

            y = df[self.target]
            df.drop(self.target, axis = 1, inplace = True)
            df = df[self.train_columns]

            return df, y

        else:

            df = df[self.train_columns]

            return df, None

    def load_data(self):
        '''
        Loads the data and calls _process_df to X_train and X_test.
        '''
        X_train, y_train = self._process_df(pd.read_csv(self.train_path))

        X_test, _ = self._process_df(pd.read_csv(self.test_path))

        return X_train, y_train, X_test

'''
DataFrameReporter nos va a permitir hacer nuestro primer contacto con el dataset.

Para las variables númericas hará un describe y contará los nulos que hay.
Y para las variables categóricas hará un count de los nulos y nos dirá también
el número de categorías únicas que hay.

Al final se trata de una clase auxiliar que hará una parte del EDA.
'''

class DataFrameReporter(object):
    '''
    Helper class that reports nulls and datatypes of train and test data
    '''
    def __init__(self, X_train, X_test, target_column):
        '''
        Constructor for the class.
        Needs train and test data and also the target column in train.
        '''
        self.X_train = X_train
        self.X_test = X_test
        self.target_column = target_column

    def analyze_X(self, X):
        '''
        Analyses the DataFrame you pass and returns a report of nulls, distribution and other goodies.
        '''

        if self.target_column in X.columns:
            X = X.drop(self.target_column, axis = 1)

        dtypes = X.dtypes.to_frame().rename(columns = {0:"Dtypes"})

        nulls_in_train = X.isnull().sum().to_frame().rename(columns = {0:"Absolute_nulls"})
        nulls_in_train["Relative_nulls"] = nulls_in_train["Absolute_nulls"]/X.shape[0]
        nulls_in_train["Relative_nulls"] = nulls_in_train["Relative_nulls"].apply(
            lambda number: round(number, 3) * 100
        )

        nulls_in_train = pd.concat([nulls_in_train, dtypes], axis = 1)
        nulls_in_train["Shape"] = X.shape[0]
        nulls_in_train = nulls_in_train[["Dtypes", "Shape", "Absolute_nulls", "Relative_nulls"]]

        describe_values_num = X.describe().T
        report_df = pd.concat([nulls_in_train, describe_values_num], axis = 1)

        object_columns = X.select_dtypes("object").columns
        unique_categories = {col:X[col].nunique() for col in object_columns}
        unique_cat_df = pd.DataFrame(
            data = unique_categories.values(),
            index = unique_categories.keys(),
            columns = ["Unique_category"]
        )

        report_df = pd.concat([report_df, unique_cat_df], axis = 1)

        report_df.fillna("", inplace = True)
        report_df.sort_values("Dtypes", ascending = True, inplace = True)

        return report_df

    def get_reports(self):
        '''
        Calls analyze_X method and returns report DataFrame for train and test.
        '''
        report_train = self.analyze_X(X = self.X_train)
        report_test = self.analyze_X(X = self.X_test)

        report_train["Origin"] = "X"
        report_test["Origin"] = "Prod"

        result = pd.concat([report_train, report_test], axis = 1)

        return result

La siguiente línea de código es muy importante.

Hasta la [versión 1.2 de sklearn](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_set_output.html) todos los outputs de sklearn eran **numpy array**.

Utilizando la siguiente línea de código:

> set_config(transform_output = "pandas")

El output siempre será un pandas DataFrame.

In [244]:
set_config(transform_output = "pandas")

# *#DENTRO DE SKLERN TENEMOS 3 TIPOS DE OBJETOS*
#Estimadores: Los fit son estimadores, el modelo aprende algo
#Transformes: aplica o que ha aprendido para modificar el dato
#Predictores: Te saca la predicción despúes de aprender

In [324]:
# Definimos nuestras variables globales
# En este caso, vamos a usar unas pocas columnas del dataframe a modo de ejemplo
# Es buena praxis definir este tipo de variables en un fichero json o bien al comienzo de un
# notebook/script

TRAIN_PATH = os.path.join(DATA_PATH, "pd_sklearn_data.csv")
PRODUCTION_PATH = os.path.join(DATA_PATH, "pd_sklearn_prod.csv")

TARGET = "SURVIVED"
INDEX = "PASSENGERID"

TRAIN_COLUMNS = ['PCLASS', 'AGE', 'SIBSP', 'EMBARKED']

# Cargamos nuestros datasets con la clase auxiliar

X, y, X_prod = DataLoader(
    train_path = TRAIN_PATH,
    test_path = PRODUCTION_PATH,
    train_columns = TRAIN_COLUMNS,
    target = TARGET,
    index = INDEX
).load_data()

# separamos nuestro dataset entre columnas numericas y object (OJO!!!!)

In [325]:
# separamos nuestro dataset entre columnas numericas y object (OJO!!!!)

numeric_columns = X.select_dtypes(include = np.number).columns.tolist()
object_columns = X.select_dtypes(exclude = np.number).columns.tolist()

assert (len(numeric_columns) + len(object_columns)) == X.shape[1], "You have missed some columns"

In [326]:
print("Working with numeric columns: ", ", ".join(numeric_columns))
print("Working with categorical columns: ", ", ".join(object_columns))

Working with numeric columns:  PCLASS, AGE, SIBSP
Working with categorical columns:  EMBARKED


In [327]:
# Hacemos nuestro análisis rápido de los datasets
report = DataFrameReporter(
    pd.concat([X, y], axis = 1), X_prod, TARGET
).get_reports()

In [329]:
report

Unnamed: 0,Dtypes,Shape,Absolute_nulls,Relative_nulls,count,mean,std,min,25%,50%,...,count.1,mean.1,std.1,min.1,25%.1,50%.1,75%,max,Unique_category,Origin
PCLASS,int64,891,0,0.0,891.0,2.308642,0.836071,1.0,2.0,3.0,...,418.0,2.26555,0.841838,1.0,1.0,3.0,3.0,3.0,,Prod
SIBSP,int64,891,0,0.0,891.0,0.523008,1.102743,0.0,0.0,0.0,...,418.0,0.447368,0.89676,0.0,0.0,0.0,1.0,8.0,,Prod
AGE,float64,891,177,19.9,714.0,29.699118,14.526497,0.42,20.125,28.0,...,332.0,30.27259,14.181209,0.17,21.0,27.0,39.0,76.0,,Prod
EMBARKED,object,891,2,0.2,,,,,,,...,,,,,,,,,3.0,Prod


<a id='transformers'></a>
### sklearn Transformers (CORE IDEA)
[Volver al índice](#index)<br>

El **sklearn Transformer** será la pieza clave dentro de la sección de best practices con sklearn.

Para comprender la utilidad del transformer, imaginemos una situación típica de un Data Scientist.

Un DS debe tratar con mucha cantidad de datos y realizar **diferentes operaciones** sobre estos.

En un caso podría necesitar **imputar** valores nulos, en otro caso **estandarizar** un dataset, en una situación podría necesitar **convertir** datos categóricos en númericos, **reducir** la dimensionalidad, **clusterizar** los datos o bien hacer todas estas operaciones en un orden determinado.

**De hecho, lo habitual es tener que hacer diferentes operaciones sobre diferentes columnas para un mismo dataset.**

Debido a que estas operaciones son tan frecuentes y aunque tenemos a nuestra disponibilidad **pandas** y Python puro para conseguir el resultado deseado, veremos una nueva forma de hacer esta manipulación con: **pipelines y sklearn transformers**.

### Pregunta 4: Imputar el valor más frecuente para la columna de EMBARKED.

In [250]:
# code goes here

In [333]:
X.head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,22.0,1,S
2,1,38.0,1,C
3,3,26.0,0,S
4,1,35.0,1,S
5,3,35.0,0,S


In [334]:
X_prod.head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
892,3,34.5,0,Q
893,3,47.0,1,S
894,2,62.0,0,Q
895,3,27.0,0,S
896,3,22.0,1,S


In [253]:
#En la columna de Embarkerd temgo nulos, quiero imputar la moda, una posible solución sería con pandas

In [254]:
# posible solución
most_frequent_value = X["EMBARKED"].value_counts().index


In [255]:
most_frequent_value

Index(['S', 'C', 'Q'], dtype='object')

In [256]:
most_frequent_value = X["EMBARKED"].value_counts().index[0]

In [257]:
most_frequent_value

'S'

In [258]:
X[X['EMBARKED'].isnull()]

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
62,1,38.0,0,
830,1,62.0,0,


In [259]:
X['EMBARKED'].mode().tolist()[0]

'S'

In [260]:
#otra forma
X["EMBARKED_FILLED_2"] = X["EMBARKED"].fillna(X['EMBARKED'].mode().tolist()[0])

In [261]:
X[X['EMBARKED'].isnull()]

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED,EMBARKED_FILLED_2
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
62,1,38.0,0,,S
830,1,62.0,0,,S


Vamos a ver como podemos conseguir el mismo resultado con un **Transformer** de sklearn

Un **Transformer** en sklearn, es un objeto que tiene implementado el **método fit** y el **método transform**.

El alumno ya se encontró con el **método fit** muchas veces: es la llamada que hacemos cuando queremos que nuestro modelo **aprenda algo del dataset**.

En el caso de un transformer, ocurre exactamente lo mismo. Cuando llamamos el **método fit** mientras estamos utilizando un Transformer lo que le estamos diciendo es que aprenda algo del dataset (la media, la varianza etc).

**En el caso de SimpleImputer(strategy="most_frequent") el valor más frecuente que hay en un dataset o una columna.**

En el caso de StandardScaler() podría ser la media y la varianza.

### Por tanto, lo que vamos a aprender con un transformer depende del transformer con el que trabajamos y como lo instanciamos.

El **método transform** a su vez aplica lo aprendido en el **fit** al dataset y **lo transforma**.

En el ejemplo de abajo vamos a utilizarSimpleImputer(strategy="most_frequent"):

1. En el fit aprendo el valor más frecuente.
2. Con el método transform imputo el valor más frecuente a la columna en cuestión.

Vayamos por partes:

In [379]:
#Inicializamos dataset
X, y, X_prod = DataLoader(
    train_path = TRAIN_PATH,
    test_path = PRODUCTION_PATH,
    train_columns = TRAIN_COLUMNS,
    target = TARGET,
    index = INDEX
).load_data()

In [380]:
# instanciamos el transformer con la estrategia de imputación de "most_frequent"
# de momento nuestro transformer "no sabe nada" sobre el dataset
# si intentamos mirar cual es el valor más frecuente con
# imputer_mf.statistics_
# nos dará error

imputer_mf = SimpleImputer(strategy = "most_frequent")

In [381]:
try:
    imputer_mf.statistics_
except Exception as e:
    print(e)

'SimpleImputer' object has no attribute 'statistics_'


In [382]:
imputer_mf.fit(X[["EMBARKED"]]) # seleccion EMBARKED con doble [[]] para que sea un df, preferible que sea un dataset no una serie de pandas

In [383]:
#con un corcheta una serie
type(X["EMBARKED"])

In [384]:
#con dos un dataframe
type(X[["EMBARKED"]])

In [386]:
# o bien le paso un array de numpy al transformer, -1 y 1 tiene que ver con la forma y la manera de ordenarlo donde el número de filas se determina automáticamente (-1) y el número de columnas es 1
imputer_mf.fit(X["EMBARKED"].values.reshape(-1, 1))

In [387]:
# esto me dice que el valor más frecuente del la columna EMBARKED es S. ¿Cúales son tus estadísticos?
imputer_mf.statistics_

array(['S'], dtype=object)

In [388]:
# creo una nueva columna con el valor imputado
X["EMBARKED_FILLED_2"]=imputer_mf.transform(X[["EMBARKED"]])



In [389]:
X.head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED,EMBARKED_FILLED_2
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3,22.0,1,S,S
2,1,38.0,1,C,C
3,3,26.0,0,S,S
4,1,35.0,1,S,S
5,3,35.0,0,S,S


In [390]:
#Ahora pordiamos reutilizar directamente imputar lo que aprendimos con fit al otro dataset de producción
imputer_mf.transform(X_prod[["EMBARKED"]])



Unnamed: 0_level_0,x0
PASSENGERID,Unnamed: 1_level_1
892,Q
893,S
894,Q
895,S
896,S
...,...
1305,S
1306,C
1307,S
1308,S


In [391]:
#Se puede optimizar la operación haciendo fit y trasnform en una sola orden
imputer = SimpleImputer(strategy="most_frequent")

In [392]:
imputer.fit_transform(X[["EMBARKED"]]).head(1)

Unnamed: 0_level_0,EMBARKED
PASSENGERID,Unnamed: 1_level_1
1,S


In [393]:
#Lo puedo hacer para todo el dataframe
imputer = SimpleImputer(strategy="most_frequent")

In [394]:
imputer.fit(X)

In [395]:
#Todas las modas de cada una de las columnas
imputer.statistics_

array([3, 24.0, 0, 'S', 'S'], dtype=object)

In [396]:
#y trasnformar todo el dataset
imputer.transform(X).head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED,EMBARKED_FILLED_2
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3,22.0,1,S,S
2,1,38.0,1,C,C
3,3,26.0,0,S,S
4,1,35.0,1,S,S
5,3,35.0,0,S,S


In [397]:
#muy a mendudo lo que queremos es hacer varias operaciones, por ejemplo vamos hacer un MinMaxScaler

In [398]:
from sklearn.preprocessing import MinMaxScaler

In [399]:
#solo lo puedo hacer con numéricas
X_num= X[["PCLASS","AGE","SIBSP"]]
X_prod_num = X_prod[["PCLASS","AGE","SIBSP"]]

In [400]:
imputer_mf = SimpleImputer(strategy="most_frequent")
scaler = MinMaxScaler()

In [401]:
Xt_num = imputer_mf.fit_transform(X_num)

In [402]:
Xt_num.head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,3.0,22.0,1.0
2,1.0,38.0,1.0
3,3.0,26.0,0.0
4,1.0,35.0,1.0
5,3.0,35.0,0.0


In [403]:
Xts_num= scaler.fit_transform(Xt_num)

In [404]:
Xts_num.head()

Unnamed: 0_level_0,PCLASS,AGE,SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.0,0.271174,0.125
2,0.0,0.472229,0.125
3,1.0,0.321438,0.0
4,0.0,0.434531,0.125
5,1.0,0.434531,0.0


In [405]:
#No es muy elegante porque usamos variables temporales, vamos a usar el primo hermano del transformer que es la pipe (tubería), hay que pasarle en los steps una lista de tuplas que se van ejecutando una detrás de otra
pipe = Pipeline(
    steps = [
        ("impute", SimpleImputer(strategy="most_frequent")),
        ("scale", MinMaxScaler())
    ]
)

In [406]:
pipe

In [407]:
pipe.fit_transform(X_num).head(3)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.0,0.271174,0.125
2,0.0,0.472229,0.125
3,1.0,0.321438,0.0


In [408]:
#Aquí ya solo hay que hacer el transform
pipe.transform(X_prod_num).head(3)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
892,1.0,0.428248,0.0
893,1.0,0.585323,0.125
894,0.5,0.773813,0.0


In [410]:
#Las pipeline se puede filtrar, se trasforman como una lista
pipe[0].statistics_

array([ 3., 24.,  0.])

In [411]:
pipe2 = Pipeline(
    steps = [
        ("impute", SimpleImputer(strategy="most_frequent")),
        ("scale", MinMaxScaler()),
        ("scale", StandardScaler())
    ]
)

In [412]:
pipe2

In [413]:
pipe2[:2]

In [414]:
#lo puedo ejecutar del tirón pero muy a menudo voy a querer inspeccionar la pipe y saber como va a quedar el dataset a partir de las X primeras trasnformaciones.
pipe2[:2].fit_transform(X_num).head(3)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.0,0.271174,0.125
2,0.0,0.472229,0.125
3,1.0,0.321438,0.0


In [295]:
#Si queremos hacer operaciones quirurgicas sobre cada una de las columnas necesitamos el column trasnform

In [415]:
X.head(3)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED,EMBARKED_FILLED_2
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3,22.0,1,S,S
2,1,38.0,1,C,C
3,3,26.0,0,S,S


In [378]:
X_prod.head(3)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
892,3,34.5,0,Q
893,3,47.0,1,S
894,2,62.0,0,Q


In [298]:
#PCLASS --> mode
#AGE --> mean
#SIBS --> mediana
#EMBARKED --> contant Desconocido

In [416]:
ct_impute = ColumnTransformer(
    transformers = [
        ("imputer_mode",SimpleImputer(strategy="most_frequent"),["PCLASS"])
    ],
    remainder="drop"
)

In [417]:
X[X["PCLASS"].isnull()]

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED,EMBARKED_FILLED_2
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


In [418]:
#devuelve una columna del dataset de 4, eso es porque por defecto el remainder está a drop
ct_impute.fit_transform(X).head()

Unnamed: 0_level_0,imputer_mode__PCLASS
PASSENGERID,Unnamed: 1_level_1
1,3
2,1
3,3
4,1
5,3


Cuando aplicas un ColumnTransformer a un conjunto de datos, puedes especificar diferentes transformaciones para diferentes columnas. Sin embargo, es posible que tengas columnas que no necesitan ser transformadas o que no deseas incluir en ninguna transformación específica. En esos casos, puedes usar el parámetro remainder para especificar cómo manejar esas columnas restantes.

El parámetro remainder puede tomar los siguientes valores:

'drop': Las columnas restantes que no se han transformado explícitamente se eliminarán del conjunto de datos resultante.

'passthrough': Las columnas restantes se pasarán sin cambios al conjunto de datos resultante. Esto significa que las columnas no transformadas permanecerán sin cambios en el conjunto de datos resultante.

In [466]:
#Inicializamos dataset
X, y, X_prod = DataLoader(
    train_path = TRAIN_PATH,
    test_path = PRODUCTION_PATH,
    train_columns = TRAIN_COLUMNS,
    target = TARGET,
    index = INDEX
).load_data()

In [467]:
ct_impute = ColumnTransformer(
    transformers = [
        ("imputer_mode",SimpleImputer(strategy="most_frequent"),["PCLASS"])
    ],
    remainder="passthrough"
)

In [468]:
ct_impute.fit_transform(X).head()

Unnamed: 0_level_0,imputer_mode__PCLASS,remainder__AGE,remainder__SIBSP,remainder__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,22.0,1,S
2,1,38.0,1,C
3,3,26.0,0,S
4,1,35.0,1,S
5,3,35.0,0,S


In [469]:
ct_impute = ColumnTransformer(
    transformers = [
        ("imputer_mode",SimpleImputer(strategy="most_frequent"),["PCLASS"]),
        ("imputer_mean",SimpleImputer(strategy="mean"),["AGE"]),
        ("imputer_median",SimpleImputer(strategy="median"),["SIBSP"]),
        ("imputer_constant_UNKNOWN",SimpleImputer(strategy="constant",fill_value="UNKNOWN"),["EMBARKED"]),
    ],
    remainder="passthrough"
)

In [470]:
ct_impute.fit_transform(X).head()

Unnamed: 0_level_0,imputer_mode__PCLASS,imputer_mean__AGE,imputer_median__SIBSP,imputer_constant_UNKNOWN__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,22.0,1.0,S
2,1,38.0,1.0,C
3,3,26.0,0.0,S
4,1,35.0,1.0,S
5,3,35.0,0.0,S


In [471]:
Xt=ct_impute.fit_transform(X)

In [472]:
Xt.head()

Unnamed: 0_level_0,imputer_mode__PCLASS,imputer_mean__AGE,imputer_median__SIBSP,imputer_constant_UNKNOWN__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,22.0,1.0,S
2,1,38.0,1.0,C
3,3,26.0,0.0,S
4,1,35.0,1.0,S
5,3,35.0,0.0,S


In [473]:
X_prod

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
892,3,34.5,0,Q
893,3,47.0,1,S
894,2,62.0,0,Q
895,3,27.0,0,S
896,3,22.0,1,S
...,...,...,...,...
1305,3,,0,S
1306,1,39.0,0,C
1307,3,38.5,0,S
1308,3,,0,S


In [474]:
#otro ejemplo pero podiendo aplicar varias trasnformaciones
ct_prepo = ColumnTransformer(
    transformers = [
        ("scaling",MinMaxScaler(),["imputer_mode__PCLASS"]),

    ],
    remainder="passthrough"
)

In [475]:
ct_prepo.fit_transform(Xt).head()

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,remainder__imputer_mean__AGE,remainder__imputer_median__SIBSP,remainder__imputer_constant_UNKNOWN__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,22.0,1.0,S
2,0.0,38.0,1.0,C
3,1.0,26.0,0.0,S
4,0.0,35.0,1.0,S
5,1.0,35.0,0.0,S


In [476]:
#Si el nombre de la columna es muy larga le puedo poner el índice, y puedo asignar cada columa en la que queramos aplicar el transformer, en OneHotEncoder para pandas le tenemos que poner sparse_output=False
#otro ejemplo
ct_prepo = ColumnTransformer(
    transformers = [
        ("scaling",MinMaxScaler(),[0,1]),
        ("ohe",OneHotEncoder(sparse_output=False),["imputer_constant_UNKNOWN__EMBARKED"])

    ],
    remainder="passthrough"
)

In [477]:
ct_prepo.fit_transform(Xt).head()

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,1.0,0.271174,0.0,0.0,1.0,0.0,1.0
2,0.0,0.472229,1.0,0.0,0.0,0.0,1.0
3,1.0,0.321438,0.0,0.0,1.0,0.0,0.0
4,0.0,0.434531,0.0,0.0,1.0,0.0,1.0
5,1.0,0.434531,0.0,0.0,1.0,0.0,0.0


In [478]:
#Ahora que tenemos dos Column transforms consecurtivos podemos crear una pipe que aplique uno y después otro
pipe = Pipeline(
    steps = [
        ("impute", ct_impute),
        ("prepo",ct_prepo)
    ]
)

In [479]:
pipe

In [480]:
Xt = pipe.fit_transform(X)

In [481]:
Xt.head(1)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,1.0,0.271174,0.0,0.0,1.0,0.0,1.0


In [482]:
X_prod.head(1)

Unnamed: 0_level_0,PCLASS,AGE,SIBSP,EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
892,3,34.5,0,Q


In [483]:
pipe.fit_transform(X_prod)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
892,1.0,0.452723,0.0,1.0,0.0,0.0
893,1.0,0.617566,0.0,0.0,1.0,1.0
894,0.5,0.815377,0.0,1.0,0.0,0.0
895,1.0,0.353818,0.0,0.0,1.0,0.0
896,1.0,0.287881,0.0,0.0,1.0,1.0
...,...,...,...,...,...,...
1305,1.0,0.396975,0.0,0.0,1.0,0.0
1306,0.0,0.512066,1.0,0.0,0.0,0.0
1307,1.0,0.505473,0.0,0.0,1.0,0.0
1308,1.0,0.396975,0.0,0.0,1.0,0.0


In [484]:
X_prod_t=pipe.fit_transform(X_prod)

In [485]:
X_prod_t.head(1)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
892,1.0,0.452723,0.0,1.0,0.0,0.0


In [494]:
#Recordamos, se puede poner el índice, si ponemos 0 y 1 se hace para más de una columna [0,1]
ct_impute = ColumnTransformer(
    transformers = [
        ("imputer_mode",SimpleImputer(strategy="most_frequent"),["PCLASS"]),
        ("imputer_mean",SimpleImputer(strategy="mean"),["AGE"]),
        ("imputer_median",SimpleImputer(strategy="median"),["SIBSP"]),
        ("imputer_constant_UNKNOWN",SimpleImputer(strategy="constant",fill_value="UNKNOWN"),["EMBARKED"]),
    ],
    remainder="passthrough"
)
ct_prepo = ColumnTransformer(
    transformers = [
        ("scaling",MinMaxScaler(),[0,1]),
        ("ohe",OneHotEncoder(sparse_output=False),["imputer_constant_UNKNOWN__EMBARKED"])

    ],
    remainder="passthrough"
)

In [498]:
#podmos mirar el nombre de las columanq ue saldrá de la primera trasnformación
ct_impute.fit_transform(X).head(1)

Unnamed: 0_level_0,imputer_mode__PCLASS,imputer_mean__AGE,imputer_median__SIBSP,imputer_constant_UNKNOWN__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,22.0,1.0,S


In [499]:
Xt = ct_impute.fit_transform(X)

In [501]:
ct_prepo.fit_transform(Xt).head()

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,1.0,0.271174,0.0,0.0,1.0,0.0,1.0
2,0.0,0.472229,1.0,0.0,0.0,0.0,1.0
3,1.0,0.321438,0.0,0.0,1.0,0.0,0.0
4,0.0,0.434531,0.0,0.0,1.0,0.0,1.0
5,1.0,0.434531,0.0,0.0,1.0,0.0,0.0


In [532]:
# Vamos a definir una pipeline que se alimente de los dos columns transformers anteriores
pipe = Pipeline(
    steps = [
        ("impute", ct_impute),
        ("prepo",ct_prepo),
    ]
)

In [533]:
pipe

In [534]:
Xt = pipe.fit_transform(X)

In [535]:
X_prod_t = pipe.transform(X_prod)

In [536]:
X_prod_t

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0
895,0.827377,-0.207709,0.0,0.0,1.0,0.0,0.0
896,0.827377,-0.592481,0.0,0.0,1.0,0.0,1.0
...,...,...,...,...,...,...,...
1305,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0
1306,-1.566107,0.715743,1.0,0.0,0.0,0.0,0.0
1307,0.827377,0.677266,0.0,0.0,1.0,0.0,0.0
1308,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0


In [537]:
#podemos añadirle el modelo

# Vamos a definir una pipeline que se alimente de los dos columns transformers anteriores
pipe = Pipeline(
    steps = [
        ("impute", ct_impute),
        ("prepo",ct_prepo),
        ("model",DecisionTreeClassifier(max_depth=2))
    ]
)


In [None]:
#El modelo no tiene método de transfomer además requerirá del target, lo que si tiene es fit

In [538]:
#Entrenamos el modelo (aprende)
pipe.fit(X,y)

In [539]:
#como ya ha sido fiteado pordemos hacer este transform del dataset de producción
pipe[:2].transform(X_prod).head(3)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0


In [540]:
#Y ahora podemos hacer el predict del train
pipe.predict(X)

array([0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0,
       1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1,
       0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0,

In [541]:
#lo hacemo también para producción de producción
pipe.predict(X_prod)

array([0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1,
       1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0,
       1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0,

In [542]:
from sklearn.linear_model import LogisticRegression

In [543]:
# con esto podemos iterar rápido, cambiamo el scaling y el model

ct_prepo = ColumnTransformer(
    transformers = [
        ("scaling",StandardScaler(),[0,1]),
        ("ohe",OneHotEncoder(sparse_output=False),["imputer_constant_UNKNOWN__EMBARKED"])

    ],
    remainder="passthrough"
)

pipe = Pipeline(
    steps = [
        ("impute", ct_impute),
        ("prepo",ct_prepo),
        ("model",LogisticRegression())
    ]
)


In [544]:
pipe.fit(X,y)

In [545]:
pipe[:2].transform(X_prod).head(3)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0


In [546]:
pipe.predict(X)

array([0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0,

In [547]:
pipe.predict(X_prod)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,

In [549]:
#funciones personalizadas
X_prod_t

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP,SumaPCLASS_AGE
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0,1.196826
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0,2.158755
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0,2.116329
895,0.827377,-0.207709,0.0,0.0,1.0,0.0,0.0,0.619668
896,0.827377,-0.592481,0.0,0.0,1.0,0.0,1.0,0.234897
...,...,...,...,...,...,...,...,...
1305,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0,0.827377
1306,-1.566107,0.715743,1.0,0.0,0.0,0.0,0.0,-0.850364
1307,0.827377,0.677266,0.0,0.0,1.0,0.0,0.0,1.504643
1308,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0,0.827377


In [548]:
X_prod_t["SumaPCLASS_AGE"] = X_prod_t["scaling__imputer_mode__PCLASS"]+X_prod_t["scaling__imputer_mean__AGE"]

In [550]:
def custom_feature_eng(X):
  X["SumaPCLASS_AGE"] = X["scaling__imputer_mode__PCLASS"]+X["scaling__imputer_mean__AGE"]
  return X

In [None]:
from sklearn.pipeline import FunctionTransformer

In [551]:
#Creramos el transformer
CustomFE = FunctionTransformer(func=custom_feature_eng)

In [552]:
#En el fit no aprende nada, solo aplicará el transform
CustomFE.fit_transform(X_prod_t)

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP,SumaPCLASS_AGE
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0,1.196826
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0,2.158755
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0,2.116329
895,0.827377,-0.207709,0.0,0.0,1.0,0.0,0.0,0.619668
896,0.827377,-0.592481,0.0,0.0,1.0,0.0,1.0,0.234897
...,...,...,...,...,...,...,...,...
1305,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0,0.827377
1306,-1.566107,0.715743,1.0,0.0,0.0,0.0,0.0,-0.850364
1307,0.827377,0.677266,0.0,0.0,1.0,0.0,0.0,1.504643
1308,0.827377,0.000000,0.0,0.0,1.0,0.0,0.0,0.827377


In [558]:
#Le podemos añadir el modelo
pipe = Pipeline(
    steps = [
        ("impute", ct_impute),
        ("prepo",ct_prepo),
        ("custom_fe",CustomFE),
        ("model",LogisticRegression())
    ]
)

In [561]:
pipe

In [562]:
pipe.fit(X,y)

In [563]:
pipe[:3].transform(X_prod).head()

Unnamed: 0_level_0,scaling__imputer_mode__PCLASS,scaling__imputer_mean__AGE,ohe__imputer_constant_UNKNOWN__EMBARKED_C,ohe__imputer_constant_UNKNOWN__EMBARKED_Q,ohe__imputer_constant_UNKNOWN__EMBARKED_S,ohe__imputer_constant_UNKNOWN__EMBARKED_UNKNOWN,remainder__imputer_median__SIBSP,SumaPCLASS_AGE
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
892,0.827377,0.369449,0.0,1.0,0.0,0.0,0.0,1.196826
893,0.827377,1.331378,0.0,0.0,1.0,0.0,1.0,2.158755
894,-0.369365,2.485693,0.0,1.0,0.0,0.0,0.0,2.116329
895,0.827377,-0.207709,0.0,0.0,1.0,0.0,0.0,0.619668
896,0.827377,-0.592481,0.0,0.0,1.0,0.0,1.0,0.234897


In [564]:
pipe.predict(X)

array([0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0,

<a id='pipeline'></a>
### sklearn Pipeline (CORE IDEA)
[Volver al índice](#index)<br>

El parámetro clave del Pipeline es **steps.**

Dentro de los **steps**, debemos pasar tuplas y cada tupla debe tener 2 parámetros.

### ("nombre_del_paso", Transformer())

>**nombre_del_paso**: que sea un string

>**Transformer**: cualquier instancia de un sklearn Transformer. Por este motivo llamamos StandardScaler() con el paréntesis.

**El funcionamiento del Pipeline es idéntico a un Transformer.**

Cuando llamo el método de fit: el pipeline pasa el dataset a cada uno de los Transformers que hay dentro y estos a su vez llaman fit y aprender diferentes estadísticos sobre el dataset.

Posteriormente, cuando llamo el método de transform, el pipeline pasa el dataset a cada uno de los Transformers y estos llaman el transform y se modifica nuestro dataset con lo aprendido en el fit.

<a id='column_transformer'></a>
### ColumnTransformer (CORE IDEA)
[Volver al índice](#index)<br>

En los ejemplos anteriores, vimos como funcionan los **sklearn Transformers y los Pipelines.**

Básicamente los Pipelines nos permiten concatencar varios pasos/transformaciones de nuestro dataset.

La idea consiste en: entra un dataset a nuestro pipeline y todos los pasos del pipelines son Transformers. Esto permite que en cada uno de los pasos, se llame al método de fit y transform de cada Transformer.

Cuando nuestro dataset ha viajado por todo el Pipeline, conseguimos un dataset Transformado
(imputado, escalado etc).

### Una cuestión pendiente que nos quedó por contestar era: ¿como podemos hacer un tratamiento específico en función de las columnas?

### Por ejemplo: imputar en 1 columna la media y en otra la mediana. O por ejemplo hacer un StandardScaler de las númericas y un OneHotEnconder las categóricas.

Para esto vamos a necesitar al primo hermano del Pipeline: **ColumnTransformer**.

### La regla de oro para prevenir el data leakage es: fitear nuestros transformers sobre el dataset de train
### y utilizar los valores aprendidos para transformar el dataset de test/producción.

---

# --------------------------- MUY IMPORTANTE ---------------------------
# ------------------------------------------------------------------------------

## FIT_TRANSFORM SOBRE X_TRAIN Y TRANSFORM SOBRE X_TEST/X_PROD

# ------------------------------------------------------------------------------

# ----------NUNCA LLAMAMOS FIT SOBRE X_TEST/X_PROD----------

---

### Si vuelvo a llamar fit al dataset de test/producción, estoy haciendo trampa porque mirando y utilizando información que no tenía disponible en el momento del train.

<a id='practice'></a>
### Ejercicio Práctico
[Volver al índice](#index)<br>

In [596]:
TRAIN_PATH = os.path.join(DATA_PATH, "pd_sklearn_data.csv")
PRODUCTION_PATH = os.path.join(DATA_PATH, "pd_sklearn_prod.csv")

TARGET = "SURVIVED"
INDEX = "PASSENGERID"

TRAIN_COLUMNS = ['PCLASS', 'SEX', 'AGE', 'SIBSP', 'EMBARKED', 'PARCH', 'FARE', 'NAME']

X_practice, y_practice, X_prod_practice = DataLoader(
    train_path = TRAIN_PATH,
    test_path = PRODUCTION_PATH,
    train_columns = TRAIN_COLUMNS,
    target = TARGET,
    index = INDEX
).load_data()

In [597]:
report_practice = DataFrameReporter(
    pd.concat([X_practice, y_practice], axis = 1), X_prod_practice, TARGET
).get_reports()

In [598]:
X_practice.isnull().sum()

PCLASS        0
SEX           0
AGE         177
SIBSP         0
EMBARKED      2
PARCH         0
FARE          0
NAME          0
dtype: int64

In [599]:
X_practice.head(10)

Unnamed: 0_level_0,PCLASS,SEX,AGE,SIBSP,EMBARKED,PARCH,FARE,NAME
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,3,male,22.0,1,S,0,7.25,"Braund, Mr. Owen Harris"
2,1,female,38.0,1,C,0,71.2833,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,3,female,26.0,0,S,0,7.925,"Heikkinen, Miss. Laina"
4,1,female,35.0,1,S,0,53.1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,3,male,35.0,0,S,0,8.05,"Allen, Mr. William Henry"
6,3,male,,0,Q,0,8.4583,"Moran, Mr. James"
7,1,male,54.0,0,S,0,51.8625,"McCarthy, Mr. Timothy J"
8,3,male,2.0,3,S,1,21.075,"Palsson, Master. Gosta Leonard"
9,3,female,27.0,0,S,2,11.1333,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
10,2,female,14.0,1,C,0,30.0708,"Nasser, Mrs. Nicholas (Adele Achem)"


In [600]:
y_practice

PASSENGERID
1      0
2      1
3      1
4      1
5      0
      ..
887    0
888    1
889    0
890    1
891    0
Name: SURVIVED, Length: 891, dtype: int64

In [601]:
report_practice

Unnamed: 0,Dtypes,Shape,Absolute_nulls,Relative_nulls,count,mean,std,min,25%,50%,...,count.1,mean.1,std.1,min.1,25%.1,50%.1,75%,max,Unique_category,Origin
PCLASS,int64,891,0,0.0,891.0,2.308642,0.836071,1.0,2.0,3.0,...,418.0,2.26555,0.841838,1.0,1.0,3.0,3.0,3.0,,Prod
SIBSP,int64,891,0,0.0,891.0,0.523008,1.102743,0.0,0.0,0.0,...,418.0,0.447368,0.89676,0.0,0.0,0.0,1.0,8.0,,Prod
PARCH,int64,891,0,0.0,891.0,0.381594,0.806057,0.0,0.0,0.0,...,418.0,0.392344,0.981429,0.0,0.0,0.0,0.0,9.0,,Prod
AGE,float64,891,177,19.9,714.0,29.699118,14.526497,0.42,20.125,28.0,...,332.0,30.27259,14.181209,0.17,21.0,27.0,39.0,76.0,,Prod
FARE,float64,891,0,0.0,891.0,32.204208,49.693429,0.0,7.9104,14.4542,...,417.0,35.627188,55.907576,0.0,7.8958,14.4542,31.5,512.3292,,Prod
SEX,object,891,0,0.0,,,,,,,...,,,,,,,,,2.0,Prod
EMBARKED,object,891,2,0.2,,,,,,,...,,,,,,,,,3.0,Prod
NAME,object,891,0,0.0,,,,,,,...,,,,,,,,,418.0,Prod


In [602]:
ct_imputer = ColumnTransformer(
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP"])

    ],
    remainder = "drop"
)
ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

0.6711560044893379


In [603]:
ct_imputer = ColumnTransformer(
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"])

    ],
    remainder = "drop"
)
ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

0.6722783389450057


In [604]:
#Le añadimos la FARE
ct_imputer = ColumnTransformer(
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP","FARE"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"])

    ],
    remainder = "drop"
)
ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

0.7104377104377104


In [605]:
#cuando va a hacer la presiccoón se encuntra un caracter (male) que no conoce y casca, tenemos que añadir un apso intermdio, como sabremo el nombre de la columna?
ct_imputer = ColumnTransformer(
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP","FARE"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"]),
        ("impute_constant",SimpleImputer(strategy="constant", fill_value="female"),["SEX"])
    ],
    remainder = "drop"
)
ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

ValueError: could not convert string to float: 'male'

In [606]:
#se encuentra una categórica le modelo no puede haer nada, hayq ue procesarlo, vemos como se llama la columna y hacemo otro column transformer posterior
pipe[:1].fit_transform(X_practice)

Unnamed: 0_level_0,impute_mean__PCLASS,impute_mean__SIBSP,impute_mean__FARE,impute_median__PARCH,impute_median__AGE,impute_constant__SEX
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,3.0,1.0,7.2500,0.0,22.0,male
2,1.0,1.0,71.2833,0.0,38.0,female
3,3.0,0.0,7.9250,0.0,26.0,female
4,1.0,1.0,53.1000,0.0,35.0,female
5,3.0,0.0,8.0500,0.0,35.0,male
...,...,...,...,...,...,...
887,2.0,0.0,13.0000,0.0,27.0,male
888,1.0,0.0,30.0000,0.0,19.0,female
889,3.0,1.0,23.4500,2.0,28.0,female
890,1.0,0.0,30.0000,0.0,26.0,male


In [608]:
ct_imputer = ColumnTransformer(
    #Relleno de nulos
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP","FARE"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"]),
        ("impute_constant",SimpleImputer(strategy="constant", fill_value="female"),["SEX"])

    ],
    remainder = "drop"
)

#codificación categóricas
ct_fe = ColumnTransformer(
    transformers = [
        ("ohe",OneHotEncoder(sparse_output=False), ["impute_constant__SEX"])
    ],
    remainder="passthrough"

)

ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("feature_eng",ct_fe),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

0.7957351290684624


In [609]:
#Añadimos embarked y al ser categprica volvera a cascar el modelo
ct_imputer = ColumnTransformer(
    #Relleno de nulos
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP","FARE"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"]),
        ("impute_constant",SimpleImputer(strategy="constant", fill_value="female"),["SEX"]),
        ("impute_most_frequent",SimpleImputer(strategy="most_frequent"), ["EMBARKED"])

    ],
    remainder = "drop"
)

#codificación categóricas
ct_fe = ColumnTransformer(
    transformers = [
        ("ohe",OneHotEncoder(sparse_output=False), ["impute_constant__SEX"])
    ],
    remainder="passthrough"

)

ct_imputer.fit_transform(X_practice).head(1)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("feature_eng",ct_fe),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

ValueError: could not convert string to float: 'S'

In [610]:
pipe[:2].fit_transform(X_practice)

Unnamed: 0_level_0,ohe__impute_constant__SEX_female,ohe__impute_constant__SEX_male,remainder__impute_mean__PCLASS,remainder__impute_mean__SIBSP,remainder__impute_mean__FARE,remainder__impute_median__PARCH,remainder__impute_median__AGE,remainder__impute_most_frequent__EMBARKED
PASSENGERID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,0.0,1.0,3.0,1.0,7.2500,0.0,22.0,S
2,1.0,0.0,1.0,1.0,71.2833,0.0,38.0,C
3,1.0,0.0,3.0,0.0,7.9250,0.0,26.0,S
4,1.0,0.0,1.0,1.0,53.1000,0.0,35.0,S
5,0.0,1.0,3.0,0.0,8.0500,0.0,35.0,S
...,...,...,...,...,...,...,...,...
887,0.0,1.0,2.0,0.0,13.0000,0.0,27.0,S
888,1.0,0.0,1.0,0.0,30.0000,0.0,19.0,S
889,1.0,0.0,3.0,1.0,23.4500,2.0,28.0,S
890,0.0,1.0,1.0,0.0,30.0000,0.0,26.0,C


In [611]:
X_=pipe[:2].fit_transform(X_practice)

In [614]:
X_["remainder__impute_most_frequent__EMBARKED"].value_counts()

S    646
C    168
Q     77
Name: remainder__impute_most_frequent__EMBARKED, dtype: int64

In [616]:
#Aplicamos ordinalencoder
OrdinalEncoder().fit_transform(X_[["remainder__impute_most_frequent__EMBARKED"]]).value_counts()

remainder__impute_most_frequent__EMBARKED
2.0                                          646
0.0                                          168
1.0                                           77
dtype: int64

In [580]:
from sklearn.pipeline import FunctionTransformer

ct_imputer = ColumnTransformer(
    transformers = [
        ("impute_mean",SimpleImputer(strategy="mean"), ["PCLASS","SIBSP","FARE"]),
        ("impute_median",SimpleImputer(strategy="median"), ["PARCH","AGE"]),
        ("impute_constant",SimpleImputer(strategy="constant", fill_value="female"),["SEX"]),
        ("impute_most_frequent",SimpleImputer(strategy="most_frequent"), ["EMBARKED"]),
        ("impute_na", SimpleImputer(strategy="constant", fill_value="NA"), ["NAME"])

    ],
    remainder = "drop"
)



ct_fe = ColumnTransformer(
    transformers = [
        ("ohe",OneHotEncoder(sparse_output=False), ["impute_constant__SEX"]),
        ("oe",OrdinalEncoder(), ["impute_most_frequent__EMBARKED"])
    ],
    remainder="passthrough"

)

def numerocaracteres(df):
  df["NAMELEN"]=df["remainder__impute_na_NAME"].apply(len)
  df.drop("remainder_impute_na__NAME", axis=1, inplace=True)
  return df


CustomFE = FunctionTransformer(numerocaracteres)

pipe =Pipeline(
    steps = [
        ("imputer",ct_imputer),
        ("feature_eng",ct_fe),
        ("name_feature_eng", CustomFE),
        ("model", DecisionTreeClassifier(max_depth=2))
    ]
              )


In [581]:
pipe.fit(X_practice,y_practice)
y_train_pred = pipe.predict(X_practice)
accuracy = accuracy_score(y_true=y_practice,y_pred=y_train_pred)
print(accuracy)

KeyError: 'remainder__impute_na_NAME'

In [None]:
random_name = X_practice["NAME"].sample(1).iloc[0]
print(random_name)
print(random_name.split(",")[1].split(". ")[0])

In [None]:
TITLE_MAPPING_DICT = {
    "Miss": "Miss",
    "Mrs":"Miss",
    "Mlle": "Miss",
    "Ms":"Miss",
    "Lady":"Miss",
    "Mme":"Miss",

    "Mr":"Mr",
    "Master":"Mr",
    "Major":"Mr"
}

In [None]:
def tittle_mapping_function(title):
  mapped_title= TITLE_MAPPING_DICT[title] if title in TITLE_MAPPING_DICT.keys() else title
  return mapped_title

In [None]:
(
      X_practice["NAME"]
      .apply(lambda name: name.split(", ")[1].split(". ")[0])
      .value_counts()
)

<a id='conclusion'></a>
### Conclusión
[Volver al índice](#index)<br>

A lo largo de este notebook hemos aprendido nuevas técnicas y algunas de las best practices de **pandas** y **sklearn**.

### Siempre debemos intentar escribir un código legible, limpio y procurar reutilizar los módulos o paquetes ya disponibles (para no reinventar la rueda).

Tanto **pandas como sklearn** ofrecen mucha flexibilidad así como un montón de funcionalidades para nuestro día a día.

La utilización eficiente de pandas groupby puede ayudar mucho a la hora de hacer un análisis más rápido y conciso.

A su vez sklearn con sus Transformers, Pipelines y Cross Validation nos da herramientas muy potentes para entrenar nuestros modelos de ML.

Recomendamos a los alumnos que los vayan incorporando en su kit diario cuanto antes.

<a id='referencias'></a>
### Referencias y lecturas recomendables
[Volver al índice](#index)<br>

A continuación dejamos algunos links útiles para profundizar en algunos de los conceptos que hemos visto en el notebook:

[Sitio oficial de pandas](https://pandas.pydata.org/)

[Apply vs Transform en pandas groupby](https://stackoverflow.com/questions/27517425/apply-vs-transform-on-a-group-object/47143056#47143056)

[Sitio oficial de sklearn](https://scikit-learn.org/stable/)

[Diseño de sklearn](https://arxiv.org/pdf/1309.0238.pdf)

[Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning (MUY RECOMENDABLE)
](https://arxiv.org/pdf/1811.12808.pdf)

[Diferentes estrategias de Cross Validation](https://scikit-learn.org/stable/modules/cross_validation.html)

[Duck Typing](https://en.wikipedia.org/wiki/Duck_typing)