Funciones utiles
Drop(): Para eliminar columnas
Dropna(axis, condicion): Para eliminar lineas (axis = 0) o columnas (axis = 1). Condicion: 'any' para las lineas que tienen al menos un valor nulo, 'all' para aquellos que tienen todos los valores nulos o subset para elegir una categoria (subset = ['age'] --> borra todos las lineas con valor nulo en edad)

Separar los datasets: uno de entrenamiento y uno de testeo.
- Métodos para separar:
    - Por proporción
    - Separación aleatoria
    - Separación en capas: el dataset es separado anteriormente según el valor de una variable, después cada una de esas categorías será separada según el indice deseado

- Para tratar los datos faltantes, hay varias estrategias:
    - Eliminar la columna señalada
    - Eliminar las lineas que contienen valores nulos
    - Reemplazar los valores faltantes con algún valor decidido anticipadamente

- Preparar los atributos numéricos:
    - Validacion de datos: semantica y estadisticamente
    - Feature engineering: crear nuevos datos a partir de aquellos ya existentes
    - Discretizacion: transformar un dato numerico en uno de categoría
    - Normalizacion: Volver a traer los datos en intervalos para compararlos mejor. Para algunos algoritmos, la normalizacion es un pre requisito.

- Preparar variables categóricas:
    - Validacion de datos: semantica y estadisticamente; todas las categorías tienen un significado y la repartición entre las categorías se parece a la realidad
    - Modificación de categorías:
        - Ordenar o reordenar las categorías
        - Modificar la lista de categorías
    - Cuantificación: Consiste en transformar una variable categórica en una numérica (los talles S/M/L/XL --> 36/38/40/42)

- Revisar los datos particulares como los textos y las fechas

- Automatizar la preparación:
    - Crear pipelines de tratamiento
    - Parámetros de operación y codigo de Pandas


Pipelines con Scikit-learn: Sucesión de etapas llamadas TRANSFORMER, encadenadas en el dataset.

Creación de un Transformer: Cada transformer posee al menos tres métodos:
- Init: Es el constructor del Transformer. Puede contener al menos tres parámetros que serán necesarios luego.
- fit: cuando el transformer es llamado sobre los datos de entrenamiento. Puede calcular los parámetros necesarios, almacenados en los atributos
- transform: cuando el transformer es llamado sobre los datos de testeo o los datos reales. Va a utilizar los datos calculados anteriormente, con fit, para aplicar las transformaciones correctas sobre los nuevos datos.

In [None]:
import pandas as pd
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline

class CustomMinMax(BaseEstimator, TransformerMixin):
    #Constructor
    def __init__(self):
        self.min_val = np.NaN
        self.max_val = np.NaN
    
    #Fit method: calculo de min y max    
    def fit(self, X, y=None):
        self.min_val = X.min()
        self.max_val = X.max()
        return self
    
    #Transform method: normalizacion de los datos
    def transform(self, X, y=None):
        X_scaled = (X - self.min_val) / (self.max_val - self.min_val)
        return X_scaled

Para utilizar los Transformers directamente implementados en Scikit-learn, se deben seguir tres etapas:
- Construir el pipeline indicandole todas las etapas a seguir, en orden, por medio de una tabla de tuplas (nombre, constructor). Se le pueden pasar parametros al constructor
- Calcular todas las variables necesarias llamando al metodo fit sobre el pipeline con el dataset de entrenamiento como parametro
- Aplicar el pipeline a los datos deseados 