In [1]:
"""
Autor: Esvin Molina  Guevara.
Clase: Statistical Learning.
Tarea: 4 
"""

import pandas as pd
# funciones generales
import modules as mm
# transformadores
import preprocessors as pp
from sklearn.pipeline import Pipeline

def main():
    dataset = pd.read_csv("train_HP.csv")
    
    print('---------- Dataset original ----------')
    print(dataset)

    NUMERIC_COLS, CATEGORICAL_COLS, DATE_COLS = mm.getDtypes(dataset)
    
    
    # vemos que columnas numericas tienen NAs para hacer la imputacion 
    numeric_cols_na = mm.getNumericColNans(dataset)    
    
    # vemos que columnas categoricas tienen NAs para hacer la imputacion 
    cat_cols_na = mm.getCategoricalColNans(dataset)    
  
    print('\n---------- Antes de la Imputacion ----------')
    
    # obtenemos la cantidad de NAs de cada una de las columnas numericas que tienen NAs
    # antes de la imputacion.
    num_cols_na_tot = mm.getColNansDict(dataset,numeric_cols_na)
    print('\nColumnas numericas con NAs: ',num_cols_na_tot)

    # obtenemos las columnas para aplicar encoding
    cat_cols = mm.getCategoricalCols(dataset)
    print('\nColumnas categoricas para hacer encoding: ',cat_cols)
    
    # obtenemos la cantidad de NAs de cada una de las columnas categoricas que tienen NAs
    # antes de la imputacion.
    cat_cols_na_tot = mm.getColNansDict(dataset,cat_cols_na)
    print('\nColumnas categoricas con NAs: ',cat_cols_na_tot)
    
    # El tratamiento de outliers se hace sobre las columnas numericas
    print('\nEl tratamiento de outliers se hara sobre todas las columnas numericas: ',NUMERIC_COLS)
    
    
    
    # Definimos los pasos del pipeline 
    my_feature_engineering_pipeline = Pipeline(steps = [
        # imputamos la media en las variables numericas que tienen NAs
        ('numeric_variable_imputer',
            pp.NumericalImputerOperator(imputerType = 'mean', varNames = numeric_cols_na)),

        # hacemos encoding de las variables categorias utilizando el tipo de mapeo de frecuencia
        ('categorical_variables_codification',
            pp.CategoricalEncoderOperator(varNames = CATEGORICAL_COLS, map_type='freq')),
        
        # imputamos la media en las variables categoricas (despues de aplicarles encoding) que tienen NAs
        ('categorical_variable_imputer',
            pp.NumericalImputerOperator(imputerType = 'mean', varNames = cat_cols_na)),
        
        ('outliers_variable_treatment',
            pp.OutliersTreatmentOperator(varNames = NUMERIC_COLS, factor = 1.75))
    ])

    # Ejecutamos el pipeline sobre la data
    procesed_data = my_feature_engineering_pipeline.fit_transform(dataset)
    
    # mostramos la data imputada.
    #print(procesed_data)
    
    print('\n---------- Despues  de la Imputacion ----------')
    
    num_cols_na_tot = mm.getColNansDict(procesed_data,numeric_cols_na)
    print('\nColumnas numericas con NAs: ',num_cols_na_tot)

    cat_cols = mm.getCategoricalCols(procesed_data)
    print('Columnas categoricas: ',cat_cols)
    
    cat_cols_na_tot = mm.getColNansDict(procesed_data,cat_cols_na_tot)
    print('\nColumnas categoricas con NAs: ',cat_cols_na_tot)    

    print('\n---------- Dataset resultante ----------')
    print(procesed_data)
    print("\nArchivo de Salida: DatosProcesados.csv")
    procesed_data.to_csv("DatosProcesados.csv")
main()


---------- Dataset original ----------
        Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0        1          60       RL         65.0     8450   Pave   NaN      Reg   
1        2          20       RL         80.0     9600   Pave   NaN      Reg   
2        3          60       RL         68.0    11250   Pave   NaN      IR1   
3        4          70       RL         60.0     9550   Pave   NaN      IR1   
4        5          60       RL         84.0    14260   Pave   NaN      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1455  1456          60       RL         62.0     7917   Pave   NaN      Reg   
1456  1457          20       RL         85.0    13175   Pave   NaN      Reg   
1457  1458          70       RL         66.0     9042   Pave   NaN      Reg   
1458  1459          20       RL         68.0     9717   Pave   NaN      Reg   
1459  1460          20       RL         75.0     9937   Pave   NaN      Reg   

     LandCon