In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

In [2]:
def filtrar_features(df, features=None, label=None):
    '''Dado un dataframe, un label y un arreglo de features, devuelve una copia del mismo
    con el label y los features especificados.'''
    if features is None:
        features = df.columns
        
    else:
        features = features.copy()
        features += [label]
    
    s = frozenset(features)
    return df[[f for f in df.columns if f in s]].copy()

In [3]:
def dividir_dataset(df, label, features=None, test_size=0.25):
    '''Dado un dataframe df y su label, filtra el mismo por el arreglo de features
    y divide el mismo en dos segun test_size para entrenar y testear un modelo. 
    Si features es None, entonces los dataframes resultantes tendran todas las features.
    Devuelve (df_train, df_test, label_train, label_test)
    '''
    
    df = filtrar_features(df, features, label)
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=1)
    
    y_train = df_train.pop(label)
    y_test = df_test.pop(label)
    x_train = df_train
    x_test = df_test
    
    return x_train, x_test, y_train, y_test

In [4]:
def dividir_df_testeo(df, test_size=0.25, random_state=None):
    '''Dado un dataframe df devuelve dos dataframes, uno para entrenar/validar y el otro para testear
    (df_train, df_eval, df_test, label_train, label_eval, label_test)
    '''
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=random_state)
        
    return df_train, df_test

In [5]:
def RMSLE(actual, pred):
    return (np.mean((np.log(actual + 1) - np.log(pred + 1)) ** 2)) **.5

In [6]:
def MAE(actual, pred):
    return mean_absolute_error(actual, pred)

In [7]:
def dolarizar_df(df, col_precio_in='precio', col_precio_out='precio'):
    '''Dado un df con columnas para la fecha, id y el precio, pasa el precio
    de los mismos a dolares, devolviendo el df.
    '''
    df = df.copy()
    df_dolares = pd.read_csv('data/cambio_dolar.csv')
    df['fecha'] = pd.to_datetime(df['fecha'])
    df_dolares['fecha'] = pd.to_datetime(df_dolares['fecha'])
    df_merge = pd.merge(df, df_dolares, on='fecha')
    assert len(df_merge.values) == len(df.values)
    
    df = df.sort_values('id')
    df_merge = df_merge.sort_values('id')
    
    df_merge[col_precio_out] = df_merge[col_precio_in] * df_merge['peso_a_dolar']
    df[col_precio_out] = df_merge[col_precio_out].values
    
    return df
    
def pesificar_df(df, col_precio_in='precio', col_precio_out='precio'):
    '''Dado un df con columnas para la fecha, id y el precio, pasa el precio
    de los mismos a dolares, devolviendo el df.
    '''
    df = df.copy()
    df_dolares = pd.read_csv('data/cambio_dolar.csv')
    df['fecha'] = pd.to_datetime(df['fecha'])
    df_dolares['fecha'] = pd.to_datetime(df_dolares['fecha'])
    df_merge = pd.merge(df, df_dolares, on='fecha')
    assert len(df_merge.values) == len(df.values)
    
    df = df.sort_values('id')
    df_merge = df_merge.sort_values('id')
    
    df_merge[col_precio_out] = df_merge[col_precio_in] / df_merge['peso_a_dolar']
    df[col_precio_out] = df_merge[col_precio_out].values
    
    return df

In [8]:
import pandas as pd
df_train = pd.read_csv('data/train.csv')
filtrar_features(df_train).columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')