# Feature Engineering

In [14]:
import pandas as pd
from datetime import datetime

from sklearn.preprocessing import LabelEncoder
import category_encoders as ce

In [15]:
import nbimporter
from pre_processing import load_train

### Funciones auxiliares

In [16]:
def corr(df):
    return df.corr()['precio'].sort_values(ascending=False)[1:]

In [17]:
def aniomes(anio, mes):
    if len(str(mes)) == 1:
        return int(str(anio)+'0'+str(mes))
    return int(str(anio)+str(mes))

In [18]:
def contiene_indicador_jardin(descripcion):
    indicadores = ["jardin","patio"]
    for indicador in indicadores:
        if indicador in str(descripcion).lower():
            return 1
    return 0

In [19]:
def contiene_vigilancia(descripcion):
    indicadores = ["vigilancia", "seguridad"]
    for indicador in indicadores:
        if indicador in str(descripcion).lower():
            return 1
    return 0

# Desarollo

In [20]:
df = load_train()

In [21]:
df.head(2)

Unnamed: 0_level_0,titulo,descripcion,direccion,tipodepropiedad,ciudad,provincia,antiguedad,habitaciones,garages,banos,metroscubiertos,metrostotales,idzona,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
254099,depto. tipo a-402,"depto. interior de 80.15m2, consta de sala com...",Avenida Division del Norte 2005,Apartamento,Benito Juárez,Distrito Federal,,2.0,1.0,2.0,80.0,80.0,23533.0,2015-08-23,0,0,0,0,0,2273000.0
53461,condominio horizontal en venta,"<p>entre sonora y guerrero, atr&aacute;s del h...",AV. MEXICO,Casa en condominio,La Magdalena Contreras,Distrito Federal,10.0,3.0,2.0,2.0,268.0,180.0,24514.0,2013-06-28,0,0,0,1,1,3600000.0


In [22]:
features = {}
features['originales'] = df.columns.values

### Variables categoricas. Encoding.

In [23]:
var_categoricas = ['tipodepropiedad', 'ciudad', 'provincia']

In [24]:
# label encoding
encoder = LabelEncoder()
encoded = df[var_categoricas].apply(encoder.fit_transform).add_suffix("_labelencoded")
encoded.to_csv('./features/categoricas_labelencoded.csv')
features['categoricas_labelencoded'] = encoded.columns.values

In [25]:
# onehot 

# para tipodepropiedad
encoder = ce.OneHotEncoder()
encoded = encoder.fit_transform(df['tipodepropiedad']).add_suffix("_ohencoded")
encoded.to_csv('./features/tipodepropiedad_ohencoded.csv')
features['tipodepropiedad_ohencoded'] = encoded.columns.values

# para provincias
encoder = ce.OneHotEncoder()
encoded = encoder.fit_transform(df['provincia']).add_suffix("_ohencoded")
encoded.to_csv('./features/provincia_ohencoded.csv')
features['provincia_ohencoded'] = encoded.columns.values

# para ciudades
encoder = ce.OneHotEncoder()
encoded = encoder.fit_transform(df['ciudad']).add_suffix("_ohencoded")
encoded.to_csv('./features/ciudad_ohencoded.csv')
features['ciudad_ohencoded'] = encoded.columns.values

### Generacion de nuevas features

In [26]:
df.columns

Index(['titulo', 'descripcion', 'direccion', 'tipodepropiedad', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'fecha', 'gimnasio',
       'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

##### FECHA

In [27]:
df_fecha = df[['fecha', 'precio', 'metroscubiertos']].copy()

df_fecha['anio'] = df_fecha['fecha'].dt.year
df_fecha['mes'] = df_fecha['fecha'].dt.month
df_fecha['dia'] = df_fecha['fecha'].dt.day
df_fecha['timestamp'] = df_fecha['fecha'].apply(lambda x: datetime.timestamp(x))
df_fecha['aniomes'] = df_fecha.apply(lambda row: aniomes(row['anio'], row['mes']), axis=1)

In [28]:
# calculamos el precio promedio del metro cubierto por aniomes
precio_mtcubierto_aniomes = df_fecha.groupby(['aniomes'])['metroscubiertos', 'precio'].agg(sum).apply(lambda x: x['precio']/x['metroscubiertos'], axis=1)
df_fecha['precio_promedio_metrocubierto_aniomes'] = df_fecha['aniomes'].apply(lambda x: precio_mtcubierto_aniomes[x])

In [63]:
# calculamos el precio promedio del metro cubierto por mes
precio_mtcubierto_mes = df_fecha.groupby(['mes'])['metroscubiertos', 'precio'].agg(sum).apply(lambda x: x['precio']/x['metroscubiertos'], axis=1)
df_fecha['precio_promedio_metrocubierto_mes'] = df_fecha['mes'].apply(lambda x: precio_mtcubierto_mes[x])

In [64]:
df_fecha = df_fecha.drop(['precio', 'metroscubiertos'], axis=1)
pasar_a_enteros = ['precio_promedio_metrocubierto_mes', 'precio_promedio_metrocubierto_aniomes']
df_fecha[pasar_a_enteros] = df_fecha[pasar_a_enteros].astype('uint16')

In [65]:
df_fecha.to_csv('./features/fecha.csv')
features['fecha'] = df_fecha.columns.values

In [66]:
encoder = ce.OneHotEncoder()
encoded = encoder.fit_transform(df_fecha['aniomes'].astype('category')).add_suffix("_ohencoded")
encoded.to_csv('./features/aniomes_ohencoded.csv')
features['aniomes_ohencoded'] = encoded.columns.values

In [67]:
df_fecha.head()

Unnamed: 0_level_0,fecha,anio,mes,dia,timestamp,aniomes,precio_promedio_metrocubierto_aniomes,precio_promedio_metrocubierto_mes
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
254099,2015-08-23,2015,8,23,1440299000.0,201508,16183,15363
53461,2013-06-28,2013,6,28,1372388000.0,201306,14297,15521
247984,2015-10-17,2015,10,17,1445051000.0,201510,15996,15547
209067,2012-03-09,2012,3,9,1331262000.0,201203,13039,15423
185997,2016-06-07,2016,6,7,1465268000.0,201606,16142,15521


##### DESCRIPCION

In [29]:
df.columns

Index(['titulo', 'descripcion', 'direccion', 'tipodepropiedad', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'fecha', 'gimnasio',
       'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

In [30]:
df_descripcion = df[['descripcion']].copy()

df_descripcion["jardin"] = df_descripcion["descripcion"].map(contiene_indicador_jardin)
df_descripcion["vigilancia"] = df_descripcion["descripcion"].map(contiene_vigilancia)

In [31]:
df_descripcion.head(2)

Unnamed: 0_level_0,descripcion,jardin,vigilancia
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
254099,"depto. interior de 80.15m2, consta de sala com...",0,0
53461,"<p>entre sonora y guerrero, atr&aacute;s del h...",0,0


In [32]:
df_descripcion.drop('descripcion', inplace=True, axis=1)
df_descripcion.to_csv('./features/descripcion.csv')
features['descripcion'] = df_descripcion.columns.values

Promedio y desvio estandar de superficie cubierta en la provincia

In [33]:
df_superficie_cubierta = df[['metroscubiertos','ciudad']].copy().reset_index()

In [34]:
avg_metroscubiertos = df_superficie_cubierta.groupby('ciudad').agg({"metroscubiertos":["mean","std"]}).reset_index()
avg_metroscubiertos.columns = ['ciudad','metroscubiertos_mean','metroscubiertos_std']

In [35]:
df_superficie_cubierta_mean_std = pd.merge(df_superficie_cubierta,avg_metroscubiertos,how='inner',on='ciudad').set_index('id')

In [36]:
df_superficie_cubierta_mean_std = df_superficie_cubierta_mean_std[["metroscubiertos_mean","metroscubiertos_std"]]

In [37]:
df_superficie_cubierta_mean_std.to_csv('./features/superficie_mean_std.csv')

In [38]:
def load_engineered_dataset():
    df = load_train()
    df = df[["centroscomercialescercanos","escuelascercanas","metroscubiertos","metrostotales","banos","antiguedad","habitaciones","garages","piscina","gimnasio","precio"]]
    
    #Agregado de anio-mes en one hot encoding
    df_aniomes_ohencoded = pd.read_csv("features/aniomes_ohencoded.csv", index_col='id')
    df = pd.merge(df,df_aniomes_ohencoded,how='left',left_index=True, right_index=True)
    
    #Agregado de provincia en one hot encoding
    df_provincia_ohencoded = pd.read_csv("features/provincia_ohencoded.csv", index_col='id')
    df = pd.merge(df,df_provincia_ohencoded,how='left',left_index=True, right_index=True)
    
    #Agregado de tipodepropiedad en one hot encoding
    df_tipo_ohencoded = pd.read_csv("features/tipodepropiedad_ohencoded.csv", index_col='id')
    df = pd.merge(df,df_tipo_ohencoded,how='left',left_index=True, right_index=True)
    
    #Agregado de ciudad en one hot encoding
    df_ciudad_ohencoded = pd.read_csv("features/ciudad_ohencoded.csv", index_col='id')
    df = pd.merge(df,df_ciudad_ohencoded,how='left',left_index=True, right_index=True)
    
    
    #Agregado de features obtenidos de la descripcion
    df_descripcion = pd.read_csv("features/descripcion.csv", index_col='id')
    df = pd.merge(df,df_descripcion,how='left',left_index=True, right_index=True)
    
        
    #Agregado de superficie mean y std por provincia
    df_datos_superficie = pd.read_csv("features/superficie_mean_std.csv", index_col='id')
    df = pd.merge(df,df_datos_superficie,how='left',left_index=True, right_index=True)

    
    df = df.reset_index()
    df.pop('id')
    
    return df

In [31]:
load_engineered_dataset()

Unnamed: 0,centroscomercialescercanos,escuelascercanas,metroscubiertos,metrostotales,banos,antiguedad,habitaciones,garages,piscina,gimnasio,...,ciudad_46_ohencoded,ciudad_47_ohencoded,ciudad_48_ohencoded,ciudad_49_ohencoded,ciudad_50_ohencoded,ciudad_51_ohencoded,jardin,vigilancia,metroscubiertos_mean,metroscubiertos_std
0,0,0,80.0,80.0,2.0,,2.0,1.0,0,0,...,0,0,0,0,0,0,0,0,126.665194,74.580317
1,1,1,268.0,180.0,2.0,10.0,3.0,2.0,0,0,...,0,0,0,0,0,0,0,0,235.751233,96.728660
2,0,0,144.0,166.0,2.0,5.0,3.0,2.0,0,0,...,0,0,0,0,0,0,1,1,154.885683,91.443648
3,1,1,63.0,67.0,1.0,1.0,2.0,1.0,0,0,...,0,0,0,0,0,0,0,1,154.885683,91.443648
4,0,0,95.0,95.0,1.0,10.0,2.0,1.0,0,0,...,0,0,0,0,0,1,0,0,182.015584,97.211357
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
239995,0,0,67.0,,1.0,0.0,2.0,2.0,0,0,...,0,0,0,0,0,0,1,1,154.885683,91.443648
239996,1,1,200.0,250.0,3.0,0.0,3.0,3.0,0,0,...,0,1,0,0,0,0,1,0,143.767504,81.549224
239997,0,0,138.0,138.0,2.0,20.0,2.0,1.0,0,0,...,0,0,0,0,0,0,0,1,126.665194,74.580317
239998,1,1,235.0,137.0,4.0,20.0,4.0,0.0,0,1,...,0,0,0,0,0,0,0,0,132.732015,94.140068
