In [66]:
# Importacion de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

%matplotlib inline

plt.style.use('default') # para graficos matplotlib
plt.rcParams['figure.figsize'] = (10, 8)

sns.set(style="whitegrid") # grid seaborn

# pd.options.display.float_format = '{:20,.0f}'.format # notacion output

# Acceso a set de datos

In [67]:
path = "data/"
df_props_full = pd.read_csv(path + "train.csv")
df_test = pd.read_csv(path + "test.csv")

In [68]:
df_props_full.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

In [69]:
df_test.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos'],
      dtype='object')

In [70]:
df_test.id.sort_values()

8801          0
44294         6
49829        11
44914        12
1308         16
          ...  
43359    299957
22122    299962
11225    299973
6151     299983
53128    299992
Name: id, Length: 60000, dtype: int64

In [71]:
df_props_full.id.sort_values()

73868          1
191491         2
126184         3
23027          4
228358         5
           ...  
218493    299995
153978    299996
43069     299997
137560    299998
27616     299999
Name: id, Length: 240000, dtype: int64

# Conversión de tipos

In [72]:
df_props_full['fecha'] = pd.to_datetime(df_props_full['fecha'])
df_test['fecha'] = pd.to_datetime(df_test['fecha'])

In [73]:
# Convierto todos los valores 1/0 a uint8
df_props_full['gimnasio'] = df_props_full['gimnasio'].astype('uint8')
df_props_full['usosmultiples'] = df_props_full['usosmultiples'].astype('uint8')
df_props_full['piscina'] = df_props_full['piscina'].astype('uint8')
df_props_full['escuelascercanas'] = df_props_full['escuelascercanas'].astype('uint8')
df_props_full['centroscomercialescercanos'] = df_props_full['centroscomercialescercanos'].astype('uint8')

df_test['gimnasio'] = df_test['gimnasio'].astype('uint8')
df_test['usosmultiples'] = df_test['usosmultiples'].astype('uint8')
df_test['piscina'] = df_test['piscina'].astype('uint8')
df_test['escuelascercanas'] = df_test['escuelascercanas'].astype('uint8')
df_test['centroscomercialescercanos'] = df_test['centroscomercialescercanos'].astype('uint8')

In [74]:
# Convierto los representables en uint8. Utilizo el tipo de pandas UInt8Dtype para evitar conflicto con NaN
df_props_full['antiguedad'] = df_props_full['antiguedad'].astype(pd.UInt8Dtype())
df_props_full['habitaciones'] = df_props_full['habitaciones'].astype(pd.UInt8Dtype())
df_props_full['garages'] = df_props_full['garages'].astype(pd.UInt8Dtype())
df_props_full['banos'] = df_props_full['banos'].astype(pd.UInt8Dtype())

df_test['antiguedad'] = df_test['antiguedad'].astype(pd.UInt8Dtype())
df_test['habitaciones'] = df_test['habitaciones'].astype(pd.UInt8Dtype())
df_test['garages'] = df_test['garages'].astype(pd.UInt8Dtype())
df_test['banos'] = df_test['banos'].astype(pd.UInt8Dtype())

In [75]:
# Convierto los representables en uint16. Utilizo el tipo de pandas UInt16Dtype para evitar conflicto con NaN
df_props_full['metroscubiertos'] = df_props_full['metroscubiertos'].astype(pd.UInt16Dtype())
df_props_full['metrostotales'] = df_props_full['metrostotales'].astype(pd.UInt16Dtype())

df_test['metroscubiertos'] = df_test['metroscubiertos'].astype(pd.UInt16Dtype())
df_test['metrostotales'] = df_test['metrostotales'].astype(pd.UInt16Dtype())

In [76]:
# Convierto los representables en uint32. Utilizo el tipo de pandas UInt32Dtype para evitar conflicto con NaN
df_props_full['id'] = df_props_full['id'].astype(pd.UInt32Dtype())
df_props_full['idzona'] = df_props_full['idzona'].astype(pd.UInt32Dtype())
# df_props_full['Precio_MEX'] = df_props_full['Precio_MEX'].astype(pd.UInt32Dtype())
# df_props_full['Precio_USD'] = df_props_full['Precio_USD'].astype(pd.UInt32Dtype())
df_props_full['precio'] = df_props_full['precio'].astype('float32')

df_test['id'] = df_test['id'].astype(pd.UInt32Dtype())
df_test['idzona'] = df_test['idzona'].astype(pd.UInt32Dtype())

# Habitaciones

Basado en información obtenida del TP1 elimino habitaciones con valores nulos

In [77]:
df_props_full.habitaciones.isna().value_counts()

False    217529
True      22471
Name: habitaciones, dtype: int64

In [78]:
df_props_full.habitaciones.value_counts()

3     121887
2      57808
4      25068
1       5069
5       4596
6       1669
7        539
8        398
10       316
9        179
Name: habitaciones, dtype: int64

In [79]:
features = df_props_full
len(features)

240000

In [80]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','habitaciones']).size().to_frame(), index='tipodepropiedad',columns=['habitaciones'])

Unnamed: 0_level_0,0,0,0,0,0,0,0,0,0,0
habitaciones,1,2,3,4,5,6,7,8,9,10
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Apartamento,2841.0,30040.0,22566.0,780.0,64.0,23.0,6.0,13.0,9.0,5.0
Bodega comercial,47.0,42.0,30.0,18.0,10.0,5.0,1.0,3.0,1.0,
Casa,1549.0,23789.0,84651.0,21714.0,4179.0,1458.0,458.0,298.0,120.0,163.0
Casa en condominio,186.0,3004.0,13608.0,2095.0,143.0,29.0,5.0,6.0,2.0,4.0
Casa uso de suelo,12.0,53.0,150.0,133.0,48.0,34.0,24.0,16.0,9.0,23.0
Departamento Compartido,8.0,61.0,62.0,2.0,,2.0,,,,2.0
Duplex,8.0,194.0,109.0,13.0,9.0,6.0,,1.0,,
Edificio,11.0,35.0,36.0,21.0,22.0,45.0,18.0,28.0,16.0,71.0
Hospedaje,,,,,,,1.0,,,
Huerta,,5.0,1.0,1.0,,,,,,


In [81]:
features = features.dropna(subset=['habitaciones'])

print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


217529

# Baños

Basado en información obtenida del TP1 elimino baños con valores nulos

In [82]:
df_props_full.banos.isna().value_counts()

False    213779
True      26221
Name: banos, dtype: int64

In [83]:
features.banos.isna().value_counts()

False    209165
True       8364
Name: banos, dtype: int64

In [84]:
features.banos.value_counts()

2    86141
1    56519
3    48503
4    18002
Name: banos, dtype: int64

In [85]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','banos']).size().to_frame(), index='tipodepropiedad',columns=['banos'])

Unnamed: 0_level_0,0,0,0,0
banos,1,2,3,4
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,21144.0,25417.0,8001.0,1442.0
Bodega comercial,324.0,268.0,98.0,56.0
Casa,31425.0,52646.0,34646.0,14391.0
Casa en condominio,3160.0,7514.0,5710.0,2110.0
Casa uso de suelo,93.0,230.0,140.0,88.0
Departamento Compartido,57.0,52.0,21.0,4.0
Duplex,245.0,73.0,11.0,9.0
Edificio,76.0,89.0,98.0,104.0
Huerta,5.0,2.0,,1.0
Inmuebles productivos urbanos,12.0,30.0,20.0,10.0


In [86]:
features = features.dropna(subset=['banos'])

print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


209165

# Garages

In [87]:
df_props_full.garages.isna().value_counts()

False    202235
True      37765
Name: garages, dtype: int64

In [88]:
features.garages.isna().value_counts()

False    180644
True      28521
Name: garages, dtype: int64

In [89]:
features.garages.value_counts()

2    90378
1    57970
3    19630
0    12666
Name: garages, dtype: int64

In [90]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,5384.0,24034.0,20999.0,3188.0
Bodega comercial,659.0,79.0,81.0,62.0
Casa,9439.0,30943.0,62182.0,15192.0
Casa en condominio,455.0,3219.0,9732.0,2654.0
Casa uso de suelo,128.0,108.0,136.0,96.0
Departamento Compartido,20.0,53.0,53.0,11.0
Duplex,29.0,228.0,68.0,11.0
Edificio,568.0,85.0,112.0,108.0
Garage,1.0,,,
Hospedaje,1.0,,,


In [91]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,5384.0,24034.0,20999.0,3188.0
Bodega comercial,659.0,79.0,81.0,62.0
Casa,9439.0,30943.0,62182.0,15192.0
Casa en condominio,455.0,3219.0,9732.0,2654.0
Casa uso de suelo,128.0,108.0,136.0,96.0
Departamento Compartido,20.0,53.0,53.0,11.0
Duplex,29.0,228.0,68.0,11.0
Edificio,568.0,85.0,112.0,108.0
Garage,1.0,,,
Hospedaje,1.0,,,


Basado en informacion del TP1 completo con 0 aquellas propiedades que muestren una tendencia a este valor y elimino el resto

In [92]:
aCompletar = ['Edificio','Bodega comercial','Terreno comercial','Local comercial','Terreno','Rancho','Inmuebles productivos urbanos','Nave industrial','Local en centro comercial']
features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'].fillna(0)
df_test.loc[(df_test.tipodepropiedad.isin(aCompletar)), 'garages'] = df_test.loc[(df_test.tipodepropiedad.isin(aCompletar)), 'garages'].fillna(0)


len(features)

209165

In [93]:
features.loc[(features['tipodepropiedad']=='Casa'),:].garages.isna().value_counts()

False    110904
True      21132
Name: garages, dtype: int64

In [94]:
features.loc[(features['tipodepropiedad']=='Casa en condominio'),:].garages.isna().value_counts()

False    15476
True      2941
Name: garages, dtype: int64

In [95]:
features.loc[(features['tipodepropiedad']=='Villa'),:].garages.isna().value_counts()

False    172
True     113
Name: garages, dtype: int64

Completo estas tres propiedades con valor 2 que tiene mayor cantidad de publicaciones

In [96]:
aCompletar2 = ['Casa', 'Casa en condominio', 'Villa']
features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'].fillna(2)
df_test.loc[(df_test.tipodepropiedad.isin(aCompletar2)), 'garages'] = df_test.loc[(df_test.tipodepropiedad.isin(aCompletar2)), 'garages'].fillna(2)

len(features)

209165

In [97]:
features.garages.isna().value_counts()

False    205229
True       3936
Name: garages, dtype: int64

In [98]:
features = features.dropna(subset=['garages'])

len(features)

205229

# Metros

In [99]:
from sklearn.impute import SimpleImputer

In [100]:
imp = SimpleImputer()
features['metroscubiertos'] = imp.fit_transform(features[['metroscubiertos']])
features['metrostotales'] = imp.fit_transform(features[['metrostotales']])

df_test['metroscubiertos'] = imp.fit_transform(df_test[['metroscubiertos']])
df_test['metrostotales'] = imp.fit_transform(df_test[['metrostotales']])

# Antiguedad

In [101]:
features['antiguedad'] = imp.fit_transform(features[['antiguedad']])

df_test['antiguedad'] = imp.fit_transform(df_test[['antiguedad']])

# Tipo de propiedad

In [102]:
features.tipodepropiedad.isna().value_counts()

False    205220
True          9
Name: tipodepropiedad, dtype: int64

In [103]:
# Drop de datos sin tipo
features = features.dropna(subset=['tipodepropiedad'])
len(features)

205220

# Ciudad

In [104]:
def ciudadesByProvinciaMap(df):
    provs_ciudades = {}
    for i in range(0,len(df)):
        prov = df.loc[i,'provincia']
        city = df.loc[i,'ciudad']
        if ((not pd.isna(prov)) and (not pd.isna(city))):
            if (not prov in provs_ciudades):
                provs_ciudades[prov] = []
            if (not city in provs_ciudades[prov]):
                provs_ciudades[prov].append(city)
    return provs_ciudades

In [105]:
def provinciaByIdZonaMap(df):
    id_prov = {}
    for i in range(0,len(df)):
        prov = df.loc[i,'provincia']
        idzona = df.loc[i,'idzona']
        if ((not pd.isna(prov)) and (not pd.isna(idzona))):
            if (not idzona in id_prov):
                id_prov[idzona] = []
            if (not prov in id_prov[idzona]):
                id_prov[idzona].append(prov)
    return id_prov

# Provincia

One hot encoding

In [106]:
Noroeste = ['Baja California Norte', 'Baja California Sur','Chihuahua', 'Durango', 'Sinaloa', 'Sonora']
Noreste = ['Coahuila','Nuevo León', 'Tamaulipas']
Oeste = ['Colima', 'Jalisco', 'Michoacán', 'Nayarit']
Este = ['Hidalgo', 'Puebla', 'Tlaxcala', 'Veracruz']
Centronorte = ['Aguascalientes', 'Guanajuato', 'Querétaro', 'San luis Potosí', 'Zacatecas']
Centrosur = ['Edo. de México', 'Distrito Federal', 'Morelos']
Suroeste = ['Chiapas', 'Guerrero', 'Oaxaca']
Sureste = ['Campeche', 'Quintana Roo', 'Tabasco', 'Yucatán']

In [107]:
def region(provincia):
    if(provincia in Noroeste):
        return 'Noroeste'
    if(provincia in Noreste):
        return 'Noreste'
    if(provincia in Oeste):
        return 'Oeste'
    if(provincia in Este):
        return 'Este'
    if(provincia in Centronorte):
        return 'Centronorte'
    if(provincia in Centrosur):
        return 'Centrosur'
    if(provincia in Suroeste):
        return 'Suroeste'
    return 'Sureste'

In [108]:
features['region'] = features['provincia'].apply(region)
df_test['region'] = df_test['provincia'].apply(region)

In [109]:
# One-hot regiones
features = features.reset_index(drop=True)

one_hot = pd.get_dummies(features.region)
features = features.drop(['region','provincia'],axis = 1)
features = features.merge(one_hot, right_index=True, left_index=True)

one_hot_test = pd.get_dummies(df_test.region)
df_test = df_test.drop(['region','provincia'],axis = 1)
df_test = df_test.merge(one_hot_test, right_index=True, left_index=True)

features = features.reset_index(drop=True)  # Corrijo index con rows eliminadas para que funcione el for

# Tipo de propiedad

In [110]:
features_tipos = features.tipodepropiedad.value_counts().index
print(len(features_tipos))
features_tipos.sort_values()

21


Index(['Apartamento', 'Bodega comercial', 'Casa', 'Casa en condominio',
       'Casa uso de suelo', 'Departamento Compartido', 'Duplex', 'Edificio',
       'Huerta', 'Inmuebles productivos urbanos', 'Local Comercial',
       'Local en centro comercial', 'Nave industrial', 'Oficina comercial',
       'Otros', 'Quinta Vacacional', 'Rancho', 'Terreno', 'Terreno comercial',
       'Terreno industrial', 'Villa'],
      dtype='object')

In [111]:
test_tipos = df_test.tipodepropiedad.value_counts().index
print(len(test_tipos))
test_tipos.sort_values()

22


Index(['Apartamento', 'Bodega comercial', 'Casa', 'Casa en condominio',
       'Casa uso de suelo', 'Departamento Compartido', 'Duplex', 'Edificio',
       'Huerta', 'Inmuebles productivos urbanos', 'Local Comercial',
       'Local en centro comercial', 'Lote', 'Nave industrial',
       'Oficina comercial', 'Otros', 'Quinta Vacacional', 'Rancho', 'Terreno',
       'Terreno comercial', 'Terreno industrial', 'Villa'],
      dtype='object')

In [112]:
features = features.reset_index(drop=True)

one_hot = pd.get_dummies(features.tipodepropiedad)
features = features.drop('tipodepropiedad',axis = 1)
features = features.merge(one_hot, right_index=True, left_index=True)

one_hot_test = pd.get_dummies(df_test.tipodepropiedad)
df_test = df_test.drop('tipodepropiedad',axis = 1)
df_test = df_test.merge(one_hot_test, right_index=True, left_index=True)

In [113]:
print(list(set(features.columns) - set(df_test.columns)))
print(list(set(df_test.columns) - set(features.columns)))

['precio']
['Lote']


In [114]:
df_test.Lote.value_counts()

0    59999
1        1
Name: Lote, dtype: int64

In [115]:
# Elimino columnas que no aparecen en los features (Solo una publicacion con Lote)
df_test = df_test.drop('Lote',axis=1)

# Fecha

In [116]:
features['ano'] = features.fecha.dt.year
features['mes'] = features.fecha.dt.month
features = features.drop('fecha',axis=1)

df_test['ano'] = df_test.fecha.dt.year
df_test['mes'] = df_test.fecha.dt.month
df_test = df_test.drop('fecha',axis=1)

# Fix Test data set

In [117]:
len(df_test)

60000

In [118]:
cols_dropped = ['lat', 'lng', 'id', 'idzona']
cols_string = ['titulo', 'descripcion','direccion', 'ciudad']
df_test.drop(cols_dropped + cols_string, axis=1).count()

antiguedad                       60000
habitaciones                     54372
garages                          58449
banos                            53446
metroscubiertos                  60000
metrostotales                    60000
gimnasio                         60000
usosmultiples                    60000
piscina                          60000
escuelascercanas                 60000
centroscomercialescercanos       60000
Centronorte                      60000
Centrosur                        60000
Este                             60000
Noreste                          60000
Noroeste                         60000
Oeste                            60000
Sureste                          60000
Suroeste                         60000
Apartamento                      60000
Bodega comercial                 60000
Casa                             60000
Casa en condominio               60000
Casa uso de suelo                60000
Departamento Compartido          60000
Duplex                   

In [119]:
df_test['habitaciones'] = imp.fit_transform(df_test[['habitaciones']])
df_test['garages'] = imp.fit_transform(df_test[['garages']])
df_test['banos'] = imp.fit_transform(df_test[['banos']])

In [120]:
cols_dropped = ['lat', 'lng', 'idzona']
cols_string = ['titulo', 'descripcion','direccion', 'ciudad']
df_test.drop(cols_dropped + cols_string, axis=1).count()

id                               60000
antiguedad                       60000
habitaciones                     60000
garages                          60000
banos                            60000
metroscubiertos                  60000
metrostotales                    60000
gimnasio                         60000
usosmultiples                    60000
piscina                          60000
escuelascercanas                 60000
centroscomercialescercanos       60000
Centronorte                      60000
Centrosur                        60000
Este                             60000
Noreste                          60000
Noroeste                         60000
Oeste                            60000
Sureste                          60000
Suroeste                         60000
Apartamento                      60000
Bodega comercial                 60000
Casa                             60000
Casa en condominio               60000
Casa uso de suelo                60000
Departamento Compartido  

# Features a CSV

In [126]:
cols_dropped = ['lat', 'lng', 'id', 'idzona']
cols_string = ['titulo', 'descripcion','direccion', 'ciudad']
features = features.drop(cols_dropped + cols_string, axis=1)
cols_dropped = ['lat', 'lng', 'idzona']
df_test = df_test.drop(cols_dropped + cols_string, axis=1)

In [127]:
features.to_csv('data/features.csv', index=False)
df_test.to_csv('data/testModified.csv', index=False)