In [1]:
# Importacion de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

%matplotlib inline

plt.style.use('default') # para graficos matplotlib
plt.rcParams['figure.figsize'] = (10, 8)

sns.set(style="whitegrid") # grid seaborn

# pd.options.display.float_format = '{:20,.0f}'.format # notacion output

# Acceso a set de datos

In [2]:
path = "data/"
df_props_full = pd.read_csv(path + "train_big_provinces.csv")
df_test = pd.read_csv(path + "test_big_provinces.csv")

In [3]:
df_props_full.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

In [4]:
df_test.columns

Index(['Unnamed: 0', 'id', 'titulo', 'descripcion', 'tipodepropiedad',
       'direccion', 'ciudad', 'provincia', 'antiguedad', 'habitaciones',
       'garages', 'banos', 'metroscubiertos', 'metrostotales', 'idzona', 'lat',
       'lng', 'fecha', 'gimnasio', 'usosmultiples', 'piscina',
       'escuelascercanas', 'centroscomercialescercanos'],
      dtype='object')

In [5]:
df_test.id.sort_values()

30326         6
30724        12
856          16
13005        22
6519         24
          ...  
38440    299922
40420    299941
15168    299962
7715     299973
36344    299992
Name: id, Length: 41044, dtype: int64

In [6]:
df_props_full.id.sort_values()

50748          1
131334         2
86661          3
156441         5
120289         7
           ...  
158209    299993
95307     299994
149683    299995
105755    299996
94421     299998
Name: id, Length: 164368, dtype: int64

# Conversión de tipos

In [7]:
df_props_full['fecha'] = pd.to_datetime(df_props_full['fecha'])
df_test['fecha'] = pd.to_datetime(df_test['fecha'])

In [8]:
# Convierto todos los valores 1/0 a uint8
df_props_full['gimnasio'] = df_props_full['gimnasio'].astype('uint8')
df_props_full['usosmultiples'] = df_props_full['usosmultiples'].astype('uint8')
df_props_full['piscina'] = df_props_full['piscina'].astype('uint8')
df_props_full['escuelascercanas'] = df_props_full['escuelascercanas'].astype('uint8')
df_props_full['centroscomercialescercanos'] = df_props_full['centroscomercialescercanos'].astype('uint8')

df_test['gimnasio'] = df_test['gimnasio'].astype('uint8')
df_test['usosmultiples'] = df_test['usosmultiples'].astype('uint8')
df_test['piscina'] = df_test['piscina'].astype('uint8')
df_test['escuelascercanas'] = df_test['escuelascercanas'].astype('uint8')
df_test['centroscomercialescercanos'] = df_test['centroscomercialescercanos'].astype('uint8')

In [9]:
# Convierto los representables en uint8. Utilizo el tipo de pandas UInt8Dtype para evitar conflicto con NaN
df_props_full['antiguedad'] = df_props_full['antiguedad'].astype(pd.UInt8Dtype())
df_props_full['habitaciones'] = df_props_full['habitaciones'].astype(pd.UInt8Dtype())
df_props_full['garages'] = df_props_full['garages'].astype(pd.UInt8Dtype())
df_props_full['banos'] = df_props_full['banos'].astype(pd.UInt8Dtype())

df_test['antiguedad'] = df_test['antiguedad'].astype(pd.UInt8Dtype())
df_test['habitaciones'] = df_test['habitaciones'].astype(pd.UInt8Dtype())
df_test['garages'] = df_test['garages'].astype(pd.UInt8Dtype())
df_test['banos'] = df_test['banos'].astype(pd.UInt8Dtype())

In [10]:
# Convierto los representables en uint16. Utilizo el tipo de pandas UInt16Dtype para evitar conflicto con NaN
df_props_full['metroscubiertos'] = df_props_full['metroscubiertos'].astype(pd.UInt16Dtype())
df_props_full['metrostotales'] = df_props_full['metrostotales'].astype(pd.UInt16Dtype())

df_test['metroscubiertos'] = df_test['metroscubiertos'].astype(pd.UInt16Dtype())
df_test['metrostotales'] = df_test['metrostotales'].astype(pd.UInt16Dtype())

In [11]:
# Convierto los representables en uint32. Utilizo el tipo de pandas UInt32Dtype para evitar conflicto con NaN
df_props_full['id'] = df_props_full['id'].astype(pd.UInt32Dtype())
df_props_full['idzona'] = df_props_full['idzona'].astype(pd.UInt32Dtype())
# df_props_full['Precio_MEX'] = df_props_full['Precio_MEX'].astype(pd.UInt32Dtype())
# df_props_full['Precio_USD'] = df_props_full['Precio_USD'].astype(pd.UInt32Dtype())
df_props_full['precio'] = df_props_full['precio'].astype('float32')

df_test['id'] = df_test['id'].astype(pd.UInt32Dtype())
df_test['idzona'] = df_test['idzona'].astype(pd.UInt32Dtype())

# Habitaciones

Basado en información obtenida del TP1 elimino habitaciones con valores nulos

In [12]:
df_props_full.habitaciones.isna().value_counts()

False    149265
True      15103
Name: habitaciones, dtype: int64

In [13]:
df_props_full.habitaciones.value_counts()

3     81226
2     41729
4     17057
1      3748
5      3193
6      1214
7       412
8       304
10      248
9       134
Name: habitaciones, dtype: int64

In [14]:
features = df_props_full
len(features)

164368

In [15]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','habitaciones']).size().to_frame(), index='tipodepropiedad',columns=['habitaciones'])

Unnamed: 0_level_0,0,0,0,0,0,0,0,0,0,0
habitaciones,1,2,3,4,5,6,7,8,9,10
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Apartamento,2414.0,26399.0,18997.0,498.0,46.0,11.0,5.0,10.0,6.0,4.0
Bodega comercial,37.0,37.0,24.0,14.0,7.0,4.0,1.0,3.0,1.0,
Casa,860.0,12437.0,50582.0,14538.0,2886.0,1070.0,345.0,235.0,92.0,133.0
Casa en condominio,119.0,2176.0,10907.0,1665.0,106.0,19.0,3.0,4.0,1.0,3.0
Casa uso de suelo,8.0,41.0,120.0,107.0,38.0,28.0,22.0,12.0,8.0,20.0
Departamento Compartido,7.0,55.0,59.0,2.0,,1.0,,,,2.0
Duplex,4.0,165.0,95.0,11.0,8.0,5.0,,,,
Edificio,9.0,33.0,27.0,15.0,15.0,27.0,15.0,20.0,12.0,55.0
Huerta,,2.0,,1.0,,,,,,
Inmuebles productivos urbanos,6.0,10.0,12.0,9.0,5.0,3.0,1.0,3.0,4.0,4.0


In [16]:
features = features.dropna(subset=['habitaciones'])

print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


149265

# Baños

Basado en información obtenida del TP1 elimino baños con valores nulos

In [17]:
df_props_full.banos.isna().value_counts()

False    146861
True      17507
Name: banos, dtype: int64

In [18]:
features.banos.isna().value_counts()

False    143586
True       5679
Name: banos, dtype: int64

In [19]:
features.banos.value_counts()

2    59339
1    39070
3    32989
4    12188
Name: banos, dtype: int64

In [20]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','banos']).size().to_frame(), index='tipodepropiedad',columns=['banos'])

Unnamed: 0_level_0,0,0,0,0
banos,1,2,3,4
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,18961.0,21528.0,6644.0,1042.0
Bodega comercial,227.0,219.0,90.0,46.0
Casa,17167.0,31529.0,21653.0,9419.0
Casa en condominio,2339.0,5842.0,4633.0,1704.0
Casa uso de suelo,60.0,160.0,111.0,70.0
Departamento Compartido,53.0,47.0,18.0,4.0
Duplex,203.0,65.0,10.0,9.0
Edificio,60.0,64.0,67.0,80.0
Huerta,2.0,,,1.0
Inmuebles productivos urbanos,11.0,24.0,15.0,6.0


In [21]:
features = features.dropna(subset=['banos'])

print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


143586

# Garages

In [22]:
df_props_full.garages.isna().value_counts()

False    140720
True      23648
Name: garages, dtype: int64

In [23]:
features.garages.isna().value_counts()

False    125529
True      18057
Name: garages, dtype: int64

In [24]:
features.garages.value_counts()

2    59731
1    41208
3    15791
0     8799
Name: garages, dtype: int64

In [25]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,4884.0,20844.0,17655.0,3021.0
Bodega comercial,511.0,65.0,63.0,47.0
Casa,5545.0,18196.0,35957.0,11457.0
Casa en condominio,363.0,2231.0,7643.0,2382.0
Casa uso de suelo,94.0,77.0,94.0,80.0
Departamento Compartido,15.0,50.0,50.0,11.0
Duplex,26.0,192.0,58.0,9.0
Edificio,437.0,68.0,85.0,86.0
Garage,1.0,,,
Huerta,4.0,,,


In [26]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,4884.0,20844.0,17655.0,3021.0
Bodega comercial,511.0,65.0,63.0,47.0
Casa,5545.0,18196.0,35957.0,11457.0
Casa en condominio,363.0,2231.0,7643.0,2382.0
Casa uso de suelo,94.0,77.0,94.0,80.0
Departamento Compartido,15.0,50.0,50.0,11.0
Duplex,26.0,192.0,58.0,9.0
Edificio,437.0,68.0,85.0,86.0
Garage,1.0,,,
Huerta,4.0,,,


Basado en informacion del TP1 completo con 0 aquellas propiedades que muestren una tendencia a este valor y elimino el resto

In [27]:
aCompletar = ['Edificio','Bodega comercial','Terreno comercial','Local comercial','Terreno','Rancho','Inmuebles productivos urbanos','Nave industrial','Local en centro comercial']
features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'].fillna(0)
df_test.loc[(df_test.tipodepropiedad.isin(aCompletar)), 'garages'] = df_test.loc[(df_test.tipodepropiedad.isin(aCompletar)), 'garages'].fillna(0)


len(features)

143586

In [28]:
features.loc[(features['tipodepropiedad']=='Casa'),:].garages.isna().value_counts()

False    66585
True     12423
Name: garages, dtype: int64

In [29]:
features.loc[(features['tipodepropiedad']=='Casa en condominio'),:].garages.isna().value_counts()

False    12165
True      2303
Name: garages, dtype: int64

In [30]:
features.loc[(features['tipodepropiedad']=='Villa'),:].garages.isna().value_counts()

True     72
False    28
Name: garages, dtype: int64

Completo estas tres propiedades con valor 2 que tiene mayor cantidad de publicaciones

In [31]:
aCompletar2 = ['Casa', 'Casa en condominio', 'Villa']
features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'].fillna(2)
df_test.loc[(df_test.tipodepropiedad.isin(aCompletar2)), 'garages'] = df_test.loc[(df_test.tipodepropiedad.isin(aCompletar2)), 'garages'].fillna(2)

len(features)

143586

In [32]:
features.garages.isna().value_counts()

False    140610
True       2976
Name: garages, dtype: int64

In [33]:
features = features.dropna(subset=['garages'])

len(features)

140610

# Metros

In [34]:
from sklearn.impute import SimpleImputer

In [35]:
imp = SimpleImputer()
features['metroscubiertos'] = imp.fit_transform(features[['metroscubiertos']])
features['metrostotales'] = imp.fit_transform(features[['metrostotales']])

df_test['metroscubiertos'] = imp.fit_transform(df_test[['metroscubiertos']])
df_test['metrostotales'] = imp.fit_transform(df_test[['metrostotales']])

# Antiguedad

In [36]:
features['antiguedad'] = imp.fit_transform(features[['antiguedad']])

df_test['antiguedad'] = imp.fit_transform(df_test[['antiguedad']])

# Tipo de propiedad

In [37]:
features.tipodepropiedad.isna().value_counts()

False    140610
Name: tipodepropiedad, dtype: int64

In [38]:
# Drop de datos sin tipo
features = features.dropna(subset=['tipodepropiedad'])
len(features)

140610

# Ciudad

In [39]:
def ciudadesByProvinciaMap(df):
    provs_ciudades = {}
    for i in range(0,len(df)):
        prov = df.loc[i,'provincia']
        city = df.loc[i,'ciudad']
        if ((not pd.isna(prov)) and (not pd.isna(city))):
            if (not prov in provs_ciudades):
                provs_ciudades[prov] = []
            if (not city in provs_ciudades[prov]):
                provs_ciudades[prov].append(city)
    return provs_ciudades

In [40]:
def provinciaByIdZonaMap(df):
    id_prov = {}
    for i in range(0,len(df)):
        prov = df.loc[i,'provincia']
        idzona = df.loc[i,'idzona']
        if ((not pd.isna(prov)) and (not pd.isna(idzona))):
            if (not idzona in id_prov):
                id_prov[idzona] = []
            if (not prov in id_prov[idzona]):
                id_prov[idzona].append(prov)
    return id_prov

# Provincia

One hot encoding

In [41]:
one_hot = pd.get_dummies(features.provincia)
features = features.drop('provincia',axis = 1)
features = features.join(one_hot)

one_hot_test = pd.get_dummies(df_test.provincia)
df_test = df_test.drop('provincia',axis = 1)
df_test = df_test.join(one_hot_test)

features = features.reset_index(drop=True)  # Corrijo index con rows eliminadas para que funcione el for

# Fix Test data set

In [42]:
len(df_test)

41044

In [43]:
cols_dropped = ['fecha', 'id', 'idzona']
cols_string = ['titulo', 'descripcion','tipodepropiedad','direccion', 'ciudad']
df_test.drop(cols_dropped + cols_string, axis=1).count()

Unnamed: 0                    41044
antiguedad                    41044
habitaciones                  37215
garages                       39960
banos                         36671
metroscubiertos               41044
metrostotales                 41044
lat                           20817
lng                           20817
gimnasio                      41044
usosmultiples                 41044
piscina                       41044
escuelascercanas              41044
centroscomercialescercanos    41044
Distrito Federal              41044
Edo. de México                41044
Jalisco                       41044
Nuevo León                    41044
Puebla                        41044
Querétaro                     41044
dtype: int64

In [44]:
df_test['habitaciones'] = imp.fit_transform(df_test[['habitaciones']])
df_test['garages'] = imp.fit_transform(df_test[['garages']])
df_test['banos'] = imp.fit_transform(df_test[['banos']])

In [45]:
cols_dropped = ['fecha', 'idzona']
cols_string = ['titulo', 'descripcion','tipodepropiedad','direccion', 'ciudad']
df_test.drop(cols_dropped + cols_string, axis=1).count()

Unnamed: 0                    41044
id                            41044
antiguedad                    41044
habitaciones                  41044
garages                       41044
banos                         41044
metroscubiertos               41044
metrostotales                 41044
lat                           20817
lng                           20817
gimnasio                      41044
usosmultiples                 41044
piscina                       41044
escuelascercanas              41044
centroscomercialescercanos    41044
Distrito Federal              41044
Edo. de México                41044
Jalisco                       41044
Nuevo León                    41044
Puebla                        41044
Querétaro                     41044
dtype: int64

# Features a CSV

In [46]:
cols_dropped = ['lat', 'lng', 'fecha', 'id', 'idzona']
cols_string = ['titulo', 'descripcion','tipodepropiedad','direccion', 'ciudad']
features = features.drop(cols_dropped + cols_string, axis=1)
cols_dropped = ['lat', 'lng', 'fecha', 'idzona']
df_test = df_test.drop(cols_dropped + cols_string, axis=1)

In [47]:
features.to_csv('data/features_big_provinces.csv', index=False)
df_test.to_csv('data/test_big_provinces_modified.csv', index=True)