In [1]:
# Importacion de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

%matplotlib inline

plt.style.use('default') # para graficos matplotlib
plt.rcParams['figure.figsize'] = (10, 8)

sns.set(style="whitegrid") # grid seaborn

pd.options.display.float_format = '{:20,.0f}'.format # notacion output

# Acceso a set de datos

In [16]:
path = "data/"
df_props_full = pd.read_csv(path + "train.csv")
df_test = pd.read_csv(path + "test.csv")

In [17]:
df_props_full.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

In [18]:
df_test.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos'],
      dtype='object')

In [19]:
df_test.id.sort_values()

8801          0
44294         6
49829        11
44914        12
1308         16
          ...  
43359    299957
22122    299962
11225    299973
6151     299983
53128    299992
Name: id, Length: 60000, dtype: int64

In [20]:
df_props_full.id.sort_values()

73868          1
191491         2
126184         3
23027          4
228358         5
           ...  
218493    299995
153978    299996
43069     299997
137560    299998
27616     299999
Name: id, Length: 240000, dtype: int64

# Conversión de tipos

In [21]:
df_props_full['fecha'] = pd.to_datetime(df_props_full['fecha'])

In [22]:
# Convierto todos los valores 1/0 a uint8
df_props_full['gimnasio'] = df_props_full['gimnasio'].astype('uint8')
df_props_full['usosmultiples'] = df_props_full['usosmultiples'].astype('uint8')
df_props_full['piscina'] = df_props_full['piscina'].astype('uint8')
df_props_full['escuelascercanas'] = df_props_full['escuelascercanas'].astype('uint8')
df_props_full['centroscomercialescercanos'] = df_props_full['centroscomercialescercanos'].astype('uint8')

In [23]:
# Convierto los representables en uint8. Utilizo el tipo de pandas UInt8Dtype para evitar conflicto con NaN
df_props_full['antiguedad'] = df_props_full['antiguedad'].astype(pd.UInt8Dtype())
df_props_full['habitaciones'] = df_props_full['habitaciones'].astype(pd.UInt8Dtype())
df_props_full['garages'] = df_props_full['garages'].astype(pd.UInt8Dtype())
df_props_full['banos'] = df_props_full['banos'].astype(pd.UInt8Dtype())

In [24]:
# Convierto los representables en uint16. Utilizo el tipo de pandas UInt16Dtype para evitar conflicto con NaN
df_props_full['metroscubiertos'] = df_props_full['metroscubiertos'].astype(pd.UInt16Dtype())
df_props_full['metrostotales'] = df_props_full['metrostotales'].astype(pd.UInt16Dtype())

In [25]:
# Convierto los representables en uint32. Utilizo el tipo de pandas UInt32Dtype para evitar conflicto con NaN
df_props_full['id'] = df_props_full['id'].astype(pd.UInt32Dtype())
df_props_full['idzona'] = df_props_full['idzona'].astype(pd.UInt32Dtype())
# df_props_full['Precio_MEX'] = df_props_full['Precio_MEX'].astype(pd.UInt32Dtype())
# df_props_full['Precio_USD'] = df_props_full['Precio_USD'].astype(pd.UInt32Dtype())
df_props_full['precio'] = df_props_full['precio'].astype(pd.UInt32Dtype())

# Habitaciones

Basado en información obtenida del TP1 elimino habitaciones con valores nulos

In [154]:
df_props_full.habitaciones.isna().value_counts()

False    217529
True      22471
Name: habitaciones, dtype: int64

In [155]:
df_props_full.habitaciones.value_counts()

3     121887
2      57808
4      25068
1       5069
5       4596
6       1669
7        539
8        398
10       316
9        179
Name: habitaciones, dtype: int64

In [156]:
features = df_props_full
len(features)

240000

In [157]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','habitaciones']).size().to_frame(), index='tipodepropiedad',columns=['habitaciones'])

Unnamed: 0_level_0,0,0,0,0,0,0,0,0,0,0
habitaciones,1,2,3,4,5,6,7,8,9,10
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Apartamento,2841.0,30040.0,22566.0,780.0,64.0,23.0,6.0,13.0,9.0,5.0
Bodega comercial,47.0,42.0,30.0,18.0,10.0,5.0,1.0,3.0,1.0,
Casa,1549.0,23789.0,84651.0,21714.0,4179.0,1458.0,458.0,298.0,120.0,163.0
Casa en condominio,186.0,3004.0,13608.0,2095.0,143.0,29.0,5.0,6.0,2.0,4.0
Casa uso de suelo,12.0,53.0,150.0,133.0,48.0,34.0,24.0,16.0,9.0,23.0
Departamento Compartido,8.0,61.0,62.0,2.0,,2.0,,,,2.0
Duplex,8.0,194.0,109.0,13.0,9.0,6.0,,1.0,,
Edificio,11.0,35.0,36.0,21.0,22.0,45.0,18.0,28.0,16.0,71.0
Hospedaje,,,,,,,1.0,,,
Huerta,,5.0,1.0,1.0,,,,,,


In [158]:
features = features.dropna(subset=['habitaciones'])
print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


217529

# Baños

Basado en información obtenida del TP1 elimino baños con valores nulos

In [159]:
df_props_full.banos.isna().value_counts()

False    213779
True      26221
Name: banos, dtype: int64

In [160]:
features.banos.isna().value_counts()

False    209165
True       8364
Name: banos, dtype: int64

In [161]:
features.banos.value_counts()

2    86141
1    56519
3    48503
4    18002
Name: banos, dtype: int64

In [162]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','banos']).size().to_frame(), index='tipodepropiedad',columns=['banos'])

Unnamed: 0_level_0,0,0,0,0
banos,1,2,3,4
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,21144,25417,8001.0,1442.0
Bodega comercial,324,268,98.0,56.0
Casa,31425,52646,34646.0,14391.0
Casa en condominio,3160,7514,5710.0,2110.0
Casa uso de suelo,93,230,140.0,88.0
Departamento Compartido,57,52,21.0,4.0
Duplex,245,73,11.0,9.0
Edificio,76,89,98.0,104.0
Huerta,5,2,,1.0
Inmuebles productivos urbanos,12,30,20.0,10.0


In [163]:
features = features.dropna(subset=['banos'])
print(type(features))
len(features)

<class 'pandas.core.frame.DataFrame'>


209165

# Garages

In [164]:
df_props_full.garages.isna().value_counts()

False    202235
True      37765
Name: garages, dtype: int64

In [165]:
features.garages.isna().value_counts()

False    180644
True      28521
Name: garages, dtype: int64

In [166]:
features.garages.value_counts()

2    90378
1    57970
3    19630
0    12666
Name: garages, dtype: int64

In [167]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,5384,24034.0,20999.0,3188.0
Bodega comercial,659,79.0,81.0,62.0
Casa,9439,30943.0,62182.0,15192.0
Casa en condominio,455,3219.0,9732.0,2654.0
Casa uso de suelo,128,108.0,136.0,96.0
Departamento Compartido,20,53.0,53.0,11.0
Duplex,29,228.0,68.0,11.0
Edificio,568,85.0,112.0,108.0
Garage,1,,,
Hospedaje,1,,,


In [168]:
pd.pivot_table(df_props_full.groupby(['tipodepropiedad','garages']).size().to_frame(), index='tipodepropiedad',columns=['garages'])

Unnamed: 0_level_0,0,0,0,0
garages,0,1,2,3
tipodepropiedad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Apartamento,5384,24034.0,20999.0,3188.0
Bodega comercial,659,79.0,81.0,62.0
Casa,9439,30943.0,62182.0,15192.0
Casa en condominio,455,3219.0,9732.0,2654.0
Casa uso de suelo,128,108.0,136.0,96.0
Departamento Compartido,20,53.0,53.0,11.0
Duplex,29,228.0,68.0,11.0
Edificio,568,85.0,112.0,108.0
Garage,1,,,
Hospedaje,1,,,


Basado en informacion del TP1 completo con 0 aquellas propiedades que muestren una tendencia a este valor y elimino el resto

In [176]:
features[features.tipodepropiedad.isin(aCompletar)].garages.isna().value_counts()

False    945
Name: garages, dtype: int64

In [177]:
aCompletar = ['Edificio','Bodega comercial','Terreno comercial','Local comercial','Terreno','Rancho','Inmuebles productivos urbanos','Nave industrial','Local en centro comercial']
features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar)), 'garages'].fillna(0)
len(features)

209165

In [178]:
features.loc[(features['tipodepropiedad']=='Casa'),:].garages.isna().value_counts()

False    110904
True      21132
Name: garages, dtype: int64

In [179]:
features.loc[(features['tipodepropiedad']=='Casa en condominio'),:].garages.isna().value_counts()

False    15476
True      2941
Name: garages, dtype: int64

In [180]:
features.loc[(features['tipodepropiedad']=='Villa'),:].garages.isna().value_counts()

False    172
True     113
Name: garages, dtype: int64

Completo estas tres propiedades con valor 2 que tiene mayor cantidad de publicaciones

In [181]:
aCompletar2 = ['Casa', 'Casa en condominio', 'Villa']
features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'] = features.loc[(features.tipodepropiedad.isin(aCompletar2)), 'garages'].fillna(2)
len(features)

209165

In [182]:
features.garages.isna().value_counts()

False    205229
True       3936
Name: garages, dtype: int64

In [184]:
features = features.dropna(subset=['garages'])
len(features)

205229

# Features a CSV

In [186]:
features.to_csv('/data/features.csv')