In [88]:
# Importacion de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

%matplotlib inline

plt.style.use('default') # para graficos matplotlib
plt.rcParams['figure.figsize'] = (10, 6)

sns.set(style="whitegrid") # grid seaborn

pd.options.display.float_format = '{:20,.0f}'.format # notacion output

# Acceso a set de datos

In [89]:
path = "/home/seba/Escritorio/Datos/TP1/data/"
df_props_full = pd.read_csv(path + "train.csv")

# Información básica

In [90]:
# Cantidad propiedades
df_props_full.shape

(240000, 23)

In [91]:
# Informacion de las columnas
df_props_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240

<span style="color:red">* Latitud y Longitud tienen gran cantidad de valores nulos

In [92]:
df_props_full.describe()

Unnamed: 0,id,antiguedad,habitaciones,garages,banos,metroscubiertos,metrostotales,idzona,lat,lng,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
count,240000,196445,217529,202235,213779,222600,188533,211379,116512,116512,240000,240000,240000,240000,240000,240000
mean,149969,8,3,2,2,174,177,2423468,21,-100,0,0,0,0,0,2530838
std,86635,10,1,1,1,98,94,10567938,3,10,0,0,0,0,0,2152552
min,1,0,1,0,1,15,15,22,-101,-126,0,0,0,0,0,310000
25%,74931,0,2,1,1,90,102,24890,19,-101,0,0,0,0,0,952772
50%,149876,5,3,2,2,153,155,56383,20,-99,0,0,0,0,0,1850000
75%,225016,10,3,2,3,240,238,87838,21,-99,0,0,0,1,1,3390000
max,299999,80,10,3,4,439,439,50003999,83,121,1,1,1,1,1,12525000


<span style="color:red">
    * Gimnasio, usosmultiples, piscina, escuelascercanas y centroscomerciales son todos valores binarios <br />
    * Antiguedad, habitaciones, garages y baños se pueden representar en UINT8 <br />
    * Metroscubiertos y metrostotales se pueden representar con UINT16<br />
    * id, idzona y precio se pueden representar con UINT32<br \>
    * Latitud y Longitud tienen valores FLOAT. Si se redondea se puede convertir a INT8

In [93]:
df_props_full.head()

Unnamed: 0,id,titulo,descripcion,tipodepropiedad,direccion,ciudad,provincia,antiguedad,habitaciones,garages,...,idzona,lat,lng,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
0,254099,depto. tipo a-402,"depto. interior de 80.15m2, consta de sala com...",Apartamento,Avenida Division del Norte 2005,Benito Juárez,Distrito Federal,,2,1,...,23533,,,2015-08-23 00:00:00,0,0,0,0,0,2273000
1,53461,condominio horizontal en venta,"<p>entre sonora y guerrero, atr&aacute;s del h...",Casa en condominio,AV. MEXICO,La Magdalena Contreras,Distrito Federal,10.0,3,2,...,24514,19.0,-99.0,2013-06-28 00:00:00,0,0,0,1,1,3600000
2,247984,casa en venta urbi 3 recamaras tonala,descripcion \nla mejor ubicacion residencial e...,Casa,Urbi Tonala,Tonalá,Jalisco,5.0,3,2,...,48551,,,2015-10-17 00:00:00,0,0,0,0,0,1200000
3,209067,casa sola en toluca zinacantepec con credito i...,casa en privada con caseta de vigilancia casas...,Casa,IGNACIO MANUEL ALTAMIRANO 128,Zinacantepec,Edo. de México,1.0,2,1,...,53666,19.0,-100.0,2012-03-09 00:00:00,0,0,0,1,1,650000
4,185997,paseos del sol,bonito departamento en excelentes condiciones ...,Apartamento,PASEOS DEL SOL,Zapopan,Jalisco,10.0,2,1,...,47835,,,2016-06-07 00:00:00,0,0,0,0,0,1150000


# Conversión de tipos

In [94]:
df_props_full['fecha'] = pd.to_datetime(df_props_full['fecha'])

In [95]:
# Convierto todos los valores 1/0 a uint8
df_props_full['gimnasio'] = df_props_full['gimnasio'].astype('uint8')
df_props_full['usosmultiples'] = df_props_full['usosmultiples'].astype('uint8')
df_props_full['piscina'] = df_props_full['piscina'].astype('uint8')
df_props_full['escuelascercanas'] = df_props_full['escuelascercanas'].astype('uint8')
df_props_full['centroscomercialescercanos'] = df_props_full['centroscomercialescercanos'].astype('uint8')

In [96]:
# Convierto los representables en uint8. Utilizo el tipo de pandas UInt8Dtype para evitar conflicto con NaN
df_props_full['antiguedad'] = df_props_full['antiguedad'].astype(pd.UInt8Dtype())
df_props_full['habitaciones'] = df_props_full['habitaciones'].astype(pd.UInt8Dtype())
df_props_full['garages'] = df_props_full['garages'].astype(pd.UInt8Dtype())
df_props_full['banos'] = df_props_full['banos'].astype(pd.UInt8Dtype())

In [97]:
# Convierto los representables en uint16. Utilizo el tipo de pandas UInt16Dtype para evitar conflicto con NaN
df_props_full['metroscubiertos'] = df_props_full['metroscubiertos'].astype(pd.UInt16Dtype())
df_props_full['metrostotales'] = df_props_full['metrostotales'].astype(pd.UInt16Dtype())

In [98]:
# Convierto los representables en uint32. Utilizo el tipo de pandas UInt32Dtype para evitar conflicto con NaN
df_props_full['id'] = df_props_full['id'].astype(pd.UInt32Dtype())
df_props_full['idzona'] = df_props_full['idzona'].astype(pd.UInt32Dtype())
df_props_full['precio'] = df_props_full['precio'].astype(pd.UInt32Dtype())

In [99]:
df_props_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null UInt32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null UInt8
habitaciones                  217529 non-null UInt8
garages                       202235 non-null UInt8
banos                         213779 non-null UInt8
metroscubiertos               222600 non-null UInt16
metrostotales                 188533 non-null UInt16
idzona                        211379 non-null UInt32
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240000 non-nu