# Analisis de comandos de carga
El proposito de este notebook es realizar un estudio de los comandos de carga necesarios a lo largo del tp. Si bien rapidamente se pudo ver que el dataset no precisa de demasiad memoria, el grupo lo considera buena práctica, ya que finalmente se logró reducir a la mitad la cantidad de memoria utilizada. De trabajar solamente con estos datos, no habría problema, pero más adelante, por ahi recién en el segundo tp, esto podría tener más importancia de la que se sospecha.

In [10]:
import pandas as pd

In [11]:
# source: https://gist.github.com/rozanecm/13cc49ad3c3cf67f278b210de1ea02af
import os
for file in os.listdir('../data/'):
    print(file + '\t\t\t\t\t\t' + str(os.stat("../data/" + file).st_size/1000000))

train.csv						149.442616


In [12]:
# source: https://gist.github.com/rozanecm/38f2901c592bdffc40726cb0473318cf
# play a sound
import os
def beep(duration = 1, freq = 1500):
    """ play tone of duration in seconds and freq in Hz. """
    os.system('play --no-show-progress --null --channels 1 synth %s sine %f' % (duration, freq))

In [13]:
df = pd.read_csv('../data/train.csv')

# Estudio de optimizaciones
Se podra optimizar la carga del df? Vale la pena siquiera? Veamos un poco como viene la mano.

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240

In [25]:
df_optimized = pd.read_csv('../data/train.csv', dtype={'tipodepropiedad':'category', 'ciudad':'category', 'provincia':'category'}, parse_dates=['fecha'])
df_optimized.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null category
provincia                     239845 non-null category
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                      

Hasta aqui el estudio de las variables categoricas. Veamos ahora si las numericas que involucran 64 bits podrian ocupar menos.

In [28]:
df_optimized.select_dtypes('int64').describe()

Unnamed: 0,id
count,240000.0
mean,149969.382092
std,86634.579744
min,1.0
25%,74930.75
50%,149875.5
75%,225016.5
max,299999.0


In [33]:
df_optimized.select_dtypes('float64').describe()

Unnamed: 0,antiguedad,habitaciones,garages,banos,metroscubiertos,metrostotales,idzona,lat,lng,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
count,196445.0,217529.0,202235.0,213779.0,222600.0,188533.0,211379.0,116512.0,116512.0,240000.0,240000.0,240000.0,240000.0,240000.0,240000.0
mean,8.116114,2.902326,1.546874,2.132417,174.016774,176.765145,2423468.0,20.696818,-99.509221,0.062475,0.055092,0.087383,0.444142,0.396533,2530838.0
std,9.55383,0.896894,0.853507,0.912546,98.15295,94.427328,10567940.0,3.137884,9.744143,0.242017,0.22816,0.282397,0.496871,0.489179,2152552.0
min,0.0,1.0,0.0,1.0,15.0,15.0,22.0,-100.886679,-125.859375,0.0,0.0,0.0,0.0,0.0,310000.0
25%,0.0,2.0,1.0,1.0,90.0,102.0,24890.0,19.359846,-100.977908,0.0,0.0,0.0,0.0,0.0,952772.5
50%,5.0,3.0,2.0,2.0,153.0,155.0,56383.0,19.543273,-99.240387,0.0,0.0,0.0,0.0,0.0,1850000.0
75%,10.0,3.0,2.0,3.0,240.0,238.0,87838.0,20.740005,-99.134777,0.0,0.0,0.0,1.0,1.0,3390000.0
max,80.0,10.0,3.0,4.0,439.0,439.0,50004000.0,83.026219,121.036,1.0,1.0,1.0,1.0,1.0,12525000.0


antiguedad, habitaciones, garages, banos, metroscubiertos, metrostotales, idzona, lat, lng: tiene valores desconocidos. Pero podemos pasar a foat16.

In [77]:
df_optimized = pd.read_csv('../data/train.csv', dtype={'tipodepropiedad':'category', 'ciudad':'category', 'provincia':'category', 'id':'int32', 'antiguedad':'float16', 'habitaciones':'float16', 'garages':'float16', 'banos':'float16', 'metroscubiertos':'float16', 'metrostotales':'float16', 'idzona':'float16', 'lat':'float16', 'lng':'float16', 'gimnasio':'bool', 'usosmultiples':'bool', 'piscina':'bool', 'escuelascercanas':'bool', 'centroscomercialescercanos':'bool'}, parse_dates=['fecha'])
df_optimized.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null category
provincia                     239845 non-null category
antiguedad                    196445 non-null float16
habitaciones                  217529 non-null float16
garages                       202235 non-null float16
banos                         213779 non-null float16
metroscubiertos               222600 non-null float16
metrostotales                 188533 non-null float16
idzona                        211379 non-null float16
lat                           116512 non-null float16
lng                           116512 non-null float16
fecha                      

***
Finalmente, el comando de carga a utilizar es:
```python
df = pd.read_csv('../data/train.csv', dtype={'tipodepropiedad':'category', 'ciudad':'category', 'provincia':'category', 'id':'int32', 'antiguedad':'float16', 'habitaciones':'float16', 'garages':'float16', 'banos':'float16', 'metroscubiertos':'float16', 'metrostotales':'float16', 'idzona':'float16', 'lat':'float16', 'lng':'float16', 'gimnasio':'bool', 'usosmultiples':'bool', 'piscina':'bool', 'escuelascercanas':'bool', 'centroscomercialescercanos':'bool'}, parse_dates=['fecha'])
```