In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('./data/train.csv', dtype={'id':'uint32', 'provincia':'category', 'tipodepropiedad':'category', 'gimnasio':'bool', 'usosmultiples':'bool', 'piscina':'bool', 'escuelascercanas':'bool', 'centroscomercialescercanos':'bool'})

### Objetivo
Reducir el uso de memoria innecesaria

In [3]:
# Todos aquellas columnas que no tengan valores nulos pueden ser casteadas directamente en la lectura del archivo.
df.isnull().any()

id                            False
titulo                         True
descripcion                    True
tipodepropiedad                True
direccion                      True
ciudad                         True
provincia                      True
antiguedad                     True
habitaciones                   True
garages                        True
banos                          True
metroscubiertos                True
metrostotales                  True
idzona                         True
lat                            True
lng                            True
fecha                         False
gimnasio                      False
usosmultiples                 False
piscina                       False
escuelascercanas              False
centroscomercialescercanos    False
precio                        False
dtype: bool

In [4]:
df.gimnasio.value_counts()

False    225006
True      14994
Name: gimnasio, dtype: int64

In [5]:
# Casteamos gimnasio a bool

In [6]:
df.usosmultiples.value_counts()

False    226778
True      13222
Name: usosmultiples, dtype: int64

In [7]:
# Casteamos usos multiples a bool

In [8]:
df.piscina.value_counts()

False    219028
True      20972
Name: piscina, dtype: int64

In [9]:
# Casteamos piscina a bool

In [10]:
df.escuelascercanas.value_counts()

False    133406
True     106594
Name: escuelascercanas, dtype: int64

In [11]:
# Casteamos escuelas cercanas a bool

In [12]:
df.centroscomercialescercanos.value_counts()

False    144832
True      95168
Name: centroscomercialescercanos, dtype: int64

In [13]:
# Casteamos centros comerciales cercanos a bool

In [14]:
# Ahora casteamos los tipos que pueden ser de tipo categorico, como es el caso de 'provincia' y 'tipodepropiedad'.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null uint32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null category
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                       

In [16]:
# Ahora vamos a castear los datos de tipo float64 que no necesitan esta precision a enteros, o flotantes de menor
# precision, segun corresponda.

df['antiguedad'].max()

80.0

In [54]:
# Vemos que antiguedad tiene un valor maximo de 80 y son valores enteros, por lo que con int8 nos alcanza.
# Como antiguedad tiene valores nulos, no podremos hacer una conversion directa, sin antes tener en cuenta
# estos valores. Para eso, les pondremos el valor '-1' para poder convertir.

# Repetiremos el mismo proceso para habitaciones, garages, y banos. Todos estos valores son enteros positivos,
# reescribiremos los NaN como -1.

In [55]:
df['antiguedad'].isnull().value_counts()

False    240000
Name: antiguedad, dtype: int64

In [56]:
df['habitaciones'].max()

10

In [57]:
df['garages'].max()

3

In [58]:
df['banos'].max()

4

In [80]:
df['antiguedad'] = df['antiguedad'].fillna(-1)
df['antiguedad'] = df['antiguedad'].astype(np.int8)

In [60]:
df['habitaciones'] = df['habitaciones'].fillna(-1)
df['habitaciones'] = df['habitaciones'].astype(np.int8)

In [61]:
df['garages'] = df['garages'].fillna(-1)
df['garages'] = df['garages'].astype(np.int8)

In [62]:
df['banos'] = df['banos'].fillna(-1)
df['banos'] = df['banos'].astype(np.int8)

In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null uint32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null category
antiguedad                    240000 non-null float16
habitaciones                  240000 non-null int8
garages                       240000 non-null int8
banos                         240000 non-null int8
metroscubiertos               240000 non-null int16
metrostotales                 240000 non-null int16
idzona                        240000 non-null int32
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240000 non-nu

In [64]:
df['precio'].map(lambda x: np.uint32(x) != x).any()

False

In [65]:
# Como vemos, el precio puede ser convertido a un entero unsigned de 32 sin perder datos.
df['precio'] = df['precio'].astype('uint32')

In [66]:
df.dtypes

id                                    uint32
titulo                                object
descripcion                           object
tipodepropiedad                     category
direccion                             object
ciudad                                object
provincia                           category
antiguedad                           float16
habitaciones                            int8
garages                                 int8
banos                                   int8
metroscubiertos                        int16
metrostotales                          int16
idzona                                 int32
lat                                  float64
lng                                  float64
fecha                         datetime64[ns]
gimnasio                                bool
usosmultiples                           bool
piscina                                 bool
escuelascercanas                        bool
centroscomercialescercanos              bool
precio    

In [67]:
df['fecha'] = pd.to_datetime(df['fecha'])

In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null uint32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null category
antiguedad                    240000 non-null float16
habitaciones                  240000 non-null int8
garages                       240000 non-null int8
banos                         240000 non-null int8
metroscubiertos               240000 non-null int16
metrostotales                 240000 non-null int16
idzona                        240000 non-null int32
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240000 non-nu

In [69]:
df['idzona'].isnull().value_counts()

False    240000
Name: idzona, dtype: int64

In [70]:
# Para idzonas, vamos a llenar los valores NaN con el valor -1, y castear los floats de 64 a ints de 32.

In [71]:
df['idzona'] = df['idzona'].fillna(-1)
df['idzona'].map(lambda x: np.int32(x) != x).any()

False

In [72]:
# Vemos que podemos castear a enteros de 32 bits sin perder data.
df['idzona'] = df['idzona'].astype(np.int32)

In [73]:
#Repetimos el procedimiento para metroscubiertos y metrostotales.

In [74]:
df['metroscubiertos'] = df['metroscubiertos'].fillna(-1)
df['metroscubiertos'].map(lambda x: np.int16(x) != x).any()

False

In [75]:
df['metroscubiertos'] = df['metroscubiertos'].astype(np.int16)

In [76]:
df['metrostotales'] = df['metrostotales'].fillna(-1)
df['metrostotales'].map(lambda x: np.int16(x) != x).any()

False

In [77]:
df['metrostotales'] = df['metrostotales'].astype(np.int16)

In [81]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null uint32
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null category
antiguedad                    240000 non-null int8
habitaciones                  240000 non-null int8
garages                       240000 non-null int8
banos                         240000 non-null int8
metroscubiertos               240000 non-null int16
metrostotales                 240000 non-null int16
idzona                        240000 non-null int32
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240000 non-null 

In [83]:
# Como vemos, hemos reducido el uso de memoria a solo 19MB. Trabajaremos sobre esto para el resto del trabajo.