# Entendiendo los datos

In [2]:
import pandas as pd
import numpy as np

## Estructura del Dataframe

In [3]:
df = pd.read_csv('data/train.csv')

In [4]:
df.shape

(240000, 23)

In [5]:
df.dtypes

id                              int64
titulo                         object
descripcion                    object
tipodepropiedad                object
direccion                      object
ciudad                         object
provincia                      object
antiguedad                    float64
habitaciones                  float64
garages                       float64
banos                         float64
metroscubiertos               float64
metrostotales                 float64
idzona                        float64
lat                           float64
lng                           float64
fecha                          object
gimnasio                      float64
usosmultiples                 float64
piscina                       float64
escuelascercanas              float64
centroscomercialescercanos    float64
precio                        float64
dtype: object

In [6]:
df.memory_usage()

Index                              80
id                            1920000
titulo                        1920000
descripcion                   1920000
tipodepropiedad               1920000
direccion                     1920000
ciudad                        1920000
provincia                     1920000
antiguedad                    1920000
habitaciones                  1920000
garages                       1920000
banos                         1920000
metroscubiertos               1920000
metrostotales                 1920000
idzona                        1920000
lat                           1920000
lng                           1920000
fecha                         1920000
gimnasio                      1920000
usosmultiples                 1920000
piscina                       1920000
escuelascercanas              1920000
centroscomercialescercanos    1920000
precio                        1920000
dtype: int64

In [7]:
df.head(2)

Unnamed: 0,id,titulo,descripcion,tipodepropiedad,direccion,ciudad,provincia,antiguedad,habitaciones,garages,...,idzona,lat,lng,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
0,254099,depto. tipo a-402,"depto. interior de 80.15m2, consta de sala com...",Apartamento,Avenida Division del Norte 2005,Benito Juárez,Distrito Federal,,2.0,1.0,...,23533.0,,,2015-08-23 00:00:00,0.0,0.0,0.0,0.0,0.0,2273000.0
1,53461,condominio horizontal en venta,"<p>entre sonora y guerrero, atr&aacute;s del h...",Casa en condominio,AV. MEXICO,La Magdalena Contreras,Distrito Federal,10.0,3.0,2.0,...,24514.0,19.310205,-99.227655,2013-06-28 00:00:00,0.0,0.0,0.0,1.0,1.0,3600000.0


## Cambio de tipos a tipos más convenientes

* Conversión de booleanos, categorias y strings

In [15]:
df.fillna({'habitaciones':0, 'garages': 0, 'banos':0}, inplace=True)
df.astype({
    'gimnasio': bool,
    'usosmultiples': bool,
    'piscina': bool,
    'escuelascercanas': bool,
    'centroscomercialescercanos': bool,
    'tipodepropiedad': 'category',
    'ciudad': 'category',
    'provincia': 'category',
    'habitaciones': 'int32',
    'garages': 'int32',
    'banos': 'int32'
}, inplace=True)
None

In [16]:
# conversion de idzona de float a string sin decimales

df.idzona = df.idzona.apply("{:10.0f}".format)

In [17]:
df.dtypes

id                               int64
titulo                          object
descripcion                     object
tipodepropiedad               category
direccion                       object
ciudad                        category
provincia                     category
antiguedad                     float64
habitaciones                     int32
garages                          int32
banos                            int32
metroscubiertos                float64
metrostotales                  float64
idzona                          object
lat                            float64
lng                            float64
fecha                           object
gimnasio                          bool
usosmultiples                     bool
piscina                           bool
escuelascercanas                  bool
centroscomercialescercanos        bool
precio                         float64
dtype: object

* Existen valores numéricos que contienen *nan* o *infinito* por lo que al pasar a int se producen errores. Se preservaran en float64 para soportar estas condiciones


In [28]:
df['antiguedad'].unique()

array([nan, 10.,  5.,  1.,  2.,  0., 20.,  4.,  8.,  3., 18., 16.,  6.,
       50., 30., 26., 25., 28., 15., 12., 48., 22., 11., 60., 17., 33.,
       35., 14., 40.,  7.,  9., 27., 24., 19., 34., 13., 37., 36., 65.,
       31., 21., 23., 45., 32., 51., 29., 42., 43., 49., 70., 44., 46.,
       39., 38., 47., 63., 55., 52., 41., 80., 59., 67., 54., 71., 58.,
       75., 53., 61., 79., 69., 56., 66., 57., 62., 64., 74., 77., 76.,
       68.])

In [26]:
df.to_pickle("data/propiedades.pkl")

In [20]:
df.dtypes

id                               int64
titulo                          object
descripcion                     object
tipodepropiedad               category
direccion                       object
ciudad                        category
provincia                     category
antiguedad                     float64
habitaciones                     int32
garages                          int32
banos                            int32
metroscubiertos                float64
metrostotales                  float64
idzona                          object
lat                            float64
lng                            float64
fecha                           object
gimnasio                          bool
usosmultiples                     bool
piscina                           bool
escuelascercanas                  bool
centroscomercialescercanos        bool
precio                         float64
dtype: object

In [21]:
df.memory_usage()

Index                              80
id                            1920000
titulo                        1920000
descripcion                   1920000
tipodepropiedad                240832
direccion                     1920000
ciudad                         527960
provincia                      241536
antiguedad                    1920000
habitaciones                   960000
garages                        960000
banos                          960000
metroscubiertos               1920000
metrostotales                 1920000
idzona                        1920000
lat                           1920000
lng                           1920000
fecha                         1920000
gimnasio                       240000
usosmultiples                  240000
piscina                        240000
escuelascercanas               240000
centroscomercialescercanos     240000
precio                        1920000
dtype: int64

In [30]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null category
direccion                     186928 non-null object
ciudad                        239628 non-null category
provincia                     239845 non-null category
antiguedad                    196445 non-null float64
habitaciones                  240000 non-null int32
garages                       240000 non-null int32
banos                         240000 non-null int32
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        240000 non-null object
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         2400