# Mapeando Properatti:

In [1]:
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_csv("properatti.csv")

## Nulos :

Iniciemos haciendo un recorrido por cada columna en su estado original.

In [2]:
#Voy a hacer un Data Frame con las columnas y sus correspondientes nulos:
Col = df.columns.values #Sacamos los nombres de las columnas como una Lista
Nul = df.isnull().sum().values #Sacamos la suma de los nulos en formato de Lista
Nulp = np.around(((df.isnull().sum()/121220)*100).values, decimals = 2) #Sacamos el % de los nulos
ListaTup = list(zip(Col, Nul, Nulp)) #compaginamos las tres listas de arriba 
ResNul = pd.DataFrame(ListaTup, columns = ['Columnas', 'Nulos', 'Nulos %']) #Armamos un df a partir de las listas compaginadas
ResNul.index += 1 #Aumentamos en 1 el indice para ver claro cuantas columnas hay
ResNul

Unnamed: 0,Columnas,Nulos,Nulos %
1,Unnamed: 0,0,0.0
2,operation,0,0.0
3,property_type,0,0.0
4,place_name,23,0.02
5,place_with_parent_names,0,0.0
6,country_name,0,0.0
7,state_name,0,0.0
8,geonames_id,18717,15.44
9,lat-lon,51550,42.53
10,lat,51550,42.53


A partir de este punto analizamos cada columna por separado y decidimos si aportan datos de interés:

### Unnamed: 0 :

Es un índice común y corriente y va desde 0 a los 121219.

In [3]:
df['Unnamed: 0'].describe()

count    121220.000000
mean      60609.500000
std       34993.344153
min           0.000000
25%       30304.750000
50%       60609.500000
75%       90914.250000
max      121219.000000
Name: Unnamed: 0, dtype: float64

### operation :

Es una columna que contiene el tipo de operación a realizar (Venta o Renta) en la esta base de datos solo figuran operaciones "sell"

In [4]:
df['operation'].value_counts()

sell    121220
Name: operation, dtype: int64

### property_type :

En esta columna contamos con los distintos tipos de propiedad, no se ven nulls a primera vista:

In [5]:
df['property_type'].value_counts()

apartment    71065
house        40268
PH            5751
store         4136
Name: property_type, dtype: int64

### place_name :

En esta columna vamos a encontrar los "Barrios" figuran 23 nulls salvables corresponden al barrio de "Tigre" sacado de "place_with_parent_names":

In [6]:
df[df.place_name.isnull()]['place_with_parent_names']

6489     |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
10201    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
11451    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
14839    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
18622    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
21922    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
23664    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
24722    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
38856    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
45970    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
46642    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
53130    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
55306    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
57703    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
57759    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
57764    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
57793    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
58004    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
58037    |Argentina|Bs.As. G.B.A. Zona Norte|T

### place_with_parent_names :

Esta columna contiene la acumulación total de la información de ubicación de las propiedades, es una sumatoria entre "place_name" y "state_name":

In [7]:
df['place_with_parent_names'].head()

0                |Argentina|Capital Federal|Mataderos|
1          |Argentina|Bs.As. G.B.A. Zona Sur|La Plata|
2                |Argentina|Capital Federal|Mataderos|
3                  |Argentina|Capital Federal|Liniers|
4    |Argentina|Buenos Aires Costa Atlántica|Mar de...
Name: place_with_parent_names, dtype: object

### country_name :

En esta columna figura el país al cual corresponde la propiedad, en la base que estamos trabajando, solo hay propiedades en argentina.

In [8]:
df['country_name'].value_counts()

Argentina    121220
Name: country_name, dtype: int64

### state_name :

En esta columna de ubicación, se da un orden superior de ubicación al de barrios como, Capital, Zonas aledañas a esta y provincias, a primera vista, la concentración de los primeros 8 renglones concentra el %95.4 de las propiedades:

In [9]:
df.state_name.value_counts(normalize = True)*100

Capital Federal                 26.658967
Bs.As. G.B.A. Zona Norte        21.085629
Bs.As. G.B.A. Zona Sur          11.509652
Córdoba                          9.956278
Santa Fe                         8.391355
Buenos Aires Costa Atlántica     8.254413
Bs.As. G.B.A. Zona Oeste         7.690150
Buenos Aires Interior            1.889952
Río Negro                        0.666557
Neuquén                          0.604686
Mendoza                          0.561788
Tucumán                          0.556014
Corrientes                       0.480944
Misiones                         0.382775
Entre Ríos                       0.304405
Salta                            0.229335
Chubut                           0.213661
San Luis                         0.207886
La Pampa                         0.129517
Formosa                          0.053622
Chaco                            0.047022
San Juan                         0.032998
Tierra Del Fuego                 0.025573
Catamarca                        0

### geonames_id :

Información útil que nos serviría para validar las columnas de ubicación anteriores, lamentablemente tenemos muchos null, muchos de los cuales pueden ser salvados con la data suministrada en las próximas columnas de "lat-lon"

In [10]:
df[(df['lat-lon'].notnull())&(df.geonames_id.isnull())].shape #Los nulls salvables con lat-lon

(10532, 26)

### lat-lon,  lat y lon :

En estas columnas, encontramos la ubicación con la latitud y la longitud de cada propiedad, podríamos tratar de cruzar información con la columna anterior, para completar algunos de sus nulos:

### price, currency, price_aprox_local_currency y price_aprox_usd:

En el caso de la columna "price" se colocó un valor que depende de la siguiente columna "currency" para saber de que moneda se esta hablando, la siguiente "price_aprox_local_currency" se limita a los $ARS en este caso, pero para tener un valor actualizable a estos días, podemos trabajar con "price_aprox_usd"
Todas estas columnas comparten nulos, generando una zona vacía de información, dejándonos sin nulos salvable.

In [11]:
df[(df.price.isnull())&(df.currency.isnull())&(df.price_aprox_local_currency.isnull())&(df.price_aprox_usd.isnull())].shape

(20410, 26)

### surface_total_in_m2 y surface_covered_in_m2 :

En estos casos en particular "surface_total_in_m2" tiene el doble de nulls que "surface_covered_in_m2" y son números grandes casi el 40%, una sugerencia seria sacar una relación ya que la cantidad de nulls que comparten es solo del 10.2%. Para sacar la relación, primero agruparía según el tipo de propiedad.

In [12]:
df[(df.surface_total_in_m2.isnull())&(df.surface_covered_in_m2 .isnull())].shape

(12369, 26)

### price_usd_per_m2 y price_per_m2 :

En el caso de estas columnas se verifico que no aporten nada ni a las columnas de precios ni a las de superficies:

In [13]:
df[(df.price.isnull())&\
   (df.currency.isnull())&\
   (df.price_aprox_local_currency.isnull())&\
   (df.price_aprox_usd.isnull())&\
   (df.price_usd_per_m2.notnull())&\
   (df.price_per_m2.notnull())].shape

(0, 26)

In [14]:
df[(df.surface_total_in_m2.isnull())&\
   (df.price_usd_per_m2.isnull())&\
   (df.price_usd_per_m2.notnull())&\
   (df.price_per_m2.notnull())].shape

(0, 26)

### floor :

La principal problemática con esta columna es lo vacía que se encuentra, con un 93% de nulls depende exclusivamente de lo extraído por expresiones regulares en la columna de 'description' y en 'title'
Habría que diferenciar en cuanto a piso de dpto y a planta de casas.

### rooms :

Similar a 'floor' salvo que la hay menos nulls solo un 61%, igual cuenta con una alta cuota de outliers, de esta forma se descubrió la venta de varios dptos en una sola publicación, estos casos son insalvables.

### expenses :

Esta columna seguiría la misma línea que 'floor' y 'rooms' en mi opinión particular dada la falta de detalles, como si están evaluadas en pesos o en dólares por ejemplo la descartaría o le daría prioridad a las columnas anteriores. De nuevo habrá que ver que aporta lo de regex

### properati_url y image_thumbnail :

Estas dos columnas carecen de contenido útil.

### title y description :

Fuente de información para otras columnas, como ya se habló, se les pasaría el filtro Eyal, para que las RE trabajen mejor.