In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Lectura del dataset usando como index la primera columna
df = pd.read_csv('properatti.csv', index_col=0)

In [3]:
df.shape

(121220, 25)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 121220 entries, 0 to 121219
Data columns (total 25 columns):
operation                     121220 non-null object
property_type                 121220 non-null object
place_name                    121197 non-null object
place_with_parent_names       121220 non-null object
country_name                  121220 non-null object
state_name                    121220 non-null object
geonames_id                   102503 non-null float64
lat-lon                       69670 non-null object
lat                           69670 non-null float64
lon                           69670 non-null float64
price                         100810 non-null float64
currency                      100809 non-null object
price_aprox_local_currency    100810 non-null float64
price_aprox_usd               100810 non-null float64
surface_total_in_m2           81892 non-null float64
surface_covered_in_m2         101313 non-null float64
price_usd_per_m2              68617 n

In [5]:
df.columns

Index(['operation', 'property_type', 'place_name', 'place_with_parent_names',
       'country_name', 'state_name', 'geonames_id', 'lat-lon', 'lat', 'lon',
       'price', 'currency', 'price_aprox_local_currency', 'price_aprox_usd',
       'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2',
       'price_per_m2', 'floor', 'rooms', 'expenses', 'properati_url',
       'description', 'title', 'image_thumbnail'],
      dtype='object')

In [6]:
# Revisar contenido de columnas
for col in df.columns:
   print(f'col: {col} --> contenido: {df[col].unique()}')

col: operation --> contenido: ['sell']
col: property_type --> contenido: ['PH' 'apartment' 'house' 'store']
col: place_name --> contenido: ['Mataderos' 'La Plata' 'Liniers' ... 'Laguna Paiva' 'Malabrigo'
 'Altos de Hudson I']
col: place_with_parent_names --> contenido: ['|Argentina|Capital Federal|Mataderos|'
 '|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|'
 '|Argentina|Capital Federal|Liniers|' ...
 '|Argentina|Santa Fe|Laguna Paiva|' '|Argentina|Santa Fe|Malabrigo|'
 '|Argentina|Bs.As. G.B.A. Zona Sur|Berazategui|Altos de Hudson I|']
col: country_name --> contenido: ['Argentina']
col: state_name --> contenido: ['Capital Federal' 'Bs.As. G.B.A. Zona Sur' 'Buenos Aires Costa Atlántica'
 'Entre Ríos' 'Bs.As. G.B.A. Zona Norte' 'Santa Fe' 'Córdoba'
 'Bs.As. G.B.A. Zona Oeste' 'Misiones' 'Buenos Aires Interior' 'Salta'
 'Neuquén' 'Río Negro' 'San Luis' 'Mendoza' 'Corrientes' 'Chubut'
 'Tucumán' 'La Pampa' 'Chaco' 'San Juan' 'Santa Cruz' 'Tierra Del Fuego'
 'Catamarca' 'Santiago Del Estero' 

col: properati_url --> contenido: ['http://www.properati.com.ar/15bo8_venta_ph_mataderos_lavadero_patio_inmobiliaria-fedele'
 'http://www.properati.com.ar/15bob_venta_departamentos_la-plata_balcon_lavadero_toilette_garage_estrenar_antonini-propiedades_dcp'
 'http://www.properati.com.ar/15bod_venta_departamentos_mataderos_lavadero_placard_inmobiliaria-fedele'
 ...
 'http://www.properati.com.ar/1cja7_venta_departamento_villa-urquiza_holmberg_2300_balcon_lavadero_parrilla_terraza_electrogeno_garage_amenities_placard_aire-acondicionado_estrenar_triada-propiedades_geg'
 'http://www.properati.com.ar/1cja8_venta_departamento_plaza-colon_lavadero_luminoso_dependencias_impecable_placard_girard-propiedades_gkl'
 'http://www.properati.com.ar/1cjaa_venta_departamento_capital-federal_baulera_lavadero_lujoso_dependencias_izrastzoff-compania-inmobiliaria']
col: description --> contenido: ['2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO, REFACCIONADO A NUEVO, PATIO GRANDE, CON LAVADERO, LIVING COMEDOR 

**Conclusiones**:  
    - operation: Hay solo registros con operaciones de venta ('sell'). Sin nulls. Eliminar col.  
    - property_type: OK.  
    - place_with_parent_names: Info duplicada. Sin nulls. Eliminar col.  
    - country_name: hay solo registros en Argentina. Sin nulls. Eliminar col.  
    - state_name: CABA y provincias. OK. Filtro.  
    - geonames_id: Por si es utilizable con otra herramienta. REVISAR.
    - lat-lon: Info duplicada. Mismos nulls que en otras celdas. Eliminar col.  
    - lat: OK.   
    - lon: OK. 
    - price, currency, price_aprox_local_currency: Info duplicada. Eliminar cols.  
    - price_aprox_usd: OK.  
    - surface_total_in_m2, surface_covered_in_m2: OK.  
    - price_usd_per_m2: calculable. revisar por diferente cantidad de nulls. REVISAR.
    - price_per_m2: Eliminar col.
    - floor: no se entiende que es. REVISAR.
    - rooms: OK.  
    - expenses: OK.  
    - properati_url: Eliminar col.
    - description: OK.  
    - title: OK. 
    - image_thumbnail: Eliminar col.  

In [7]:
selected_columns = ['state_name', 'place_name', 'property_type', 'geonames_id', 'lat', 'lon',
                    'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2',
                    'floor', 'rooms', 'expenses', 'description', 'title']
df = df.loc[:, selected_columns]
df.head(3)

Unnamed: 0,state_name,place_name,property_type,geonames_id,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,description,title
0,Capital Federal,Mataderos,PH,3430787.0,-34.661824,-58.508839,62000.0,55.0,40.0,1127.272727,,,,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,Bs.As. G.B.A. Zona Sur,La Plata,apartment,3432039.0,-34.903883,-57.96433,150000.0,,,,,,,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,Capital Federal,Mataderos,apartment,3430787.0,-34.652262,-58.522982,72000.0,55.0,55.0,1309.090909,,,,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO


In [8]:
# Renombrar columas
df.rename(mapper={'surface_covered_in_m2': 'sup_cub', 'surface_total_in_m2': 'sup_total',
                  'price_aprox_usd': 'precio', 'price_usd_per_m2': 'precio_m2',
                  'property_type': 'tipo', 'place_name': 'barrio'}
                 , axis=1, inplace=True)

In [9]:
# Filtrar dejando solo los registros de CABA y eliminar columna de state_name
df = df.loc[df['state_name'] == 'Capital Federal']
df.drop('state_name', axis=1, inplace=True)
df.shape

(32316, 14)

In [10]:
# Filtrar por propiedades residenciales
df['tipo'].value_counts()
any(df['tipo'].isnull())

apartment    27037
house         2087
PH            1828
store         1364
Name: tipo, dtype: int64

False

In [11]:
# Remover todo property_type != 'apartment'
df = df[df['tipo'] == 'apartment']
df.shape

(27037, 14)

In [12]:
# Revisar si hay nulls en columna de precios en dólares
sum(df['precio'].isnull())

2883

In [13]:
# No hay registros con 'precio' nulo y 'precio_m2' no nulo
sum( (df['precio'].isnull()) & (df['precio_m2'].notnull()) ) 
df.loc[(df['precio'].isnull()) & (df['precio_m2'].notnull()), ].head()

0

Unnamed: 0,barrio,tipo,geonames_id,lat,lon,precio,sup_total,sup_cub,precio_m2,floor,rooms,expenses,description,title


In [14]:
# Seleccionar los registros con precio notnull()
df = df.loc[df['precio'].notnull()]
df.shape

(24154, 14)

In [15]:
# Revisar registros donde la sup total existe pero no la sup cubierta
df.loc[(df['sup_total'].notnull()) & (df['sup_cub'].isnull())].shape
df.loc[(df['sup_total'].notnull()) & (df['sup_cub'].isnull())].head(3)

(897, 14)

Unnamed: 0,barrio,tipo,geonames_id,lat,lon,precio,sup_total,sup_cub,precio_m2,floor,rooms,expenses,description,title
66,Boedo,apartment,3436003.0,-34.618777,-58.402645,72900.0,38.0,,1918.421053,,,1200.0,CODIGO: 5 ubicado en: Avenida Independencia 26...,"DEPARTAMENTO NUEVO, DE UN AMBIENTE amplio, 3 A..."
914,Belgrano,apartment,3436077.0,-34.566322,-58.463086,170000.0,69.0,,2463.768116,,2.0,2500.0,Venta de Departamento 2 AMBIENTES con COCHERA ...,DEPARTAMENTO EN VENTA
5404,Belgrano,apartment,3436077.0,-34.561246,-58.453491,285000.0,90.0,,3166.666667,15.0,3.0,3200.0,"Venta de Departamento 3 AMBIENTES en Belgrano,...",DEPARTAMENTO EN VENTA


In [16]:
# Asignar a sup_cub el valor de sup_total para aquellos casos identificados en el punto anterior
df = df.fillna({'sup_cub': df['sup_total']})

In [17]:
# Revisar registros donde la sup cub existe pero no la sup total
df.loc[(df['sup_total'].isnull()) & (df['sup_cub'].notnull())].shape
df.loc[(df['sup_total'].isnull()) & (df['sup_cub'].notnull())].head(3)

(3868, 14)

Unnamed: 0,barrio,tipo,geonames_id,lat,lon,precio,sup_total,sup_cub,precio_m2,floor,rooms,expenses,description,title
120,Belgrano,apartment,3436077.0,-34.562697,-58.460157,178000.0,,55.0,,12.0,,,"Depto de 3 amb. c/cochera cubierta, en piso 12...","Departamento con Plantas en Mendoza 2700, Capi..."
157,Balvanera,apartment,6693228.0,-34.617226,-58.395943,129000.0,,80.0,,,4.0,,Corredor Responsable: Daniel Acosta - CUCICBA ...,4 amb. c/dep muy bueno. Oportunidad.
166,Caballito,apartment,3435874.0,-34.620725,-58.438704,128000.0,,51.0,,6.0,2.0,,Corredor Responsable: Mariano Aufseher - CUCIC...,"!!UNICO!! 2 amb c/ balcón, baulera VISTA PANOR..."


In [18]:
# Asignar a sup_total el valor de sup_cub para aquellos casos identificados en el punto anterior
df = df.fillna({'sup_total': df['sup_cub']})

In [19]:
# Revisar registros donde sup_total y sup_cub son NaN
df.loc[(df['sup_total'].isnull()) & (df['sup_cub'].isnull())].shape

(377, 14)

In [20]:
# Eliminar registros donde la sup_total y sup_cub son NaN
df.dropna(subset=['sup_total', 'sup_cub'], inplace=True)

In [21]:
# Check final de existencia de dato en columnas precio, sup_tot y sup_cub
df.loc[(df['sup_total'].isnull())].shape
df.loc[(df['sup_cub'].isnull())].shape
df.loc[(df['precio'].isnull())].shape

(0, 14)

(0, 14)

(0, 14)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23777 entries, 2 to 121219
Data columns (total 14 columns):
barrio         23777 non-null object
tipo           23777 non-null object
geonames_id    22799 non-null float64
lat            17888 non-null float64
lon            17888 non-null float64
precio         23777 non-null float64
sup_total      23777 non-null float64
sup_cub        23777 non-null float64
precio_m2      19896 non-null float64
floor          2766 non-null float64
rooms          12729 non-null float64
expenses       5905 non-null float64
description    23777 non-null object
title          23777 non-null object
dtypes: float64(10), object(4)
memory usage: 2.7+ MB


In [23]:
df.shape

(23777, 14)

In [24]:
df.head()

Unnamed: 0,barrio,tipo,geonames_id,lat,lon,precio,sup_total,sup_cub,precio_m2,floor,rooms,expenses,description,title
2,Mataderos,apartment,3430787.0,-34.652262,-58.522982,72000.0,55.0,55.0,1309.090909,,,,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
7,Belgrano,apartment,3436077.0,-34.559873,-58.443362,138000.0,45.0,40.0,3066.666667,,,,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...
8,Belgrano,apartment,3436077.0,-34.559873,-58.443362,195000.0,65.0,60.0,3000.0,,,,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,..."
13,Palermo Soho,apartment,3430234.0,,,111700.0,50.0,30.0,2234.0,,1.0,,Torre I Mondrian. 3 ambientes con terraza y d...,Vitraux Palermo
14,Palermo Soho,apartment,3430234.0,,,147900.0,42.0,31.0,3521.428571,,1.0,,Torre II Dalí. Ambiente unico divisible.Vitrau...,Vitraux Palermo


In [25]:
# Crear una columna con sup_desc
df['sup_desc'] = df['sup_total'] - df['sup_cub']
any(df['sup_desc'].isnull())

False

In [26]:
# Completar los registros sin 'precio_m2' con el valor calculado como 'precio' / 'sup_total'
df.fillna({'precio_m2': df['precio'] / df['sup_total']}, inplace=True)
sum(df['precio_m2'].isnull())

0

In [27]:
# Contando los casos ajustados en el paso anterior, ~25% de los datos no coincide
comparar_precio_m2 = df['precio'] / df['sup_total'] != df['precio_m2']
sum(comparar_precio_m2)

6268

In [28]:
# Convertir la columna de 'precio_m2' al valor calculado en lugar del registrado en la base
df['precio_m2'] = df['precio'] / df['sup_total']

In [29]:
# Recheck
comparar_precio_m2 = df['precio'] / df['sup_total'] != df['precio_m2']
sum(comparar_precio_m2)

0

In [30]:
# ELIMINAR REGISTROS DUPLICADOS
# VALIDAR GEONAMES_ID con BARRIO
# Lista de las 10 top words en description
# Lista de las 10 top words en title y ver si no duplica info de description

In [31]:
# Guardar archivo con datos limpios
df.to_csv('properatti_clean.csv')