In [50]:
import numpy as np
import pandas as pd
import re
pd.set_option('display.float_format', lambda x: '%.3f' % x)
np.set_printoptions(precision=3, suppress=True, floatmode='fixed') # Con este comando seteamos el formato de impresión
pd.set_eng_float_format(5)

## Importación Dataset

In [51]:
df = pd.read_csv('properatti.csv', index_col = 0) ### Dataset Completo
## DataFrame Partido en distintas partes relevantes
df_posicion_geografica = df.loc[:,['place_name','state_name','country_name','place_with_parent_names' \
                                   ,'geonames_id','lat','lon','lat-lon', \
                                   'describe','title']] ### Parte con Posición Geográfica
df_localidad=df.loc[:,['place_name','place_with_parent_names','describe','title']] ## Parte con Localidades
df_ambientes = df.loc[:,['rooms','property_type','description','title']]  ## Parte con Ambientes
df_pisos = df.loc[:,['floor','property_type','description','title']]  ## Parte con Pisos
df_precio = df.loc[:,['price','currency','price_aprox_local_currency','price_aprox_usd',\
                      'surface_total_in_m2','surface_covered_in_m2','price_usd_per_m2',\
                      'price_per_m2','description','title']]  ## Parte con Precios y Superficies

## Funciones

In [52]:
def busqueda_localidad(x):
    pattern = r"[\|]([\w\s\.]*)[\|]([\w\s\.]*)[\|]([\w\s\.]*)[\|]([\w\s\.]*)"
    regex = re.compile(pattern, flags = re.IGNORECASE | re.UNICODE)
    m = regex.search(x)
    if m:
        return m.group(1),m.group(2),m.group(3),m.group(4)
def busqueda_ambientes(x):
    '''
    Busca la palabra amb (de ambientes) y devuelve el número que tiene por delante
    '''
    try:
        pattern = '(\d+)\s*amb'
        regex = re.compile(pattern, flags = re.IGNORECASE | re.UNICODE)
        m = regex.search(x)
        if m:
            return float(m.group(1))
        else:
            return np.NaN
    except:
        return np.NaN
def busqueda_monoambientes(x):
    '''
    Busca en la palabra monoambiente y devuelve 1
    '''
    if type(x) is str:
        if x.lower().find('monoambiente') >-1:
            return 1
def busqueda_moneda(x):
    try:
        pattern = 'U\$D\s*([\d\.]+)'
        regex = re.compile(pattern, flags = re.IGNORECASE | re.UNICODE)
        m = regex.search(x)
        if m:
            return float(m.group(1).replace('.',''))
        else:
            np.NaN
    except:
        return np.NaN

## Breve Descripción del Dataset

In [21]:
df.head()

Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430790.0,"-34.6618237,-58.5088387",-34.66182,-58.50884,...,40.0,1127.27,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432040.0,"-34.9038831,-57.9643295",-34.90388,-57.96433,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430790.0,"-34.6522615,-58.5229825",-34.65226,-58.52298,...,55.0,1309.09,1309.09,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431330.0,"-34.6477969,-58.5164244",-34.6478,-58.51642,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435550.0,"-38.0026256,-57.5494468",-38.00263,-57.54945,...,35.0,1828.57,1828.57,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...


In [22]:
df.describe()

Unnamed: 0,geonames_id,lat,lon,price,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses
count,102503.0,69670.0,69670.0,100810.0,100810.0,100810.0,81892.0,101313.0,68617.0,87658.0,7899.0,47390.0,14262.0
mean,3574440.0,-34.62621,-59.26629,468525.93,4229400.0,239700.58,233.79533,133.05018,2160.09,6912.22,17.45234,3.08084,5009.23
std,354130.62,1.98094,2.29992,2260100.0,6904710.0,391323.88,1782.22,724.35148,2759.29,28378.64,120.24362,1.86077,120440.26
min,3427210.0,-54.82398,-75.67893,0.0,0.0,0.0,0.0,0.0,0.6,1.5102,1.0,1.0,1.0
25%,3430230.0,-34.66906,-58.72704,110000.0,1583310.0,89733.88,50.0,45.0,1218.18,1550.0,1.0,2.0,1000.0
50%,3433910.0,-34.59799,-58.48013,185000.0,2558450.0,145000.0,84.0,75.0,1800.0,2213.11,3.0,3.0,2000.0
75%,3836670.0,-34.4413,-58.39591,420000.0,4675790.0,265000.0,200.0,150.0,2486.41,3355.55,6.0,4.0,4000.0
max,6948900.0,4.54584,-53.73333,650000000.0,821271100.0,46545440.0,200000.0,187000.0,206333.33,4000000.0,3150.0,32.0,10001500.0


In [23]:
df.info();

<class 'pandas.core.frame.DataFrame'>
Int64Index: 121220 entries, 0 to 121219
Data columns (total 25 columns):
operation                     121220 non-null object
property_type                 121220 non-null object
place_name                    121197 non-null object
place_with_parent_names       121220 non-null object
country_name                  121220 non-null object
state_name                    121220 non-null object
geonames_id                   102503 non-null float64
lat-lon                       69670 non-null object
lat                           69670 non-null float64
lon                           69670 non-null float64
price                         100810 non-null float64
currency                      100809 non-null object
price_aprox_local_currency    100810 non-null float64
price_aprox_usd               100810 non-null float64
surface_total_in_m2           81892 non-null float64
surface_covered_in_m2         101313 non-null float64
price_usd_per_m2              68617 n

In [15]:
df.isnull().sum()

operation                          0
property_type                      0
place_name                        23
place_with_parent_names            0
country_name                       0
state_name                         0
geonames_id                    18717
lat-lon                        51550
lat                            51550
lon                            51550
price                          20410
currency                       20411
price_aprox_local_currency     20410
price_aprox_usd                20410
surface_total_in_m2            39328
surface_covered_in_m2          19907
price_usd_per_m2               52603
price_per_m2                   33562
floor                         113321
rooms                          73830
expenses                      106958
properati_url                      0
description                        2
title                              0
image_thumbnail                 3112
dtype: int64

In [17]:
df[['price','currency']].loc[(~df.price.isnull()) & (df.currency.isnull())] 
##la fila que tiene el precio pero no tiene currency es la 9761, El precio esta en 0.


Unnamed: 0,price,currency
9761,0.0,


# Parte Ambientes

In [53]:
df_ambientes_nulos=df_ambientes[df_ambientes.rooms.isnull()] ## Nos quedamos solo con los elementos nulos

In [54]:
df_ambientes_nulos.rooms.fillna(df_ambientes_nulos.description.apply(busqueda_ambientes),inplace=True)
## Rellena los Ambientes vacíos en base a la cantidad de ambientes dichas en la descripción

In [48]:
df_ambientes_nulos.rooms.fillna(df_ambientes_nulos.description.apply(busqueda_monomambientes),inplace=True)
## Rellena los Ambientes vacíos en base a si es un monoambiente o no (presente en la descripción)

In [49]:
df_ambientes_nulos ## Estado de los Ambientes al presente

Unnamed: 0,rooms,property_type,description,title
0,2.00000E+00,PH,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,,apartment,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,2.00000E+00,apartment,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
3,3.00000E+00,PH,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado
4,,apartment,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...
5,,house,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ..."
6,,PH,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,..."
7,1.00000E+00,apartment,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...
8,,apartment,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,..."
9,,house,MEDNOZA AL 7600A UNA CUADRA DE CALLE MENDOZAWH...,WHITE 7637 - 2 DORMITORIOS CON PATIO


## A Ordenar

In [18]:
df_posicion_geografica.head(5)

Unnamed: 0,place_name,state_name,country_name,place_with_parent_names,geonames_id,lat,lon,lat-lon,describe,title
0,Mataderos,Capital Federal,Argentina,|Argentina|Capital Federal|Mataderos|,3430790.0,-34.66182,-58.50884,"-34.6618237,-58.5088387",,2 AMB TIPO CASA SIN EXPENSAS EN PB
1,La Plata,Bs.As. G.B.A. Zona Sur,Argentina,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,3432040.0,-34.90388,-57.96433,"-34.9038831,-57.9643295",,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,Mataderos,Capital Federal,Argentina,|Argentina|Capital Federal|Mataderos|,3430790.0,-34.65226,-58.52298,"-34.6522615,-58.5229825",,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
3,Liniers,Capital Federal,Argentina,|Argentina|Capital Federal|Liniers|,3431330.0,-34.6478,-58.51642,"-34.6477969,-58.5164244",,PH 3 amb. cfte. reciclado
4,Centro,Buenos Aires Costa Atlántica,Argentina,|Argentina|Buenos Aires Costa Atlántica|Mar de...,3435550.0,-38.00263,-57.54945,"-38.0026256,-57.5494468",,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...


In [247]:
df_posicion_geografica.loc[df.place_name.isnull()] ## Localidades que están vacías.

Unnamed: 0,place_name,state_name,country_name,place_with_parent_names,geonames_id,lat,lon,lat-lon
6489,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.4009,-58.6381,"-34.4008968545,-58.63809847"
10201,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.4007,-58.63807,"-34.400704,-58.638067"
11451,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.40269,-58.62626,"-34.4026880384,-58.6262613379"
14839,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.4008,-58.63817,"-34.4007994779,-58.6381735719"
18622,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.40328,-58.62635,"-34.4032781195,-58.6263503945"
21922,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.3997,-58.63841,"-34.399704,-58.638405"
23664,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.40052,-58.6418,"-34.4005161998,-58.6417999185"
24722,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.40073,-58.63778,"-34.4007292,-58.6377783"
38856,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.42509,-58.57966,"-34.425087,-58.5796585"
45970,,Bs.As. G.B.A. Zona Norte,Argentina,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,,-34.39607,-58.63738,"-34.396074,-58.63738"


In [218]:
df_localidad.iloc[4:5,1].apply(busqueda_localidad)


4    (Argentina, Buenos Aires Costa Atlántica, Mar ...
Name: place_with_parent_names, dtype: object

In [271]:
df_precio_nulo = df[df.price.isnull()]

In [219]:
df_localidad.place_with_parent_names.apply(busqueda_localidad)

0                 (Argentina, Capital Federal, Mataderos, )
1           (Argentina, Bs.As. G.B.A. Zona Sur, La Plata, )
2                 (Argentina, Capital Federal, Mataderos, )
3                   (Argentina, Capital Federal, Liniers, )
4         (Argentina, Buenos Aires Costa Atlántica, Mar ...
5                   (Argentina, Entre Ríos, Gualeguaychú, )
6         (Argentina, Bs.As. G.B.A. Zona Norte, Vicente ...
7                  (Argentina, Capital Federal, Belgrano, )
8                  (Argentina, Capital Federal, Belgrano, )
9                          (Argentina, Santa Fe, Rosario, )
10                          (Argentina, Córdoba, Córdoba, )
11        (Argentina, Bs.As. G.B.A. Zona Norte, San Migu...
12        (Argentina, Bs.As. G.B.A. Zona Norte, San Isid...
13        (Argentina, Capital Federal, Palermo, Palermo ...
14        (Argentina, Capital Federal, Palermo, Palermo ...
15        (Argentina, Bs.As. G.B.A. Zona Norte, San Migu...
16                (Argentina, Capital Fe

In [220]:
df_localidad.place_with_parent_names.head(20)

0                 |Argentina|Capital Federal|Mataderos|
1           |Argentina|Bs.As. G.B.A. Zona Sur|La Plata|
2                 |Argentina|Capital Federal|Mataderos|
3                   |Argentina|Capital Federal|Liniers|
4     |Argentina|Buenos Aires Costa Atlántica|Mar de...
5                   |Argentina|Entre Ríos|Gualeguaychú|
6     |Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...
7                  |Argentina|Capital Federal|Belgrano|
8                  |Argentina|Capital Federal|Belgrano|
9                          |Argentina|Santa Fe|Rosario|
10                          |Argentina|Córdoba|Córdoba|
11      |Argentina|Bs.As. G.B.A. Zona Norte|San Miguel|
12    |Argentina|Bs.As. G.B.A. Zona Norte|San Isidro...
13     |Argentina|Capital Federal|Palermo|Palermo Soho|
14     |Argentina|Capital Federal|Palermo|Palermo Soho|
15    |Argentina|Bs.As. G.B.A. Zona Norte|San Miguel...
16                |Argentina|Capital Federal|Mataderos|
17    |Argentina|Bs.As. G.B.A. Zona Norte|Tigre|

In [221]:
df.iloc[2]

operation                                                                  sell
property_type                                                         apartment
place_name                                                            Mataderos
place_with_parent_names                   |Argentina|Capital Federal|Mataderos|
country_name                                                          Argentina
state_name                                                      Capital Federal
geonames_id                                                         3.43079E+06
lat-lon                                                 -34.6522615,-58.5229825
lat                                                               -34.65226E+00
lon                                                               -58.52298E+00
price                                                              72.00000E+03
currency                                                                    USD
price_aprox_local_currency              

## Otros

In [56]:
#Función caduca, no usar.
def update(x,y,nullvalue = None):
    x = np.where(x==nullvalue, y, x)
    #x = np.where(x.eq(0), y, x[])
    return x
update(df_ambientes_nulos.loc[:,'rooms'],df_ambientes_nulos.description.apply(busqueda_monomambientes),np.NaN)

array([2.000,   nan, 2.000, ...,   nan, 2.000,   nan])

In [55]:
## Para los precios
df_precio_nulo.title.apply(busqueda_moneda)[~df_precio_nulo.title.apply(busqueda_moneda).isnull()].sort_values(ascending=False)

NameError: name 'df_precio_nulo' is not defined