In [114]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
#from IPython.core.interactiveshell import InteractiveShell
#InteractiveShell.ast_node_interactivity = "all"

# **Importación de los datos de properati**

In [115]:
data = pd.read_csv("../data/properatti.csv", sep = ",", low_memory=False) 
#data.head(3)
data.shape

(121220, 26)

## Selección subdataset AMBA

In [116]:
#dejamos solo lo de AMBA
data = data[(data["state_name"]== 'Capital Federal') | (data["state_name"]== 'Bs.As. G.B.A. Zona Sur') | (data["state_name"]=='Bs.As. G.B.A. Zona Norte') | (data["state_name"]== 'Bs.As. G.B.A. Zona Oeste')]
print(data.shape)

(81150, 26)


# Limpieza e imputaciones

## Elimino columnas que no uso

In [117]:
cols2keep = ['property_type', 'state_name', 'place_name','place_with_parent_names','price_aprox_usd', 'surface_total_in_m2','surface_covered_in_m2','price_usd_per_m2', 'rooms', 'description', 'title', 'properati_url']
data = data.loc[:, cols2keep]
#print(df_sub)

## Chequeo valores nulos

In [118]:
#Chequeo valores nulos
cant_nulos_por_campo = data.apply(lambda x: x.isnull().sum(), axis=0)
percent_nulos_por_campo = data.apply(lambda x: (100 * x.isnull().sum() / data.shape[0]).round(2), axis=0)
summary_nulos_por_campo = pd.DataFrame({ 'cant': cant_nulos_por_campo, 'percent': percent_nulos_por_campo ,'tipo': data.dtypes})
print(summary_nulos_por_campo)

                          cant  percent     tipo
property_type                0     0.00   object
state_name                   0     0.00   object
place_name                  23     0.03   object
place_with_parent_names      0     0.00   object
price_aprox_usd           8656    10.67  float64
surface_total_in_m2      22792    28.09  float64
surface_covered_in_m2     8505    10.48  float64
price_usd_per_m2         29515    36.37  float64
rooms                    51211    63.11  float64
description                  1     0.00   object
title                        0     0.00   object
properati_url                0     0.00   object


## Completar info Rooms


In [119]:
#Comprobamos el tipo y los valores.
print("tipo  : ", data.rooms.dtype)
print("nulos : ", data.rooms.isnull().sum())
data.rooms.unique()

tipo  :  float64
nulos :  51211


array([nan,  1.,  4.,  3.,  2.,  6.,  5., 10.,  7., 17., 22.,  8.,  9.,
       11., 13., 12., 25., 14., 16., 18., 15., 32.])

In [120]:
totalVentas = data.state_name.notnull().sum()
totalSinCuartos = data.rooms.isnull().sum()
print('Total Registros \t\t\t', data.state_name.notnull().sum() )
print('Total sin ambientes \t\t\t',data.rooms.isnull().sum() )
print('Porcentaje sin ambientes \t\t', round( (totalVentas- totalSinCuartos) / totalVentas * 100, 2), ' %' )

Total Registros 			 81150
Total sin ambientes 			 51211
Porcentaje sin ambientes 		 36.89  %


In [121]:
data['title'] = data.title.str.upper()
data['description'] = data.description.str.upper()

In [122]:
reemplazo_dic = {"UNO":"1", "DOS":"2", "TRES":"3", "CUATRO":"4", "CINCO":"5", "SEIS":"6", "SIETE":"7", "OCHO":"8",
             "NUEVE":"9", "DIEZ":"10", "MONOAMBIENTE":"1 AMBIENTE", "MONOAMB" : "1 AMBIENTE", "UN":"1", "AMBIENTE DIVISIBLE":"1 AMBIENTE",
             "MONO AMBIENTE": "1 AMBIENTE","DORMITORIOS": "AMBIENTE","DORMITORIO": "AMBIENTE","HABITACIONES": "AMBIENTE","HABITACION": "AMBIENTE"}
for key in reemplazo_dic.keys():
    data.description = data.description.str.replace(key, reemplazo_dic[key], regex=False)

for key in reemplazo_dic.keys():
    data.title = data.title.str.replace(key, reemplazo_dic[key], regex=False)

In [123]:
regularexpArray=["(\d+)AMB","(\d+) AMB"]

for regularexp in regularexpArray:
    controlRooms = data[(data.rooms.isnull()) ]
    controlRooms.rooms = controlRooms.title.str.extract(regularexp).astype(float)
    data.update(controlRooms)
    controlRooms = data[(data.rooms.isnull()) ]
    controlRooms.rooms = controlRooms.description.str.extract(regularexp).astype(float) 
    data.update(controlRooms)
    
# se agrega un ambiente mas
regularexpArray=["(\d+)DORM","(\d+) DORM","(\d+)HABITACIO","(\d+) HABITACIO"]

for regularexp in regularexpArray:
    controlRooms = data[(data.rooms.isnull()) ]
    controlRooms.rooms = controlRooms.title.str.extract(regularexp).astype(float) + 1
    data.update(controlRooms)
    controlRooms = data[(data.rooms.isnull()) ]
    controlRooms.rooms = controlRooms.description.str.extract(regularexp).astype(float) + 1
    data.update(controlRooms)    
controlRooms = data[(data.rooms.isnull())]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


In [125]:
totalVentas = data.state_name.notnull().sum()
totalSinCuartos = data.rooms.isnull().sum()
porcentajeSinCuartos = round( (totalVentas- totalSinCuartos) / totalVentas * 100, 2)
print('Total Registros \t\t\t', totalVentas )
print('Total sin Ambientes \t\t\t', totalSinCuartos )
print('Porcentaje con ambientes \t\t', porcentajeSinCuartos, ' %' )

Total Registros 			 81150
Total sin Ambientes 			 10685
Porcentaje con ambientes 		 86.83  %


## Eliminar duplicados

In [24]:
#elimino duplicados 
data.drop_duplicates(keep="first")


Unnamed: 0,property_type,state_name,place_name,place_with_parent_names,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,rooms,description,title,properati_url
0,PH,Capital Federal,Mataderos,|Argentina|Capital Federal|Mataderos|,62000.0,55.0,40.0,1127.272727,2.0,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,http://www.properati.com.ar/15bo8_venta_ph_mat...
1,apartment,Bs.As. G.B.A. Zona Sur,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,150000.0,,,,3.0,VENTA DE DEPARTAMENTO EN DÉCIMO PISO AL FRENTE...,VENTA DEPTO 2 DORM. A ESTRENAR 7 E/ 36 Y 37 ...,http://www.properati.com.ar/15bob_venta_depart...
2,apartment,Capital Federal,Mataderos,|Argentina|Capital Federal|Mataderos|,72000.0,55.0,55.0,1309.090909,2.0,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,http://www.properati.com.ar/15bod_venta_depart...
3,PH,Capital Federal,Liniers,|Argentina|Capital Federal|Liniers|,95000.0,,,,3.0,PH 3 AMBIENTES CON PATIO. HAY 3 DEPTOS EN LOTE...,PH 3 AMB. CFTE. RECICLADO,http://www.properati.com.ar/15boh_venta_ph_lin...
6,PH,Bs.As. G.B.A. Zona Norte,Munro,|Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...,130000.0,106.0,78.0,1226.415094,2.0,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE 2 AMBIENTE , PATIO, EXCE...",http://www.properati.com.ar/15bor_venta_ph_mun...
...,...,...,...,...,...,...,...,...,...,...,...,...
121214,store,Bs.As. G.B.A. Zona Norte,San Isidro,|Argentina|Bs.As. G.B.A. Zona Norte|San Isidro|,,123.0,123.0,,,***VENTA CON RENTA***LOCAL EN EDIFICIO LOMAS ...,LOCAL - SAN ISIDRO,http://www.properati.com.ar/1cja1_venta_local_...
121215,apartment,Capital Federal,Belgrano,|Argentina|Capital Federal|Belgrano|,870000.0,113.0,93.0,7699.115044,2.0,TORRE FORUM ALCORTA - MÁXIMA CATEGORÍA.IMPECAB...,TORRE FORUM ALCORTA- IMPECABLE 3 AMBIENTES,http://www.properati.com.ar/1cja2_venta_depart...
121216,house,Bs.As. G.B.A. Zona Norte,Beccar,|Argentina|Bs.As. G.B.A. Zona Norte|San Isidro...,498000.0,360.0,360.0,1383.333333,3.0,EXCELENTE E IMPECABLE CASA EN VENTA EN LAS LOM...,RUCA INMUEBLES | VENTA | LOMAS DE SAN ISIDRO |...,http://www.properati.com.ar/1cja6_venta_casa_b...
121217,apartment,Capital Federal,Villa Urquiza,|Argentina|Capital Federal|Villa Urquiza|,131500.0,46.0,39.0,2858.695652,1.0,VENTA DEPARTAMENTO 1 AMBIENTE A ESTRENAR BALCO...,VENTA DEPARTAMENTO 1 AMBIENTE A ESTRENAR BALCO...,http://www.properati.com.ar/1cja7_venta_depart...


## Pasar todas las columnas a minusculas

In [25]:
data_lower = data.applymap(lambda x: x if np.isreal(x) else str(x).lower())
# comparo los tipos de datos antes y después de pasar a minúsculas:
#print(data_lower.dtypes == data.dtypes)
#print(data_lower.head(3))

## limpieza de outliers en price_usd_per_m2

In [26]:
#búsqueda y reemplazo de outliers (de más de 2 std, 95%) por NaN en las columnas numéricas, en un solo paso
df_sub = data.loc[:, 'price_usd_per_m2']
lim = np.abs((df_sub - df_sub.mean()) / df_sub.std(ddof=0)) < 2
data.loc[:, 'price_usd_per_m2'] = df_sub.where(lim, np.nan)
#data.head(3)
data.shape
#data.dropna()

(81150, 12)

## Elimino registros con valores NaN

In [27]:
data.dropna(axis=0, how='any', subset=['property_type', 'state_name', 'place_name', 'price_aprox_usd', 'surface_total_in_m2','surface_covered_in_m2', 'rooms', 'price_usd_per_m2'], inplace=True)

In [28]:
data.shape

(42717, 12)

## Ultimo chequeo que que no hay NaN en las columnas

In [29]:
##  ¿Qué campos tienen valores nulos? y cual es su porcentaje en la columna
cant_nulos_por_campo = data.apply(lambda x: x.isnull().sum(), axis=0)
percent_nulos_por_campo = data.apply(lambda x: (100 * x.isnull().sum() / data.shape[0]).round(2), axis=0)
summary_nulos_por_campo = pd.DataFrame({ 'cant': cant_nulos_por_campo, 'percent': percent_nulos_por_campo ,'tipo': data.dtypes})
print(summary_nulos_por_campo)

                         cant  percent     tipo
property_type               0      0.0   object
state_name                  0      0.0   object
place_name                  0      0.0   object
place_with_parent_names     0      0.0   object
price_aprox_usd             0      0.0  float64
surface_total_in_m2         0      0.0  float64
surface_covered_in_m2       0      0.0  float64
price_usd_per_m2            0      0.0  float64
rooms                       0      0.0  float64
description                 0      0.0   object
title                       0      0.0   object
properati_url               0      0.0   object


# Columnas DUMMIES

## Columnas de Amenities



In [30]:
#fracciono la columna properti_url para sacar la nube de palabras mas repetidas
import re
patron_url = re.compile(pattern="_", flags =re.IGNORECASE)
lista_url = data["properati_url"].apply(lambda x : patron_url.split(x))
serie_palabras = pd.Series(np.hstack(lista_url))
#serie_palabras.value_counts().head(20).plot(kind="bar")

In [31]:
serie_palabras.value_counts().head(50)

venta                       42662
departamento                27323
garage                      21795
lavadero                    19749
balcon                      17206
parrilla                    16518
piscina                     14135
luminoso                    14032
suite                       13137
casa                        12777
toilette                    11959
placard                     10993
terraza                     10784
vestidor                     8882
jardin                       7775
patio                        6598
dependencias                 6451
sum                          5961
aire-acondicionado           5700
baulera                      5494
amenities                    5423
gimnasio                     4763
estrenar                     4394
lujoso                       4275
vista                        3850
subte-linea-d                3639
quincho                      3599
hidromasaje                  3170
subte-linea-b                2986
subte-linea-a 

In [32]:
# a partir de la nube de palabras selecciono las que son buenos adicionales
adicionales = ["garage", "balcon", "parrilla", "piscina", "terraza", "patio", "jardin", "quincho", "sum", "amenities", "baulera", "gimnasio", "subte-linea-d", "subte-linea-b", "subte-linea-a", "subte-linea-h", "subte-linea-e" ]


In [33]:
#elimino el primer elemento de lista_url para no tener el elemento con el http: etc
for sublist in lista_url:
  del sublist[0]

In [34]:
lista_url

0         [venta, ph, mataderos, lavadero, patio, inmobi...
2         [venta, departamentos, mataderos, lavadero, pl...
6         [venta, ph, munro, lavadero, patio, garage, al...
7         [venta, departamentos, belgrano, lavadero, pis...
8         [venta, departamentos, belgrano, lavadero, pis...
                                ...                        
121154    [venta, casa, la-plata, suite, parrilla, pisci...
121158    [venta, departamento, recoleta, pueyrredon-av-...
121215    [venta, departamento, belgrano, balcon, suite,...
121216    [venta, casa, beccar, suite, hidromasaje, jard...
121217    [venta, departamento, villa-urquiza, holmberg,...
Name: properati_url, Length: 42717, dtype: object

In [35]:
#creo una función que compare la lista de palabras con la lista de listas
#y me da como resultado una lista de listas de palabras true/false segun coincida o no 
def buscador_palabras(quebuscar, dondebuscar):
  listadeextras = []
  for listas in dondebuscar:
    extras = []
    for palabra in quebuscar:
      if palabra in listas:
        extras.append(True)
      else:
        extras.append(False)
    listadeextras.append(extras)
  #print(listadeextras)
  return listadeextras     

In [36]:
#aplico la funcion a mi lista "adicionales" y "lista_url"
#chequeo que tenga la misma longitud de data
resultado = buscador_palabras(adicionales,lista_url)
len(resultado)

42717

In [37]:
#convierto resultado en dataframe, y renombro las columnas por la lista de palabras adicionales
df = pd.DataFrame(resultado)
df.columns = ["garage", "balcon", "parrilla", "piscina", "terraza", "patio", "jardin", "quincho", "s.u.m.", "amenities", "baulera", "gimnasio","subte-linea-d", "subte-linea-b", "subte-linea-a", "subte-linea-h", "subte-linea-e"]
df

Unnamed: 0,garage,balcon,parrilla,piscina,terraza,patio,jardin,quincho,s.u.m.,amenities,baulera,gimnasio,subte-linea-d,subte-linea-b,subte-linea-a,subte-linea-h,subte-linea-e
0,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,True,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42712,False,False,True,True,False,False,False,False,False,False,False,False,False,False,False,False,False
42713,False,True,True,False,False,False,False,False,False,False,False,False,False,False,False,True,False
42714,True,True,True,True,False,False,False,True,False,False,False,False,False,False,False,False,False
42715,True,False,True,True,False,False,True,True,False,False,False,False,False,False,False,False,False


In [38]:
#uno el dataframe original con el nuevo generado de true/false
#data = pd.merge(data,df,left_index=True, right_index=True)
data = data.join(df)
data.columns
#antes me puso los dos indices como resultado del merge, y tuve que sacar la primera columna
#data.drop(columns=data.columns[0], axis=1,inplace=True)
#data.columns

Index(['property_type', 'state_name', 'place_name', 'place_with_parent_names',
       'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2',
       'price_usd_per_m2', 'rooms', 'description', 'title', 'properati_url',
       'garage', 'balcon', 'parrilla', 'piscina', 'terraza', 'patio', 'jardin',
       'quincho', 's.u.m.', 'amenities', 'baulera', 'gimnasio',
       'subte-linea-d', 'subte-linea-b', 'subte-linea-a', 'subte-linea-h',
       'subte-linea-e'],
      dtype='object')

In [39]:
data.shape

(42717, 29)

## Dummies de State_name

**creé las dummies sin drop_first para poder hacer el join**

In [40]:
df_sn = pd.get_dummies(data["state_name"])

In [41]:
data = data.join(df_sn)
data.columns

Index(['property_type', 'state_name', 'place_name', 'place_with_parent_names',
       'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2',
       'price_usd_per_m2', 'rooms', 'description', 'title', 'properati_url',
       'garage', 'balcon', 'parrilla', 'piscina', 'terraza', 'patio', 'jardin',
       'quincho', 's.u.m.', 'amenities', 'baulera', 'gimnasio',
       'subte-linea-d', 'subte-linea-b', 'subte-linea-a', 'subte-linea-h',
       'subte-linea-e', 'Bs.As. G.B.A. Zona Norte', 'Bs.As. G.B.A. Zona Oeste',
       'Bs.As. G.B.A. Zona Sur', 'Capital Federal'],
      dtype='object')

In [42]:
data.shape

(42717, 33)

## Dummies place_name

**creé las dummies sin drop_first para poder hacer el join**

In [43]:
df_pn = pd.get_dummies(data["place_name"], prefix="pn")

In [44]:
data = data.join(df_pn)
data.columns

Index(['property_type', 'state_name', 'place_name', 'place_with_parent_names',
       'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2',
       'price_usd_per_m2', 'rooms', 'description',
       ...
       'pn_Villa de Mayo', 'pn_Villa del Parque',
       'pn_Village Golf & Tennis Country Club', 'pn_Virasoro Village',
       'pn_Virrey del Pino', 'pn_Virreyes', 'pn_Wilde', 'pn_William Morris',
       'pn_Zelaya', 'pn_coordenadas 34.255511'],
      dtype='object', length=484)

In [45]:
data.shape

(42717, 484)

## Elimino las columnas innecesarias y una de cada dummie

In [46]:
#data = data.drop( axis = 1, columns = ['description', 'title', 'properati_url', 'Bs.As. G.B.A. Zona Sur','pn_Virreyes'], inplace= True)

In [47]:
data.shape

(42717, 484)

# Inicio TP2

In [48]:
# para exportar resultados
data.to_csv(r'../data/properatti_tp2.csv', index = False, header=True)


In [49]:
#usar el nuevo dataset desde el archivo
data = pd.read_csv("../data/properatti_tp2.csv", sep = ",", low_memory=False) 
#data.head(3)
data.shape

# Esto no haría falta, ¿o sí? Porque ya estaba almacenado en la variable data, se sobreescribe con lo mismo


(42717, 484)