In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
#from IPython.core.interactiveshell import InteractiveShell
#InteractiveShell.ast_node_interactivity = "all"

# **Importación de los datos de properati y AR**

In [2]:
data = pd.read_csv("../data/properatti.csv", sep = ",", low_memory=False) 
#data.head(3)
data.shape

(121220, 26)

In [3]:
#import AR.csv trayendo algunas de las columnas que tienen info de ubicación
#columnas = ['num', 'place_name', 'place_name2','s20', 'Lat','Lon', 's', 'rnch', 'Pais','s0','s1','s2','s3','s4','s5','s6','s7','place_with_parent_names','fecha']
#dataAR = pd.read_csv("../data/AR.tsv", header=None, names=columnas,  usecols=[1,2,4,5,8,17], sep = "\t", low_memory=False) 

#elimino la cadena de caracteres America/ y separo la columna place_with_parent_names en columnas, 
#renombro las columnas resultantes para coincidir con las columnas de data
#dataAR["place_with_parent_names"] = dataAR["place_with_parent_names"].replace({'America/':''}, regex=True)
#dataAR[["country_name", "state_name"]] = dataAR["place_with_parent_names"].str.split("/", expand=True)
#dataAR["state_name"]=dataAR["state_name"].replace({'_':' '}, regex=True)
#dataAR.drop("place_with_parent_names", axis=1, inplace=True)
#dataAR.head(3)
#data.shape

# Selecion solo de AMBA del dataset

In [4]:
#dejamos solo lo de AMBA
data = data[(data["state_name"]== 'Capital Federal') | (data["state_name"]== 'Bs.As. G.B.A. Zona Sur') | (data["state_name"]=='Bs.As. G.B.A. Zona Norte') | (data["state_name"]== 'Bs.As. G.B.A. Zona Oeste')]
print(data.shape)

(81150, 26)


# **Imputaciones**

## --completo valores de rooms con información del title, o properati_url o description

### Completar info Habitaciones


In [5]:
#Comprobamos el tipo y los valores.
print("tipo  : ", data.rooms.dtype)
print("nulos : ", data.rooms.isnull().sum())
data.rooms.unique()

tipo  :  float64
nulos :  51211


array([nan,  1.,  4.,  3.,  2.,  6.,  5., 10.,  7., 17., 22.,  8.,  9.,
       11., 13., 12., 25., 14., 16., 18., 15., 32.])

In [6]:
totalVentas = data.operation.notnull().sum()
totalSinCuartos = data.rooms.isnull().sum()
print('Total Registros \t\t\t', data.operation.notnull().sum() )
print('Total sin ambientes \t\t\t',data.rooms.isnull().sum() )
print('Porcentaje sin ambientes \t\t', round( (totalVentas- totalSinCuartos) / totalVentas * 100, 2), ' %' )


Total Registros 			 81150
Total sin ambientes 			 51211
Porcentaje sin ambientes 		 36.89  %


El dataset esta completo en un 39.09% para todas las propiedades, podemos hacer foco en los departamentos:

A continuación se propone recuperar los datos faltantantes desde las columnas de título y descripción de la publicación. Ponemos en mayúscula los títulos y descripciones y hacemos una muestra de los que tienen incompletos `rooms`.

In [7]:
data['title'] = data.title.str.upper()
data['description'] = data.description.str.upper()
data[['rooms', 'title', 'description']].sample(1)

Unnamed: 0,rooms,title,description
46929,,DEPARTAMENTO EN BARRIO DON ORIONE,CODIGO: 586-00327 UBICADO EN: AV. MONTEVERDE Y...


Reemplazamos los números escritos como palabras y todas la variantes de llamar a los monoambientes por '1 AMBIENTE'.

In [8]:
reemplazo_dic = {"UNO":"1", "DOS":"2", "TRES":"3", "CUATRO":"4", "CINCO":"5", "SEIS":"6", "SIETE":"7", "OCHO":"8",
             "NUEVE":"9", "DIEZ":"10", "MONOAMBIENTE":"1 AMBIENTE", "MONOAMB" : "1 AMBIENTE", "UN":"1", "AMBIENTE DIVISIBLE":"1 AMBIENTE",
             "MONO AMBIENTE": "1 AMBIENTE","DORMITORIOS": "AMBIENTE","DORMITORIO": "AMBIENTE","HABITACIONES": "AMBIENTE","HABITACION": "AMBIENTE"}
for key in reemplazo_dic.keys():
    data.description = data.description.str.replace(key, reemplazo_dic[key], regex=False)

for key in reemplazo_dic.keys():
    data.title = data.title.str.replace(key, reemplazo_dic[key], regex=False)


Recuperamos los ambientes desde título, descripción y actualizamos rooms.

In [9]:
controlRooms = data.loc[(data.rooms.isnull())]
controlRooms.rooms = controlRooms.description.str.extract("(\d+) AMB").astype(float)
data.update(controlRooms)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


In [10]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+) AMB").astype(float)
data.update(controlRooms)

In [11]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.description.str.extract("(\d+) DORM").astype(float) + 1
data.update(controlRooms)

In [12]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+) DORM").astype(float) + 1
data.update(controlRooms)

In [13]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+)AMB").astype(float)
data.update(controlRooms)

In [14]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.description.str.extract("(\d+)AMB").astype(float)
data.update(controlRooms)

In [15]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+)DORM").astype(float) + 1
data.update(controlRooms)

In [16]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.description.str.extract("(\d+) DORM").astype(float) + 1
data.update(controlRooms)

In [17]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+)HABITACIO").astype(float) + 1
data.update(controlRooms)

In [18]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.title.str.extract("(\d+) HABITACIO").astype(float) + 1
data.update(controlRooms)

In [19]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.description.str.extract("(\d+)HABITACIO").astype(float) + 1
data.update(controlRooms)

In [20]:
controlRooms = data[(data.rooms.isnull()) ]
controlRooms.rooms = controlRooms.description.str.extract("(\d+) HABITACIO").astype(float) + 1
data.update(controlRooms)

In [21]:
controlRooms = data[(data.rooms.isnull()) ].sample(2)
controlRooms[['rooms', 'title', 'description']]

Unnamed: 0,rooms,title,description
106076,,LOCAL - CITY BELL,EXCELENTE UBICACION CENTRICA.
87164,,DEPARTAMENTO EN SAN TELMO,DI MITRIO INMOBILIARIAAV. MARTIN GARCIA 560 - ...


Volvemos a controlar luego del proceso el grado de llenado de la columna

In [22]:
totalVentas = data.operation.notnull().sum()
totalSinCuartos = data.rooms.isnull().sum()
porcentajeSinCuartos = round( (totalVentas- totalSinCuartos) / totalVentas * 100, 2)
print('Total Registros \t\t\t', totalVentas )
print('Total sin Ambientes \t\t\t', totalSinCuartos )
print('Porcentaje con ambientes \t\t', porcentajeSinCuartos, ' %' )

Total Registros 			 81150
Total sin Ambientes 			 10692
Porcentaje con ambientes 		 86.82  %


Luego del proceso se paso del 39,09 % de llenado para todas las propiedades del data set al 86,7 %. Veamos que pasa para cada tipo de propiedad

# **Limpieza de datos**

## --eliminar duplicados

In [23]:
#elimino duplicados 
data.drop_duplicates(keep="first")


Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0.0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.000000,,2.0,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1.0,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,3.0,,http://www.properati.com.ar/15bob_venta_depart...,VENTA DE DEPARTAMENTO EN DÉCIMO PISO AL FRENTE...,VENTA DEPTO 2 DORM. A ESTRENAR 7 E/ 36 Y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2.0,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,2.0,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,3.0,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,3.0,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 AMBIENTES CON PATIO. HAY 3 DEPTOS EN LOTE...,PH 3 AMB. CFTE. RECICLADO,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
6,6.0,sell,PH,Munro,|Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...,Argentina,Bs.As. G.B.A. Zona Norte,3430511.0,"-34.5329567,-58.5217825",-34.532957,...,78.0,1226.415094,1666.666667,,2.0,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE 2 AMBIENTE , PATIO, EXCE...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
121214,121214.0,sell,store,San Isidro,|Argentina|Bs.As. G.B.A. Zona Norte|San Isidro|,Argentina,Bs.As. G.B.A. Zona Norte,3428983.0,,,...,123.0,,,,,,http://www.properati.com.ar/1cja1_venta_local_...,***VENTA CON RENTA***LOCAL EN EDIFICIO LOMAS ...,LOCAL - SAN ISIDRO,https://thumbs4.properati.com/7/R-j0JiSePtAriH...
121215,121215.0,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,,,...,93.0,7699.115044,9354.838710,,2.0,10000.0,http://www.properati.com.ar/1cja2_venta_depart...,TORRE FORUM ALCORTA - MÁXIMA CATEGORÍA.IMPECAB...,TORRE FORUM ALCORTA- IMPECABLE 3 AMBIENTES,https://thumbs4.properati.com/1/bjms0KnaAnlNoQ...
121216,121216.0,sell,house,Beccar,|Argentina|Bs.As. G.B.A. Zona Norte|San Isidro...,Argentina,Bs.As. G.B.A. Zona Norte,3436080.0,,,...,360.0,1383.333333,1383.333333,,3.0,,http://www.properati.com.ar/1cja6_venta_casa_b...,EXCELENTE E IMPECABLE CASA EN VENTA EN LAS LOM...,RUCA INMUEBLES | VENTA | LOMAS DE SAN ISIDRO |...,https://thumbs4.properati.com/2/PCc3WuQDjpNZc4...
121217,121217.0,sell,apartment,Villa Urquiza,|Argentina|Capital Federal|Villa Urquiza|,Argentina,Capital Federal,3433775.0,"-34.5706388726,-58.4755963355",-34.570639,...,39.0,2858.695652,3371.794872,,1.0,,http://www.properati.com.ar/1cja7_venta_depart...,VENTA DEPARTAMENTO 1 AMBIENTE A ESTRENAR BALCO...,VENTA DEPARTAMENTO 1 AMBIENTE A ESTRENAR BALCO...,https://thumbs4.properati.com/9/YAe_-2gRVykADP...


## --pasar todas las columnas a minusculas

In [24]:
data_lower = data.applymap(lambda x: x if np.isreal(x) else str(x).lower())
# comparo los tipos de datos antes y después de pasar a minúsculas:
#print(data_lower.dtypes == data.dtypes)
#print(data_lower.head(3))

## elimiar columnas no infiormativas

In [25]:
cols2keep = ['property_type', 'state_name','place_with_parent_names','price_aprox_usd', 'surface_total_in_m2','surface_covered_in_m2','price_usd_per_m2', 'price_per_m2', 'rooms', 'description', 'title', 'properati_url']
data = data.loc[:, cols2keep]
#print(df_sub)

## limpieza de outliers

#### - - -Método 1 sin eliminación de registros: con el siguiente método reemplazo en el dataset original los outliers de más de 2 std de todas las columnas numericas por NaN, de una vez, sin tener en cuenta las particularidades de las columnas. Como resultado obtengo un dataset del mismo tamaño que el dataset original, con los outliers convertidos en NaN para no impactar en los datos de resumen.

In [26]:
#búsqueda y reemplazo de outliers (de más de 2 std, 95%) por NaN en las columnas numéricas, en un solo paso
df_sub = data.loc[:, 'price_usd_per_m2']
lim = np.abs((df_sub - df_sub.mean()) / df_sub.std(ddof=0)) < 2
data.loc[:, 'price_usd_per_m2'] = df_sub.where(lim, np.nan)
#data.head(3)
data.shape
#data.dropna()

(81150, 12)

# **Crear nuevas columnas con valor predictivo**

### Creamos columnas con info adicional que tendrán utilidad para predecir variación de precios.



In [27]:
#fracciono la columna properti_url para sacar la nube de palabras mas repetidas
import re
patron_url = re.compile(pattern="_", flags =re.IGNORECASE)
lista_url = data["properati_url"].apply(lambda x : patron_url.split(x))
serie_palabras = pd.Series(np.hstack(lista_url))
#serie_palabras.value_counts().head(20).plot(kind="bar")


In [28]:
serie_palabras.value_counts().head(50)

venta                       81063
departamento                46754
garage                      39777
lavadero                    34720
parrilla                    29178
balcon                      28379
casa                        27068
piscina                     24719
luminoso                    23855
suite                       21534
toilette                    19771
placard                     19491
terraza                     18637
vestidor                    14702
jardin                      14227
patio                       13190
sum                         10067
dependencias                10023
aire-acondicionado           9968
baulera                      8657
amenities                    8296
gimnasio                     7800
quincho                      7730
estrenar                     7407
lujoso                       7384
vista                        6914
hidromasaje                  6186
subte-linea-d                5652
subte-linea-b                4566
ph            

In [29]:
# a partir de la nube de palabras selecciono las que son buenos adicionales
adicionales = ["garage", "balcon", "parrilla", "piscina", "terraza", "patio", "jardin", "quincho", "sum", "amenities", "baulera", "gimnasio", "subte-linea-d", "subte-linea-b", "subte-linea-a", "subte-linea-h", "subte-linea-e" ]


In [30]:
#elimino el primer elemento de lista_url para no tener el elemento con el http: etc
for sublist in lista_url:
  del sublist[0]

In [31]:
lista_url

0         [venta, ph, mataderos, lavadero, patio, inmobi...
1         [venta, departamentos, la-plata, balcon, lavad...
2         [venta, departamentos, mataderos, lavadero, pl...
3                   [venta, ph, liniers, patio, g-goffredo]
6         [venta, ph, munro, lavadero, patio, garage, al...
                                ...                        
121214    [venta, local, san-isidro, luminoso, garage, m...
121215    [venta, departamento, belgrano, balcon, suite,...
121216    [venta, casa, beccar, suite, hidromasaje, jard...
121217    [venta, departamento, villa-urquiza, holmberg,...
121219    [venta, departamento, capital-federal, baulera...
Name: properati_url, Length: 81150, dtype: object

In [32]:
#creo una función que compare la lista de palabras con la lista de listas
#y me da como resultado una lista de listas de palabras true/false segun coincida o no 
def buscador_palabras(quebuscar, dondebuscar):
  listadeextras = []
  for listas in dondebuscar:
    extras = []
    for palabra in quebuscar:
      if palabra in listas:
        extras.append(True)
      else:
        extras.append(False)
    listadeextras.append(extras)
  #print(listadeextras)
  return listadeextras     

In [33]:
#aplico la funcion a mi lista "adicionales" y "lista_url"
#chequeo que tenga la misma longitud de data
resultado = buscador_palabras(adicionales,lista_url)
len(resultado)

81150

In [34]:
#convierto resultado en dataframe, y renombro las columnas por la lista de palabras adicionales
df = pd.DataFrame(resultado)
df.columns = ["garage", "balcon", "parrilla", "piscina", "terraza", "patio", "jardin", "quincho", "s.u.m.", "amenities", "baulera", "gimnasio","subte-linea-d", "subte-linea-b", "subte-linea-a", "subte-linea-h", "subte-linea-e"]
df

Unnamed: 0,garage,balcon,parrilla,piscina,terraza,patio,jardin,quincho,s.u.m.,amenities,baulera,gimnasio,subte-linea-d,subte-linea-b,subte-linea-a,subte-linea-h,subte-linea-e
0,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
1,True,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
4,True,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81145,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
81146,True,True,True,True,False,False,False,True,False,False,False,False,False,False,False,False,False
81147,True,False,True,True,False,False,True,True,False,False,False,False,False,False,False,False,False
81148,True,True,True,False,True,False,False,False,False,True,False,False,False,False,False,False,False


In [35]:
#uno el dataframe original con el nuevo generado de true/false
data = pd.merge(data,df,left_index=True, right_index=True)
data.columns
#antes me puso los dos indices como resultado del merge, y tuve que sacar la primera columna
#data.drop(columns=data.columns[0], axis=1,inplace=True)
#data.columns

Index(['property_type', 'state_name', 'place_with_parent_names',
       'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2',
       'price_usd_per_m2', 'price_per_m2', 'rooms', 'description', 'title',
       'properati_url', 'garage', 'balcon', 'parrilla', 'piscina', 'terraza',
       'patio', 'jardin', 'quincho', 's.u.m.', 'amenities', 'baulera',
       'gimnasio', 'subte-linea-d', 'subte-linea-b', 'subte-linea-a',
       'subte-linea-h', 'subte-linea-e'],
      dtype='object')

In [36]:
#creo una columna que rellene el valor con la media del precio por m2 en este state_name
data["price_state"] = data.groupby('state_name')['price_usd_per_m2'].transform('mean') 
data.head(2)

Unnamed: 0,property_type,state_name,place_with_parent_names,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,rooms,description,...,s.u.m.,amenities,baulera,gimnasio,subte-linea-d,subte-linea-b,subte-linea-a,subte-linea-h,subte-linea-e,price_state
0,PH,Capital Federal,|Argentina|Capital Federal|Mataderos|,62000.0,55.0,40.0,1127.272727,1550.0,2.0,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",...,False,False,False,False,False,False,False,False,False,2544.59736
1,apartment,Bs.As. G.B.A. Zona Sur,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,150000.0,,,,,3.0,VENTA DE DEPARTAMENTO EN DÉCIMO PISO AL FRENTE...,...,False,False,False,False,False,False,False,False,False,1475.67093


In [37]:
#creo una columna que rellene el valor con la media del m2 total en este state_name
data["price_state"] = data.groupby('state_name')['surface_total_in_m2'].transform('mean') 
data.head(2)

Unnamed: 0,property_type,state_name,place_with_parent_names,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,rooms,description,...,s.u.m.,amenities,baulera,gimnasio,subte-linea-d,subte-linea-b,subte-linea-a,subte-linea-h,subte-linea-e,price_state
0,PH,Capital Federal,|Argentina|Capital Federal|Mataderos|,62000.0,55.0,40.0,1127.272727,1550.0,2.0,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",...,False,False,False,False,False,False,False,False,False,134.214298
1,apartment,Bs.As. G.B.A. Zona Sur,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,150000.0,,,,,3.0,VENTA DE DEPARTAMENTO EN DÉCIMO PISO AL FRENTE...,...,False,False,False,False,False,False,False,False,False,226.7439


# Inicio TP2

In [38]:
# para exportar resultados
data.to_csv(r'../data/properatti_tp2.csv', index = False, header=True)


In [39]:
#usar el nuevo dataset desde el archivo
data = pd.read_csv("../data/properatti_tp2.csv", sep = ",", low_memory=False) 
#data.head(3)
data.shape

(56824, 30)