# Para las pruebas, dejando en NAN los que no tienen datos

In [1]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from math import radians, sin, cos, asin, sqrt, pi, atan, atan2, fabs

import geopandas as gpd
from shapely.geometry import Polygon, MultiPolygon, Point
from shapely import wkt

In [2]:
pruebas = pd.read_csv("properati_dataset_testing_noprice.csv")
pruebas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14166 entries, 0 to 14165
Data columns (total 17 columns):
id                         14166 non-null int64
created_on                 14166 non-null object
property_type              14166 non-null object
operation                  14166 non-null object
place_name                 14166 non-null object
place_with_parent_names    14166 non-null object
country_name               14166 non-null object
state_name                 14166 non-null object
lat-lon                    10487 non-null object
lat                        10487 non-null float64
lon                        10487 non-null float64
surface_total_in_m2        11853 non-null float64
surface_covered_in_m2      13005 non-null float64
floor                      1368 non-null float64
rooms                      7500 non-null float64
expenses                   2543 non-null object
description                14166 non-null object
dtypes: float64(6), int64(1), object(10)
memory usage: 1

In [3]:
def unificar_superficies(fila):
    total,covered = fila
    if (not np.isnan(total) and total != 0):
        return total
    if (not np.isnan(covered) and covered != 0):
        return covered
    return None

pruebas.loc[:,'superficie'] = pruebas.loc[:,['surface_total_in_m2','surface_covered_in_m2']].apply\
            (lambda x: unificar_superficies(x), axis = 1)

In [4]:
def ponerNAN(valor,minimo,maximo):
    if (valor >= minimo) and (valor <= maximo):
        return valor
    return None

In [5]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58

pruebas.loc[:,'superficie'] = pruebas.loc[:,'superficie'].apply(lambda x: ponerNAN(x,sup_min,sup_max))
pruebas.loc[:,'lat'] = pruebas.loc[:,'lat'].apply(lambda x: ponerNAN(x,lat_min,lat_max))
pruebas.loc[:,'lon'] = pruebas.loc[:,'lon'].apply(lambda x: ponerNAN(x,lon_min,lon_max))

In [6]:
def tiene_cadena(cadena, lista):
    cadena = str(cadena)
    cadena = cadena.lower()
    resultado = False
    for x in lista:
        resultado = resultado or (x in cadena)
    return resultado


In [7]:
cadenas = ['vigilancia', 'seguridad', 'alarma', 'blindado', 'blindaje', 'guardia']
pruebas.loc[:,'seguridad'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [8]:
cadenas = ['gimnasio', 'gym', 'gimnacio']
pruebas.loc[:,'gimnasio'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [9]:
cadenas = ['aire frio', 'aire acondicionado', 'split', 'aires acondicionados', 'climatizador', 'central',\
          'losa radiante', 'piso radiante', 'pisoradiante', 'loza radiante', 'los radiantes', 'radante',\
          'radiador']
pruebas.loc[:,'aire'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [10]:
cadenas = ['pileta', 'piscina', 'picina','pisina', 'yaccuzi', ' jacuzzi', 'jacuzi',\
           'yacuzi', 'yacusi', 'jacussi', 'hidromasaje']
pruebas.loc[:,'pileta'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [11]:
cadenas = ['cochera', 'garage', 'estacionamiento', 'entrada de auto']
pruebas.loc[:,'cochera'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [12]:
cadenas = ['tren', 'subte', 'estacion', 'estación']
pruebas.loc[:,'transporte'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [13]:
cadenas = ['shoping', 'shopping', 'shoppin', 'centro comercial', 'museo', 'monumento', 'estadio', 'cancha', 'comercio']
pruebas.loc[:,'comercio'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [14]:
cadenas = ['hospital', 'escuela', 'universidad', 'clínica', 'clinica', 'sanatorio']
pruebas.loc[:,'servicios'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [15]:
cadenas = ['parrila', 'jardin', 'jardín', 'parrilla', 'fondo', 'parque', 'quincho', 'sum']
pruebas.loc[:,'jardin'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [16]:
cadenas = ['pisos', 'plantas', 'escaleras', 'escalera', 'planta baja', 'planta alta']
pruebas.loc[:,'doble piso'] = pruebas.loc[:, 'description'].apply(lambda x: tiene_cadena(x, cadenas))
print("OK")

OK


In [17]:
#Agrego la columna fecha

pruebas.loc[:,'Month'] = pruebas.created_on.apply(lambda x: int(x.split('-')[1]))
pruebas.loc[:,'Year'] = pruebas.created_on.apply(lambda x: int(x.split('-')[0]))
pruebas.loc[:,'fecha'] = pruebas.loc[:,['Year', 'Month']].apply(lambda x: int(str(x[0]) + str(x[1])), axis = 1)
print("OK")

OK


In [18]:
def calcular_distancia(lat1,long1,lat2,long2):
    lon1, lat1 = (radians(coord) for coord in (long1,lat1))
    lon2, lat2 = (radians(coord) for coord in (long2,lat2))
    dlat = (lat2 - lat1)
    dlon = (lon2 - lon1)
    a = (
        sin(dlat * 0.5)**2 +
        cos(lat1) * cos(lat2) * sin(dlon * 0.5)**2
    )
    
    radioTierra = 6371008.8
    return 2 * radioTierra * asin(sqrt(a)) / 1000

#distancia de Haversine

In [19]:
def distancia_minima(fila, dataframe):
    lat, lon = fila
    distancias = []
    for i in range (len(dataframe)):
        d = calcular_distancia(lat,lon,dataframe.lat[i], dataframe.lon[i])
        distancias.append(d)
    return min(distancias)

In [20]:
#Pertenece realmente a Capital?
CABA = gpd.read_file('tpDatos/tp1/datos/mapas/barrios.shp')
pruebas.loc[:,'capital'] = pruebas.loc[:,['lon','lat']].apply(lambda x: CABA.contains(Point(x[0], x[1])).any(),axis = 1)
print("OK")

OK


In [24]:
condiciones = (pruebas.capital == True) & (pruebas.lat.notnull()) & (pruebas.lon.notnull())

In [25]:
# Distancia de subtes
subtes = pd.read_csv('tpDatos/tp1/datos/estaciones-de-subte.csv', sep = ",")
subtes.rename(columns = {'X': 'lon', 'Y': 'lat'}, inplace = True)
pruebas.loc[:,'distancia_subtes'] = 0
pruebas.loc[condiciones,'distancia_subtes'] = \
        pruebas.loc[condiciones,['lat','lon']].apply(lambda x: distancia_minima(x, subtes), axis = 1)
print("OK")

OK


In [26]:
# Distancia a monumentos
monumentos = pd.read_csv('tpDatos/tp1/datos/monumentos.csv', sep = ",")
pruebas.loc[:,'distancia_monumentos'] = 0
pruebas.loc[condiciones,'distancia_monumentos'] = \
        pruebas.loc[condiciones,['lat','lon']].apply(lambda x: distancia_minima(x, monumentos), axis = 1)
print("OK")

OK


In [27]:
# Distancia a estadios
estadios = pd.read_csv('tpDatos/tp1/datos/estadios.csv', sep = ";")
estadios.rename(columns = {'LAT': 'lat', 'LONG': 'lon' }, inplace = True)
pruebas.loc[:,'distancia_estadios'] = 0
pruebas.loc[condiciones,'distancia_estadios'] = \
        pruebas.loc[condiciones,['lat','lon']].apply(lambda x: distancia_minima(x, estadios), axis = 1)
print("OK")

OK


In [29]:
# Distancia a Villas
villas = gpd.read_file('tpDatos/tp1/datos/villas/villas.dbf')
pruebas.loc[:,'distancia_villas'] = 0
pruebas.loc[condiciones,'distancia_villas'] = \
        pruebas.loc[condiciones,['lat','lon']].apply(lambda x: min(villas.distance(Point(x[1], x[0]))) * 100, axis = 1)
print("OK")

OK


In [30]:
# Pertenece a una zona de inundacion
inundaciones = gpd.read_file('tpDatos/tp1/datos/mapas/inundaciones.dbf')

pruebas.loc[:,'Zona_inundacion'] = 0
pruebas.loc[condiciones,'Zona_inundacion'] = pruebas.loc[condiciones,\
                        ['lat','lon']].apply(lambda x: inundaciones.contains(Point(x[1], x[0])).any(), axis = 1)
print("OK")

OK


In [31]:
pruebas.drop(['operation','country_name','lat-lon'], axis = 1, inplace = True)

In [36]:
def traducir_tipo_propiedad(x):
    if x == 'casa':
        return 'house'
    if x == 'departamento':
        return 'apartment'
    if x == 'ph':
        return 'PH'
    return x
#Traduzco el tipo de propiedad
pruebas.loc[:,'property_type'] = pruebas.loc[:,'property_type'].apply(traducir_tipo_propiedad)

In [44]:
tipos = ['PH','apartment','house']
encoder_types = preprocessing.LabelEncoder()
encoder_types.fit(tipos)
pruebas.loc[:,'property_type_encoded'] = pruebas.loc[:,'property_type'].apply(lambda x: encoder_types.transform([x])[0])

In [52]:
pruebas.to_csv('properati_dataset_modificado3.csv', index = False)