In [0]:
from pyspark.sql import SparkSession
from pyspark import StorageLevel
from sedona.spark import *
from sedona.utils import SedonaKryoRegistrator, KryoSerializer

from sedona.register.geo_registrator import SedonaRegistrator
# configuración de spark y Sedona para datos geograficos
spark = SparkSession.\
    builder.\
    master("local[*]").\
    appName("Sedona App").\
    config("spark.serializer", KryoSerializer.getName).\
    config("spark.kryo.registrator", SedonaKryoRegistrator.getName) .\
    config("spark.kryoserializer.buffer.max", "200gb").\
    getOrCreate()

#SedonaRegistrator.registerAll()
SedonaContext.create(spark)

In [0]:
%ls '/dbfs/FileStore/tables/fincaraiz'

In [0]:
import os

folderCC = "/dbfs/FileStore/tables/ciencuadras/"
paths_arriendos = list()
paths_ventas = list()
paths_nuevos = list()
for filename in os.scandir(folderCC):
    if filename.is_file():
      if "arriendo" in filename.path:
        paths_arriendos.append(filename.path)
      elif "venta" in filename.path:
        paths_ventas.append(filename.path)
      elif "proyectos" in filename.path:
        paths_nuevos.append(filename.path)
        #paths.append(filename.path)
      else:
        pass

In [0]:
import pandas as pd

#lee la lista de los archivos organizados, evidencia repetidos en el mismo dataset del mes y lo une a los siguientes.
arriendos = pd.concat((pd.read_csv(f) for f in paths_arriendos), axis=0, ignore_index=True)
venta = pd.concat((pd.read_csv(f) for f in paths_ventas), axis=0, ignore_index=True)


# cambio de tipo de variable en fechas
arriendos['fecha_modificacion']= pd.to_datetime(arriendos['fecha_modificacion'].apply(lambda x: pd.to_datetime(x, errors='raise', utc=True))).dt.date
arriendos['fecha_creacion']= pd.to_datetime(arriendos['fecha_creacion'].apply(lambda x: pd.to_datetime(x, errors='raise', utc=True))).dt.date

venta['fecha_modificacion']= pd.to_datetime(venta['fecha_modificacion'].apply(lambda x: pd.to_datetime(x, errors='raise', utc=True))).dt.date
venta['fecha_creacion']= pd.to_datetime(venta['fecha_creacion'].apply(lambda x: pd.to_datetime(x, errors='raise', utc=True))).dt.date

In [0]:
arriendos.shape[0] + venta.shape[0]

In [0]:
#arriendos.head(3).T
#pd.to_datetime(arriendos['fecha_creacion'], format='%m%y%d').dt.date
#pd.to_datetime(df['Column'])


In [0]:
# Elimino los repetidos por id y fecha
arriendos=arriendos.drop_duplicates(subset=['id','fecha_modificacion'])
venta=venta.drop_duplicates(subset=['id','fecha_modificacion'])

In [0]:
# USO DE GROUP BY
#arriendos.groupby(['localidad','tipotransaccion', 'tipoinmueble']).agg({'id':'count'})

#borrar repetidos totales
#arriendos_clean = arriendos.drop_duplicates(subset=['id'])
#venta_clean = venta.drop_duplicates(subset=['id'])

# USO DE PIVOT TABLE
#pd.pivot_table(arriendos,index=['tipotransaccion', 'tipoinmueble'])

In [0]:
print(venta.shape[0])
arriendos.shape[0]

In [0]:
# l = list()
# l.append(venta.shape[1])
# l.append(arriendos.shape[1])
# l.append(df.shape[1])
# l.append(Properati_raw.shape[1])

In [0]:
#sum(l)/len(l)

# DATA CLEANING
Teniendo los datos representativos, el paso siguiente es realizar la limpieza de datos,que amenudo toma cantidades cuantiosas de tiempo.
Algunas de las tareas de limpieza incluyen identificar (1) errores, (2) entradas sin datos, (3) valores faltantes.


Un enfoque de mineria de datos no puede solucionar por completo aquellos valores faltantes, sin embargo, se puede considerar:


1.   Remover la observación
2.   Remover la variable
3.   Reemplazar manualmente
4.   Reemplazar con un valor calculado (medidas de tendencia central, Media)
5.   Reemplazar con un valor predicho. (Componentes principales, Regresion lineal multiple, Analisis discriminante, regresion logistica, clasificador Naive Bayes)

# FRECUENCIAS DE TRANSACCIONES Y TIPO INMUEBLE

In [0]:
pd.crosstab(arriendos['tipotransaccion'],arriendos['tipoinmueble'])

In [0]:
pd.crosstab(venta['tipotransaccion'],venta['tipoinmueble'])

In [0]:
#concateno los dataset de arriendos y venta, dado que existe la categoria de "Arriendo o venta", se vuelven a sacar repetidos por id y fecha
CC_raw = pd.concat([arriendos, venta])
CC_raw=CC_raw.drop_duplicates(subset=['id','fecha_modificacion'])
#CC_raw.groupby(['id']).agg({'id':'count'})

import numpy as np
import json

CC_raw["Latitud"] = CC_raw["localizacion"].apply(lambda p: json.loads(p.replace("'",'"'))['lat'])
CC_raw["Longitud"] = CC_raw["localizacion"].apply(lambda p: json.loads(p.replace("'",'"'))['lon'])
CC_raw=CC_raw.drop(CC_raw[CC_raw["Latitud"]==''].index)
CC_raw["Latitud"]=CC_raw["Latitud"].apply(lambda x: x.replace(',','.')).astype(np.float64)
CC_raw["Longitud"]=CC_raw["Longitud"].apply(lambda x: x.replace(',','.')).astype(np.float64)

In [0]:
CC_raw.shape

Calculo de metro cuadrado

Se homogenizaron los datos para las ciudades presentes en el dataset, **ES POSIBLE REVISAR POR AREA Y CALCULAR EL VALOR DEL METRO CUADRADO**

In [0]:
CC_raw=CC_raw.drop(CC_raw[CC_raw.area_construida<=10].index)
#correccion del dato, posee dos datos de cada mes uno con un area erronea
CC_raw.loc[CC_raw[CC_raw["id"] == 2269864].index,'area_construida']= 261.72
CC_raw.loc[CC_raw[CC_raw["id"] == 1486828].index,'area_construida']=1050
CC_raw.loc[CC_raw[CC_raw["id"] == 139264].index,'area_construida']=520000
CC_raw.loc[CC_raw[CC_raw["id"] == 2165693].index,'area_construida']=2630000
#Lotes_Venta.at[Lotes_Venta[Lotes_Venta["property_id"] == "db2895d5-e594-4e66-9088-c4fa93adbfc7"].index,'price_m2']= 9506000



CC_raw["Valor_M2"] = CC_raw["precio_venta_original"]/CC_raw["area_construida"]
# identificacion de error en M2
CC_raw=CC_raw.drop(CC_raw[CC_raw.Valor_M2>1000000000].index)

CC_raw=CC_raw.drop(CC_raw[(CC_raw.Valor_M2>30000000)&(CC_raw.tipotransaccion=='Venta')].index)

In [0]:
# funcion de agregacionn para verificar los registros
#CC_raw.groupby(['id']).agg({'id':'count'}
#CC_raw.head(3).T


In [0]:
# import matplotlib.pyplot as plt 
# plt.figure(figsize=(10,6))
# sns.set(style="darkgrid")
# ax = sns.countplot(x="ciudad",hue="tipoinmueble", data=CC_raw[CC_raw.Valor_M2>1000000000], palette = "deep")
# ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")
# plt.tight_layout()
# plt.show()


#CC_raw[CC_raw.Valor_M2>1000000000].T
#head(5).T

In [0]:
pd.crosstab(CC_raw['tipotransaccion'],CC_raw['tipoinmueble'])

[texto del vínculo]# Comportamiento General Ventas

In [0]:
from matplotlib import pyplot
import seaborn as sns

fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="Valor_M2", y="tipoinmueble", orient="h", width=0.5, fliersize=2, data=CC_raw[(CC_raw.Valor_M2!=0)&((CC_raw.tipotransaccion=='Venta')|(CC_raw.tipotransaccion=='Arriendo o venta'))])

# Comportamiento General Arriendos

In [0]:
from matplotlib import pyplot
import seaborn as sns

fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="canon_arrendamiento", y="tipoinmueble", orient="h", width=0.5, fliersize=2, data=CC_raw[(CC_raw.Valor_M2!=0)&((CC_raw.tipotransaccion=='Arriendo')|(CC_raw.tipotransaccion=='Arriendo o venta'))])

In [0]:
#CC_raw[(CC_raw.Valor_M2>20000000)&(CC_raw.tipotransaccion=='Venta')][['id','ciudad','area_construida','tipoinmueble','precio_venta_original','Valor_M2','url_inmueble']].T

# **Filtro para Bogotá**

El dataset para los meses de abril y mayo consta de 29.348 registros distribuidos en varias ciudades y municipios del pais, al filtrar la data para la ciudad de Bogotá se identifican para este portal un total de 6.409, por lo que se puede decir que un **21,83%** de los registros pertenecen a la ciudad de Bogotá.

In [0]:
CC_raw_bta = CC_raw[CC_raw.ciudad == "Bogotá"]

**Porcentaje de recuperación**

In [0]:
(CC_raw_bta.shape[0]/CC_raw.shape[0])*100

# **GRAFICOS DE CAJA**

In [0]:
from matplotlib import pyplot
import seaborn as sns

fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="Valor_M2", y="tipoinmueble", orient="h", width=0.4, fliersize=2, data=CC_raw_bta[(CC_raw_bta.Valor_M2!=0)&((CC_raw_bta.tipotransaccion=='Venta')|(CC_raw_bta.tipotransaccion=='Arriendo o venta'))]).set(title='Comportamiento agregado de venta de inmuebles en la ciudad de Bogotá')

In [0]:
from matplotlib import pyplot
import seaborn as sns

fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="canon_arrendamiento", y="tipoinmueble", orient="h", width=0.5, fliersize=2, data=CC_raw_bta[(CC_raw_bta.Valor_M2!=0)&((CC_raw_bta.tipotransaccion=='Arriendo')|(CC_raw_bta.tipotransaccion=='Arriendo o venta'))]).set(title='Comportamiento Agregado de Arriendos de inmuebles en la ciudad de Bogotá')

En este putno no se pueden sacar inmuebles por valor, dado que es una variable que depende fuertemente de la localización, a pesar de que parecen atipicos, *No lo son*.

# Aproximación espacial, mapa de calor.

Se ha identificado que la mayor parte de las ofertas para la ciudad se concentran en la parte centro-oriente y nor-oriente, lo que en principio puede evidenciar el desconocimiento o poca necesidad de la población por publicar los inmuebles en portales inmobiliarios y prefieren usar el aviso en ventana.

In [0]:
import geopandas as gpd
gpd_cc =gpd.GeoDataFrame(CC_raw_bta, geometry=gpd.points_from_xy(CC_raw_bta.Longitud, CC_raw_bta.Latitud))

In [0]:
import gmaps.geojson_geometries
import json
key='AIzaSyDe1Ul8hfBcbUfnwebiT-jjzfYTpvHYN6w'
gmaps.configure(api_key=key)

localizaciones = CC_raw_bta[['Latitud', 'Longitud']]
#localizaciones = localizaciones[localizaciones.lat.isnull()==False]
fig = gmaps.figure()
heatmap_layer = gmaps.heatmap_layer(localizaciones)

heatmap_layer.max_intensity = 30
heatmap_layer.point_radius = 10
# carga de poligono
#ZonaEst = json.loads(Area_Est.geometry.to_json())
#limite = gmaps.geojson_layer(ZonaEst)


fig.add_layer(heatmap_layer)
#fig.add_layer(limite)
# NO MUESTRA LA INFORMACIÓN.
fig

**CAMBIO LABELS**

Dejamos solo los atributos que identificamos que son utiles e intentamos subsanar.

In [0]:
CC_raw_bta=gpd_cc.drop(columns=['precio_venta','Unnamed: 0','id_num_habitaciones','intercambio','estado','valor_depositos','es_foto_pn',
'es_sin_mercantil','foto_formateado','id_ciudad','id_num_parqueaderos','ascendido','es_mercantil_foto','destacado','id_tipo_inmueble','es_360_pn',
'tiene_fotos','num_balcones','activo','enoferta_especial','es_360','proyecto','feria_vivienda','cinta_tarjeta','enoferta','id_localidad','foto_normalizado',
'es_mercantil_360','num_ascensores','id_num_banos','ensubasta','url_foto','id_tipo_transaccion','id_barrio','feria_vivienda_descripcion','permite_mascotas',
'oferta_brp','feria_vivienda_cinta','matterport','id_tipo_usuario','localizacion','certificado','nombre_proyecto','contacto_whatsapp'])


In [0]:
CC_raw_bta=CC_raw_bta.rename(columns={"tipotransaccion":"tipo_transaccion", 
                       "tipoinmueble":"tipo_inmueble",
                       "antiguedad":"edad",
                       "precio_venta_original":"precio_venta",
                       "valor_ascensores":"num_ascensor"})

### Se reduce el numero de caracteristicas a 31 atributos.

In [0]:
#pd.notnull(CC_raw_bta["gimnasio"])
pd.isnull(CC_raw_bta["num_habitaciones"]).sum()
# pd.isna(CC_raw_bta["num_habitaciones"]).sum()

In [0]:
#cambio de valores o etiquetas de cada atributo
#NUMERO DE HABITACIONES
CC_raw_bta["num_habitaciones"].replace({"nan": 0}, inplace=True)
CC_raw_bta["num_habitaciones"].replace({"5+": 5}, inplace=True)
#NUMERO DE PARQUEADEROS
CC_raw_bta["num_parqueaderos"].replace({"4+": 4}, inplace=True)
#NUMERO DE BANOS
CC_raw_bta["num_banos"].replace({"5+": 5}, inplace=True)
CC_raw_bta["num_banos"].replace({"4+": 4}, inplace=True)
#NUMERO DE ASCENSORES
CC_raw_bta["num_ascensor"].replace({"2+": 2}, inplace=True)

#homogenizacion excel acordado
CC_raw_bta["tipo_inmueble"].replace({"Apartaestudio" :"apartaestudio", "Apartamento":"apartamento", "Bodega":"bodega", 
"Casa": "casa", "Casa campestre" :"casa campestre", "Consultorio" :"consultorio","Finca" :"casa campestre",
"Local": "local", "Local Comercial" :"local", "Lote":"lote", "Lote urbano":"lote","Lote rural":"lote",
"Oficina": "oficina", "Depósito" :"deposito", "Edificio":"edificio"}, inplace=True)


In [0]:
# reemplazo los valores NAN con cero dentro de estrato
CC_raw_bta["estrato"].fillna(0, inplace = True)
CC_raw_bta["gimnasio"].fillna(0, inplace = True)
CC_raw_bta["num_parqueaderos"].fillna(0, inplace = True)
CC_raw_bta["num_ascensor"].fillna(0, inplace = True)
CC_raw_bta["num_habitaciones"].fillna(0, inplace = True)
CC_raw_bta["num_banos"].fillna(0, inplace = True)
CC_raw_bta["num_ascensor"].fillna(0, inplace = True)

In [0]:
#len(CC_raw_bta.columns.values.tolist())
CC_raw_bta["num_habitaciones"]=CC_raw_bta["num_habitaciones"].astype(int)
CC_raw_bta["num_parqueaderos"]=CC_raw_bta["num_parqueaderos"].astype(int)
CC_raw_bta["num_banos"]=CC_raw_bta["num_banos"].astype(np.float64)
CC_raw_bta["estrato"]=CC_raw_bta["estrato"].astype(int)
CC_raw_bta["tipo_transaccion"]=CC_raw_bta["tipo_transaccion"].astype('string')
CC_raw_bta["tipo_inmueble"]=CC_raw_bta["tipo_inmueble"].astype('string')
CC_raw_bta["localidad"]=CC_raw_bta["localidad"].astype('string')
CC_raw_bta["departamento"]=CC_raw_bta["departamento"].astype('string')
CC_raw_bta["url_encode"]=CC_raw_bta["url_encode"].astype('string')
CC_raw_bta["contacto_llamada"]=CC_raw_bta["contacto_llamada"].astype('string')
CC_raw_bta["barrio"]=CC_raw_bta["barrio"].astype('string')
CC_raw_bta["url_inmueble"]=CC_raw_bta["url_inmueble"].astype('string')

CC_raw_bta["nombre_usuario"]=CC_raw_bta["nombre_usuario"].astype('string')
CC_raw_bta["codigo"]=CC_raw_bta["codigo"].astype('string')
CC_raw_bta["ciudad"]=CC_raw_bta["ciudad"].astype('string')


CC_raw_bta['fecha_creacion'] = CC_raw_bta['fecha_creacion'].astype('datetime64[ns]')
CC_raw_bta['fecha_modificacion'] = CC_raw_bta['fecha_modificacion'].astype('datetime64[ns]')

CC_raw_bta["num_ascensor"]=CC_raw_bta["num_ascensor"].astype(int)



CC_raw_bta["id"]=CC_raw_bta["id"].astype('string') # este valor es preferible que sea texto en todas las bases

CC_raw_bta["edad"]=CC_raw_bta["edad"].astype('string')# este valor se deja como texto, pero podria cambiarse a numero segun se decida

# REINICIO LOS INDICES

CC_raw_bta = CC_raw_bta.reset_index()

In [0]:
CC_raw_bta.info()

In [0]:
# se puede hacer con mayor detalle en la zona inmediata de estudio
sns.pairplot(CC_raw_bta[CC_raw_bta.tipo_transaccion == 'Venta'][['tipo_inmueble','area_construida','precio_venta','canon_arrendamiento','valor_administracion','Valor_M2','estrato']],hue="tipo_inmueble",corner=True)
#CC_raw_bta.info()

# Acceso a Estrato cartográfico

In [0]:
#Union espacial por entidad mas cercana.
import geopandas as gpd
#area_influencia = gpd.read_file('/content/drive/MyDrive/METRO/colab/Data/Otros SHP/isocrona_MAX.shp')

estratos = gpd.read_file('/dbfs/FileStore/tables/shp/estratos/ManzanaEstratificacion.shp')
inmueblesBta = CC_raw_bta.set_crs('epsg:4686')

*Se evidencias errores en la localizacion de los puntos de forma espacial, por lo que antes de cruzarlos con los estratos, se procede a filtrar por medio de un area acotada para Bogotá*

In [0]:
from matplotlib import pyplot
from shapely.geometry import Polygon
from shapely.geometry import Point, box
from geopandas import GeoSeries
Bta = box(-74.24835205078124, 4.468272728744618,-73.99497985839844, 4.837154404509952)
g = GeoSeries(Bta)
gdf = gpd.GeoDataFrame(geometry=g)
gdf.crs = 4686
#
from geopandas.tools import sjoin
pointInPolys=inmueblesBta.iloc[inmueblesBta.sindex.intersection(Bta.bounds).tolist()]
#inmueblesBta.plot(ax=ax1)
pointInPolys.plot()

In [0]:
pointInPolys = pointInPolys.to_crs('esri:102233')
estratos = estratos.to_crs('esri:102233')

In [0]:
# Acceso al estrato cartografico
inmueblesBta=pointInPolys
inmueblesBta=gpd.sjoin_nearest(inmueblesBta,estratos[['CODIGO_MAN','ESTRATO','geometry']],distance_col="dist")
inmueblesBta["CODIGO_MAN"]=inmueblesBta["CODIGO_MAN"].astype('string')
inmueblesBta=inmueblesBta.rename(columns={"CODIGO_MAN":"codigo manzana", 
                       "ESTRATO":"estratoCarto"})

In [0]:
set(inmueblesBta.tipo_inmueble)

In [0]:
# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta['tipo_inmueble'].isin(['bodega', 'consultorio', 'local', 'oficina', 'Edificio']),
    (inmueblesBta['estrato'] > 6),
    (inmueblesBta['estrato'] == inmueblesBta['estratoCarto']),
    (inmueblesBta['estrato'] > inmueblesBta['estratoCarto']),
    (inmueblesBta['estrato'] < inmueblesBta['estratoCarto']),
    ]
choices = [0,6,inmueblesBta['estrato'], inmueblesBta['estrato'], inmueblesBta['estratoCarto']]
inmueblesBta['estratoAjustado'] =  np.select(conditions, choices, default=0)
del conditions, choices

# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta['tipo_inmueble'].isin(['apartamento', 'casa', 'apartaestudio']),
    inmueblesBta['tipo_inmueble'].isin(['consultorio', 'edificio', 'oficina']),
    inmueblesBta['tipo_inmueble'].isin(['local']),
    inmueblesBta['tipo_inmueble'].isin(['bodega']),
    inmueblesBta['tipo_inmueble'].isin(['lote']),
    inmueblesBta['tipo_inmueble'].isin(['deposito']),
    ]
choices = ['Residencial','Servicios','Comercio','Industrial','Lotes','Depositos']
inmueblesBta['uso'] =  np.select(conditions, choices, default=0)

inmueblesBta["uso"]=inmueblesBta["uso"].astype('string')

In [0]:
sns.pairplot(inmueblesBta[inmueblesBta.tipo_transaccion == 'Venta'][['tipo_inmueble','area_construida','precio_venta','valor_administracion','Valor_M2','estratoAjustado']],hue="tipo_inmueble",corner=False)

In [0]:
inmueblesBta=inmueblesBta.drop(columns=['index','gimnasio','piscina_privada','ciudad','num_depositos','num_ascensor','departamento','index_right'])

In [0]:
inmueblesBta=inmueblesBta.rename(columns={"area_construida":"area","precio_venta":"precio"})

In [0]:
inmueblesBta.shape

# Union Finca Raiz

In [0]:
import os
folderCC = "/dbfs/FileStore/tables/fincaraiz/"
paths_cc = list()
for filename in os.scandir(folderCC):
    if filename.is_file():
      paths_cc.append(filename.path)
    else:
        pass

In [0]:
df = pd.concat((pd.read_csv(f) for f in paths_cc), axis=0, ignore_index=True)

In [0]:
import numpy as np
from shapely import wkt

print(df.shape)

# cambio de tipo de variable en fechas
df['dates.created']= pd.to_datetime(df['dates.created'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.deleted']= pd.to_datetime(df['dates.deleted'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.expired']= pd.to_datetime(df['dates.expired'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.moderated']= pd.to_datetime(df['dates.moderated'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.published']= pd.to_datetime(df['dates.published'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.renovated']= pd.to_datetime(df['dates.renovated'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
df['dates.updated']= pd.to_datetime(df['dates.updated'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date

# seleccion
FR_raw=df.drop_duplicates(subset=['property_id','dates.created','dates.expired','dates.moderated','dates.published','dates.renovated','dates.updated'])


# condicion para validar el area y volver a calcular el precio por M2
conditions = [
    (FR_raw['area'] == 0)|(FR_raw['living_area']==0),
    (FR_raw['area'] == FR_raw['living_area']),
    (FR_raw['area'] > FR_raw['living_area']),
    (FR_raw['area'] < FR_raw['living_area']),
    ]
choices = [0,FR_raw['area'], FR_raw['area'], FR_raw['living_area']]
FR_raw['areaAjustada'] = np.select(conditions, choices, default=0)
FR_raw=FR_raw.drop(FR_raw[FR_raw.areaAjustada<=6].index)
FR_raw["Valor_M2"] = FR_raw["price"]/FR_raw["areaAjustada"]
FR_raw=FR_raw.drop(FR_raw[FR_raw.Valor_M2>=50000000].index)

# dataset plano a geografico
FR_raw['geometry'] = FR_raw['locations.location_point'].apply(wkt.loads)
FR_raw = gpd.GeoDataFrame(FR_raw, crs='epsg:4326')
FR_raw["latitude"] = FR_raw["geometry"].apply(lambda p: p.y)
FR_raw["longitude"] = FR_raw["geometry"].apply(lambda p: p.x)


FR_raw=FR_raw.drop(columns=['Unnamed: 0','price_m2','max_area','min_area','max_living_area','min_living_area','max_price','min_price',
'negotiable','seo.title','stratum.slug','baths.slug','condition.slug','administration.is_included',
'age.slug','client.first_name','client.last_name','contact.emails','dates.deleted','dates.moderated',
'dates.renovated','floor.slug','locations.location_point','area','living_area','condition.name'])
#renombrando
FR_raw=FR_raw.rename(columns={
    'path':'url_inmueble',
    'property_id':'id', 
    'address':'direccion', 
    'price':'precio', 
    'offer':'tipo_transaccion', 
    'property_type':'tipo_inmueble',
    'seo.description':'descripcion', 
    'garages.name':'num_parqueaderos', 
    'rooms.name':'num_habitaciones', 
    'baths.name':'num_banos', 
    'condition.name':'condition', 
    'administration.price':'valor_administracion', 
    'age.name':'edad',
    'client.client_type':'tipo_usuario', 
    'client.fr_client_id':'id_usuario', 
    'client.company_name':'nombre_empresa',
    'contact.phones':'contacto_llamada',
    'dates.created':'fecha_creacion',
    'dates.expired':'fecha_expiracion',
    'dates.published':'fecha_publicado',
    'dates.updated':'fecha_modificacion',
    'floor.name':'piso',
    'areaAjustada':'area',
})

FR_raw = FR_raw.to_crs('esri:102233')
inmueblesBta_FR=gpd.sjoin_nearest(FR_raw,estratos[['CODIGO_MAN','ESTRATO','geometry']],distance_col="dist")
inmueblesBta_FR["CODIGO_MAN"]=inmueblesBta_FR["CODIGO_MAN"].astype('string')
inmueblesBta_FR=inmueblesBta_FR.rename(columns={"CODIGO_MAN":"codigo manzana", 
                       "ESTRATO":"estratoCarto"})
#homogenizacion excel acordado
inmueblesBta_FR["tipo_inmueble"].replace({"Apartaestudio" :"apartaestudio", "Apartamento":"apartamento", "Bodega":"bodega", 
"Casa": "casa","Cabaña":"casa campestre", "Casa Campestre" :"casa campestre","Casa Lote":"lote", "Consultorio" :"consultorio","Finca" :"casa campestre",
"Local": "local", "Local Comercial" :"local", "Lote":"lote", "Lote urbano":"lote","Lote rural":"lote",
"Oficina": "oficina", "Depósito" :"deposito","Habitacion":"habitacion","Edificio":"edificio"}, inplace=True)

# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta_FR['stratum.name'].isin(['Estrato 0', 'Campestre']),
    (inmueblesBta_FR['stratum.name'] == "Estrato 6" ),
    (inmueblesBta_FR['stratum.name'] == "Estrato 5"),
    (inmueblesBta_FR['stratum.name'] == "Estrato 4"),
    (inmueblesBta_FR['stratum.name'] == "Estrato 3"),
    (inmueblesBta_FR['stratum.name'] == "Estrato 2"),
    (inmueblesBta_FR['stratum.name'] == "Estrato 1"),
    ]
choices = [0,6,5,4,3,2,1]
inmueblesBta_FR['estrato'] =  np.select(conditions, choices, default=0)
del conditions, choices
conditions = [
    inmueblesBta_FR['tipo_inmueble'].isin(['bodega', 'consultorio', 'local', 'oficina', 'edificio']),
    (inmueblesBta_FR['estrato'] > 6),
    (inmueblesBta_FR['estrato'] == inmueblesBta_FR['estratoCarto']),
    (inmueblesBta_FR['estrato'] > inmueblesBta_FR['estratoCarto']),
    (inmueblesBta_FR['estrato'] < inmueblesBta_FR['estratoCarto']),
    ]
choices = [0,6,inmueblesBta_FR['estrato'], inmueblesBta_FR['estrato'], inmueblesBta_FR['estratoCarto']]
inmueblesBta_FR['estratoAjustado'] =  np.select(conditions, choices, default=0)
del conditions, choices

# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta_FR['tipo_inmueble'].isin(['apartamento', 'casa', 'apartaestudio','habitacion']),
    inmueblesBta_FR['tipo_inmueble'].isin(['consultorio', 'edificio', 'oficina']),
    inmueblesBta_FR['tipo_inmueble'].isin(['local']),
    inmueblesBta_FR['tipo_inmueble'].isin(['bodega']),
    inmueblesBta_FR['tipo_inmueble'].isin(['lote','casa lote']),
    inmueblesBta_FR['tipo_inmueble'].isin(['deposito']),
    inmueblesBta_FR['tipo_inmueble'].isin(['casa campestre']),
    ]
choices = ['Residencial','Servicios','Comercio','Industrial','Lotes','Depositos','Rural']
inmueblesBta_FR['uso'] =  np.select(conditions, choices, default=0)

#Modificando errores de valor de administracion
conditions = [
    (inmueblesBta_FR['valor_administracion']<=0),
    (inmueblesBta_FR['valor_administracion']>0),
    ]
choices = [0,inmueblesBta_FR['valor_administracion']]
inmueblesBta_FR['valor_administracion'] =  np.select(conditions, choices, default=0)



In [0]:
inmueblesBta_FR.shape

In [0]:
# ELIMINACIONES DE ATRIBUTOS

#inmueblesBta_FR=inmueblesBta_FR.drop(columns=['stratum.name','tipo_usuario','index_right'])

# REEMPLAZOS ESPECIALES
inmueblesBta_FR["num_banos"].replace({"Sin especificar": 0}, inplace=True)
inmueblesBta_FR["num_habitaciones"].replace({"Sin especificar": 0}, inplace=True)
inmueblesBta_FR["num_parqueaderos"].replace({"Sin especificar": 0}, inplace=True)
inmueblesBta_FR["num_parqueaderos"].replace({"Más de 10": 10}, inplace=True)

#cambio de tipo de dato para unir al dataset FINAL
inmueblesBta_FR["tipo_transaccion"]=inmueblesBta_FR["tipo_transaccion"].astype('string')
inmueblesBta_FR["tipo_inmueble"]=inmueblesBta_FR["tipo_inmueble"].astype('string')
inmueblesBta_FR["id"]=inmueblesBta_FR["id"].astype('string') # este valor es preferible que sea texto en todas las bases
#inmueblesBta_FR["nombre_empresa"]=inmueblesBta_FR["nombre_empresa"].astype('string')
inmueblesBta_FR["num_banos"]=inmueblesBta_FR["num_banos"].astype(np.float64)
inmueblesBta_FR["edad"]=inmueblesBta_FR["edad"].astype('string')# este valor se deja como texto, pero podria cambiarse a numero segun se decida
inmueblesBta_FR['fecha_creacion'] = inmueblesBta_FR['fecha_creacion'].astype('datetime64[ns]')
inmueblesBta_FR['fecha_modificacion'] = inmueblesBta_FR['fecha_modificacion'].astype('datetime64[ns]')
inmueblesBta_FR["num_habitaciones"]=inmueblesBta_FR["num_habitaciones"].astype(int)
inmueblesBta_FR["num_parqueaderos"]=inmueblesBta_FR["num_parqueaderos"].astype(int)
inmueblesBta_FR["url_inmueble"]=inmueblesBta_FR["url_inmueble"].astype('string')
#valor admin siempre y cuando genere porblema a int
inmueblesBta_FR["contacto_llamada"]=inmueblesBta_FR["contacto_llamada"].astype('string')
# CAMPOS ADICIONALES NO HOMOLOGADOS ENTRE BASES
inmueblesBta_FR["direccion"]=inmueblesBta_FR["direccion"].astype('string')
inmueblesBta_FR["descripcion"]=inmueblesBta_FR["descripcion"].astype('string')
inmueblesBta_FR["fecha_expiracion"]=inmueblesBta_FR["fecha_expiracion"].astype('datetime64[ns]')
inmueblesBta_FR["fecha_publicado"]=inmueblesBta_FR["fecha_publicado"].astype('datetime64[ns]')
inmueblesBta_FR["piso"]=inmueblesBta_FR["piso"].astype('string')
inmueblesBta_FR["uso"]=inmueblesBta_FR["uso"].astype('string')

#CAMBIO DE NOMBRE FINAL

inmueblesBta_FR=inmueblesBta_FR.rename(columns={"nombre_empresa":"nombre_usuario ","latitude":"Latitud","longitude":"Longitud"})

In [0]:
inmueblesBta_FR.shape

In [0]:
import gc
del Properati_2022
gc.collect()

# UNION **PROPERATI** # deshabilitado

In [0]:
import pandas as pd

Properati_2022 = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties.csv", encoding = 'utf8')
Properati_2019 = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties_2019.csv", encoding = 'utf8')
Properati_Abril = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties202204.csv", encoding = 'utf8')
Properati_Mayo = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties202205.csv", encoding = 'utf8')
Properati_Julio = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties202207.csv", encoding = 'utf8')

Properati_raw = pd.concat([Properati_2022, Properati_2019, Properati_Abril, Properati_Mayo, Properati_Julio])
Properati_raw = Properati_raw[Properati_raw.l3 == "Bogotá D.C"]
Properati_raw.shape
#ELIMINA DATOS REPETIDOS Y NULOS EN LATITUD Y LONGITUD
Properati_raw=Properati_raw.drop_duplicates(subset=['id'])
Properati_raw=Properati_raw.dropna(axis=0, subset=['lat','lon'])

import numpy as np
Properati_raw["surface_total"].fillna(0, inplace = True)
Properati_raw["surface_covered"].fillna(0, inplace = True)
conditions = [
    (Properati_raw['surface_total'].isna())&(Properati_raw['surface_covered'].isna()),
    (Properati_raw['surface_total'] == 0)&(Properati_raw['surface_covered']==0),
    (Properati_raw['surface_total'] == Properati_raw['surface_covered']),
    (Properati_raw['surface_total'] > Properati_raw['surface_covered']),
    (Properati_raw['surface_total'] < Properati_raw['surface_covered']),
    ]
choices = [np.nan,np.nan,Properati_raw['surface_total'], Properati_raw['surface_total'], Properati_raw['surface_covered']]
Properati_raw['areaAjustada'] = np.select(conditions, choices, default=0)
Properati_raw=Properati_raw.dropna(axis=0, subset=['areaAjustada'])

Properati_raw["Valor_M2"] = Properati_raw["price"]/Properati_raw["areaAjustada"]

from prettytable import PrettyTable
from collections import Counter

titulos = Properati_raw[Properati_raw["property_type"]=='Otro'].title.tolist()
words = [ w
          for t in titulos
              for w in t.split() ]


dic_inmuebles = dict()
dic_inmuebles['apartaestudio']=['APARTA','Aparta','APARTAESTUDIO','Apartaestudio','apartaestudio',]
dic_inmuebles['apartamento']=['APARTAMENTO','Apartamento','apartamento','Apartamento,','apartamento,','apartamentos','Apto','APTO','apto','PENTHOUSE','Penthouse']
dic_inmuebles['bodega']=['Bodega','BODEGA','bodega','BODEGAS',]
dic_inmuebles['casa']=['CASA','Casa','casa','CASAS',]
dic_inmuebles['edificio']=['Edificio','EDIFICIO','edificio','EDIFICIOS',]
dic_inmuebles['local']=['Local','LOCAL','local','Local,','LOCALES',]
dic_inmuebles['lote']=['Lote','lote','LOTES','LOTE']
dic_inmuebles['oficina']=['OFICINA','Oficina','oficina','Oficina,','OFICINAS','oficinas','Consultorio','CONSULTORIOS']

# SE PUEDE MEJORAR LA EXTRACCION PERO A FUTURO
inmueblesBta_Prope = Properati_raw.copy().reset_index() # importantisimo reiniciar el index

for index, row in inmueblesBta_Prope.iterrows():
  if row['property_type']=='Otro':
    for k,v in dic_inmuebles.items():
      l=[ w for w in row['title'].split()]
      for word in v:
        if word in l:
          inmueblesBta_Prope.at[index,'property_type'] = k
          #print("{} - {}".format(k,row['title']))
          break
        else:
          pass
  else:
    pass

inmueblesBta_Prope=inmueblesBta_Prope.rename(columns={     
    'start_date':'fecha_publicado',
    'end_date':'fecha_expiracion',
    'created_on':'fecha_creacion',
    'lat':'Latitud',
    'lon':'Longitud',
    'bedrooms':'num_habitaciones', 
    'bathrooms':'num_banos', 
    'price':'precio', 
    'description':'descripcion',
    'property_type':'tipo_inmueble',
    'operation_type':'tipo_transaccion', 
    'areaAjustada':'area',
    'l4':'localidad',
    'l5':'barrio',
    'title':'titulo',
    'price_period':'periodo',
})
#homogenizacion excel acordado
inmueblesBta_Prope["tipo_inmueble"].replace({"Apartaestudio" :"apartaestudio", "Apartamento":"apartamento", "Bodega":"bodega", 
"Casa": "casa","Cabaña":"casa campestre", "Casa Campestre" :"casa campestre","Casa Lote":"lote", "Consultorio" :"consultorio","Finca" :"casa campestre",
"Local": "local", "Local Comercial":"local","Local comercial":"local", "Lote":"lote", "Lote urbano":"lote","Lote rural":"lote",
"Oficina": "oficina", "Depósito" :"deposito","Habitacion":"habitacion","Edificio":"edificio","Parqueadero":'parqueadero'}, inplace=True)
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.tipo_inmueble == "Otro"].index)
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.tipo_transaccion == "Arriendo temporal"].index)
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.currency == "USD"].index)

# borrar por area
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.area<=10].index)
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.Valor_M2<=1].index)
inmueblesBta_Prope=inmueblesBta_Prope.drop(inmueblesBta_Prope[inmueblesBta_Prope.Valor_M2 >100000000].index)

import geopandas as gpd
estratos = gpd.read_file('/content/drive/MyDrive/METRO/colab/Data/Otros SHP/manzanaestratificacion/ManzanaEstratificacion.shp')
estratos = estratos.to_crs('esri:102233')
inmueblesBta_Prope_geo = gpd.GeoDataFrame(inmueblesBta_Prope, geometry=gpd.points_from_xy(inmueblesBta_Prope.Longitud, inmueblesBta_Prope.Latitud))

from shapely.geometry import Polygon
from shapely.geometry import Point, box
from geopandas import GeoSeries
Bta = box(-74.24835205078124, 4.468272728744618,-73.99497985839844, 4.837154404509952)

Properati_geo=inmueblesBta_Prope_geo.iloc[inmueblesBta_Prope_geo.sindex.intersection(Bta.bounds).tolist()]
Properati_geo.crs = {'init' :'epsg:4326'}
Properati_geo = Properati_geo.to_crs('esri:102233')

inmueblesBta_Prope=Properati_geo.copy().reset_index()
inmueblesBta_Prope=gpd.sjoin_nearest(inmueblesBta_Prope,estratos[['CODIGO_MAN','ESTRATO','geometry']],distance_col="dist")
inmueblesBta_Prope["CODIGO_MAN"]=inmueblesBta_Prope["CODIGO_MAN"].astype('string')
inmueblesBta_Prope=inmueblesBta_Prope.rename(columns={"CODIGO_MAN":"codigo manzana", 
                       "ESTRATO":"estratoCarto"})

# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta_Prope['tipo_inmueble'].isin(['bodega', 'consultorio', 'local', 'oficina', 'edificio','casa campestre']),
    (inmueblesBta_Prope['estratoCarto'] != 0),
    ]
choices = [0,inmueblesBta_Prope['estratoCarto']]
inmueblesBta_Prope['estratoAjustado'] =  np.select(conditions, choices, default=0)
del conditions, choices

# HOMOLOGACION ESTRATOS Y USO
conditions = [
    inmueblesBta_Prope['tipo_inmueble'].isin(['apartamento', 'casa', 'apartaestudio']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['consultorio', 'edificio', 'oficina']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['local']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['bodega']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['lote']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['deposito']),
    inmueblesBta_Prope['tipo_inmueble'].isin(['casa campestre']),
    ]
choices = ['Residencial','Servicios','Comercio','Industrial','Lotes','Depositos','Rural Residencial']
inmueblesBta_Prope['uso'] =  np.select(conditions, choices, default=0)

inmueblesBta_Prope["uso"]=inmueblesBta_Prope["uso"].astype('string')

inmueblesBta_Prope=inmueblesBta_Prope.drop(columns=['level_0', 'index', 'ad_type', 'l1', 'l2', 'l3', 'rooms', 'l6', 'surface_total', 
                            'surface_covered', 'currency', 'index_right',])

#cambio de tipo de dato para unir al dataset FINAL
inmueblesBta_Prope["tipo_transaccion"]=inmueblesBta_Prope["tipo_transaccion"].astype('string')
inmueblesBta_Prope["tipo_inmueble"]=inmueblesBta_Prope["tipo_inmueble"].astype('string')
inmueblesBta_Prope["id"]=inmueblesBta_Prope["id"].astype('string') # este valor es preferible que sea texto en todas las bases
inmueblesBta_Prope['fecha_creacion'] = inmueblesBta_Prope['fecha_creacion'].astype('datetime64[ns]')
inmueblesBta_Prope["localidad"]=inmueblesBta_Prope["localidad"].astype('string')
inmueblesBta_Prope["barrio"]=inmueblesBta_Prope["barrio"].astype('string') 
inmueblesBta_Prope["descripcion"]=inmueblesBta_Prope["descripcion"].astype('string')
#coerce no levanta excepciones!
inmueblesBta_Prope['fecha_expiracion']= pd.to_datetime(inmueblesBta_Prope['fecha_expiracion'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
inmueblesBta_Prope["fecha_expiracion"]=inmueblesBta_Prope["fecha_expiracion"].astype('datetime64[ns]')
inmueblesBta_Prope["fecha_publicado"]=inmueblesBta_Prope["fecha_publicado"].astype('datetime64[ns]')
inmueblesBta_Prope["periodo"]=inmueblesBta_Prope["periodo"].astype('string') 
inmueblesBta_Prope["titulo"]=inmueblesBta_Prope["titulo"].astype('string')

In [0]:
inmueblesBta.crs

# UNION DATASET FINCA RAIZ, CIENCUADRAS y PROPERATI LIMPIOS

In [0]:
Metro = pd.concat([inmueblesBta,inmueblesBta_FR]).to_crs('epsg: 4326').reset_index()
#pd.concat([inmueblesBta,inmueblesBta_FR,inmueblesBta_Prope]).to_crs('epsg: 4326').reset_index()

In [0]:
#del inmueblesBta,inmueblesBta_FR,inmueblesBta_Prope
import gc
gc.collect()

In [0]:
Metro.shape

In [0]:
Metro.shape # PARA TODA BOGOTA!
# USO PARQUEADEROS QUEDO IGUAL A CERO
Metro["uso"].replace({"0":"parqueadero"}, inplace=True)

In [0]:
pd.crosstab(Metro['uso'],Metro['tipo_inmueble'])

In [0]:
Metro=Metro.drop(Metro[Metro.tipo_inmueble.isin(['habitacion','casa campestre'])].index)
#Metro=Metro.drop(Metro[(Metro.tipo_transaccion=='Arriendo')&(Metro.Valor_M2 <= 3000)].index)

In [0]:
#Metro[Metro.tipo_transaccion == 'Arriendo'].head(10).T

for index, row in Metro.iterrows():
  if row['tipo_transaccion'] == 'Arriendo' and row['Valor_M2'] == 0:
    calculo = row['canon_arrendamiento']/row['area']
    Metro.loc[index,'Valor_M2']= calculo

In [0]:

table = pd.pivot_table(Metro[Metro['Valor_M2'] <= 8000], values=['Valor_M2'], index=['tipo_transaccion','tipo_inmueble'],
                    aggfunc={'Valor_M2': len})
# Antes de correr la linea de abajo verifique la tabla!
table

In [0]:
Metro = Metro.drop(Metro[Metro["Valor_M2"]<8000].index)

In [0]:
Metro.info()

# Asignando Maya H3

In [0]:
!pip install h3

In [0]:
# Agrupacion H3
import h3
gdf = Metro.copy()
for res in range(6, 9):
    col_hex_id = "hex_id_{}".format(res)
    col_geom = "geometry_{}".format(res)
    msg_ = "At resolution {} -->  H3 cell id : {} and its geometry: {} "
    print(msg_.format(res, col_hex_id, col_geom))

    gdf[col_hex_id] = gdf.apply(
                                lambda row: h3.geo_to_h3(
                                            lat = row['Latitud'],
                                            lng = row['Longitud'],
                                            resolution = res),
                                axis = 1)

    # use h3.h3_to_geo_boundary to obtain the geometries of these hexagons
    gdf[col_geom] = gdf[col_hex_id].apply(
                                        lambda x: {"type": "Polygon",
                                                    "coordinates":
                                                    [h3.h3_to_geo_boundary(
                                                        h=x, geo_json=True)]
                                                    }
                                          )

# **LIMPIEZA ESTADISTICA USANDO IQR (INTERQUANTILE RANGE), TIPO DE INMUEBLE Y TIPO AFERTA CONTRA EL VALOR DE METRO CUADRADO**

In [0]:

print(len(set(gdf.hex_id_6.values)), len(set(gdf.hex_id_7.values)), len(set(gdf.hex_id_8.values)))
#len(set(gdf.hex_id_11.values))

In [0]:
Grilla_N8 = [i.strip() for i in gdf.hex_id_8.unique()]
Grilla_N7 = [i.strip() for i in gdf.hex_id_7.unique()]
Grilla_N6 = [i.strip() for i in gdf.hex_id_6.unique()]

lista_grillas = list()
lista_grillas.append(Grilla_N6)
lista_grillas.append(Grilla_N7)
lista_grillas.append(Grilla_N8)
transacciones = [i.strip() for i in gdf.tipo_transaccion.unique() ]
inmuebles = [i.strip() for i in gdf.tipo_inmueble.unique()]


df2 = pd.DataFrame(columns=gdf.columns)
# recorro cada una de las grillas de la mayor a la menor, 
# haciendo una limpieza embebida segun el nivel de resolución de las grilla.
res = 6
for n in lista_grillas:
    hex_geom = "hex_id_{}".format(res)
    for g in n:
        for t in transacciones:
            for i in inmuebles:
                chunk_df = gdf[(gdf[hex_geom]==g)&(gdf['tipo_transaccion']==t)&(gdf['tipo_inmueble']==i)]
                # sacamos el rango intercuantil para los datos seleccionados
                if chunk_df.shape[0] != 0:
                    Q1 = chunk_df['Valor_M2'].quantile(0.25)
                    Q3 = chunk_df['Valor_M2'].quantile(0.75)
                    IQR = Q3 - Q1
                    print('________%s____%s___________(%s)'%(t,i,chunk_df.shape))
                    print(IQR)
                    df = chunk_df[~((chunk_df['Valor_M2'] < (Q1 - 1.5 * IQR))|(chunk_df['Valor_M2'] > (Q3 + 1.5 * IQR)))]
                    df2=pd.concat([df2,df])
    res += 1
    print(df2.shape)

In [0]:
df2 =df2.drop(df2[(df2["Valor_M2"]<=100000)&(df2["tipo_transaccion"]=='Venta')].index)

In [0]:
table = pd.pivot_table(df2[df2['Valor_M2'] <= 100000], values=['Valor_M2'], index=['tipo_transaccion','tipo_inmueble'],
                    aggfunc={'Valor_M2': len})
# Antes de correr la linea de abajo verifique la tabla!
table

In [0]:
filename = '/dbfs/FileStore/tables/procesado/Mercado_inmobiliario_bogota.csv'
df2.to_csv(filename, index=False)

In [0]:
import seaborn as sns
#fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="Valor_M2", y="tipo_inmueble", orient="h", width=0.5, fliersize=2, data=df2[(df2.tipo_transaccion=='Venta')]).set(title='Comportamiento Agregado de Ventas de inmuebles Limpios estadisticamente - IQR')

In [0]:
#df2 = df2.reset_index()
inmueblesBta_df2 = gpd.GeoDataFrame(df2, geometry=gpd.points_from_xy(df2.Longitud, df2.Latitud))
inmueblesBta_df2.crs = 4326

In [0]:
inmueblesBta_df2.sample(1000).plot()

In [0]:
inmueblesBta_df2.shape

In [0]:
fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="Valor_M2", y="tipo_inmueble", orient="h", width=0.5, fliersize=2, data=Metro[(Metro.tipo_transaccion=='Venta')]).set(title='Comportamiento Agregado de Ventas de inmuebles sin limpieza')

In [0]:
fig, ax = pyplot.subplots(figsize=(20, 8.27))
sns.boxplot(x="Valor_M2", y="tipo_inmueble", orient="h", width=0.5, fliersize=2, data=inmueblesBta_df2[(inmueblesBta_df2.tipo_transaccion=='Venta')]).set(title='Comportamiento Agregado de Ventas de inmuebles sin limpieza')

In [0]:
inmueblesBta_df2.plot()

In [0]:
import geopandas as gpd
from geopandas.tools import sjoin

#area = gpd.read_file('/content/drive/MyDrive/METRO/colab/Data/CATASTRO/SHP BTA/AREA_H3.shp')
area = gpd.read_file('/dbfs/FileStore/tables/shp/isocronas/Isocrona_por_estacion_TOTAL_2022.shp')

#inmueblesBta=inmueblesBta.drop(columns=['index_right'])
#Metro_Isocrona = sjoin(inmueblesBta_df2, area, how='inner')

Metro_Isocrona=gpd.overlay(inmueblesBta_df2, area, how='intersection')

In [0]:
inmueblesBta_df2.shape

In [0]:
Metro_Isocrona.shape
#643834
#641139


In [0]:
Metro_Isocrona[Metro_Isocrona.Linea == 'Linea 1'].plot(column='hex_id_8', markersize=2)

In [0]:
deptos = ['Amazonas', 'Antioquia','Arauca', 'Atlántico','Bolívar','Boyacá','Caldas','Caquetá','Casanare', 'Cauca','Cesar','Chocó','Córdoba','Guainía','Guaviare','Huila','La Guajira', 'Magdalena','Meta','Nariño','Norte de Santander','Putumayo','Quindío','Risaralda','San Andrés y Providencia','Santander','Sucre','Tolima','Valle del Cauca','Vaupés','Vichada']
dropFalseIdent = list()
Metro_Isocrona.url_inmueble.apply(lambda x: set([dropFalseIdent.append(x) for b in [str(x) for d in deptos if d in str(x).split(' / ')] if 'Bogotá' not in b]))

Metro_Isocrona.drop(Metro_Isocrona.query('url_inmueble in @dropFalseIdent').index, inplace=True)
Metro_Isocrona.drop(Metro_Isocrona[(Metro_Isocrona['tipo_inmueble'] == 'apartaestudio')&(Metro_Isocrona['num_habitaciones'] >1)].index, inplace = True)

### **EXPORTACION HOMOGENEO**

In [0]:
filename = '/dbfs/FileStore/tables/procesado/InmoPLMB_compilado_0823.csv'
Metro_Isocrona.to_csv(filename, index=False)

### **guardado a databricks**

In [0]:

import pandas as pd
filename = 'dbfs:/FileStore/tables/procesado/InmoPLMB_compilado_0823.csv'
filename_pd = '/dbfs/FileStore/tables/procesado/InmoPLMB_compilado_0823.csv'
Metro_Isocrona = pd.read_csv(filename_pd)
Metro_Isocrona.drop(columns =['latitud', 'longitud', 'Unnamed: 0.1', 'stratum.name',
                              'locations.location_main.id', 'locations.location_main.fr_place_id',
                              'locations.location_main.place_code', 'locations.location_main.name',
                              'locations.location_main.slug', 'locations.location_main.location_type',
                              'locations.localities', 'locations.communes', 'locations.zones',
                              'locations.regions', 'index_right','nombre_usuario '], inplace = True)

#cambio de tipo de dato para unir al dataset FINAL
Metro_Isocrona["tipo_transaccion"]=Metro_Isocrona["tipo_transaccion"].astype('string')
Metro_Isocrona["tipo_inmueble"]=Metro_Isocrona["tipo_inmueble"].astype('string')
Metro_Isocrona["id"]=Metro_Isocrona["id"].astype('string') # este valor es preferible que sea texto en todas las bases
Metro_Isocrona['fecha_creacion'] = Metro_Isocrona['fecha_creacion'].astype('datetime64[ns]')
Metro_Isocrona["localidad"]=Metro_Isocrona["localidad"].astype('string')
Metro_Isocrona["barrio"]=Metro_Isocrona["barrio"].astype('string') 
Metro_Isocrona["descripcion"]=Metro_Isocrona["descripcion"].astype('string')
#coerce no levanta excepciones!
Metro_Isocrona['fecha_expiracion']= pd.to_datetime(Metro_Isocrona['fecha_expiracion'].apply(lambda x: pd.to_datetime(x, errors='coerce', utc=True))).dt.date
Metro_Isocrona["fecha_expiracion"]=Metro_Isocrona["fecha_expiracion"].astype('datetime64[ns]')
Metro_Isocrona["fecha_publicado"]=Metro_Isocrona["fecha_publicado"].astype('datetime64[ns]')
Metro_Isocrona["codigo manzana"]=Metro_Isocrona["codigo manzana"].astype('string')
Metro_Isocrona["layer"]=Metro_Isocrona["layer"].astype('string')
Metro_Isocrona.rename(columns = {"codigo manzana": 'codManzana','nombre_usuario':'user_name'}, inplace=True)

Metro_Isocrona = Metro_Isocrona.convert_dtypes()


In [0]:
for a in list(Metro_Isocrona.columns.values):
    b = Metro_Isocrona[a].dtype
    if b == 'string':
        Metro_Isocrona[a] = Metro_Isocrona[a].fillna('ND')
    elif b == 'datetime64[ns]':
        Metro_Isocrona[a] = Metro_Isocrona[a].fillna('1990-07-02')
    else:
        Metro_Isocrona[a] = Metro_Isocrona[a].fillna(0)

    v = f",StructField('{a}', Type({b}), True)"
    print(v)

In [0]:
from pyspark.sql.types import StructType,StructField, StringType, IntegerType, FloatType, TimestampType, LongType
#Create User defined Custom Schema using StructType
mySchema = StructType([StructField('index', IntegerType(), True)\
                    ,StructField('area', FloatType(), True)\
                    ,StructField('tipo_transaccion', StringType(), True)\
                    ,StructField('tipo_inmueble', StringType(), True)\
                    ,StructField('id', StringType(), True)\
                    ,StructField('nombre_usuario', StringType(), True)\
                    ,StructField('codigo', StringType(), True)\
                    ,StructField('precio', LongType(), True)\
                    ,StructField('num_banos', FloatType(), True)\
                    ,StructField('edad', StringType(), True)\
                    ,StructField('fecha_modificacion', StringType(), True)\
                    ,StructField('fecha_creacion', TimestampType(), True)\
                    ,StructField('num_habitaciones', IntegerType(), True)\
                    ,StructField('num_parqueaderos', IntegerType(), True)\
                    ,StructField('canon_arrendamiento', IntegerType(), True)\
                    ,StructField('localidad', StringType(), True)\
                    ,StructField('estrato', IntegerType(), True)\
                    ,StructField('url_inmueble', StringType(), True)\
                    ,StructField('barrio', StringType(), True)\
                    ,StructField('valor_administracion', LongType(), True)\
                    ,StructField('contacto_llamada', StringType(), True)\
                    ,StructField('id_usuario', IntegerType(), True)\
                    ,StructField('url_encode', StringType(), True)\
                    ,StructField('Latitud', FloatType(), True)\
                    ,StructField('Longitud', FloatType(), True)\
                    ,StructField('Valor_M2', FloatType(), True)\
                    ,StructField('codManzana', StringType(), True)\
                    ,StructField('estratoCarto', IntegerType(), True)\
                    ,StructField('dist', FloatType(), True)\
                    ,StructField('estratoAjustado', IntegerType(), True)\
                    ,StructField('uso', StringType(), True)\
                    ,StructField('direccion', StringType(), True)\
                    ,StructField('descripcion', StringType(), True)\
                    ,StructField('tipo_usuario', StringType(), True)\
                    #,StructField('nombre_usuario ', StringType(), True)\
                    ,StructField('fecha_expiracion', TimestampType(), True)\
                    ,StructField('fecha_publicado', TimestampType(), True)\
                    ,StructField('piso', StringType(), True)\
                    ,StructField('hex_id_6', StringType(), True)\
                    ,StructField('geometry_6', StringType(), True)\
                    ,StructField('hex_id_7', StringType(), True)\
                    ,StructField('geometry_7', StringType(), True)\
                    ,StructField('hex_id_8', StringType(), True)\
                    ,StructField('geometry_8', StringType(), True)\
                    ,StructField('group_inde', IntegerType(), True)\
                    ,StructField('Tiempo', StringType(), True)\
                    ,StructField('layer', StringType(), True)\
                    ,StructField('Linea', StringType(), True)\
                    ,StructField('geometry', StringType(), True)])

In [0]:
import missingno as msno
# garfico de datos faltantes, 
msno.matrix(Metro_Isocrona, color=(0.27, 0.52, 1.0))

In [0]:

Metro_Isocrona.isna().sum().to_frame()

In [0]:
InmoPLMB_pdf = spark.createDataFrame(Metro_Isocrona, schema=mySchema)

In [0]:
InmoPLMB_pdf.createOrReplaceTempView("i")
#Metro_Isocrona.columns

In [0]:
spark.conf.set("spark.databricks.delta.properties.defaults.columnMapping.mode","name")

In [0]:
%sql

CREATE or replace TABLE MercadoInmo AS (
  Select 
  * 
  from 
  i);
--ALTER VIEW MercadoInmo SET TBLPROPERTIES ('delta.columnMapping.mode' = 'name');

# **SIGUE LA ESTRATEGIA DE METER TODO EN UNA BASE DE DATOS**  *A FUTURO!!*

In [0]:
import pandas as pd

inmueblesBta= pd.read_csv('/content/drive/MyDrive/METRO/colab/Data/DATA HOMOGENEA - PASO LIMPIEZA/BTA_INMO_IQR_FEBRERO_2023.csv', encoding='utf-8')
#inmueblesBta.drop(columns=['Unnamed: 0'], inplace=True)
inmueblesBta.rename(columns = { 'Unnamed: 0': 'Unnamed_0',
                                'codigo manzana': 'codigo_manzana',
                                'stratum.name': 'Estrato_name',
                                'locations.localities': 'Localizacion_Localidades',
                                'locations.communes': 'Localizacion_Comuna',
                                'locations.zones': 'Localizacion_Zona',
                                'locations.regions': 'Localizacion_Region',
                                'nombre_usuario ': 'nombre_usuario_2'
                                }, inplace=True)


In [0]:
inmueblesBta.columns

In [0]:
inmueblesBta[(inmueblesBta['layer']=='E1')&(inmueblesBta['tipo_inmueble']=='local')&(inmueblesBta['tipo_transaccion']=='Venta')&(inmueblesBta['Valor_M2']>6000000)].T

In [0]:
columnName = list(inmueblesBta.columns.values)

def getColumnDtypes(dataTypes):
    dataList = []
    for x in dataTypes:
        if(x == 'int64'):
            dataList.append('int')
        elif (x == 'float64'):
            dataList.append('float')
        elif (x == 'bool'):
            dataList.append('boolean')
        else:
            dataList.append('varchar')
    return dataList

columnDataType = getColumnDtypes(inmueblesBta.dtypes)

In [0]:
len(columnDataType)

In [0]:
len(columnName)

In [0]:
createTableStatement = 'CREATE TABLE IF NOT EXISTS inmo_recolec_2023 ('
for i in range(len(columnDataType)):
    createTableStatement = createTableStatement + '\n' + columnName[i] + ' ' + columnDataType[i] + ','
createTableStatement = createTableStatement[:-1] + ' );'


In [0]:
createTableStatement = createTableStatement.replace('int', 'bigint')

In [0]:
createTableStatement

In [0]:
import psycopg2
conn = psycopg2.connect(dbname='superset', host='observatorio.metrodebogota.gov.co', port='5432', user='superset', password='superset')
cur = conn.cursor()
cur.execute(createTableStatement)
conn.commit()

In [0]:
import os
def copy_from_file(conn, df, table):
    """
    Here we are going save the dataframe on disk as 
    a csv file, load the csv file  
    and use copy_from() to copy it to the table
    """
    # Save the dataframe to disk
    tmp_df = "/content/drive/MyDrive/METRO/colab/Data/DATA HOMOGENEA - PASO LIMPIEZA/BTA_INMO_IQR_FEBRERO_Temp.csv"
    df.to_csv(tmp_df, index=False, header=False)
    # ,
    print(len(list(df.columns.values)))
    f = open(tmp_df, 'r')
    cursor = conn.cursor()
    try:
        cursor.copy_from(f, table, sep=",")
        conn.commit()
    except (Exception, psycopg2.DatabaseError) as error:
        #os.remove(tmp_df)
        print("Error: %s" % error)
        conn.rollback()
        cursor.close()
        return 1
    print("copy_from_file() done")
    cursor.close()
    os.remove(tmp_df)

copy_from_file(conn, inmueblesBta, 'inmo_recolec_2023')

In [0]:
inmueblesBta.to_csv('/content/drive/MyDrive/METRO/colab/Data/DATA HOMOGENEA - PASO LIMPIEZA/BTA_INMO_IQR_FEBRERO_2023.csv', encoding='utf-8')
df.to_csv(tmp_df, index_label='id', header=False)

# Calculo de correlaciones

In [0]:
columnDataType

In [0]:
import numpy as np
import seaborn as sns
aptos_venta = inmueblesBta[(inmueblesBta.tipo_inmueble=='apartamento')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_corr = aptos_venta[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask1 = np.zeros_like(venta_corr)
mask1[np.triu_indices_from(mask1)] = True

casas_arriendo = inmueblesBta[(inmueblesBta.tipo_inmueble=='casa')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_casa_corr = casas_arriendo[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask2 = np.zeros_like(venta_casa_corr)
mask2[np.triu_indices_from(mask2)] = True


estudio_arriendo = inmueblesBta[(inmueblesBta.tipo_inmueble=='apartaestudio')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_estudio_corr = estudio_arriendo[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask3 = np.zeros_like(venta_estudio_corr)
mask3[np.triu_indices_from(mask3)] = True

with sns.axes_style("white"):
    f, (ax1, ax2, ax3) = pyplot.subplots(ncols=3, sharex=True, sharey=True,figsize=(25, 7))
    f.suptitle('COMPORTAMIENTO VENTAS EN BOGOTA',fontweight ="bold")
    sns.heatmap(venta_corr, annot=True, mask=mask1, square=True,cmap='YlGnBu',ax=ax1).set(title='Correlaciones apartamentos')
    sns.heatmap(venta_casa_corr, annot=True, mask=mask2, square=True,cmap='YlGnBu',ax=ax2).set(title='Correlaciones casas')
    sns.heatmap(venta_estudio_corr, annot=True, mask=mask3, square=True,cmap='YlGnBu',ax=ax3).set(title='Correlaciones apartaestudios')



In [0]:
import geopandas as gpd
from geopandas.tools import sjoin

area = gpd.read_file('/content/drive/MyDrive/METRO/colab/Data/Otros SHP/isocrona_MAX.shp')
#inmueblesBta=inmueblesBta.drop(columns=['index_right'])
pointInPolys = sjoin(inmueblesBta, area, how='inner')

In [0]:
pointInPolys.shape

In [0]:

aptos_venta = pointInPolys[(pointInPolys.tipo_inmueble=='apartamento')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_corr = aptos_venta[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask1 = np.zeros_like(venta_corr)
mask1[np.triu_indices_from(mask1)] = True

casas_arriendo = pointInPolys[(pointInPolys.tipo_inmueble=='casa')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_casa_corr = casas_arriendo[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask2 = np.zeros_like(venta_casa_corr)
mask2[np.triu_indices_from(mask2)] = True


estudio_arriendo = pointInPolys[(pointInPolys.tipo_inmueble=='apartaestudio')&((CC_raw_bta.tipo_transaccion=='Venta')|(CC_raw_bta.tipo_transaccion=='Arriendo o venta'))]
venta_estudio_corr = estudio_arriendo[['precio_venta','area_construida','estratoAjustado','edad',
                                 'num_banos','num_habitaciones','num_parqueaderos','num_depositos','Valor_M2','valor_administracion']].corr()
mask3 = np.zeros_like(venta_estudio_corr)
mask3[np.triu_indices_from(mask3)] = True

with sns.axes_style("white"):
    f, (ax1, ax2, ax3) = pyplot.subplots(ncols=3, sharex=True, sharey=True,figsize=(25, 7))
    f.suptitle('COMPORTAMIENTO ZONA DE INFLUENCIA PLMB',fontweight ="bold")
    sns.heatmap(venta_corr, annot=True, mask=mask1, square=True,cmap='YlGnBu',ax=ax1).set(title='Correlaciones apartamentos')
    sns.heatmap(venta_casa_corr, annot=True, mask=mask2, square=True,cmap='YlGnBu',ax=ax2).set(title='Correlaciones casas')
    sns.heatmap(venta_estudio_corr, annot=True, mask=mask3, square=True,cmap='YlGnBu',ax=ax3).set(title='Correlaciones apartaestudios')


In [0]:
inmueblesBta=inmueblesBta.drop(columns=['index_right'])
puntos_l2 = sjoin(inmueblesBta, L2_10, how='inner')


In [0]:
puntos_l2.shape

In [0]:
puntos_l2.plot()

# Conteos!

In [0]:
march = pd.read_csv('/content/drive/MyDrive/METRO/colab/Data/FincaRaiz/FincaRaiz_Marzo.csv')
april=pd.read_csv('/content/drive/MyDrive/METRO/colab/Data/FincaRaiz/FincaRaiz_Abril.csv')
mayo=pd.read_csv('/content/drive/MyDrive/METRO/colab/Data/FincaRaiz/FincaRaiz_Mayo.csv')
df = pd.concat([march,april,mayo])



In [0]:
Properati_2022 = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties.csv", encoding = 'utf8')
Properati_2019 = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties_2019.csv", encoding = 'utf8')
Properati_Mayo = pd.read_csv("/content/drive/MyDrive/METRO/colab/Data/co_properties202205.csv", encoding = 'utf8')

Properati_raw = pd.concat([Properati_2022, Properati_2019, Properati_Mayo])
Properati_raw = Properati_raw[Properati_raw.l3 == "Bogotá D.C"]

BASE

In [0]:
import pandas as pd
L= pd.read_csv('/content/drive/MyDrive/METRO/colab/Data/LORENA/Catastro_Residencial_PLMB.csv',encoding='utf-8')

In [0]:
L.info()

In [0]:
L.rename(columns = { 'Unnamed: 0': 'Unnamed_0',}, inplace = True)

L['LOTSECT_ID'] = L['LOTSECT_ID'].astype(str)
L['LOTMANZ_ID'] = L['LOTMANZ_ID'].astype(str)
L['CODIGO_PREDIO'] = L['CODIGO_PREDIO'].astype(str)


In [0]:
L.tail()

In [0]:
columnName = list(L.columns.values)

def getColumnDtypes(dataTypes):
    dataList = []
    for x in dataTypes:
        if(x == 'int64'):
            dataList.append('bigint')
        elif (x == 'float64'):
            dataList.append('float')
        elif (x == 'bool'):
            dataList.append('boolean')
        else:
            dataList.append('varchar')
    return dataList

columnDataType = getColumnDtypes(L.dtypes)

In [0]:
columnDataType

In [0]:
createTableStatement = 'CREATE TABLE IF NOT EXISTS CatastroResidencial ('
for i in range(len(columnDataType)):
    createTableStatement = createTableStatement + '\n' + columnName[i] + ' ' + columnDataType[i] + ','
createTableStatement = createTableStatement[:-1] + ' );'

In [0]:
createTableStatement

In [0]:
import psycopg2
conn = psycopg2.connect(dbname='superset', host='observatorio.metrodebogota.gov.co', port='5432', user='superset', password='superset')
cur = conn.cursor()
cur.execute(createTableStatement)
conn.commit()

In [0]:
def copy_from_file(conn, df, table):
    """
    Here we are going save the dataframe on disk as 
    a csv file, load the csv file  
    and use copy_from() to copy it to the table
    """
    # Save the dataframe to disk
    tmp_df = "/content/drive/MyDrive/METRO/colab/Data/DATA HOMOGENEA - PASO LIMPIEZA/CatastroResidencial_Temp.csv"
    df.to_csv(tmp_df, index=False, header=False)
    # ,
    print(len(list(df.columns.values)))
    f = open(tmp_df, 'r')
    cursor = conn.cursor()
    try:
        cursor.copy_from(f, table, sep=",")
        conn.commit()
    except (Exception, psycopg2.DatabaseError) as error:
        #os.remove(tmp_df)
        print("Error: %s" % error)
        conn.rollback()
        cursor.close()
        return 1
    print("copy_from_file() done")
    cursor.close()
    os.remove(tmp_df)

copy_from_file(conn, L, 'CatastroResidencial')