In [1]:
from shapely.geometry import Point, Polygon, MultiPolygon
from plotly import graph_objects as go
from dotenv import load_dotenv
from unidecode import unidecode
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import requests
import os

In [15]:
import geopandas as gpd

In [2]:
%matplotlib inline

sns.set_style('darkgrid')

load_dotenv()

True

In [3]:
apartments = pd.read_csv('../data/interim/apartments.csv')
apartments.head(3)

Unnamed: 0,codigo,tipo_propiedad,tipo_operacion,precio_venta,precio_arriendo,area,habitaciones,banos,administracion,parqueaderos,...,piso,closets,chimenea,permite_mascotas,gimnasio,ascensor,conjunto_cerrado,coords_modified,localidad,barrio
0,374-M2718950,APARTAMENTO,VENTA Y ARRIENDO,2500000000.0,13500000.0,320.0,4.0,5.0,2500000.0,3.0,...,8.0,4.0,1,1,1,1,1,False,USAQUEN,CIUDADELA REAL
1,2510-M4156145,APARTAMENTO,VENTA,485000000.0,,84.0,3.0,3.0,680000.0,1.0,...,2.0,3.0,0,0,0,1,1,False,USAQUEN,SAN PATRICIO
2,10312-M2873283,APARTAMENTO,VENTA Y ARRIENDO,1980000000.0,9000000.0,248.0,3.0,3.0,2200000.0,3.0,...,3.0,,1,1,0,1,1,False,USAQUEN,CERROS DE SANTA BARBARA


In [4]:
apartments.columns

Index(['codigo', 'tipo_propiedad', 'tipo_operacion', 'precio_venta',
       'precio_arriendo', 'area', 'habitaciones', 'banos', 'administracion',
       'parqueaderos', 'sector', 'estrato', 'antiguedad', 'estado', 'longitud',
       'latitud', 'descripcion', 'datetime', 'website', 'compañia',
       'fecha_actualizacion_precio_venta', 'precio_venta_anterior',
       'fecha_actualizacion_precio_arriendo', 'precio_arriendo_anterior',
       'jacuzzi', 'piso', 'closets', 'chimenea', 'permite_mascotas',
       'gimnasio', 'ascensor', 'conjunto_cerrado', 'coords_modified',
       'localidad', 'barrio'],
      dtype='object')

In [5]:
# response = requests.get('https://gis.transmilenio.gov.co/arcgis/rest/services/Troncal/consulta_estaciones_troncales/FeatureServer/1/query?where=1%3D1&outFields=*&f=json').json()
# troncal_transmilenio = pd.DataFrame(response['features'])
# troncal_transmilenio = pd.json_normalize(troncal_transmilenio['attributes'])
# troncal_transmilenio.head(3)

In [19]:
troncal_transmilenio = gpd.read_file('..\data\external\estaciones_troncales_tm\estaciones-de-transmilenio.geojson')
troncal_transmilenio.head(3)

Unnamed: 0,fid,nombre_estacion,troncal_estacion,coord_x,coord_y,geometry
0,31,Suba - Calle 100,C,-74.065291,4.689339,POINT (-74.06529 4.68934)
1,38,Prado Veraniego,B,-74.052697,4.713849,POINT (-74.05270 4.71385)
2,29,Humedal Córdoba,C,-74.071056,4.706092,POINT (-74.07106 4.70609)


In [20]:
troncal_transmilenio.columns

Index(['fid', 'nombre_estacion', 'troncal_estacion', 'coord_x', 'coord_y',
       'geometry'],
      dtype='object')

In [21]:
def normalize(text):
    try:
        return unidecode(text).upper()
    except:
        return text

# Agregar datos acerca de las troncales de transmilenio

In [22]:
import math

def haversine_m(lat1, lon1, lat2, lon2):
    r = 6371000 # radio de la tierra en metros

    lat1_rad = math.radians(lat1)
    lon1_rad = math.radians(lon1)
    lat2_rad = math.radians(lat2)
    lon2_rad = math.radians(lon2)

    delta_lat = lat2_rad - lat1_rad
    delta_lon = lon2_rad - lon1_rad

    # Fórmula de haversine
    a = math.sin(delta_lat/2) ** 2 + math.cos(lat1_rad) * math.cos(lat2_rad) * math.sin(delta_lon/2) ** 2
    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
    distancia = r * c
    
    return distancia

In [23]:
def estacion_tm_cercana(row):
    try:
        distancias = []
        for i, estacion in troncal_transmilenio.iterrows():
            distancias.append(haversine_m(row['latitud'], row['longitud'], estacion['coord_y'], estacion['coord_x']))
        return troncal_transmilenio.loc[np.argmin(distancias), 'nombre_estacion']
    except Exception as e:
        print(e)
        return np.nan
    
def get_distancia_estacion_m(row):
    try:
        distancias = []
        for i, estacion in troncal_transmilenio.iterrows():
            distancias.append(haversine_m(row['latitud'], row['longitud'], estacion['coord_y'], estacion['coord_x']))
        return min(distancias)
    except:
        return np.nan
    
apartments['estacion_tm_cercana'] = apartments.apply(estacion_tm_cercana, axis=1)
apartments['distancia_estacion_tm_m'] = apartments.apply(get_distancia_estacion_m, axis=1)

In [24]:
apartments['distancia_estacion_tm_m'] = apartments['distancia_estacion_tm_m'].apply(lambda x: round(x, 2))
apartments['distancia_estacion_tm_m'].describe()

count    63245.000000
mean      1293.977872
std        907.866126
min          2.810000
25%        575.050000
50%       1187.830000
75%       1734.270000
max       9968.980000
Name: distancia_estacion_tm_m, dtype: float64

In [26]:
fig = px.scatter_mapbox(
    apartments.loc[apartments['distancia_estacion_tm_m'] <= 500],
    lat='latitud', 
    lon='longitud', 
    color='estrato', 
    zoom=10, 
    height=500,
    hover_name='barrio',
    hover_data=['area', 'habitaciones', 'banos', 'estrato', 'localidad', 'distancia_estacion_tm_m', 'estacion_tm_cercana'],
    color_continuous_scale=px.colors.sequential.Viridis,
)

fig.add_trace(
    go.Scattermapbox(
        lat=troncal_transmilenio['coord_y'],
        lon=troncal_transmilenio['coord_x'],
        mode='markers',
        marker=go.scattermapbox.Marker(
            size=10,
            color='red',
            opacity=0.7
        ),
        hoverinfo='text',
        text=troncal_transmilenio['nombre_estacion'],
        showlegend=False
    )
)

fig.update_layout(
    mapbox=dict(
        accesstoken=os.getenv('MAPBOX_TOKEN'),
        style='dark',
        center=dict(
            lat=4.60971,
            lon=-74.08175
        )
    )
)

fig.update_layout(margin={'r': 0, 't': 0, 'l': 0, 'b': 0})

fig.show()

In [27]:
def is_cerca_estacion(row):
    if row['distancia_estacion_tm_m'] <= 500:
        return 1
    else:
        return 0
    
apartments['is_cerca_estacion_tm'] = apartments.apply(is_cerca_estacion, axis=1)

In [28]:
apartments.columns

Index(['codigo', 'tipo_propiedad', 'tipo_operacion', 'precio_venta',
       'precio_arriendo', 'area', 'habitaciones', 'banos', 'administracion',
       'parqueaderos', 'sector', 'estrato', 'antiguedad', 'estado', 'longitud',
       'latitud', 'descripcion', 'datetime', 'website', 'compañia',
       'fecha_actualizacion_precio_venta', 'precio_venta_anterior',
       'fecha_actualizacion_precio_arriendo', 'precio_arriendo_anterior',
       'jacuzzi', 'piso', 'closets', 'chimenea', 'permite_mascotas',
       'gimnasio', 'ascensor', 'conjunto_cerrado', 'coords_modified',
       'localidad', 'barrio', 'estacion_tm_cercana', 'distancia_estacion_tm_m',
       'is_cerca_estacion_tm'],
      dtype='object')

In [29]:
apartments.to_csv('../data/processed/apartments.csv', index=False)

In [30]:
import session_info

session_info.show()