# Trabajo Final Almacenamiento y Captura de Datos


<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Profesor: Carlos Pérez Pizarro </em><br>

</div>

*10 de enero de 2025*

**Nombre Estudiantes**:  
    - Kurt Castro   
    - Camilo Rivera   
    - Cristhian Solís  
    - Sofía Vits

### Objetivo del trabajo

Aplicar y consolidar los conocimientos adquiridos sobre web scraping y el uso de APIs mediante el desarrollo de un producto funcional que permita consultar información de inmuebles junto con sus comercios cercanos.

 **Web scraping** | **Uso de APIs** | **Consultas SQL**




---
Para la facilitación de la comparación el proyecto se trabajará con variables inicales
#### Declaración de Variables Iniciales
```python
api_key = ""
tipo_contrato = 'arriendo' # venta, arriendo o arriendo_temporal
tipo_inmueble = 'dpto' # dpto, casa u oficina.
ubicacion_inmueble = 'Puerto Montt' # la comuna de la búsqueda
y otras...
```

---
### Metodología
#### I) Extracción de Datos con Selenium

**Interacción con Portal Inmobiliario**

1. Accede al sitio web `https://www.portalinmobiliario.com/` y realizar una serie de acciones de navegación dentro del:
2. Crea un DataFrame (`df_inmuebles`) con los datos recolectados (`URL`).
3. Para cada inmueble extrae información adicional como la dirección completa.

**Obtención del Valor de la UF**
1. Usa Selenium para interactuar con el sitio `https://valoruf.cl/` y obtiene el valor actual de la UF y convierte los precios de UF a pesos chilenos.

**Normalización de Direcciones**
1. Se implementa una solución para manejar direcciones con rangos numéricos (e.g., "Avenida Manquehue 1200 – 1800, Las Condes"), de modo que se pueda obtener un único número para usar con la API de Geocoding.

#### II) Uso de APIs de Google

**Geocoding API**
1. Usa la API de Geocoding para obtener Latitud y Longitud de cada `place_id` exactos de cada dirección normalizada.
2. Actualiza el DataFrame de inmuebles con estas nuevas columnas.

**Places API**
1. Usa la API de Places para obtener lugares cercanos a cada dirección, utilizando un `radio_busqueda` y `busqueda_rubros`.
2. Crea un nuevo DataFrame (`df_lugares_cercanos`) con esta información.

#### III) Creación de Base de Datos

**Creación de la Base de Datos**
1. Usa la librería `sqlite` para realizar crear una `BBDD`
2. Genera dos `consultas` SQL     
   a. `Valor promedio de los 20 arriendos más baratos  `   
   b. `Mediana de comentarios en lugares cercanos`  


### Resultado Esperado
Generar un producto de datos funcional que combina extracción automatizada de datos desde sitios web, uso eficiente de APIs para enriquecer la información y almacenamiento estructurado para la generación de consultas en una base de datos relacional.

#### Carga de librerías

In [1]:
!pip install -r requirements.txt



In [2]:
import pandas as pd
import googlemaps
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException, StaleElementReferenceException
from selenium.webdriver.chrome.options import Options
import sqlite3
import re
import logging
import random
from urllib.parse import urlparse


---
Para la facilitación de la comparación el proyecto se trabajará con variables inicales
#### Declaración de Variables Iniciales



In [4]:
# Configuración de logging para rastrear errores
logging.basicConfig(level=logging.ERROR, format='%(asctime)s - %(levelname)s - %(message)s')

# Variables iniciales
api_key = "AIzaSyAD8KcMrw12UflO3by_ksvRV8YepNydkOo"
ubicacion_inmueble = 'Puerto Montt'  # la comuna de la búsqueda
monto_minimo = 500000  # monto mínimo de la búsqueda
monto_maximo = 130000000 # monto máximo de la búsqueda
cant_paginas = 2  # número de páginas a recorrer (reducido para prueba)
radio_busqueda = '300'  # radio (en metros) de búsqueda de lugares cercanos
busqueda_rubros = ['restaurant', 'supermarket']  # rubro de lugares cercanos

# Variable iniciales tipo de contrato y tipo de inmueble
tipos_contrato = ['Venta', 'Arriendo', 'Arriendo temporal']
tipos_inmueble = ['Departamentos', 'Casas', 'Oficinas']

---

#### I) Extracción de Datos con Selenium


**Interacción con Portal Inmobiliario**   
En esta sección se implementará el código para realizar webscraping de la página `https://www.portalinmobiliario.com/`, utilizando Selenium para interactuar con dicha página web con el objetivo final de generar un DataFrame `df_inmuebles` extrayendo los datos de cada `URL`

Se configura y accede al sitio web `https://www.portalinmobiliario.com/` para posteriormente realizar una serie de acciones de navegación dentro del mismo.

In [5]:
# # Configuración de Chrome en modo headless
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecuta en modo sin interfaz gráfica
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

In [6]:
# Inicializar el navegador
try:
    driver = webdriver.Chrome(options=chrome_options)
    driver.get('https://www.portalinmobiliario.com/')
except WebDriverException as e:
    logging.error(f"Error al inicializar el navegador: {e}")
    exit()

Se declaran una serie de funciones para el uso en el proceso de webscrapping

In [7]:
def validar_parametros(tipo_contrato, tipo_inmueble):
    """
    Verifica que las variables iniciales sean validas
    """
    tipos_contrato_validos = ['Venta', 'Arriendo', 'Arriendo temporal']
    tipos_inmueble_validos = ['Departamentos', 'Casas', 'Oficinas']

    if tipo_contrato not in tipos_contrato_validos:
        raise ValueError(f"Error: El tipo de contrato '{tipo_contrato}' no es válido. Ajuste su variable inicial.")

    if tipo_inmueble not in tipos_inmueble_validos:
        raise ValueError(f"Error: El tipo de inmueble '{tipo_inmueble}' no es válido. Ajuste su variable inicial.")

    print("Parámetros de tipo de contrato y tipo de inmueble validados correctamente.")


In [9]:
def ingresar_comuna(wait, ubicacion_inmueble):
    """
    Verifica que sea una comuna encontrable en el portal
    """
    comuna_input = wait.until(EC.presence_of_element_located((By.ID, ":Rml5r:")))
    comuna_input.send_keys(ubicacion_inmueble)
    print(f"Comuna ingresada: {ubicacion_inmueble}")

    try:
        primera_recomendacion = wait.until(EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'andes-list__item-action')]")))
        texto_recomendacion = primera_recomendacion.text
        print("Primera recomendación seleccionada")
        print(f"Texto de la primera recomendación: {texto_recomendacion}")
        primera_recomendacion.click()
        return True
    except (NoSuchElementException, TimeoutException):
        logging.error(f"No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'.")
        print(f"Error: No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'. Ajuste su búsqueda.")
        raise ValueError(f"Comuna no válida: '{ubicacion_inmueble}'.")


In [10]:
def cerrar_banner_cookies():
    """
    Intenta cerrar el mensajes de Cookies.
    """
    try:
        # Verificar si el elemento existe y es visible en el DOM
        cookie_button = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "newCookieDisclaimerButton"))
        )

        # Verificar si el botón es clickeable
        if cookie_button.is_displayed():
            cookie_button.click()
            print("Banner de cookies cerrado")
        else:
            print("El banner de cookies no está visible")
    except TimeoutException:
        print("No se encontró el banner de cookies")
    except Exception as e:
        logging.error(f"Error inesperado al intentar cerrar el banner de cookies: {e}")

In [11]:
def cerrar_mensaje_desplegable():
    """
    Intenta cerrar el mensajes desplegables.
    """
    try:
        print("Intentando cerrar el mensaje desplegable...")
        wait = WebDriverWait(driver, 2)  # Tiempo de espera reducido
        popper_close_button = wait.until(
            EC.element_to_be_clickable((By.XPATH, '//button[@aria-label="Close"]'))
        )
        popper_close_button.click()
        print("Mensaje desplegable cerrado con éxito.")
    except TimeoutException:
        print("No se encontró el mensaje desplegable. Continuando con la ejecución.")
    except Exception as e:
        print(f"Error inesperado al intentar cerrar el mensaje desplegable: {e}")

Desde este punto, se comienza con la búsqueda dentro del `portalinmobiliario`  para realizar una serie de acciones utilizando las variables declaradas inicialmente

Se filtra, por `tipo de contrato` y `tipo de inmueble` seleccionando la `comuna de búsqueda` de la primera sugerencia de búsqueda para realizar la busqueda.

Se extraen las `URL` de los anuncios encontrados recorriendo una  delimitada `cant_paginas`

In [12]:
def extraer_url(driver, cant_paginas):
    try:
        datos_departamentos = []
        pagina_actual = 1

        print("Iniciando extracción de datos...")

        while pagina_actual <= cant_paginas:  # Limitar el número de páginas
            print(f"\nExtrayendo datos de la página {pagina_actual}...")

            # Extraer los enlaces de los departamentos
            try:
                wait = WebDriverWait(driver, 10)  # Usar tiempo de espera razonable.
                departamentos = wait.until(
                    EC.presence_of_all_elements_located(
                        (By.XPATH, "//a[contains(@class, 'poly-component__title')]")
                    )
                )
                # Extraer los enlaces
                for departamento in departamentos:
                    enlace = departamento.get_attribute("href")
                    if enlace:  # Verificar que el enlace no sea None.
                        datos_departamentos.append(enlace)

                # Imprimir cantidad de enlaces extraídos en la página actual
                print(f"Se encontraron {len(departamentos)} departamentos en la página {pagina_actual}.")
                print(f"Total acumulado de enlaces extraídos: {len(datos_departamentos)}")
            except TimeoutException:
                print("Error: No se encontraron departamentos en la página actual. Revisa el selector.")
                break

            # Navegar a la siguiente página
            try:
                siguiente_pagina = wait.until(
                    EC.element_to_be_clickable(
                        (By.XPATH, "//li[contains(@class, 'andes-pagination__button andes-pagination__button--next')]/a")
                    )
                )
                siguiente_pagina.click()
                time.sleep(5)  # Mantener el tiempo fijo para cargar correctamente.
                pagina_actual += 1
            except TimeoutException:
                print("No se encontró el botón de siguiente página. Posiblemente sea la última página.")
                break

        print(f"\nExtracción completa. Total de enlaces extraídos: {len(datos_departamentos)}")
        return datos_departamentos

    except Exception as e:
        print(f"Error crítico durante la extracción: {e}")
        return []

Para cada `URL` de los anuncios del portal se extraen atributos cómo `titulo`,`direccion`, `moneda`, `valor`,`tipo_inmueble`. Para posteriormente crear un DataFrame (`df_inmuebles`) con los datos recolectados.

In [13]:
# Función para encontrar elementos de forma segura
def safe_find_element(driver, by, value, default="No disponible"):
    try:
        return driver.find_element(by, value).text
    except NoSuchElementException:
        return default


In [14]:
# Función para validar URLs
def is_valid_url(url):
    parsed = urlparse(url)
    return bool(parsed.netloc) and bool(parsed.scheme)


In [15]:
# Función principal para extraer datos
def extraer_datos_departamentos(datos_departamentos, driver, tipo_inmueble, tipo_contrato):
    dict_info = []
    failed_urls = []

    for href in datos_departamentos:
        # Validar URL
        if not is_valid_url(href):
            logging.error(f"URL inválida: {href}")
            continue

        try:
            # Navegar a la URL
            driver.get(href)
            wait = WebDriverWait(driver, 10)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, "ui-pdp-title")))

            # Extraer información
            titulo = safe_find_element(driver, By.CLASS_NAME, "ui-pdp-title", "Título no disponible")
            direccion = safe_find_element(driver, By.CSS_SELECTOR, "div.ui-vip-location__subtitle p", "Dirección no disponible")

            # Extraer precio y moneda
            try:
                contenedor_precio = driver.find_element(By.CLASS_NAME, "andes-money-amount")
                meta_precio = contenedor_precio.find_element(By.XPATH, ".//meta[@itemprop='price']")
                valor = meta_precio.get_attribute("content")
                simbolo_moneda = contenedor_precio.text.split()[0]  # Extraer el símbolo desde el texto completo
                moneda = "UF" if "UF" in simbolo_moneda else "$"
            except Exception as e:
                moneda, valor = "Error", "Error"
                logging.error(f"Error al procesar precio en {href}: {e}")

            # Guardar en el diccionario
            dict_info.append({
                "pag": href,
                "titulo": titulo,
                "direccion": direccion,
                "moneda": moneda,
                "valor": valor,
                "tipo_inmueble": tipo_inmueble,
                "tipo_contrato": tipo_contrato
            })


        except TimeoutException:
            logging.warning(f"Tiempo de espera excedido para la URL: {href}")
            failed_urls.append(href)
        except Exception as e:
             logging.error(f"Error al procesar {href}: {e}")
             dict_info.append({"pag": href,"titulo": "Error al obtener título", "direccion": "Error", "moneda": "Error", "valor": "Error", "tipo_inmueble": "Error", "tipo_contrato": "Error"})
             failed_urls.append(href)

        # Pausa aleatoria para evitar bloqueo
        time.sleep(random.uniform(2, 5))

    # Guardar URLs fallidas en un archivo
    if failed_urls:
        with open("errores.txt", "w") as f:
            for url in failed_urls:
                f.write(url + "\n")

    print("\nDatos extraídos desde portalinmobiliario")
    return dict_info

In [16]:
def process_address(address):
    # Expresión regular para detectar rangos como "1200 – 1800" o "1200-1800"
    match = re.search(r'(\d+)\s*[–\-]\s*(\d+)', address)
    if match:
        # Extraer los límites del rango
        start, end = map(int, match.groups())
        # Calcular el punto medio del rango
        midpoint = (start + end) // 2
        # Reemplazar el rango con el punto medio en la dirección
        address = re.sub(r'(\d+\s*[–\-]\s*\d+)', str(midpoint), address)
    return address

Se crea una lista llamada `all_data` donde se alamcenará toda la información obtenida de las URLs

In [17]:
all_data = []  # Initialize an empty list to store all data

for tipo_contrato in tipos_contrato:
    for tipo_inmueble in tipos_inmueble:
        # Inicializar el navegador
        try:
             driver = webdriver.Chrome(options=chrome_options)
             driver.get('https://www.portalinmobiliario.com/')
        except WebDriverException as e:
             logging.error(f"Error al inicializar el navegador: {e}")
             continue # Skip this combiantion if error occurs

        try:

             validar_parametros(tipo_contrato, tipo_inmueble)
             cerrar_banner_cookies()
             cerrar_mensaje_desplegable()

             wait = WebDriverWait(driver, 5)
             # Filtrar según botón de tipo contrato
             contrato_button = wait.until(EC.element_to_be_clickable((By.ID, ":R2l5r:-trigger")))
             contrato_button.click()
             print("Tipo de contrato")
             tipo_contrato_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_contrato}']")))
             tipo_contrato_opcion.click()
             print(f"Seleccionado: {tipo_contrato}")

             # Filtrar según botón de tipo inmueble
             inmueble_button = wait.until(EC.element_to_be_clickable((By.ID, ":R4l5r:-trigger")))
             inmueble_button.click()  # Hacer clic para abrir el dropdown de inmuebles
             print(f"Tipo de inmueble")
             tipo_inmueble_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_inmueble}']")))
             tipo_inmueble_opcion.click()
             print(f"Seleccionado: {tipo_inmueble}")

            # Ingresar comuna de búsqueda
             comuna_seleccionada = ingresar_comuna(wait, ubicacion_inmueble)
             if comuna_seleccionada:
              # Buscar
                buscar_button = wait.until(EC.element_to_be_clickable((By.XPATH, "//span[text()='Buscar']")))
                buscar_button.click()
                print("Búsqueda realizada")
                time.sleep(2)
             else:
                 continue

             cerrar_banner_cookies()
             cerrar_mensaje_desplegable()
             wait = WebDriverWait(driver, 5)
             try:
                 print("Intentando localizar el campo de monto mínimo...")
                 monto_minimo_input = wait.until(
                     EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Minimum-price"]'))
                 )
                 print("Campo de monto mínimo encontrado.")

                 # Si se encuentra, proceder con la interacción
                 if monto_minimo > 0 and monto_maximo > 0:
                     monto_minimo_input.click()
                     monto_minimo_input.clear()
                     monto_minimo_input.send_keys(str(monto_minimo))
                     print(f"Monto mínimo ingresado: {monto_minimo}")

                     print("Intentando localizar el campo de monto máximo...")
                     monto_maximo_input = wait.until(
                         EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Maximum-price"]'))
                     )
                     monto_maximo_input.click()
                     monto_maximo_input.clear()
                     monto_maximo_input.send_keys(str(monto_maximo))
                     print(f"Monto máximo ingresado: {monto_maximo}")

                     print("Aplicando el filtro...")
                     aplicar_button = wait.until(
                         EC.element_to_be_clickable((By.XPATH, '//*[@data-testid="submit-price"]'))
                     )
                     aplicar_button.click()
                     print("Filtro aplicado con éxito.")
                 else:
                     print("Error: El monto mínimo y/o máximo deben ser mayores que 0.")

             except TimeoutException:
                 print("El campo de monto mínimo no está disponible. No se puede aplicar el filtro.")
                 print("Es posible que no haya suficientes resultados para habilitar el filtro.")


             datos_departamentos = extraer_url(driver, cant_paginas)
             if datos_departamentos:
                extracted_data = extraer_datos_departamentos(datos_departamentos, driver, tipo_inmueble, tipo_contrato)
                all_data.extend(extracted_data)  # Append all extracted data
        except ValueError as ve:
             logging.error(ve)
             print(ve)  # Mostrar el error de valor en consola
        except NoSuchElementException as ns:
             logging.error(f"Error de búsqueda de elementos: {ns}")
        except TimeoutException as te:
             logging.error(f"Error de tiempo de espera: {te}")
        except Exception as e:
             logging.error(f"Error durante la configuración inicial de búsqueda: {e}")
        finally:
             # Cerrar el navegador
             driver.quit()


print(f"\nCantidad total de datos extraídos: {len(all_data)}")

Parámetros de tipo de contrato y tipo de inmueble validados correctamente.
Banner de cookies cerrado
Intentando cerrar el mensaje desplegable...
No se encontró el mensaje desplegable. Continuando con la ejecución.
Tipo de contrato
Seleccionado: Venta
Tipo de inmueble
Seleccionado: Departamentos
Comuna ingresada: Puerto Montt
Primera recomendación seleccionada
Texto de la primera recomendación: Puerto Montt, Los Lagos
Búsqueda realizada
No se encontró el banner de cookies
Intentando cerrar el mensaje desplegable...
No se encontró el mensaje desplegable. Continuando con la ejecución.
Intentando localizar el campo de monto mínimo...
Campo de monto mínimo encontrado.
Monto mínimo ingresado: 500000
Intentando localizar el campo de monto máximo...
Monto máximo ingresado: 130000000
Aplicando el filtro...
El campo de monto mínimo no está disponible. No se puede aplicar el filtro.
Es posible que no haya suficientes resultados para habilitar el filtro.
Iniciando extracción de datos...

Extrayend

2025-01-10 13:20:05,955 - ERROR - Error de tiempo de espera: Message: 
Stacktrace:
	GetHandleVerifier [0x00007FF6682A80D5+2992373]
	(No symbol) [0x00007FF667F3BFD0]
	(No symbol) [0x00007FF667DD590A]
	(No symbol) [0x00007FF667E2926E]
	(No symbol) [0x00007FF667E2955C]
	(No symbol) [0x00007FF667E727D7]
	(No symbol) [0x00007FF667E4F3AF]
	(No symbol) [0x00007FF667E6F584]
	(No symbol) [0x00007FF667E4F113]
	(No symbol) [0x00007FF667E1A918]
	(No symbol) [0x00007FF667E1BA81]
	GetHandleVerifier [0x00007FF668306A2D+3379789]
	GetHandleVerifier [0x00007FF66831C32D+3468109]
	GetHandleVerifier [0x00007FF668310043+3418211]
	GetHandleVerifier [0x00007FF66809C78B+847787]
	(No symbol) [0x00007FF667F4757F]
	(No symbol) [0x00007FF667F42FC4]
	(No symbol) [0x00007FF667F4315D]
	(No symbol) [0x00007FF667F32979]
	BaseThreadInitThunk [0x00007FF9F003259D+29]
	RtlUserThreadStart [0x00007FF9F10AAF38+40]




Cantidad total de datos extraídos: 413


Ahora utilizando la lista `all_data` con los datos almacenados, creamos nuestro dataframe de inmuebles con toda la información necesaria para proceder con la exstracción del valor de la UF

In [18]:
df_inmuebles = pd.DataFrame(all_data)
print(f"\nDataFrame consolidado:\n{df_inmuebles}")


# Limpia la columna 'valor' para asegurar que sea numérica
df_inmuebles['valor'] = df_inmuebles['valor'].astype(str).str.replace(",", "").str.replace(".", "").str.strip()
# Convierte 'valor' a float para cálculos numéricos
df_inmuebles['valor'] = pd.to_numeric(df_inmuebles['valor'], errors='coerce')
# Verifica si hay valores NaN en la columna 'valor' después de la conversión
if df_inmuebles['valor'].isnull().any():
    print("Hay valores no numéricos en la columna 'valor'. Estos serán tratados como NaN.")




DataFrame consolidado:
                                                   pag  \
0    https://portalinmobiliario.com/MLC-2303308894-...   
1    https://portalinmobiliario.com/MLC-1600028660-...   
2    https://portalinmobiliario.com/MLC-2027177896-...   
3    https://portalinmobiliario.com/MLC-2038471888-...   
4    https://portalinmobiliario.com/MLC-1420148017-...   
..                                                 ...   
408  https://portalinmobiliario.com/MLC-1555527647-...   
409  https://portalinmobiliario.com/MLC-1561921147-...   
410  https://portalinmobiliario.com/MLC-2820334630-...   
411  https://portalinmobiliario.com/MLC-1566120749-...   
412  https://portalinmobiliario.com/MLC-1567174251-...   

                                                titulo  \
0                                  Vista Cordillera Il   
1                                  Condominio Terramar   
2                                   Edificio Ochagavía   
3                                      Parque G

In [19]:
df_inmuebles

Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato
0,https://portalinmobiliario.com/MLC-2303308894-...,Vista Cordillera Il,"Diagonal Laguna 1 4401, Puerto Montt, Chile, P...",UF,2500,Departamentos,Venta
1,https://portalinmobiliario.com/MLC-1600028660-...,Condominio Terramar,"Puerto Montt 1650, Puerto Montt, Los Lagos",UF,4220,Departamentos,Venta
2,https://portalinmobiliario.com/MLC-2027177896-...,Edificio Ochagavía,"Ochagavía 875, Centro de Puerto Montt, Puerto ...",UF,2810,Departamentos,Venta
3,https://portalinmobiliario.com/MLC-2038471888-...,Parque Germania,"Diagonal Germania 200, Centro de Puerto Montt,...",UF,2831,Departamentos,Venta
4,https://portalinmobiliario.com/MLC-1420148017-...,Plaza Reloncaví,"Vía Azul 940, Puerto Montt, Los Lagos",UF,2546,Departamentos,Venta
...,...,...,...,...,...,...,...
408,https://portalinmobiliario.com/MLC-1555527647-...,Amplia Oficina Todo Incluido Torre Plaza,"Juan Soler Manfredini 41, Puerto Montt, Centro...",UF,255,Oficinas,Arriendo
409,https://portalinmobiliario.com/MLC-1561921147-...,Departamento Amoblado Puerto Montt,"Emiliano Figueroa 1309, Puerto Montt, Ebensper...",$,45000,Departamentos,Arriendo temporal
410,https://portalinmobiliario.com/MLC-2820334630-...,"Puerto Montt Depto 48 M2 Amoblado Diario, La P...","Volcan Corcovado 5582, La Paloma, Puerto Montt...",$,46000,Departamentos,Arriendo temporal
411,https://portalinmobiliario.com/MLC-1566120749-...,Hermosa Casa De Veraneo,"Guillermo Gallardo, Centro de Puerto Montt, Pu...",$,80000,Casas,Arriendo temporal


**Obtención del Valor de la UF**  
Manteniendo el uso de Selenium se interactua con el sitio `https://valoruf.cl/` para obtener el valor actual de la UF.

In [20]:
# Inicializar un nuevo navegador
driver2 = webdriver.Chrome(options=chrome_options)
url = "https://valoruf.cl/"
driver2.get(url)

try:
    # Buscar el elemento que contiene el valor de la UF usando su clase 'vpr'
    uf_element = driver2.find_element(By.CLASS_NAME, "vpr")
    valor_uf_texto = uf_element.text  # Extraer el texto del elemento
    print(f"El valor de la UF al día de hoy es: {valor_uf_texto}")

    # Convertir el valor al formato numérico
    valor_uf_numerico = float(valor_uf_texto.replace("$", "").replace(".", "").replace(",", ".").strip())
    print(f"En valor númerico: {valor_uf_numerico}")

finally:
    # Cerrar el navegador
    driver2.quit()

El valor de la UF al día de hoy es: $ 38.436,50
En valor númerico: 38436.5


Se realiza operaciones utilizando la información capturada desde el `portalinmobiliario` y `valoruf` para estandarizar el valor de la moneda de los anuncios a pesos chilenos, utilizando un valor al dia de la UF

In [21]:
# Limpia la columna 'valor' para asegurar que sea numérica
df_inmuebles['valor'] = df_inmuebles['valor'].astype(str).str.replace(",", "").str.replace(".", "").str.strip()
# Convierte 'valor' a float para cálculos numéricos
df_inmuebles['valor'] = pd.to_numeric(df_inmuebles['valor'], errors='coerce')
# Verifica si hay valores NaN en la columna 'valor' después de la conversión
if df_inmuebles['valor'].isnull().any():
    print("Hay valores no numéricos en la columna 'valor'. Estos serán tratados como NaN.")
# Realiza la conversión considerando UF o pesos
df_inmuebles['valor_en_pesos'] = df_inmuebles.apply(
    lambda row: row['valor'] * valor_uf_numerico if row['moneda'] == 'UF' else row['valor'] if row['moneda'] == '$' else None,
    axis=1
)

# Crea una copia filtrada solo con las filas donde la moneda sea 'UF' para verificar
df_uf = df_inmuebles[df_inmuebles['moneda'] == 'UF'].copy()
print(df_uf.head())

                                                 pag               titulo  \
0  https://portalinmobiliario.com/MLC-2303308894-...  Vista Cordillera Il   
1  https://portalinmobiliario.com/MLC-1600028660-...  Condominio Terramar   
2  https://portalinmobiliario.com/MLC-2027177896-...   Edificio Ochagavía   
3  https://portalinmobiliario.com/MLC-2038471888-...      Parque Germania   
4  https://portalinmobiliario.com/MLC-1420148017-...      Plaza Reloncaví   

                                           direccion moneda  valor  \
0  Diagonal Laguna 1 4401, Puerto Montt, Chile, P...     UF   2500   
1         Puerto Montt 1650, Puerto Montt, Los Lagos     UF   4220   
2  Ochagavía 875, Centro de Puerto Montt, Puerto ...     UF   2810   
3  Diagonal Germania 200, Centro de Puerto Montt,...     UF   2831   
4              Vía Azul 940, Puerto Montt, Los Lagos     UF   2546   

   tipo_inmueble tipo_contrato  valor_en_pesos  
0  Departamentos         Venta      96091250.0  
1  Departamentos  

In [22]:
# DF resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 413 entries, 0 to 412
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   pag             413 non-null    object 
 1   titulo          413 non-null    object 
 2   direccion       413 non-null    object 
 3   moneda          413 non-null    object 
 4   valor           413 non-null    int64  
 5   tipo_inmueble   413 non-null    object 
 6   tipo_contrato   413 non-null    object 
 7   valor_en_pesos  413 non-null    float64
dtypes: float64(1), int64(1), object(6)
memory usage: 25.9+ KB


**Normalización de Direcciones**  
Se propone e implementa una solución para manejar direcciones con rangos numéricos (e.g., "Avenida Manquehue 1200 – 1800, Las Condes"), de modo que se pueda obtener un único número para usar con la API de Geocoding.

In [23]:
def process_address(address):
    # Expresión regular para detectar rangos como "1200 – 1800" o "1200-1800"
    match = re.search(r'(\d+)\s*[–\-]\s*(\d+)', address)
    if match:
        # Extraer los límites del rango
        start, end = map(int, match.groups())
        # Calcular el punto medio del rango
        midpoint = (start + end) // 2
        # Reemplazar el rango con el punto medio en la dirección
        address = re.sub(r'(\d+\s*[–\-]\s*\d+)', str(midpoint), address)
    return address

# Aplicar la función a la columna 'direccion'
df_inmuebles['direccion_procesada'] = df_inmuebles['direccion'].apply(process_address)
# Verifica resultado
df_inmuebles.head()


Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato,valor_en_pesos,direccion_procesada
0,https://portalinmobiliario.com/MLC-2303308894-...,Vista Cordillera Il,"Diagonal Laguna 1 4401, Puerto Montt, Chile, P...",UF,2500,Departamentos,Venta,96091250.0,"Diagonal Laguna 1 4401, Puerto Montt, Chile, P..."
1,https://portalinmobiliario.com/MLC-1600028660-...,Condominio Terramar,"Puerto Montt 1650, Puerto Montt, Los Lagos",UF,4220,Departamentos,Venta,162202030.0,"Puerto Montt 1650, Puerto Montt, Los Lagos"
2,https://portalinmobiliario.com/MLC-2027177896-...,Edificio Ochagavía,"Ochagavía 875, Centro de Puerto Montt, Puerto ...",UF,2810,Departamentos,Venta,108006565.0,"Ochagavía 875, Centro de Puerto Montt, Puerto ..."
3,https://portalinmobiliario.com/MLC-2038471888-...,Parque Germania,"Diagonal Germania 200, Centro de Puerto Montt,...",UF,2831,Departamentos,Venta,108813731.5,"Diagonal Germania 200, Centro de Puerto Montt,..."
4,https://portalinmobiliario.com/MLC-1420148017-...,Plaza Reloncaví,"Vía Azul 940, Puerto Montt, Los Lagos",UF,2546,Departamentos,Venta,97859329.0,"Vía Azul 940, Puerto Montt, Los Lagos"


In [24]:
# DF Resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 413 entries, 0 to 412
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  413 non-null    object 
 1   titulo               413 non-null    object 
 2   direccion            413 non-null    object 
 3   moneda               413 non-null    object 
 4   valor                413 non-null    int64  
 5   tipo_inmueble        413 non-null    object 
 6   tipo_contrato        413 non-null    object 
 7   valor_en_pesos       413 non-null    float64
 8   direccion_procesada  413 non-null    object 
dtypes: float64(1), int64(1), object(7)
memory usage: 29.2+ KB


In [25]:
df_inmuebles.to_csv('inmuebles.csv', index=False)

#### II) Uso de APIs de Google

**Geocoding API**  
En esta sección se utilizará la `API Geocoding de Google` para obtener el `place_id`, `latitud` y `longitud` correspondiente a un inmueble específico de cada dirección normalizada y se actualiza al DataFrame `df_inmuebles` con estas nuevas columnas.

In [26]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones en 'direccion_procesada' y agregar las columnas al DataFrame
df_inmuebles['latitude'], df_inmuebles['longitude'], df_inmuebles['place_id'] = zip(*df_inmuebles['direccion_procesada'].apply(geocode_address))


In [27]:
#DF Resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 413 entries, 0 to 412
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  413 non-null    object 
 1   titulo               413 non-null    object 
 2   direccion            413 non-null    object 
 3   moneda               413 non-null    object 
 4   valor                413 non-null    int64  
 5   tipo_inmueble        413 non-null    object 
 6   tipo_contrato        413 non-null    object 
 7   valor_en_pesos       413 non-null    float64
 8   direccion_procesada  413 non-null    object 
 9   latitude             412 non-null    float64
 10  longitude            412 non-null    float64
 11  place_id             412 non-null    object 
dtypes: float64(3), int64(1), object(8)
memory usage: 38.8+ KB


**Places API**  
En esta sección se utiizará la `API Places de Google` para localizar lugares cercanos a los inmuebles obtenidos mediante el webscraping.

Se extraen los lugares cercanos, complementando con el `user_ratings_total`, utilizando un `radio_busqueda` y `busqueda_rubros` especificos.

Finalmente, se crea un nuevo DataFrame (`df_lugares_cercanos`) con esta información.

In [28]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

# Función para obtener lugares cercanos
def get_nearby_places(location, radius, place_types, property_place_id):
    nearby_places = []
    try:
        for place_type in place_types:
            # Llama a la API de Places Nearby Search para cada tipo
            places_result = gmaps.places_nearby(location=location, radius=radius, type=place_type)

            # Verifica si hay resultados
            if 'results' in places_result:
                for place in places_result['results']:
                    # Extraer los datos con manejo de ausencia de campos
                    nearby_places.append({
                        'property_place_id': property_place_id,  # Identificador de la propiedad original
                        'nearby_place_id': place.get('place_id'),  # Identificador del lugar cercano
                        'name': place.get('name'),
                        'address': place.get('vicinity', 'Dirección no disponible'),
                        'place_type': place.get('types', ['Tipo no disponible'])[0],  # Primer tipo del lugar
                        'rating': place.get('rating', None),
                        'user_ratings_total': place.get('user_ratings_total', None)
                    })
            else:
                print(f"No se encontraron resultados para la ubicación {location}, tipo: {place_type}")
    except Exception as e:
        print(f"Error obteniendo lugares cercanos para {location}, tipos: {place_types}: {e}")
    return nearby_places

# Función para geocodificar direcciones procesadas
def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones procesadas en 'direccion_procesada' y agregar latitud, longitud y place_id al DataFrame
df_inmuebles['latitude'], df_inmuebles['longitude'], df_inmuebles['place_id'] = zip(*df_inmuebles['direccion_procesada'].apply(geocode_address))

# Procesar datos de un DataFrame
def process_places_dataframe(df_inmuebles, radio_busqueda, busqueda_rubros):
    nearby_places_data = []

    for index, row in df_inmuebles.iterrows():
        if pd.notna(row.get('latitude')) and pd.notna(row.get('longitude')):
            # Construye la coordenada de la ubicación
            location = f"{row['latitude']},{row['longitude']}"
            # Busca lugares cercanos
            nearby_places = get_nearby_places(location, radio_busqueda, busqueda_rubros, row['place_id'])

            # Agregar los resultados al DataFrame
            nearby_places_data.extend(nearby_places)

    # Crear DataFrame con los lugares cercanos
    result_df = pd.DataFrame(nearby_places_data, columns=['property_place_id', 'nearby_place_id', 'name', 'address', 'place_type', 'rating', 'user_ratings_total'])

    # Filtrar los resultados para incluir solo los rubros buscados
    return result_df[result_df['place_type'].isin(busqueda_rubros)]


# Llamar la función para obtener lugares cercanos
df_lugares_cercanos = process_places_dataframe(df_inmuebles, radio_busqueda, busqueda_rubros) #Variables declaradas al incio del código

# Muestra el DataFrame resultante
df_lugares_cercanos.head()


Unnamed: 0,property_place_id,nearby_place_id,name,address,place_type,rating,user_ratings_total
0,ChIJ15f7loAwGJYRDj3ZS1ri9QI,ChIJ9xfTYCMxGJYRQi8MUOh-8Fc,Caribbean Sushi Puerto Montt,"Calle Nueva Oriente 4 4838, Puerto Montt",restaurant,3.0,4.0
1,ChIJ15f7loAwGJYRDj3ZS1ri9QI,ChIJ3Umm5kU7GJYRsRo2ar51VH8,Burgermanía,"5480000, Puerto Montt",restaurant,4.7,86.0
2,ChIJ15f7loAwGJYRDj3ZS1ri9QI,ChIJraupQhY7GJYRWUIU5OqVRiE,Organic Food Spa,"Condominio Valle Volcanes 38, Puerto Montt",supermarket,5.0,2.0
3,ChIJB_QgaU06GJYR38mleVrxo4Y,ChIJOU7iWVQ6GJYR4uwnAUlMTuQ,Mei Sushi Centro,"Guillermo Gallardo 488, Puerto Montt",restaurant,4.3,399.0
4,ChIJB_QgaU06GJYR38mleVrxo4Y,ChIJwWTDpVM6GJYR8Lau3fDbhXk,Subway,"Guillermo Gallardo 211, Puerto Montt",restaurant,4.0,1983.0


In [29]:
# Resultado del segundo dataframe
df_lugares_cercanos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3509 entries, 0 to 4012
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   property_place_id   3509 non-null   object 
 1   nearby_place_id     3509 non-null   object 
 2   name                3509 non-null   object 
 3   address             3509 non-null   object 
 4   place_type          3509 non-null   object 
 5   rating              2987 non-null   float64
 6   user_ratings_total  2987 non-null   float64
dtypes: float64(2), object(5)
memory usage: 219.3+ KB


#### III) Creación de Base de Datos


**Creación de la Base de Datos**  
Para la creación de la base de datos `portal_inmobiliario.db` se exportan los dos DataFrame resultantes del Webscrapping (`df_inmuebles`) y uso de APIs (`df_lugares_cercanos`)revisados en la secciones anteriores para posteriormente cargarlos a nuestra base de datos.


In [30]:
# # Exporta a un archivo csv
df_inmuebles.to_csv('df_inmuebles.csv', index=False)
df_lugares_cercanos.to_csv('df_lugares_cercanos.csv', index=False)


Exportados los DataFrames, se crea la BBDD `portal_inmobiliario.db`

In [31]:
# Conexión a la base de datos SQLite (se crea si no existe)
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Ejecutar una transacción para crear las tablas
esquema_sql = """
BEGIN TRANSACTION;

-- Crear la tabla 'inmuebles'
DROP TABLE IF EXISTS inmuebles;
CREATE TABLE inmuebles (
    place_id TEXT PRIMARY KEY,  -- Identificador único de lugar (Google Places)
    pag TEXT,                   -- Página del inmueble
    titulo TEXT,                -- Título del inmueble
    direccion TEXT,             -- Dirección del inmueble
    moneda TEXT,                -- Moneda del precio
    valor INTEGER,              -- Valor en peso o UF
    tipo_inmueble TEXT,         -- Tipo de inmueble (ej. Departamentos)
    tipo_contrato TEXT,         -- Tipo contrato (ej. Arriendo)
    valor_en_pesos FLOAT,       -- Valor convertido a pesos
    direccion_procesada TEXT,   -- Dirección procesada para la API
    latitude REAL,              -- Latitud
    longitude REAL              -- Longitud
);

-- Crear la tabla 'lugares_cercanos'
DROP TABLE IF EXISTS lugares_cercanos;
CREATE TABLE lugares_cercanos (
    property_place_id TEXT,          -- Identificador del inmueble al que está asociado
    nearby_place_id TEXT,            -- Identificador único del lugar cercano (Google Places)
    name TEXT,                       -- Nombre del lugar cercano
    address TEXT,                    -- Dirección del lugar cercano
    place_type TEXT,                 -- Tipo de lugar cercano (ej. Restaurante)
    rating REAL,                     -- Calificación del lugar
    user_ratings_total REAL,         -- Total de calificaciones del lugar
    PRIMARY KEY (property_place_id, nearby_place_id), -- Llave primaria compuesta
    FOREIGN KEY (property_place_id) REFERENCES inmuebles (place_id) -- Relación con inmuebles
);

COMMIT;
"""

# Ejecutar el esquema SQL como una transacción
cursor.executescript(esquema_sql)

# Cerrar la conexión
conn.close()


Finalizada la extracción de los DataFrame resultantes y la creación de nuestra BBDD `portal_inmobiliario.db` se genera la `carga` de los datos y se `verifica`

In [33]:
# # Ruta de los archivos CSV
# inmuebles_path = r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\df_inmuebles.csv'
# lugares_path = r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\df_lugares_cercanos.csv'

# # Cargar los DataFrames desde los archivos CSV
# df_inmuebles = pd.read_csv(inmuebles_path)
# df_lugares_cercanos = pd.read_csv(lugares_path)

In [34]:
# Conexión a la base de datos y manejo de la inserción de datos
try:
    with sqlite3.connect('portal_inmobiliario.db') as conn:
        # Insertar datos en la base de datos de inmuebles
        df_inmuebles.to_sql('inmuebles', conn, if_exists='replace', index=False)
        print("Datos de inmuebles agregados correctamente a la base de datos.")
        # Insertar datos en la base de datos de lugares cercanos
        df_lugares_cercanos.to_sql('lugares_cercanos', conn, if_exists='replace', index=False)
        print("Datos de lugares cercanos agregados correctamente a la base de datos.")

except Exception as e:
    print(f"Error al insertar datos: {e}")

Datos de inmuebles agregados correctamente a la base de datos.
Datos de lugares cercanos agregados correctamente a la base de datos.


In [35]:
# Verificar los datos cargados en las tablas
# Conectar a la base de datos
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Verificar los datos en la tabla 'inmuebles'
print("Datos de la tabla 'inmuebles':")
cursor.execute("SELECT * FROM inmuebles LIMIT 5;")
rows_inmuebles = cursor.fetchall()
for row in rows_inmuebles:
    print(row)

# Verificar los datos en la tabla 'lugares_cercanos'
print("\nDatos de la tabla 'lugares_cercanos':")
cursor.execute("SELECT * FROM lugares_cercanos LIMIT 5;")
rows_lugares_cercanos = cursor.fetchall()
for row in rows_lugares_cercanos:
    print(row)

# Cerrar la conexión
conn.close()


Datos de la tabla 'inmuebles':
('https://portalinmobiliario.com/MLC-2303308894-vista-cordillera-il-_JM#polycard_client=search-nordic&position=1&search_layout=grid&type=item&tracking_id=18a35923-e37f-4558-b5d2-bd9117625cb4', 'Vista Cordillera Il', 'Diagonal Laguna 1 4401, Puerto Montt, Chile, Puerto Montt, Los Lagos', 'UF', 2500, 'Departamentos', 'Venta', 96091250.0, 'Diagonal Laguna 1 4401, Puerto Montt, Chile, Puerto Montt, Los Lagos', -41.4581052, -72.8945955, 'ChIJ15f7loAwGJYRDj3ZS1ri9QI')
('https://portalinmobiliario.com/MLC-1600028660-condominio-terramar-_JM#polycard_client=search-nordic&position=2&search_layout=grid&type=item&tracking_id=18a35923-e37f-4558-b5d2-bd9117625cb4', 'Condominio Terramar', 'Puerto Montt 1650, Puerto Montt, Los Lagos', 'UF', 4220, 'Departamentos', 'Venta', 162202030.0, 'Puerto Montt 1650, Puerto Montt, Los Lagos', -41.4693622, -72.94244050000002, 'ChIJB_QgaU06GJYR38mleVrxo4Y')
('https://portalinmobiliario.com/MLC-2027177896-edificio-ochagavia-_JM#polycard

**Consultas SQL**  

Finalizado la creación y carga de datos, se generan consultas especificas a `portal_inmobiliario.db  `  


   a. `Valor promedio de los 20 arriendos más baratos  `  
¿Cuál es el valor promedio de los 20 arriendos de dpto más baratos de “x comuna”?



In [52]:
# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta actualizada para filtrar por tipo de inmueble y tipo de contrato
consulta_promedio = """
SELECT
    AVG(valor_en_pesos) AS promedio_precio
FROM (
    SELECT
        valor_en_pesos
    FROM
        inmuebles
    WHERE
        tipo_inmueble = ? AND
        tipo_contrato = ?
    ORDER BY
        valor_en_pesos ASC
    LIMIT 20
);
"""

# Ejecuta la consulta pasando las variables como parámetros
cursor.execute(consulta_promedio, (tipos_inmueble[0], tipos_contrato[1]))
promedio_precio = cursor.fetchone()[0]

# Muestra el resultado
print(f"\nEl promedio de los 20 {tipos_contrato[1].lower()} más baratos de {tipos_inmueble[0].lower()} en {ubicacion_inmueble} \n"
      f"con precios entre {monto_minimo} y {monto_maximo} \nes de {promedio_precio:.0f} pesos.")


El promedio de los 20 arriendo más baratos de departamentos en Puerto Montt 
con precios entre 500000 y 130000000 
es de 517000 pesos.


   b. `Mediana de comentarios en lugares cercanos`  
¿Cuál es la mediana de comentarios (user_ratings_total), de aquellos lugares cercanos, que tienen una valoración igual o superior a cuatro estrellas, y que corresponden a los 15 departamentos más baratos de la comuna?

In [53]:
# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta para calcular la mediana de comentarios
consulta_mediana = """
WITH top_departamentos AS (
    SELECT place_id
    FROM inmuebles
    WHERE tipo_inmueble = ?  -- Filtra por tipo de inmueble
    ORDER BY valor_en_pesos ASC
    LIMIT 15
),
high_rated_lugares AS (
    SELECT
        lugares_cercanos.user_ratings_total
    FROM
        lugares_cercanos
    JOIN
        top_departamentos ON lugares_cercanos.property_place_id = top_departamentos.place_id
    WHERE
        lugares_cercanos.rating >= 4
)
SELECT
    user_ratings_total
FROM
    high_rated_lugares
ORDER BY
    user_ratings_total
LIMIT 1 OFFSET (SELECT COUNT(*) FROM high_rated_lugares) / 2;
"""

# Ejecuta la consulta pasando la variable 'tipo_inmueble' como parámetro
cursor.execute(consulta_mediana, (tipo_inmueble,))
mediana_comentarios = cursor.fetchone()[0]

# Muestra el resultado
print(f"La mediana de los comentarios de lugares cercanos con calificación superior a 4 estrellas es: {mediana_comentarios}")

# Cierra la conexión
conn.close()

La mediana de los comentarios de lugares cercanos con calificación superior a 4 estrellas es: 226.0
