<a href="https://colab.research.google.com/github/Kurt-Casteg/Proyecto_Almacenamiento/blob/main/Trabajo_Final_ACD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabajo Final Almacenamiento y Captura de Datos


<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Profesor: Carlos Pérez Pizarro </em><br>

</div>

*10 de enero de 2025*

**Nombre Estudiantes**:  
    - Kurt Castro   
    - Camilo Rivera   
    - Cristhian Solís  
    - Sofía Vits

### Objetivo del trabajo

Aplicar y consolidar los conocimientos adquiridos sobre web scraping y el uso de APIs mediante el desarrollo de un producto funcional que permita consultar información de inmuebles junto con sus comercios cercanos.

 **Web scraping** | **Uso de APIs** | **Consultas SQL**




---
Para la facilitación de la comparación el proyecto se trabajará con variables inicales
#### Declaración de Variables Iniciales
```python
api_key = "" 
tipo_contrato = 'arriendo' # venta, arriendo o arriendo_temporal 
tipo_inmueble = 'dpto' # dpto, casa u oficina. 
ubicacion_inmueble = 'Puerto Montt' # la comuna de la búsqueda 
y otras...
```

---
### Metodología
#### I) Extracción de Datos con Selenium

**Interacción con Portal Inmobiliario**

1. Accede al sitio web `https://www.portalinmobiliario.com/` y realizar una serie de acciones de navegación dentro del:
2. Crea un DataFrame (`df_inmuebles`) con los datos recolectados (`URL`).
3. Para cada inmueble extrae información adicional como la dirección completa.

**Obtención del Valor de la UF**
1. Usa Selenium para interactuar con el sitio `https://valoruf.cl/` y obtiene el valor actual de la UF y convierte los precios de UF a pesos chilenos.

**Normalización de Direcciones**
1. Se implementa una solución para manejar direcciones con rangos numéricos (e.g., "Avenida Manquehue 1200 – 1800, Las Condes"), de modo que se pueda obtener un único número para usar con la API de Geocoding.

#### II) Uso de APIs de Google

**Geocoding API**
1. Usa la API de Geocoding para obtener Latitud y Longitud de cada `place_id` exactos de cada dirección normalizada.
2. Actualiza el DataFrame de inmuebles con estas nuevas columnas.

**Places API**
1. Usa la API de Places para obtener lugares cercanos a cada dirección, utilizando un `radio_busqueda` y `busqueda_rubros`.
2. Crea un nuevo DataFrame (`df_lugares_cercanos`) con esta información.

#### III) Creación de Base de Datos

**Creación de la Base de Datos**
1. Usa la librería `sqlite` para realizar crear una `BBDD` 
2. Genera dos `consultas` SQL     
   a. `Valor promedio de los 20 arriendos más baratos  `   
   b. `Mediana de comentarios en lugares cercanos`  


### Resultado Esperado
Generar un producto de datos funcional que combina extracción automatizada de datos desde sitios web, uso eficiente de APIs para enriquecer la información y almacenamiento estructurado para la generación de consultas en una base de datos relacional.

#### Carga de librerías

In [28]:
!pip install -r requirements.txt



In [29]:
import pandas as pd
import googlemaps
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException, StaleElementReferenceException
from selenium.webdriver.chrome.options import Options
import sqlite3
import re
import logging
import random
from urllib.parse import urlparse


---
Para la facilitación de la comparación el proyecto se trabajará con variables inicales
#### Declaración de Variables Iniciales



In [2]:
# Configuración de logging para rastrear errores
logging.basicConfig(level=logging.ERROR, format='%(asctime)s - %(levelname)s - %(message)s')

# Variables iniciales
api_key = "AIzaSyAD8KcMrw12UflO3by_ksvRV8YepNydkOo"
tipo_contrato = 'Arriendo'  # Venta, Arriendo o Arriendo temporal
tipo_inmueble = 'Departamentos'  # Departamentos, Casas u Oficinas.
ubicacion_inmueble = 'Puerto Montt'  # la comuna de la búsqueda
monto_minimo = 500000  # monto mínimo de la búsqueda
monto_maximo = 1300000 # monto máximo de la búsqueda
cant_paginas = 5  # número de páginas a recorrer
radio_busqueda = '300'  # radio (en metros) de búsqueda de lugares cercanos
busqueda_rubros = ['restaurant', 'supermarket']  # rubro de lugares cercanos

---

#### I) Extracción de Datos con Selenium


**Interacción con Portal Inmobiliario**   
En esta sección se implementará el código para realizar webscraping de la página `https://www.portalinmobiliario.com/`, utilizando Selenium para interactuar con dicha página web con el objetivo final de generar un DataFrame `df_inmuebles` extrayendo los datos de cada `URL`

Se configura y accede al sitio web `https://www.portalinmobiliario.com/` para posteriormente realizar una serie de acciones de navegación dentro del mismo.

In [3]:
# # Configuración de Chrome en modo headless
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecuta en modo sin interfaz gráfica
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

In [4]:
# Inicializar el navegador
try:
    driver = webdriver.Chrome(options=chrome_options)
    driver.get('https://www.portalinmobiliario.com/')
except WebDriverException as e:
    logging.error(f"Error al inicializar el navegador: {e}")
    exit()

Se declaran una serie de funciones para el uso en el proceso de webscrapping

In [5]:
def validar_parametros(tipo_contrato, tipo_inmueble):
    """
    Verifica que las variables inciales sean validas
    """    
    tipos_contrato_validos = ['Venta', 'Arriendo', 'Arriendo temporal']
    tipos_inmueble_validos = ['Departamentos', 'Casas', 'Oficinas']

    if tipo_contrato not in tipos_contrato_validos:
        raise ValueError(f"Error: El tipo de contrato '{tipo_contrato}' no es válido. Ajuste su variable inicial.")
    
    if tipo_inmueble not in tipos_inmueble_validos:
        raise ValueError(f"Error: El tipo de inmueble '{tipo_inmueble}' no es válido. Ajuste su variable inicial.")

    print("Parámetros de tipo de contrato y tipo de inmueble validados correctamente.")

In [6]:
def ingresar_comuna(wait, ubicacion_inmueble):
    """
    Verifica que sea una comuna encontrable en el portal
    """
    comuna_input = wait.until(EC.presence_of_element_located((By.ID, ":Rml5r:")))
    comuna_input.send_keys(ubicacion_inmueble)
    print(f"Comuna ingresada: {ubicacion_inmueble}")

    try:
        primera_recomendacion = wait.until(EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'andes-list__item-action')]")))
        texto_recomendacion = primera_recomendacion.text
        print("Primera recomendación seleccionada")
        print(f"Texto de la primera recomendación: {texto_recomendacion}")
        primera_recomendacion.click()
        return True
    except (NoSuchElementException, TimeoutException):
        logging.error(f"No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'.")
        print(f"Error: No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'. Ajuste su búsqueda.")
        raise ValueError(f"Comuna no válida: '{ubicacion_inmueble}'.")


In [7]:
def cerrar_banner_cookies():
    """
    Intenta cerrar el mensajes de Cookies.
    """    
    try:
        # Verificar si el elemento existe y es visible en el DOM
        cookie_button = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "newCookieDisclaimerButton"))
        )

        # Verificar si el botón es clickeable
        if cookie_button.is_displayed():
            cookie_button.click()
            print("Banner de cookies cerrado")
        else:
            print("El banner de cookies no está visible")
    except TimeoutException:
        print("No se encontró el banner de cookies")
    except Exception as e:
        logging.error(f"Error inesperado al intentar cerrar el banner de cookies: {e}")

In [8]:
def cerrar_mensaje_desplegable():
    """
    Intenta cerrar el mensajes desplegables.
    """
    try:
        print("Intentando cerrar el mensaje desplegable...")
        wait = WebDriverWait(driver, 2)  # Tiempo de espera reducido
        popper_close_button = wait.until(
            EC.element_to_be_clickable((By.XPATH, '//button[@aria-label="Close"]'))
        )
        popper_close_button.click()
        print("Mensaje desplegable cerrado con éxito.")
    except TimeoutException:
        print("No se encontró el mensaje desplegable. Continuando con la ejecución.")
    except Exception as e:
        print(f"Error inesperado al intentar cerrar el mensaje desplegable: {e}")

Desde este punto, se comienza con la búsqueda dentro del `portalinmobiliario`  para realizar una serie de acciones utilizando las variables declaradas inicialmente

Se filtra, por `tipo de contrato` y `tipo de inmueble` seleccionando la `comuna de búsqueda` de la primera sugerencia de búsqueda para realizar la busqueda.

In [9]:
try:
    validar_parametros(tipo_contrato, tipo_inmueble)
    cerrar_banner_cookies()
    cerrar_mensaje_desplegable()

    wait = WebDriverWait(driver, 5)
    # Filtrar según botón de tipo contrato
    contrato_button = wait.until(EC.element_to_be_clickable((By.ID, ":R2l5r:-trigger")))
    contrato_button.click()
    print("Tipo de contrato")
    tipo_contrato_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_contrato}']")))
    tipo_contrato_opcion.click()
    print(f"Seleccionado: {tipo_contrato}")

    # Filtrar según botón de tipo inmueble
    inmueble_button = wait.until(EC.element_to_be_clickable((By.ID, ":R4l5r:-trigger")))
    inmueble_button.click()  # Hacer clic para abrir el dropdown de inmuebles
    print(f"Tipo de inmueble")
    tipo_inmueble_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_inmueble}']")))
    tipo_inmueble_opcion.click()
    print(f"Seleccionado: {tipo_inmueble}")

    # Ingresar comuna de búsqueda
    comuna_seleccionada = ingresar_comuna(wait, ubicacion_inmueble)

    # Si la comuna fue seleccionada correctamente, continuar con la búsqueda
    if comuna_seleccionada:
        # Buscar
        buscar_button = wait.until(EC.element_to_be_clickable((By.XPATH, "//span[text()='Buscar']")))
        buscar_button.click()
        print("Búsqueda realizada")
        time.sleep(2)

except ValueError as ve:
    logging.error(ve)
    print(ve)  # Mostrar el error de valor en consola
except NoSuchElementException as ns:
    logging.error(f"Error de búsqueda de elementos: {ns}")
except TimeoutException as te:
    logging.error(f"Error de tiempo de espera: {te}")
except Exception as e:
    logging.error(f"Error durante la configuración inicial de búsqueda: {e}")


Parámetros de tipo de contrato y tipo de inmueble validados correctamente.
Banner de cookies cerrado
Intentando cerrar el mensaje desplegable...
No se encontró el mensaje desplegable. Continuando con la ejecución.
Tipo de contrato
Seleccionado: Arriendo
Tipo de inmueble
Seleccionado: Departamentos
Comuna ingresada: Puerto Montt
Primera recomendación seleccionada
Texto de la primera recomendación: Puerto Montt, Los Lagos
Búsqueda realizada


Dentro de la página de resultados, se aplican filtros de `monto_minimo` y `monto_maximo` .

In [10]:
try:
    cerrar_banner_cookies()
    cerrar_mensaje_desplegable()
    wait = WebDriverWait(driver, 5) 

    try:
        print("Intentando localizar el campo de monto mínimo...")
        monto_minimo_input = wait.until(
            EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Minimum-price"]'))
        )
        print("Campo de monto mínimo encontrado.")

        # Si se encuentra, proceder con la interacción
        if monto_minimo > 0 and monto_maximo > 0:
            monto_minimo_input.click()
            monto_minimo_input.clear()
            monto_minimo_input.send_keys(str(monto_minimo))
            print(f"Monto mínimo ingresado: {monto_minimo}")

            print("Intentando localizar el campo de monto máximo...")
            monto_maximo_input = wait.until(
                EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Maximum-price"]'))
            )
            monto_maximo_input.click()
            monto_maximo_input.clear()
            monto_maximo_input.send_keys(str(monto_maximo))
            print(f"Monto máximo ingresado: {monto_maximo}")

            print("Aplicando el filtro...")
            aplicar_button = wait.until(
                EC.element_to_be_clickable((By.XPATH, '//*[@data-testid="submit-price"]'))
            )
            aplicar_button.click()
            print("Filtro aplicado con éxito.")
        else:
            print("Error: El monto mínimo y/o máximo deben ser mayores que 0.")
    
    except TimeoutException:
        print("El campo de monto mínimo no está disponible. No se puede aplicar el filtro.")
        print("Es posible que no haya suficientes resultados para habilitar el filtro.")

except Exception as e:
    logging.error(f"Error al aplicar filtros de precio: {e}")
    # Guardar el HTML de la página para depuración
    with open("page_source_debug.html", "w", encoding="utf-8") as f:
        f.write(driver.page_source)
    print("Error localizado. Revisa el archivo 'page_source_debug.html'.")


No se encontró el banner de cookies
Intentando cerrar el mensaje desplegable...
Mensaje desplegable cerrado con éxito.
Intentando localizar el campo de monto mínimo...
Campo de monto mínimo encontrado.
Monto mínimo ingresado: 500000
Intentando localizar el campo de monto máximo...
Monto máximo ingresado: 1300000
Aplicando el filtro...
Filtro aplicado con éxito.


Se extraen las `URL` de los anuncios encontrados recorriendo una  delimitada `cant_paginas` 

In [11]:
def extraer_url():
    try:
        datos_departamentos = []
        pagina_actual = 1

        print("Iniciando extracción de datos...")

        while pagina_actual <= cant_paginas:  # Limitar el número de páginas
            print(f"\nExtrayendo datos de la página {pagina_actual}...")

            # Extraer los enlaces de los departamentos
            try:
                wait = WebDriverWait(driver, 10)  # Usar tiempo de espera razonable.
                departamentos = wait.until(
                    EC.presence_of_all_elements_located(
                        (By.XPATH, "//a[contains(@class, 'poly-component__title')]")
                    )
                )
                # Extraer los enlaces
                for departamento in departamentos:
                    enlace = departamento.get_attribute("href")
                    if enlace:  # Verificar que el enlace no sea None.
                        datos_departamentos.append(enlace)

                # Imprimir cantidad de enlaces extraídos en la página actual
                print(f"Se encontraron {len(departamentos)} departamentos en la página {pagina_actual}.")
                print(f"Total acumulado de enlaces extraídos: {len(datos_departamentos)}")
            except TimeoutException:
                print("Error: No se encontraron departamentos en la página actual. Revisa el selector.")
                break

            # Navegar a la siguiente página
            try:
                siguiente_pagina = wait.until(
                    EC.element_to_be_clickable(
                        (By.XPATH, "//li[contains(@class, 'andes-pagination__button andes-pagination__button--next')]/a")
                    )
                )
                siguiente_pagina.click()
                time.sleep(5)  # Mantener el tiempo fijo para cargar correctamente.
                pagina_actual += 1
            except TimeoutException:
                print("No se encontró el botón de siguiente página. Posiblemente sea la última página.")
                break

        print(f"\nExtracción completa. Total de enlaces extraídos: {len(datos_departamentos)}")
        return datos_departamentos

    except Exception as e:
        print(f"Error crítico durante la extracción: {e}")
        return []

# Llamar a la función
datos_departamentos = extraer_url()

# Mostrar solo la cantidad total de datos extraídos
print(f"\nCantidad total de datos extraídos: {len(datos_departamentos)}")



Iniciando extracción de datos...

Extrayendo datos de la página 1...
Se encontraron 48 departamentos en la página 1.
Total acumulado de enlaces extraídos: 48

Extrayendo datos de la página 2...
Se encontraron 33 departamentos en la página 2.
Total acumulado de enlaces extraídos: 81
No se encontró el botón de siguiente página. Posiblemente sea la última página.

Extracción completa. Total de enlaces extraídos: 81

Cantidad total de datos extraídos: 81


Para cada `URL` de los anuncios del portal se extraen atributos cómo `titulo`,`direccion`, `moneda`, `valor`,`tipo_inmueble`. Para posteriormente crear un DataFrame (`df_inmuebles`) con los datos recolectados. 

In [12]:
# Función para encontrar elementos de forma segura
def safe_find_element(driver, by, value, default="No disponible"):
    try:
        return driver.find_element(by, value).text
    except NoSuchElementException:
        return default


# Función para validar URLs
def is_valid_url(url):
    parsed = urlparse(url)
    return bool(parsed.netloc) and bool(parsed.scheme)


# Función principal para extraer datos
def extraer_datos_departamentos(datos_departamentos, driver, wait):
    dict_info = {}
    failed_urls = []

    for href in datos_departamentos:
        # Validar URL
        if not is_valid_url(href):
            logging.error(f"URL inválida: {href}")
            continue

        try:
            # Navegar a la URL
            driver.get(href)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, "ui-pdp-title")))

            # Extraer información
            titulo = safe_find_element(driver, By.CLASS_NAME, "ui-pdp-title", "Título no disponible")
            direccion = safe_find_element(driver, By.CSS_SELECTOR, "div.ui-vip-location__subtitle p", "Dirección no disponible")

            # Extraer precio y moneda
            try:
                contenedor_precio = driver.find_element(By.CLASS_NAME, "andes-money-amount")
                meta_precio = contenedor_precio.find_element(By.XPATH, ".//meta[@itemprop='price']")
                valor = meta_precio.get_attribute("content")
                simbolo_moneda = contenedor_precio.text.split()[0]  # Extraer el símbolo desde el texto completo
                moneda = "UF" if "UF" in simbolo_moneda else "$"
            except Exception as e:
                moneda, valor = "Error", "Error"
                logging.error(f"Error al procesar precio en {href}: {e}")

            # Guardar en el diccionario
            if href not in dict_info:
                dict_info[href] = { "titulo": titulo, 
                                    "direccion": direccion, 
                                    "moneda": moneda, 
                                    "valor": valor,
                                    "tipo_inmueble": tipo_inmueble,
                                    "tipo_contrato": tipo_contrato}
            else:
                logging.warning(f"URL duplicada detectada: {href}")

        except TimeoutException:
            logging.warning(f"Tiempo de espera excedido para la URL: {href}")
            failed_urls.append(href)
        except Exception as e:
            logging.error(f"Error al procesar {href}: {e}")
            dict_info[href] = {"titulo": "Error al obtener título", "direccion": "Error", "moneda": "Error", "valor": "Error", "tipo_inmueble": "Error", "tipo_contrato": "Error"}
            failed_urls.append(href)

        # Pausa aleatoria para evitar bloqueo
        time.sleep(random.uniform(2, 5))

    # Guardar URLs fallidas en un archivo
    if failed_urls:
        with open("errores.txt", "w") as f:
            for url in failed_urls:
                f.write(url + "\n")

    # Crear un DataFrame con los datos extraídos
    df = pd.DataFrame.from_dict(dict_info, orient='index').reset_index()
    df.columns = ['pag', 'titulo', 'direccion', 'moneda', 'valor', 'tipo_inmueble', 'tipo_contrato']

    print("\nDatos extraídos desde portalinmobiliario")
    print(df)

    return df


In [13]:
df_inmuebles = extraer_datos_departamentos(datos_departamentos, driver, wait)


Datos extraídos desde portalinmobiliario
                                                  pag  \
0   https://portalinmobiliario.com/MLC-1552455927-...   
1   https://portalinmobiliario.com/MLC-2777487972-...   
2   https://portalinmobiliario.com/MLC-1559792005-...   
3   https://portalinmobiliario.com/MLC-1553115713-...   
4   https://portalinmobiliario.com/MLC-1564679211-...   
..                                                ...   
76  https://portalinmobiliario.com/MLC-2814613000-...   
77  https://portalinmobiliario.com/MLC-2822926528-...   
78  https://portalinmobiliario.com/MLC-1566512011-...   
79  https://portalinmobiliario.com/MLC-1559732629-...   
80  https://portalinmobiliario.com/MLC-2828445198-...   

                                               titulo  \
0   Excelente Departamento A Pasos De Jumbo-colegi...   
1   Arriendo Departamento 2d/2b Ed. Reserva Lomas ...   
2   Se Arrienda Dpto 2d 2b Edificio Reserva Lomas ...   
3         Se Arrienda Departamento Con Vista 

In [15]:
# DF obtenido
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   pag            81 non-null     object
 1   titulo         81 non-null     object
 2   direccion      81 non-null     object
 3   moneda         81 non-null     object
 4   valor          81 non-null     object
 5   tipo_inmueble  81 non-null     object
 6   tipo_contrato  81 non-null     object
dtypes: object(7)
memory usage: 4.6+ KB


In [26]:
# Cerrar el navegador
driver.quit()

**Obtención del Valor de la UF**  
Manteniendo el uso de Selenium se interactua con el sitio `https://valoruf.cl/` para obtener el valor actual de la UF.

In [14]:
# Inicializar un nuevo navegador
driver2 = webdriver.Chrome(options=chrome_options)
url = "https://valoruf.cl/"
driver2.get(url)

try:
    # Buscar el elemento que contiene el valor de la UF usando su clase 'vpr'
    uf_element = driver2.find_element(By.CLASS_NAME, "vpr")
    valor_uf_texto = uf_element.text  # Extraer el texto del elemento
    print(f"El valor de la UF al día de hoy es: {valor_uf_texto}")

    # Convertir el valor al formato numérico
    valor_uf_numerico = float(valor_uf_texto.replace("$", "").replace(".", "").replace(",", ".").strip())
    print(f"En valor númerico: {valor_uf_numerico}")
    
finally:
    # Cerrar el navegador
    driver2.quit()

El valor de la UF al día de hoy es: $ 38.436,50
En valor númerico: 38436.5


Se realiza operaciones utilizando la información capturada desde el `portalinmobiliario` y `valoruf` para estandarizar el valor de la moneda de los anuncios a pesos chilenos, utilizando un valor al dia de la UF

In [18]:
# Limpia la columna 'valor' para asegurar que sea numérica
df_inmuebles['valor'] = df_inmuebles['valor'].astype(str).str.replace(",", "").str.replace(".", "").str.strip()
# Convierte 'valor' a float para cálculos numéricos
df_inmuebles['valor'] = pd.to_numeric(df_inmuebles['valor'], errors='coerce')
# Verifica si hay valores NaN en la columna 'valor' después de la conversión
if df_inmuebles['valor'].isnull().any():
    print("Hay valores no numéricos en la columna 'valor'. Estos serán tratados como NaN.")
# Realiza la conversión considerando UF o pesos
df_inmuebles['valor_en_pesos'] = df_inmuebles.apply(
    lambda row: row['valor'] * valor_uf_numerico if row['moneda'] == 'UF' else row['valor'] if row['moneda'] == '$' else None,
    axis=1
)

# Crea una copia filtrada solo con las filas donde la moneda sea 'UF' para verificar
df_uf = df_inmuebles[df_inmuebles['moneda'] == 'UF'].copy()
print(df_uf.head())

                                                  pag  \
28  https://portalinmobiliario.com/MLC-2825183466-...   
31  https://portalinmobiliario.com/MLC-1553825799-...   
35  https://portalinmobiliario.com/MLC-2824921172-...   
41  https://portalinmobiliario.com/MLC-2815058152-...   
56  https://portalinmobiliario.com/MLC-1555111435-...   

                                               titulo  \
28  Cómodo Departamento En Arriendo En Barrio Resi...   
31     Lindo Departamento En Condominio, Puerto Montt   
35  Arriendo Hermoso Departamento Amoblado Condomi...   
41  Departamento En Arriendo De 2 Dorm. En Puerto ...   
56  Departamento En Arriendo De 2d2b En Condominio...   

                                            direccion moneda  valor  \
28              Puerto Montt, Puerto Montt, Los Lagos     UF   1340   
31  Puerto Montt, Centro de Puerto Montt, Puerto M...     UF     22   
35  Arriendo Departamento Amoblado Condominio Terr...     UF   1951   
41  Lota 435, Centro de Puerto

In [19]:
# DF resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   pag             81 non-null     object 
 1   titulo          81 non-null     object 
 2   direccion       81 non-null     object 
 3   moneda          81 non-null     object 
 4   valor           81 non-null     int64  
 5   tipo_inmueble   81 non-null     object 
 6   tipo_contrato   81 non-null     object 
 7   valor_en_pesos  81 non-null     float64
dtypes: float64(1), int64(1), object(6)
memory usage: 5.2+ KB


**Normalización de Direcciones**  
Se propone e implementa una solución para manejar direcciones con rangos numéricos (e.g., "Avenida Manquehue 1200 – 1800, Las Condes"), de modo que se pueda obtener un único número para usar con la API de Geocoding.

In [23]:
def process_address(address):
    # Expresión regular para detectar rangos como "1200 – 1800" o "1200-1800"
    match = re.search(r'(\d+)\s*[–\-]\s*(\d+)', address)
    if match:
        # Extraer los límites del rango
        start, end = map(int, match.groups())
        # Calcular el punto medio del rango
        midpoint = (start + end) // 2
        # Reemplazar el rango con el punto medio en la dirección
        address = re.sub(r'(\d+\s*[–\-]\s*\d+)', str(midpoint), address)
    return address

# Aplicar la función a la columna 'direccion'
df_inmuebles['direccion_procesada'] = df_inmuebles['direccion'].apply(process_address)
# Verifica resultado
df_inmuebles.head()


Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato,valor_en_pesos,direccion_procesada
0,https://portalinmobiliario.com/MLC-1552455927-...,Excelente Departamento A Pasos De Jumbo-colegi...,"Libertad 340, Centro de Puerto Montt, Puerto M...",$,650000,Departamentos,Arriendo,650000.0,"Libertad 340, Centro de Puerto Montt, Puerto M..."
1,https://portalinmobiliario.com/MLC-2777487972-...,Arriendo Departamento 2d/2b Ed. Reserva Lomas ...,"Avenida Bellavista 1090, Puerto Montt, Puerto ...",$,600000,Departamentos,Arriendo,600000.0,"Avenida Bellavista 1090, Puerto Montt, Puerto ..."
2,https://portalinmobiliario.com/MLC-1559792005-...,Se Arrienda Dpto 2d 2b Edificio Reserva Lomas ...,"Avenida Bellavista 1090, Puerto Montt, Los Lagos",$,600000,Departamentos,Arriendo,600000.0,"Avenida Bellavista 1090, Puerto Montt, Los Lagos"
3,https://portalinmobiliario.com/MLC-1553115713-...,Se Arrienda Departamento Con Vista A Volcán,"Se Arrienda Departamento Con Vista A Volcán, P...",$,600000,Departamentos,Arriendo,600000.0,"Se Arrienda Departamento Con Vista A Volcán, P..."
4,https://portalinmobiliario.com/MLC-1564679211-...,Arriendo Departamento Nuevo 2d/2b Puerto Montt,"Volcán Corcovado 5820, Puerto Montt, La Paloma...",$,500000,Departamentos,Arriendo,500000.0,"Volcán Corcovado 5820, Puerto Montt, La Paloma..."


In [24]:
# DF Resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  81 non-null     object 
 1   titulo               81 non-null     object 
 2   direccion            81 non-null     object 
 3   moneda               81 non-null     object 
 4   valor                81 non-null     int64  
 5   tipo_inmueble        81 non-null     object 
 6   tipo_contrato        81 non-null     object 
 7   valor_en_pesos       81 non-null     float64
 8   direccion_procesada  81 non-null     object 
dtypes: float64(1), int64(1), object(7)
memory usage: 5.8+ KB


#### II) Uso de APIs de Google

**Geocoding API**  
En esta sección se utilizará la `API Geocoding de Google` para obtener el `place_id`, `latitud` y `longitud` correspondiente a un inmueble específico de cada dirección normalizada y se actualiza al DataFrame `df_inmuebles` con estas nuevas columnas.

In [25]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones en 'direccion_procesada' y agregar las columnas al DataFrame
df_inmuebles['latitude'], df_inmuebles['longitude'], df_inmuebles['place_id'] = zip(*df_inmuebles['direccion_procesada'].apply(geocode_address))


In [27]:
#DF Resultante
df_inmuebles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  81 non-null     object 
 1   titulo               81 non-null     object 
 2   direccion            81 non-null     object 
 3   moneda               81 non-null     object 
 4   valor                81 non-null     int64  
 5   tipo_inmueble        81 non-null     object 
 6   tipo_contrato        81 non-null     object 
 7   valor_en_pesos       81 non-null     float64
 8   direccion_procesada  81 non-null     object 
 9   latitude             81 non-null     float64
 10  longitude            81 non-null     float64
 11  place_id             81 non-null     object 
dtypes: float64(3), int64(1), object(8)
memory usage: 7.7+ KB


**Places API**  
En esta sección se utiizará la `API Places de Google` para localizar lugares cercanos a los inmuebles obtenidos mediante el webscraping.

Se extraen los lugares cercanos, complementando con el `user_ratings_total`, utilizando un `radio_busqueda` y `busqueda_rubros` especificos.

Finalmente, se crea un nuevo DataFrame (`df_lugares_cercanos`) con esta información.

In [30]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

# Función para obtener lugares cercanos
def get_nearby_places(location, radius, place_types, property_place_id):
    nearby_places = []
    try:
        for place_type in place_types:
            # Llama a la API de Places Nearby Search para cada tipo
            places_result = gmaps.places_nearby(location=location, radius=radius, type=place_type)

            # Verifica si hay resultados
            if 'results' in places_result:
                for place in places_result['results']:
                    # Extraer los datos con manejo de ausencia de campos
                    nearby_places.append({
                        'property_place_id': property_place_id,  # Identificador de la propiedad original
                        'nearby_place_id': place.get('place_id'),  # Identificador del lugar cercano
                        'name': place.get('name'),
                        'address': place.get('vicinity', 'Dirección no disponible'),
                        'place_type': place.get('types', ['Tipo no disponible'])[0],  # Primer tipo del lugar
                        'rating': place.get('rating', None),
                        'user_ratings_total': place.get('user_ratings_total', None)
                    })
            else:
                print(f"No se encontraron resultados para la ubicación {location}, tipo: {place_type}")
    except Exception as e:
        print(f"Error obteniendo lugares cercanos para {location}, tipos: {place_types}: {e}")
    return nearby_places

# Función para geocodificar direcciones procesadas
def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones procesadas en 'direccion_procesada' y agregar latitud, longitud y place_id al DataFrame
df_inmuebles['latitude'], df_inmuebles['longitude'], df_inmuebles['place_id'] = zip(*df_inmuebles['direccion_procesada'].apply(geocode_address))

# Procesar datos de un DataFrame
def process_places_dataframe(df_inmuebles, radio_busqueda, busqueda_rubros):
    nearby_places_data = []

    for index, row in df_inmuebles.iterrows():
        if pd.notna(row.get('latitude')) and pd.notna(row.get('longitude')):
            # Construye la coordenada de la ubicación
            location = f"{row['latitude']},{row['longitude']}"
            # Busca lugares cercanos
            nearby_places = get_nearby_places(location, radio_busqueda, busqueda_rubros, row['place_id'])

            # Agregar los resultados al DataFrame
            nearby_places_data.extend(nearby_places)

    # Crear DataFrame con los lugares cercanos
    result_df = pd.DataFrame(nearby_places_data, columns=['property_place_id', 'nearby_place_id', 'name', 'address', 'place_type', 'rating', 'user_ratings_total'])

    # Filtrar los resultados para incluir solo los rubros buscados
    return result_df[result_df['place_type'].isin(busqueda_rubros)]


# Llamar la función para obtener lugares cercanos
df_lugares_cercanos = process_places_dataframe(df_inmuebles, radio_busqueda, busqueda_rubros) #Variables declaradas al incio del código

# Muestra el DataFrame resultante
df_lugares_cercanos.head()


Unnamed: 0,property_place_id,nearby_place_id,name,address,place_type,rating,user_ratings_total
2,ChIJfwMlsqw7GJYRiAtToBq55zc,ChIJRSRGAVM6GJYRqY99wPFwgTM,Juan Maestro,"Urmeneta 580 Local 303-304, Puerto Montt",restaurant,3.3,15.0
3,ChIJfwMlsqw7GJYRiAtToBq55zc,ChIJzRJiXqw7GJYRsDyt8KdAVfw,El Fogón de Pepe,"Rengifo 845, Puerto Montt",restaurant,4.6,2021.0
4,ChIJfwMlsqw7GJYRiAtToBq55zc,ChIJyaR5wKw7GJYR-y29nOuAPPw,Da Alessandro Trattoria Puerto Montt,"Rengifo 815, Puerto Montt, Puerto Montt",restaurant,4.4,1539.0
5,ChIJfwMlsqw7GJYRiAtToBq55zc,ChIJM83bBwA7GJYRRha6PydXjrU,La cocina de Balmaceda,"José Manuel Balmaceda 241, Puerto Montt",restaurant,5.0,4.0
6,ChIJfwMlsqw7GJYRiAtToBq55zc,ChIJTQay75Y7GJYRQndvih_7vUg,LLacolen Pub Restaurante,"Aníbal Pinto 249, Puerto Montt",restaurant,,


In [31]:
# Resultado del segundo dataframe
df_lugares_cercanos.info() 

<class 'pandas.core.frame.DataFrame'>
Index: 476 entries, 2 to 553
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   property_place_id   476 non-null    object 
 1   nearby_place_id     476 non-null    object 
 2   name                476 non-null    object 
 3   address             476 non-null    object 
 4   place_type          476 non-null    object 
 5   rating              400 non-null    float64
 6   user_ratings_total  400 non-null    float64
dtypes: float64(2), object(5)
memory usage: 29.8+ KB


#### III) Creación de Base de Datos


**Creación de la Base de Datos**  
Para la creación de la base de datos `portal_inmobiliario.db` se exportan los dos DataFrame resultantes del Webscrapping (`df_inmuebles`) y uso de APIs (`df_lugares_cercanos`)revisados en la secciones anteriores para posteriormente cargarlos a nuestra base de datos.


In [32]:
# # Exporta a un archivo csv
df_inmuebles.to_csv('df_inmuebles.csv', index=False)
df_lugares_cercanos.to_csv('df_lugares_cercanos.csv', index=False)


Exportados los DataFrames, se crea la BBDD `portal_inmobiliario.db` 

In [43]:
# Conexión a la base de datos SQLite (se crea si no existe)
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Ejecutar una transacción para crear las tablas
esquema_sql = """
BEGIN TRANSACTION;

-- Crear la tabla 'inmuebles'
DROP TABLE IF EXISTS inmuebles;
CREATE TABLE inmuebles (
    place_id TEXT PRIMARY KEY,  -- Identificador único de lugar (Google Places)
    pag TEXT,                   -- Página del inmueble
    titulo TEXT,                -- Título del inmueble
    direccion TEXT,             -- Dirección del inmueble
    moneda TEXT,                -- Moneda del precio
    valor INTEGER,              -- Valor en peso o UF
    tipo_inmueble TEXT,         -- Tipo de inmueble (ej. Departamentos)
    tipo_contrato TEXT,         -- Tipo contrato (ej. Arriendo)
    valor_en_pesos FLOAT,       -- Valor convertido a pesos
    direccion_procesada TEXT,   -- Dirección procesada para la API
    latitude REAL,              -- Latitud
    longitude REAL              -- Longitud
);

-- Crear la tabla 'lugares_cercanos'
DROP TABLE IF EXISTS lugares_cercanos;
CREATE TABLE lugares_cercanos (
    property_place_id TEXT,          -- Identificador del inmueble al que está asociado
    nearby_place_id TEXT,            -- Identificador único del lugar cercano (Google Places)
    name TEXT,                       -- Nombre del lugar cercano
    address TEXT,                    -- Dirección del lugar cercano
    place_type TEXT,                 -- Tipo de lugar cercano (ej. Restaurante)
    rating REAL,                     -- Calificación del lugar
    user_ratings_total REAL,         -- Total de calificaciones del lugar
    PRIMARY KEY (property_place_id, nearby_place_id), -- Llave primaria compuesta
    FOREIGN KEY (property_place_id) REFERENCES inmuebles (place_id) -- Relación con inmuebles
);

COMMIT;
"""

# Ejecutar el esquema SQL como una transacción
cursor.executescript(esquema_sql)

# Cerrar la conexión
conn.close()


Finalizada la extracción de los DataFrame resultantes y la creación de nuestra BBDD `portal_inmobiliario.db` se genera la `carga` de los datos y se `verifica` 

In [44]:
# Ruta de los archivos CSV
inmuebles_path = r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\df_inmuebles.csv'
lugares_path = r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\df_lugares_cercanos.csv'

# Cargar los DataFrames desde los archivos CSV
df_inmuebles = pd.read_csv(inmuebles_path)
df_lugares_cercanos = pd.read_csv(lugares_path)

In [45]:
# Conexión a la base de datos y manejo de la inserción de datos
try:
    with sqlite3.connect('portal_inmobiliario.db') as conn:
        # Insertar datos en la base de datos de inmuebles
        df_inmuebles.to_sql('inmuebles', conn, if_exists='replace', index=False)
        print("Datos de inmuebles agregados correctamente a la base de datos.")
        # Insertar datos en la base de datos de lugares cercanos
        df_lugares_cercanos.to_sql('lugares_cercanos', conn, if_exists='replace', index=False)
        print("Datos de lugares cercanos agregados correctamente a la base de datos.")
        
except Exception as e:
    print(f"Error al insertar datos: {e}")

Datos de inmuebles agregados correctamente a la base de datos.
Datos de lugares cercanos agregados correctamente a la base de datos.


In [46]:
# Verificar los datos cargados en las tablas
# Conectar a la base de datos
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Verificar los datos en la tabla 'inmuebles'
print("Datos de la tabla 'inmuebles':")
cursor.execute("SELECT * FROM inmuebles LIMIT 5;")
rows_inmuebles = cursor.fetchall()
for row in rows_inmuebles:
    print(row)

# Verificar los datos en la tabla 'lugares_cercanos'
print("\nDatos de la tabla 'lugares_cercanos':")
cursor.execute("SELECT * FROM lugares_cercanos LIMIT 5;")
rows_lugares_cercanos = cursor.fetchall()
for row in rows_lugares_cercanos:
    print(row)

# Cerrar la conexión
conn.close()


Datos de la tabla 'inmuebles':
('https://portalinmobiliario.com/MLC-1552455927-excelente-departamento-a-pasos-de-jumbo-colegio-aleman-pm-_JM#polycard_client=search-nordic&position=1&search_layout=grid&type=item&tracking_id=5773cb41-e313-4ff0-8455-1691e317fc8d', 'Excelente Departamento A Pasos De Jumbo-colegio Alemán Pm', 'Libertad 340, Centro de Puerto Montt, Puerto Montt, Los Lagos', '$', 650000, 'Departamentos', 'Arriendo', 650000.0, 'Libertad 340, Centro de Puerto Montt, Puerto Montt, Los Lagos', -41.4707328, -72.9463104, 'ChIJfwMlsqw7GJYRiAtToBq55zc')
('https://portalinmobiliario.com/MLC-2777487972-arriendo-departamento-2d2b-ed-reserva-lomas-puerto-montt-_JM#polycard_client=search-nordic&position=2&search_layout=grid&type=item&tracking_id=5773cb41-e313-4ff0-8455-1691e317fc8d', 'Arriendo Departamento 2d/2b Ed. Reserva Lomas Puerto Montt', 'Avenida Bellavista 1090, Puerto Montt, Puerto Montt, Los Lagos', '$', 600000, 'Departamentos', 'Arriendo', 600000.0, 'Avenida Bellavista 1090, Pu

**Consultas SQL**  

Finalizado la creación y carga de datos, se generan consultas especificas a `portal_inmobiliario.db  `  


   a. `Valor promedio de los 20 arriendos más baratos  `  
¿Cuál es el valor promedio de los 20 arriendos de dpto más baratos de “x comuna”? 
 


In [50]:
# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta actualizada para filtrar por tipo de inmueble y tipo de contrato
consulta_promedio = """
SELECT
    AVG(valor_en_pesos) AS promedio_precio
FROM (
    SELECT
        valor_en_pesos
    FROM
        inmuebles
    WHERE
        tipo_inmueble = ? AND
        tipo_contrato = ?
    ORDER BY
        valor_en_pesos ASC
    LIMIT 20
);
"""

# Ejecuta la consulta pasando las variables como parámetros
cursor.execute(consulta_promedio, (tipo_inmueble, tipo_contrato))
promedio_precio = cursor.fetchone()[0]

# Muestra el resultado
print(f"El promedio de los 20 {tipo_contrato.lower()} más baratos de {tipo_inmueble.lower()} en {ubicacion_inmueble} \n"
      f"con precios entre {monto_minimo} y {monto_maximo} \nes de {promedio_precio:.0f} pesos.")


# Cierra la conexión
conn.close()

El promedio de los 20 arriendo más baratos de departamentos en Puerto Montt 
con precios entre 500000 y 1300000 
es de 517000 pesos.


   b. `Mediana de comentarios en lugares cercanos`  
¿Cuál es la mediana de comentarios (user_ratings_total), de aquellos lugares cercanos, que tienen una valoración igual o superior a cuatro estrellas, y que corresponden a los 15 departamentos más baratos de la comuna?

In [52]:
# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta para calcular la mediana de comentarios
consulta_mediana = """
WITH top_departamentos AS (
    SELECT place_id 
    FROM inmuebles
    WHERE tipo_inmueble = ?  -- Filtra por tipo de inmueble
    ORDER BY valor_en_pesos ASC
    LIMIT 15
),
high_rated_lugares AS (
    SELECT 
        lugares_cercanos.user_ratings_total
    FROM 
        lugares_cercanos
    JOIN 
        top_departamentos ON lugares_cercanos.property_place_id = top_departamentos.place_id
    WHERE 
        lugares_cercanos.rating >= 4
)
SELECT 
    user_ratings_total
FROM 
    high_rated_lugares
ORDER BY 
    user_ratings_total
LIMIT 1 OFFSET (SELECT COUNT(*) FROM high_rated_lugares) / 2;
"""

# Ejecuta la consulta pasando la variable 'tipo_inmueble' como parámetro
cursor.execute(consulta_mediana, (tipo_inmueble,))
mediana_comentarios = cursor.fetchone()[0]

# Muestra el resultado
print(f"La mediana de los comentarios de lugares cercanos con calificación superior a 4 estrellas es: {mediana_comentarios}")

# Cierra la conexión
conn.close()

La mediana de los comentarios de lugares cercanos con calificación superior a 4 estrellas es: 76.0
