<a href="https://colab.research.google.com/github/Kurt-Casteg/Proyecto_Almacenamiento/blob/main/Trabajo_Final_ACD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabajo Final Almacenamiento y Captura de Datos


<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Profesor: Carlos Pérez Pizarro </em><br>

</div>

*10 de enero de 2025*

**Nombre Estudiantes**:  
    - Kurt Castro   
    - Camilo Rivera   
    - Cristhian Solís  
    - Sofía Vits

## Carga de librerías

In [1]:
!pip install -r requirements.txt

Collecting googlemaps (from -r requirements.txt (line 2))
  Using cached googlemaps-4.10.0.tar.gz (33 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: googlemaps
  Building wheel for googlemaps (setup.py): started
  Building wheel for googlemaps (setup.py): finished with status 'done'
  Created wheel for googlemaps: filename=googlemaps-4.10.0-py3-none-any.whl size=40747 sha256=6365a78e08014cb71080b1996da9593cfb393fc31607cf074953d990199be0ce
  Stored in directory: c:\users\csolis\appdata\local\pip\cache\wheels\d9\5f\46\54a2bdb4bcb07d3faba4463d2884865705914cc72a7b8bb5f0
Successfully built googlemaps
Installing collected packages: googlemaps
Successfully installed googlemaps-4.10.0


In [1]:
import pandas as pd
import googlemaps
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException, StaleElementReferenceException
from selenium.webdriver.chrome.options import Options
import sqlite3
import re
import logging
import random
from urllib.parse import urlparse

## Declaración de variables utilizadas

In [2]:
# Configuración de logging para rastrear errores
logging.basicConfig(level=logging.ERROR, format='%(asctime)s - %(levelname)s - %(message)s')

# Variables iniciales
api_key = "AIzaSyAD8KcMrw12UflO3by_ksvRV8YepNydkOo"
tipo_contrato = 'Arriendo'  # Venta, Arriendo o Arriendo temporal
tipo_inmueble = 'Casas'  # Departamentos, Casas u Oficinas.
ubicacion_inmueble = 'Puerto Montt'  # la comuna de la búsqueda
monto_minimo = 200000  # monto mínimo de la búsqueda
monto_maximo = 1200000 # monto máximo de la búsqueda
cant_paginas = 5  # número de páginas a recorrer
radio_busqueda = '300'  # radio (en metros) de búsqueda de lugares cercanos
busqueda_rubros = ['restaurant', 'supermarket']  # rubro de lugares cercanos

In [3]:
# # Configuración de Chrome en modo headless
chrome_options = Options()
#chrome_options.add_argument("--headless")  # Ejecuta en modo sin interfaz gráfica
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

## Webscraping portalinmobiliario

En esta sección se implementará el código para realizar webscraping de la página portalinmobiliario.com, utilizando Selenium para interactuar con dicha página web.

In [4]:
# Inicializar el navegador
try:
    driver = webdriver.Chrome(options=chrome_options)
    driver.get('https://www.portalinmobiliario.com/')
except WebDriverException as e:
    logging.error(f"Error al inicializar el navegador: {e}")
    exit()

In [5]:
def validar_parametros(tipo_contrato, tipo_inmueble):
    """
    Verifica que las variables inciales sean validas
    """    
    tipos_contrato_validos = ['Venta', 'Arriendo', 'Arriendo temporal']
    tipos_inmueble_validos = ['Departamentos', 'Casas', 'Oficinas']

    if tipo_contrato not in tipos_contrato_validos:
        raise ValueError(f"Error: El tipo de contrato '{tipo_contrato}' no es válido. Ajuste su variable inicial.")
    
    if tipo_inmueble not in tipos_inmueble_validos:
        raise ValueError(f"Error: El tipo de inmueble '{tipo_inmueble}' no es válido. Ajuste su variable inicial.")

    print("Parámetros de tipo de contrato y tipo de inmueble validados correctamente.")

In [6]:
def ingresar_comuna(wait, ubicacion_inmueble):
    """
    Verifica que sea una comuna encontrable en el portal
    """
    comuna_input = wait.until(EC.presence_of_element_located((By.ID, ":Rml5r:")))
    comuna_input.send_keys(ubicacion_inmueble)
    print(f"Comuna ingresada: {ubicacion_inmueble}")

    try:
        primera_recomendacion = wait.until(EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'andes-list__item-action')]")))
        texto_recomendacion = primera_recomendacion.text
        print("Primera recomendación seleccionada")
        print(f"Texto de la primera recomendación: {texto_recomendacion}")
        primera_recomendacion.click()
        return True
    except (NoSuchElementException, TimeoutException):
        logging.error(f"No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'.")
        print(f"Error: No se encontró ninguna coincidencia para la comuna '{ubicacion_inmueble}'. Ajuste su búsqueda.")
        raise ValueError(f"Comuna no válida: '{ubicacion_inmueble}'.")


In [7]:
# Función para cerrar el banner de cookies
def cerrar_banner_cookies():
    """
    Intenta cerrar el mensajes de Cookies.
    """    
    try:
        # Verificar si el elemento existe y es visible en el DOM
        cookie_button = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "newCookieDisclaimerButton"))
        )

        # Verificar si el botón es clickeable
        if cookie_button.is_displayed():
            cookie_button.click()
            print("Banner de cookies cerrado")
        else:
            print("El banner de cookies no está visible")
    except TimeoutException:
        print("No se encontró el banner de cookies")
    except Exception as e:
        logging.error(f"Error inesperado al intentar cerrar el banner de cookies: {e}")

In [8]:
def cerrar_mensaje_desplegable():
    """
    Intenta cerrar el mensajes desplegables.
    """
    try:
        print("Intentando cerrar el mensaje desplegable...")
        wait = WebDriverWait(driver, 2)  # Tiempo de espera reducido
        popper_close_button = wait.until(
            EC.element_to_be_clickable((By.XPATH, '//button[@aria-label="Close"]'))
        )
        popper_close_button.click()
        print("Mensaje desplegable cerrado con éxito.")
    except TimeoutException:
        print("No se encontró el mensaje desplegable. Continuando con la ejecución.")
    except Exception as e:
        print(f"Error inesperado al intentar cerrar el mensaje desplegable: {e}")

En esta sección se realizará la búsqueda de inmuebles para una comuna específica, seleccionando el tipo de contrato y de inmueble.

In [9]:
try:
    validar_parametros(tipo_contrato, tipo_inmueble)
    cerrar_banner_cookies()
    cerrar_mensaje_desplegable()

    wait = WebDriverWait(driver, 5)
    # Filtrar según botón de tipo contrato
    contrato_button = wait.until(EC.element_to_be_clickable((By.ID, ":R2l5r:-trigger")))
    contrato_button.click()
    print("Tipo de contrato")
    tipo_contrato_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_contrato}']")))
    tipo_contrato_opcion.click()
    print(f"Seleccionado: {tipo_contrato}")

    # Filtrar según botón de tipo inmueble
    inmueble_button = wait.until(EC.element_to_be_clickable((By.ID, ":R4l5r:-trigger")))
    inmueble_button.click()  # Hacer clic para abrir el dropdown de inmuebles
    print(f"Tipo de inmueble")
    tipo_inmueble_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_inmueble}']")))
    tipo_inmueble_opcion.click()
    print(f"Seleccionado: {tipo_inmueble}")

    # Ingresar comuna de búsqueda
    comuna_seleccionada = ingresar_comuna(wait, ubicacion_inmueble)

    # Si la comuna fue seleccionada correctamente, continuar con la búsqueda
    if comuna_seleccionada:
        # Buscar
        buscar_button = wait.until(EC.element_to_be_clickable((By.XPATH, "//span[text()='Buscar']")))
        buscar_button.click()
        print("Búsqueda realizada")
        time.sleep(2)

except ValueError as ve:
    logging.error(ve)
    print(ve)  # Mostrar el error de valor en consola
except NoSuchElementException as ns:
    logging.error(f"Error de búsqueda de elementos: {ns}")
except TimeoutException as te:
    logging.error(f"Error de tiempo de espera: {te}")
except Exception as e:
    logging.error(f"Error durante la configuración inicial de búsqueda: {e}")


Parámetros de tipo de contrato y tipo de inmueble validados correctamente.
Banner de cookies cerrado
Intentando cerrar el mensaje desplegable...
No se encontró el mensaje desplegable. Continuando con la ejecución.
Tipo de contrato
Seleccionado: Arriendo
Tipo de inmueble
Seleccionado: Casas
Comuna ingresada: Puerto Montt
Primera recomendación seleccionada
Texto de la primera recomendación: Puerto Montt, Los Lagos
Búsqueda realizada


En esta sección se aplicarán los filtros de precios mínimos y máximos, para delimitar el rango de precio a buscar.

In [10]:
try:
    cerrar_banner_cookies()
    cerrar_mensaje_desplegable()
    wait = WebDriverWait(driver, 5) 

    try:
        print("Intentando localizar el campo de monto mínimo...")
        monto_minimo_input = wait.until(
            EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Minimum-price"]'))
        )
        print("Campo de monto mínimo encontrado.")

        # Si se encuentra, proceder con la interacción
        if monto_minimo > 0 and monto_maximo > 0:
            monto_minimo_input.click()
            monto_minimo_input.clear()
            monto_minimo_input.send_keys(str(monto_minimo))
            print(f"Monto mínimo ingresado: {monto_minimo}")

            print("Intentando localizar el campo de monto máximo...")
            monto_maximo_input = wait.until(
                EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Maximum-price"]'))
            )
            monto_maximo_input.click()
            monto_maximo_input.clear()
            monto_maximo_input.send_keys(str(monto_maximo))
            print(f"Monto máximo ingresado: {monto_maximo}")

            print("Aplicando el filtro...")
            aplicar_button = wait.until(
                EC.element_to_be_clickable((By.XPATH, '//*[@data-testid="submit-price"]'))
            )
            aplicar_button.click()
            print("Filtro aplicado con éxito.")
        else:
            print("Error: El monto mínimo y/o máximo deben ser mayores que 0.")
    
    except TimeoutException:
        print("El campo de monto mínimo no está disponible. No se puede aplicar el filtro.")
        print("Es posible que no haya suficientes resultados para habilitar el filtro.")

except Exception as e:
    logging.error(f"Error al aplicar filtros de precio: {e}")
    # Guardar el HTML de la página para depuración
    with open("page_source_debug.html", "w", encoding="utf-8") as f:
        f.write(driver.page_source)
    print("Error localizado. Revisa el archivo 'page_source_debug.html'.")


No se encontró el banner de cookies
Intentando cerrar el mensaje desplegable...
Mensaje desplegable cerrado con éxito.
Intentando localizar el campo de monto mínimo...
Campo de monto mínimo encontrado.
Monto mínimo ingresado: 200000
Intentando localizar el campo de monto máximo...
Monto máximo ingresado: 1200000
Aplicando el filtro...
Filtro aplicado con éxito.


Función para buscar y extraer la URL de la variable buscada en todas las páginas que muestre el sitio web.

In [11]:
def extraer_url():
    try:
        datos_departamentos = []
        pagina_actual = 1

        print("Iniciando extracción de datos...")

        while pagina_actual <= cant_paginas:  # Limitar el número de páginas
            print(f"\nExtrayendo datos de la página {pagina_actual}...")

            # Extraer los enlaces de los departamentos
            try:
                wait = WebDriverWait(driver, 10)  # Usar tiempo de espera razonable.
                departamentos = wait.until(
                    EC.presence_of_all_elements_located(
                        (By.XPATH, "//a[contains(@class, 'poly-component__title')]")
                    )
                )
                # Extraer los enlaces
                for departamento in departamentos:
                    enlace = departamento.get_attribute("href")
                    if enlace:  # Verificar que el enlace no sea None.
                        datos_departamentos.append(enlace)

                # Imprimir cantidad de enlaces extraídos en la página actual
                print(f"Se encontraron {len(departamentos)} departamentos en la página {pagina_actual}.")
                print(f"Total acumulado de enlaces extraídos: {len(datos_departamentos)}")
            except TimeoutException:
                print("Error: No se encontraron departamentos en la página actual. Revisa el selector.")
                break

            # Navegar a la siguiente página
            try:
                siguiente_pagina = wait.until(
                    EC.element_to_be_clickable(
                        (By.XPATH, "//li[contains(@class, 'andes-pagination__button andes-pagination__button--next')]/a")
                    )
                )
                siguiente_pagina.click()
                time.sleep(5)  # Mantener el tiempo fijo para cargar correctamente.
                pagina_actual += 1
            except TimeoutException:
                print("No se encontró el botón de siguiente página. Posiblemente sea la última página.")
                break

        print(f"\nExtracción completa. Total de enlaces extraídos: {len(datos_departamentos)}")
        return datos_departamentos

    except Exception as e:
        print(f"Error crítico durante la extracción: {e}")
        return []

# Llamar a la función
datos_departamentos = extraer_url()

# Mostrar solo la cantidad total de datos extraídos
print(f"\nCantidad total de datos extraídos: {len(datos_departamentos)}")



Iniciando extracción de datos...

Extrayendo datos de la página 1...
Se encontraron 48 departamentos en la página 1.
Total acumulado de enlaces extraídos: 48

Extrayendo datos de la página 2...
Se encontraron 48 departamentos en la página 2.
Total acumulado de enlaces extraídos: 96

Extrayendo datos de la página 3...
Se encontraron 12 departamentos en la página 3.
Total acumulado de enlaces extraídos: 108
No se encontró el botón de siguiente página. Posiblemente sea la última página.

Extracción completa. Total de enlaces extraídos: 108

Cantidad total de datos extraídos: 108


Funciones requeridas para extraer los datos de los inmuebles de una comuna específica.

In [12]:
# Función para encontrar elementos de forma segura
def safe_find_element(driver, by, value, default="No disponible"):
    try:
        return driver.find_element(by, value).text
    except NoSuchElementException:
        return default


# Función para validar URLs
def is_valid_url(url):
    parsed = urlparse(url)
    return bool(parsed.netloc) and bool(parsed.scheme)


# Función principal para extraer datos
def extraer_datos_departamentos(datos_departamentos, driver, wait):
    dict_info = {}
    failed_urls = []

    for href in datos_departamentos:
        # Validar URL
        if not is_valid_url(href):
            logging.error(f"URL inválida: {href}")
            continue

        try:
            # Navegar a la URL
            driver.get(href)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, "ui-pdp-title")))

            # Extraer información
            titulo = safe_find_element(driver, By.CLASS_NAME, "ui-pdp-title", "Título no disponible")
            direccion = safe_find_element(driver, By.CSS_SELECTOR, "div.ui-vip-location__subtitle p", "Dirección no disponible")

            # Extraer precio y moneda
            try:
                contenedor_precio = driver.find_element(By.CLASS_NAME, "andes-money-amount")
                meta_precio = contenedor_precio.find_element(By.XPATH, ".//meta[@itemprop='price']")
                valor = meta_precio.get_attribute("content")
                simbolo_moneda = contenedor_precio.text.split()[0]  # Extraer el símbolo desde el texto completo
                moneda = "UF" if "UF" in simbolo_moneda else "$"
            except Exception as e:
                moneda, valor = "Error", "Error"
                logging.error(f"Error al procesar precio en {href}: {e}")

            # Guardar en el diccionario
            if href not in dict_info:
                dict_info[href] = { "titulo": titulo, 
                                    "direccion": direccion, 
                                    "moneda": moneda, 
                                    "valor": valor,
                                    "tipo_inmueble": tipo_inmueble,
                                    "tipo_contrato": tipo_contrato}
            else:
                logging.warning(f"URL duplicada detectada: {href}")

        except TimeoutException:
            logging.warning(f"Tiempo de espera excedido para la URL: {href}")
            failed_urls.append(href)
        except Exception as e:
            logging.error(f"Error al procesar {href}: {e}")
            dict_info[href] = {"titulo": "Error al obtener título", "direccion": "Error", "moneda": "Error", "valor": "Error", "tipo_inmueble": "Error", "tipo_contrato": "Error"}
            failed_urls.append(href)

        # Pausa aleatoria para evitar bloqueo
        time.sleep(random.uniform(2, 5))

    # Guardar URLs fallidas en un archivo
    if failed_urls:
        with open("errores.txt", "w") as f:
            for url in failed_urls:
                f.write(url + "\n")

    # Crear un DataFrame con los datos extraídos
    df = pd.DataFrame.from_dict(dict_info, orient='index').reset_index()
    df.columns = ['pag', 'titulo', 'direccion', 'moneda', 'valor', 'tipo_inmueble', 'tipo_contrato']

    print("\nDatos extraídos desde portalinmobiliario")
    print(df)

    return df


Creación del dataframe con los datos obtenidos para un tipo de inmueble específico.

In [13]:
df = extraer_datos_departamentos(datos_departamentos, driver, wait)


Datos extraídos desde portalinmobiliario
                                                   pag  \
0    https://portalinmobiliario.com/MLC-1538452407-...   
1    https://portalinmobiliario.com/MLC-2820614566-...   
2    https://portalinmobiliario.com/MLC-1567266697-...   
3    https://portalinmobiliario.com/MLC-2814346154-...   
4    https://portalinmobiliario.com/MLC-1564977193-...   
..                                                 ...   
103  https://portalinmobiliario.com/MLC-1555368635-...   
104  https://portalinmobiliario.com/MLC-1559054939-...   
105  https://portalinmobiliario.com/MLC-2827698858-...   
106  https://portalinmobiliario.com/MLC-1561380263-...   
107  https://portalinmobiliario.com/MLC-2824939584-...   

                                                titulo  \
0    Casa En Condominio Altos Del Bosque, Valle Vol...   
1    Arriendo Casa Amplia 4d/2b Valle Volcanes, Pue...   
2     Arrienda Casa De 3 Dormitorios En Jardín Oriente   
3                           J

## Webscraping del valor diario de la UF

Obtención del valor diario de la unidad de fomento, necesario para convertir los valores de inmuebles en UF a pesos chilenos.

In [14]:
# Inicializar el navegador
driver2 = webdriver.Chrome(options=chrome_options)
url = "https://valoruf.cl/"
driver2.get(url)

try:
    # Buscar el elemento que contiene el valor de la UF usando su clase 'vpr'
    uf_element = driver2.find_element(By.CLASS_NAME, "vpr")
    valor_uf_texto = uf_element.text  # Extraer el texto del elemento
    print(f"El valor de la UF al día de hoy es: {valor_uf_texto}")

    # Convertir el valor al formato numérico
    valor_uf_numerico = float(valor_uf_texto.replace("$", "").replace(".", "").replace(",", ".").strip())

finally:
    # Cerrar el navegador
    driver2.quit()

El valor de la UF al día de hoy es: $ 38.438,98


In [15]:
valor_uf_numerico

38438.98

## Generación de DF con valores estandarizados

Se realiza operaciones utilizando información capturada desde el portal inmobiliario y valoruf para estandarizar el valor de la moneda de los anuncios a pesos chilenos, utilizando un valor al dia de la UF

In [16]:
# Verificación tipos de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108 entries, 0 to 107
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   pag            108 non-null    object
 1   titulo         108 non-null    object
 2   direccion      108 non-null    object
 3   moneda         108 non-null    object
 4   valor          108 non-null    object
 5   tipo_inmueble  108 non-null    object
 6   tipo_contrato  108 non-null    object
dtypes: object(7)
memory usage: 6.0+ KB


In [17]:
# Limpia la columna 'valor' para asegurar que sea numérica
df['valor'] = df['valor'].astype(str).str.replace(",", "").str.replace(".", "").str.strip()
# Convierte 'valor' a float para cálculos numéricos
df['valor'] = pd.to_numeric(df['valor'], errors='coerce')
# Verifica si hay valores NaN en la columna 'valor' después de la conversión
if df['valor'].isnull().any():
    print("Hay valores no numéricos en la columna 'valor'. Estos serán tratados como NaN.")
# Realiza la conversión considerando UF o pesos
df['valor_en_pesos'] = df.apply(
    lambda row: row['valor'] * valor_uf_numerico if row['moneda'] == 'UF' else row['valor'] if row['moneda'] == '$' else None,
    axis=1
)

# Crea una copia filtrada solo con las filas donde la moneda sea 'UF' para verificar
df_uf = df[df['moneda'] == 'UF'].copy()
print(df_uf.head())
print("\n")
df.info()

                                                  pag  \
4   https://portalinmobiliario.com/MLC-1564977193-...   
24  https://portalinmobiliario.com/MLC-1563278639-...   
39  https://portalinmobiliario.com/MLC-1566837883-...   
40  https://portalinmobiliario.com/MLC-1566858395-...   
42  https://portalinmobiliario.com/MLC-1566869075-...   

                                               titulo  \
4    Casa Nueva Sector Santuario De La Laguna (67881)   
24  Casa Nueva Excelente Sector De Puerto Montt (6...   
39  Se Arrienda Casa, 3 Dormitorios, Chaqueihua Tr...   
40  Se Vende Casa, 3 Dormitorios, La Colonia, Aler...   
42                   Se Arrienda Casa En Puerto Montt   

                                            direccion moneda  valor  \
4   Casa Nueva Sector Santuario De La Laguna, Puer...     UF     20   
24  Casa Nueva Sector Santuario De La Laguna, Puer...     UF     19   
39  Gv84+6w, San Antonio, Puerto Montt, Puerto Mon...     UF   1850   
40  Col. Alerce, Alerce, Puert

## Función para limpiar las direcciones

En esta sección se limpiarán las direcciones que estén escritas como un rango y no como una dirección exacta.

In [18]:
def process_address(address):
    # Expresión regular para detectar rangos como "1200 – 1800" o "1200-1800"
    match = re.search(r'(\d+)\s*[–\-]\s*(\d+)', address)
    if match:
        # Extraer los límites del rango
        start, end = map(int, match.groups())
        # Calcular el punto medio del rango
        midpoint = (start + end) // 2
        # Reemplazar el rango con el punto medio en la dirección
        address = re.sub(r'(\d+\s*[–\-]\s*\d+)', str(midpoint), address)
    return address

# Aplicar la función a la columna 'direccion'
df['direccion_procesada'] = df['direccion'].apply(process_address)


In [19]:
df.head()

Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato,valor_en_pesos,direccion_procesada
0,https://portalinmobiliario.com/MLC-1538452407-...,"Casa En Condominio Altos Del Bosque, Valle Vol...","Volcán Choshuenco 5111, Mirasol de Puerto Mont...",$,950000,Casas,Arriendo,950000.0,"Volcán Choshuenco 5111, Mirasol de Puerto Mont..."
1,https://portalinmobiliario.com/MLC-2820614566-...,"Arriendo Casa Amplia 4d/2b Valle Volcanes, Pue...","Los Trigales, Puerto Montt, La Paloma, Puerto ...",$,785000,Casas,Arriendo,785000.0,"Los Trigales, Puerto Montt, La Paloma, Puerto ..."
2,https://portalinmobiliario.com/MLC-1567266697-...,Arrienda Casa De 3 Dormitorios En Jardín Oriente,"Espino Blanco, Puerto Montt, La Paloma, Puerto...",$,550000,Casas,Arriendo,550000.0,"Espino Blanco, Puerto Montt, La Paloma, Puerto..."
3,https://portalinmobiliario.com/MLC-2814346154-...,Jardin Austral Amplia Casa,"Laguna Verde 2036, Llanquihue, Puerto Montt, P...",$,680000,Casas,Arriendo,680000.0,"Laguna Verde 2036, Llanquihue, Puerto Montt, P..."
4,https://portalinmobiliario.com/MLC-1564977193-...,Casa Nueva Sector Santuario De La Laguna (67881),"Casa Nueva Sector Santuario De La Laguna, Puer...",UF,20,Casas,Arriendo,768779.6,"Casa Nueva Sector Santuario De La Laguna, Puer..."


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108 entries, 0 to 107
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  108 non-null    object 
 1   titulo               108 non-null    object 
 2   direccion            108 non-null    object 
 3   moneda               108 non-null    object 
 4   valor                108 non-null    int64  
 5   tipo_inmueble        108 non-null    object 
 6   tipo_contrato        108 non-null    object 
 7   valor_en_pesos       108 non-null    float64
 8   direccion_procesada  108 non-null    object 
dtypes: float64(1), int64(1), object(7)
memory usage: 7.7+ KB


## Geocoding API de Google para obtener latitud, longitud y place_id

En esta sección se utilizará la API Geocoding de Google para obtener el place_id, latitud y longitud correspondiente a un inmueble específico.

In [21]:
api_key = "AIzaSyBmfjPJS7gJTavidD4nG1spfPm5I5pVqJk" # Api Camilo para no gastar la de Kurt

In [23]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones en 'direccion_procesada' y agregar las columnas al DataFrame
df['latitude'], df['longitude'], df['place_id'] = zip(*df['direccion_procesada'].apply(geocode_address))


In [24]:
df.to_csv('df.csv', index=False)

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108 entries, 0 to 107
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   pag                  108 non-null    object 
 1   titulo               108 non-null    object 
 2   direccion            108 non-null    object 
 3   moneda               108 non-null    object 
 4   valor                108 non-null    int64  
 5   tipo_inmueble        108 non-null    object 
 6   tipo_contrato        108 non-null    object 
 7   valor_en_pesos       108 non-null    float64
 8   direccion_procesada  108 non-null    object 
 9   latitude             108 non-null    float64
 10  longitude            108 non-null    float64
 11  place_id             108 non-null    object 
dtypes: float64(3), int64(1), object(8)
memory usage: 10.2+ KB


## Extrae los lugares cercanos, además del user_ratings_total

En esta sección se utiizará la API Places de Google para localizar lugares cercanos a los inmuebles obtenidos mediante webscraping.

In [25]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

# Función para obtener lugares cercanos
def get_nearby_places(location, radius, place_types, property_place_id):
    nearby_places = []
    try:
        for place_type in place_types:
            # Llama a la API de Places Nearby Search para cada tipo
            places_result = gmaps.places_nearby(location=location, radius=radius, type=place_type)

            # Verifica si hay resultados
            if 'results' in places_result:
                for place in places_result['results']:
                    # Extraer los datos con manejo de ausencia de campos
                    nearby_places.append({
                        'property_place_id': property_place_id,  # Identificador de la propiedad original
                        'nearby_place_id': place.get('place_id'),  # Identificador del lugar cercano
                        'name': place.get('name'),
                        'address': place.get('vicinity', 'Dirección no disponible'),
                        'place_type': place.get('types', ['Tipo no disponible'])[0],  # Primer tipo del lugar
                        'rating': place.get('rating', None),
                        'user_ratings_total': place.get('user_ratings_total', None)
                    })
            else:
                print(f"No se encontraron resultados para la ubicación {location}, tipo: {place_type}")
    except Exception as e:
        print(f"Error obteniendo lugares cercanos para {location}, tipos: {place_types}: {e}")
    return nearby_places

# Función para geocodificar direcciones procesadas
def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocodificar las direcciones procesadas en 'direccion_procesada' y agregar latitud, longitud y place_id al DataFrame
df['latitude'], df['longitude'], df['place_id'] = zip(*df['direccion_procesada'].apply(geocode_address))

# Procesar datos de un DataFrame
def process_places_dataframe(df, radio_busqueda, busqueda_rubros):
    nearby_places_data = []

    for index, row in df.iterrows():
        if pd.notna(row.get('latitude')) and pd.notna(row.get('longitude')):
            # Construye la coordenada de la ubicación
            location = f"{row['latitude']},{row['longitude']}"
            # Busca lugares cercanos
            nearby_places = get_nearby_places(location, radio_busqueda, busqueda_rubros, row['place_id'])

            # Agregar los resultados al DataFrame
            nearby_places_data.extend(nearby_places)

    # Crear DataFrame con los lugares cercanos
    result_df = pd.DataFrame(nearby_places_data, columns=['property_place_id', 'nearby_place_id', 'name', 'address', 'place_type', 'rating', 'user_ratings_total'])

    # Filtrar los resultados para incluir solo los rubros buscados
    return result_df[result_df['place_type'].isin(busqueda_rubros)]

# Definir radio de búsqueda y rubros
radio_busqueda = 500  # Radio en metros
busqueda_rubros = ['restaurant', 'store'] 

# Llamar la función para obtener lugares cercanos
nearby_places_df = process_places_dataframe(df, radio_busqueda, busqueda_rubros)

# Muestra el DataFrame resultante
nearby_places_df.head()


Unnamed: 0,property_place_id,nearby_place_id,name,address,place_type,rating,user_ratings_total
0,ChIJeTgM-pk7GJYRS1L7Mhr0EfU,ChIJLTfWPgA7GJYRKzMMGWiHNCA,El Antojo,"Avenida Presidente Ibáñez, Volcán Choshuenco &...",restaurant,5.0,1.0
1,ChIJeTgM-pk7GJYRS1L7Mhr0EfU,ChIJe30zZZQ7GJYRhg-lOUJ0icU,Kaimy Sushi,"Volcán Osorno Mirasol, Puerto Montt",restaurant,,
2,ChIJeTgM-pk7GJYRS1L7Mhr0EfU,ChIJKRbspJA7GJYRbReo6xxnD7U,El Chef,"Avenida Los Notros 750, Puerto Montt, Puerto M...",restaurant,4.4,343.0
3,ChIJeTgM-pk7GJYRS1L7Mhr0EfU,ChIJg0sxbJc7GJYRaVVJjyQ8uKM,Soto Rivera Oscar Mauricio,"Avenida Los Notros 502, Puerto Montt, Puerto M...",restaurant,3.5,4.0
4,ChIJeTgM-pk7GJYRS1L7Mhr0EfU,ChIJ_R4wnD47GJYRUqd45YDabZs,Bon Appétit II / VEG UP,Puerto Montt,restaurant,4.3,9.0


In [26]:
nearby_places_df.info() # Visualizar columnas del segundo dataframe para la base de datos

<class 'pandas.core.frame.DataFrame'>
Index: 1421 entries, 0 to 2863
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   property_place_id   1421 non-null   object 
 1   nearby_place_id     1421 non-null   object 
 2   name                1421 non-null   object 
 3   address             1421 non-null   object 
 4   place_type          1421 non-null   object 
 5   rating              1114 non-null   float64
 6   user_ratings_total  1114 non-null   float64
dtypes: float64(2), object(5)
memory usage: 88.8+ KB


In [39]:
nearby_places_df_subset.info() # Visualizar columnas del segundo dataframe para la base de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   property_place_id   0 non-null      object
 1   nearby_place_id     0 non-null      object
 2   name                0 non-null      object
 3   address             0 non-null      object
 4   place_type          0 non-null      object
 5   rating              0 non-null      object
 6   user_ratings_total  0 non-null      object
dtypes: object(7)
memory usage: 124.0+ bytes


In [27]:
# # Exporta a un archivo csv
nearby_places_df.to_csv('nearby_places.csv', index=False)

## Creación base de datos

Luego de obtener los datos de la página portalinmobiliario.com mediante webscraping y los datos de latitud, longitud y lugares cercanos mediante el uso de las APIs Geocoding y Places de Google, se creará el esquema de la base de datos que almacenará la información obtenida.

In [45]:
# Conexión con la base de datos
conn = sqlite3.connect('portal_inmobiliario_2.db')
cursor = conn.cursor()

# Crear la tabla 'inmuebles' si no existe
cursor.execute("""
DROP TABLE IF EXISTS inmuebles;
""")
cursor.execute("""
CREATE TABLE inmuebles (
    pag TEXT,
    titulo TEXT,
    direccion TEXT,
    moneda TEXT,
    valor INTEGER,
    tipo_inmueble TEXT,
    tipo_contrato TEXT,
    valor_en_pesos FLOAT,
    direccion_procesada TEXT,
    latitude REAL,
    longitude REAL,
    place_id TEXT PRIMARY KEY
);
""")

# Crear la tabla 'lugares_cercanos' si no existe
cursor.execute("""
DROP TABLE IF EXISTS lugares_cercanos;
""")
cursor.execute("""
CREATE TABLE lugares_cercanos (
    property_place_id TEXT,
    nearby_place_id TEXT,
    name TEXT,
    address TEXT,
    place_type TEXT,
    rating REAL,
    user_ratings_total REAL,
    PRIMARY KEY (property_place_id, nearby_place_id)
);
""")

# Commit para asegurar que las tablas se hayan creado
conn.commit()

In [None]:
# Conexión a la base de datos SQLite (se crea si no existe)  ANTERIOR
conn = sqlite3.connect('portal_inmobiliario.db')

# Crear un cursor para ejecutar comandos SQL
cursor = conn.cursor()


# Definir el esquema de la base de datos
esquema_sql = """
BEGIN TRANSACTION;

-- Tabla de inmuebles
DROP TABLE IF EXISTS inmuebles;
CREATE TABLE inmuebles (
    place_id TEXT PRIMARY KEY,  -- Identificador único de lugar (Google Places)
    pag TEXT,                   -- Página del inmueble
    titulo TEXT,                -- Título del inmueble
    direccion TEXT,             -- Dirección del inmueble
    moneda TEXT,                -- Moneda del precio
    valor INTEGER,              -- Valor en peso o UF
    tipo_inmueble TEXT,         -- Tipo de inmueble (ej. Departamentos)
    tipo_contrato TEXT,         -- Tipo contrato (ej. Arriendo)
    valor_en_pesos INTEGER,     -- Valor convertido a pesos
    latitude REAL,              -- Latitud
    longitude REAL              -- Longitud
);

-- Tabla de lugares cercanos
DROP TABLE IF EXISTS lugares;
CREATE TABLE lugares (
    property_place_id TEXT,           -- Identificador único del inmueble al que está asociado
    nearby_place_id TEXT PRIMARY KEY, -- Identificador único del lugar cercano (Google Places)
    name TEXT,                        -- Nombre del lugar cercano
    address TEXT,                     -- Dirección del lugar cercano
    place_type TEXT,                  -- Tipo de lugar cercano (ej. Restaurante)
    rating REAL,                      -- Calificación del lugar
    user_ratings_total INTEGER,       -- Total de calificaciones del lugar
    FOREIGN KEY (property_place_id) REFERENCES inmuebles (place_id) -- Relación con inmuebles
);
COMMIT;
"""

# Ejecutar el esquema SQL
cursor.executescript(esquema_sql)

# Cerrar la conexión
conn.close()

## Carga de los datos obtenidos

In [46]:
# Cargar el DataFrame y exportarlo
df = pd.read_csv(r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\df.csv')
df_lugares_cercanos = pd.read_csv(r'C:\Users\csolis\OneDrive - Nutreco Nederland B.V\Desktop\Proyecto_Almacenamiento\nearby_places.csv')

# Exportar el DataFrame a la tabla 'lugares_cercanos' en la base de datos
df.to_sql('inmuebles', conn, if_exists='replace', index=False)
print("Datos de inmuebles agregados correctamente a la base de datos.")
df_lugares_cercanos.to_sql('lugares_cercanos', conn, if_exists='replace', index=False)
print("Datos de lugares cercanos agregados correctamente a la base de datos.")

Datos de inmuebles agregados correctamente a la base de datos.
Datos de lugares cercanos agregados correctamente a la base de datos.


In [47]:
# Verificar los datos en la tabla 'inmuebles'
print("Datos de la tabla 'inmuebles':")
cursor.execute("SELECT * FROM inmuebles LIMIT 5;")
for row in cursor.fetchall():
    print(row)

# Verificar los datos en la tabla 'lugares_cercanos'
print("\nDatos de la tabla 'lugares_cercanos':")
cursor.execute("SELECT * FROM lugares_cercanos LIMIT 5;")
for row in cursor.fetchall():
    print(row)

# Cerrar la conexión
conn.close()

Datos de la tabla 'inmuebles':
('https://portalinmobiliario.com/MLC-1538452407-casa-en-condominio-altos-del-bosque-valle-volcanes-_JM#polycard_client=search-nordic&position=1&search_layout=grid&type=item&tracking_id=72a87fda-b3af-4ae5-828c-02e55637169e', 'Casa En Condominio Altos Del Bosque, Valle Volcanes', 'Volcán Choshuenco 5111, Mirasol de Puerto Montt, Puerto Montt, Los Lagos', '$', 950000, 'Casas', 'Arriendo', 950000.0, 'Volcán Choshuenco 5111, Mirasol de Puerto Montt, Puerto Montt, Los Lagos', -41.4787262, -72.9751447, 'ChIJeTgM-pk7GJYRS1L7Mhr0EfU')
('https://portalinmobiliario.com/MLC-2820614566-arriendo-casa-amplia-4d2b-valle-volcanes-puerto-montt-_JM#polycard_client=search-nordic&position=2&search_layout=grid&type=item&tracking_id=72a87fda-b3af-4ae5-828c-02e55637169e', 'Arriendo Casa Amplia 4d/2b Valle Volcanes, Puerto Montt', 'Los Trigales, Puerto Montt, La Paloma, Puerto Montt, Los Lagos', '$', 785000, 'Casas', 'Arriendo', 785000.0, 'Los Trigales, Puerto Montt, La Paloma, P

In [28]:
# Conexión a la base de datos SQLite ANTERIOR
conn = sqlite3.connect('portal_inmobiliario.db')

# Guardar los DataFrames en la base de datos
df.to_sql('inmuebles', conn, if_exists='replace', index=False)
nearby_places_df.to_sql('lugares', conn, if_exists='replace', index=False)
print("Datos insertados correctamente.")

# Cerrar la conexión
conn.close()

## Consultas

Las consultas a realizar son:

¿Cuál es el valor promedio de los veinte arriendos de departamento más baratos de la comuna?


In [37]:
# Define las variables para filtrar ANTERIOR BASE
tipo_contrato = 'Arriendo' # venta, arriendo o arriendo_temporal
tipo_inmueble = 'Departamentos' # dpto, casa u oficina.

# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta actualizada para filtrar por tipo de inmueble y tipo de contrato
consulta_promedio = """
SELECT
    AVG(valor_en_pesos) AS promedio_precio
FROM (
    SELECT
        valor_en_pesos
    FROM
        inmuebles
    WHERE
        tipo_inmueble = ? AND
        tipo_contrato = ?
    ORDER BY
        valor_en_pesos ASC
    LIMIT 20
);
"""

# Ejecuta la consulta pasando las variables como parámetros
cursor.execute(consulta_promedio, (tipo_inmueble, tipo_contrato))
promedio_precio = cursor.fetchone()[0]

# Muestra el resultado
print(f"El promedio de los 20 arriendos más baratos es: {promedio_precio}")

# Cierra la conexión
conn.close()

El promedio de los 20 arriendos más baratos es: None


In [48]:
#TEST
# Define las variables para filtrar
tipo_contrato = 'Arriendo'  # venta, arriendo o arriendo_temporal
tipo_inmueble = 'Casas'  # dpto, casa u oficina
ubicacion_inmueble = 'Puerto Montt'  # comuna de la búsqueda
monto_minimo = 500000  # monto mínimo de la búsqueda
monto_maximo = 900000 # monto máximo de la búsqueda

# Conexión a la nueva base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario_2.db')
cursor = conn.cursor()

# Consulta actualizada para filtrar por tipo de inmueble, tipo de contrato, ubicación y rango de precios
consulta_promedio = """
SELECT
    AVG(valor_en_pesos) AS promedio_precio
FROM (
    SELECT
        valor_en_pesos
    FROM
        inmuebles
    WHERE
        tipo_inmueble = ? AND
        tipo_contrato = ? AND
        direccion_procesada LIKE ? AND
        valor_en_pesos BETWEEN ? AND ?
    ORDER BY
        valor_en_pesos ASC
    LIMIT 20
);
"""

# Ejecuta la consulta pasando las variables como parámetros
cursor.execute(consulta_promedio, (tipo_inmueble, tipo_contrato, f"%{ubicacion_inmueble}%", monto_minimo, monto_maximo))
promedio_precio = cursor.fetchone()[0]

# Muestra el resultado
if promedio_precio:
    print(f"El promedio de los 20 {tipo_contrato.lower()}s más baratos en {tipo_inmueble.lower()} en {ubicacion_inmueble} es: {promedio_precio}")
else:
    print(f"No se encontraron resultados para los criterios especificados.")

# Cierra la conexión
conn.close()


El promedio de los 20 arriendos más baratos en casas en Puerto Montt es: 546500.0



¿Cuál es la mediana de comentarios (user_ratings_total), de aquellos lugares cercanos, que tienen una valoración igual o superior a cuatro estrellas, y que corresponden a los 15 departamentos más baratos de la comuna?

In [54]:
tipo_inmueble = 'Departamentos' # dpto, casa u oficina.

# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta para calcular la mediana de comentarios
consulta_mediana = """
WITH top_departamentos AS (
    SELECT place_id 
    FROM inmuebles
    WHERE tipo_inmueble = ?
    ORDER BY valor_en_pesos ASC
    LIMIT 15
),
high_rated_lugares AS (
    SELECT 
        lugares.user_ratings_total
    FROM 
        lugares
    JOIN 
        top_departamentos ON lugares.property_place_id = top_departamentos.place_id
    WHERE 
        lugares.rating >= 4
)
SELECT 
    user_ratings_total
FROM 
    high_rated_lugares
ORDER BY 
    user_ratings_total
LIMIT 1 OFFSET (SELECT COUNT(*) FROM high_rated_lugares) / 2;
"""

# Ejecuta la consulta pasando la variable 'Departamento' como parámetro
cursor.execute(consulta_mediana, (tipo_inmueble,))
mediana_comentarios = cursor.fetchone()[0]

# Muestra el resultado
print(f"Mediana de comentarios para lugares cercanos: {mediana_comentarios}")

# Cierra la conexión
conn.close()

Mediana de comentarios para lugares cercanos: 14.0
