<a href="https://colab.research.google.com/github/Kurt-Casteg/Proyecto_Almacenamiento/blob/main/Trabajo_Final_ACD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabajo Final Almacenamiento y Captura de Datos


<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Profesor: Carlos Pérez Pizarro </em><br>

</div>

*10 de enero de 2025*

**Nombre Estudiantes**:  
    - Kurt Castro   
    - Camilo Rivera   
    - Cristhian Solís  
    - Sofía Vits

## Carga de librerías

In [1]:
!pip install -r requirements.txt



In [24]:
import pandas as pd
import googlemaps
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException, StaleElementReferenceException
from selenium.webdriver.chrome.options import Options
import sqlite3
import re
import logging
import random
from urllib.parse import urlparse

## Declaración de variables utilizadas

In [25]:
# Configuración de logging para rastrear errores
logging.basicConfig(level=logging.ERROR, format='%(asctime)s - %(levelname)s - %(message)s')

# Variables iniciales
api_key = "AIzaSyAD8KcMrw12UflO3by_ksvRV8YepNydkOo"
tipo_contrato = 'Arriendo'  # Venta, Arriendo o Arriendo temporal
tipo_inmueble = 'Departamentos'  # Departamentos, Casas u Oficinas.
ubicacion_inmueble = 'Chillan'  # la comuna de la búsqueda
monto_minimo = 100000  # monto mínimo de la búsqueda
monto_maximo = 15000000  # monto máximo de la búsqueda
cant_paginas = 100  # número de páginas a recorrer
radio_busqueda = '300'  # radio (en metros) de búsqueda de lugares cercanos
busqueda_rubros = ['restaurante', 'supermercado']  # rubro de lugares cercanos

In [26]:
# # Configuración de Chrome en modo headless
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecuta en modo sin interfaz gráfica
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

## Webscraping portalinmobiliario

En esta sección se implementará el código para realizar webscraping de la página portalinmobiliario.com, utilizando Selenium para interactuar con dicha página web.

In [27]:
# Inicializar el navegador
try:
    driver = webdriver.Chrome(options=chrome_options)
    driver.get('https://www.portalinmobiliario.com/')
except WebDriverException as e:
    logging.error(f"Error al inicializar el navegador: {e}")
    exit()

In [28]:
# Función para cerrar el banner de cookies
def cerrar_banner_cookies():
    try:
        # Verificar si el elemento existe y es visible en el DOM
        cookie_button = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "newCookieDisclaimerButton"))
        )

        # Verificar si el botón es clickeable
        if cookie_button.is_displayed():
            cookie_button.click()
            print("Banner de cookies cerrado")
        else:
            print("El banner de cookies no está visible")
    except TimeoutException:
        print("No se encontró el banner de cookies")
    except Exception as e:
        logging.error(f"Error inesperado al intentar cerrar el banner de cookies: {e}")

En esta sección se realizará la búsqueda de inmuebles para una comuna específica, seleccionando el tipo de contrato y de inmueble.

In [29]:
try:
    cerrar_banner_cookies()
    wait = WebDriverWait(driver, 5)
    # Filtrar según botón de tipo contrato
    contrato_button = wait.until(EC.element_to_be_clickable((By.ID, ":R2l5r:-trigger")))
    contrato_button.click()
    print("Tipo de contrato")
    tipo_contrato_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_contrato}']")))
    tipo_contrato_opcion.click()
    print(f"Seleccionado: {tipo_contrato}")

    # Filtrar según botón de tipo inmueble
    inmueble_button = wait.until(EC.element_to_be_clickable((By.ID, ":R4l5r:-trigger")))
    inmueble_button.click()  # Hacer clic para abrir el dropdown de inmuebles
    print(f"Tipo de inmueble")
    tipo_inmueble_opcion = wait.until(EC.element_to_be_clickable((By.XPATH, f"//span[text()='{tipo_inmueble}']")))
    tipo_inmueble_opcion.click()
    print(f"Seleccionado: {tipo_inmueble}")

    # Ingresar comuna de búsqueda
    comuna_input = wait.until(EC.presence_of_element_located((By.ID, ":Rml5r:")))
    comuna_input.send_keys(ubicacion_inmueble)
    print(f"Comuna ingresada: {ubicacion_inmueble}")

    # Usar la primera recomendación
    primera_recomendacion = wait.until(EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'andes-list__item-action')]")))
    texto_recomendacion = primera_recomendacion.text
    print("Primera recomendación seleccionada")
    print(f"Texto de la primera recomendación: {texto_recomendacion}")
    primera_recomendacion.click()

    # Buscar
    buscar_button = wait.until(EC.element_to_be_clickable((By.XPATH, "//span[text()='Buscar']")))
    buscar_button.click()
    print("Búsqueda realizada")
    time.sleep(2)

except Exception as e:
    logging.error(f"Error durante la configuración inicial de búsqueda: {e}")

Banner de cookies cerrado
Tipo de contrato
Seleccionado: Arriendo
Tipo de inmueble
Seleccionado: Departamentos
Comuna ingresada: Chillan
Primera recomendación seleccionada
Texto de la primera recomendación: Chillán, Ñuble
Búsqueda realizada


En esta sección se aplicarán los filtros de precios mínimos y máximos, para delimitar el rango de precio a buscar.

In [30]:
try:
    # Verificar que los montos sean mayores que 0
    if monto_minimo > 0 and monto_maximo > 0:
        cerrar_banner_cookies()
        wait = WebDriverWait(driver, 2)

        # Esperar y localizar el campo de "Monto mínimo" por su data-testid
        monto_minimo_input = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Minimum-price"]')))

        # Hacer clic para activar el campo, limpiarlo e ingresar el valor
        monto_minimo_input.click()
        monto_minimo_input.clear()  # Limpiar el campo antes de ingresar un valor
        monto_minimo_input.send_keys(str(monto_minimo))  # Ingresar monto mínimo
        print(f"Monto mínimo ingresado: {monto_minimo}")

        # Esperar y localizar el campo de "Monto máximo" por su data-testid
        monto_maximo_input = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@data-testid="Maximum-price"]')))

        # Hacer clic para activar el campo, limpiarlo e ingresar el valor
        monto_maximo_input.click()
        monto_maximo_input.clear()  # Limpiar el campo antes de ingresar un valor
        monto_maximo_input.send_keys(str(monto_maximo))  # Ingresar monto máximo
        print(f"Monto máximo ingresado: {monto_maximo}")

        # Esperar y localizar el botón de "Aplicar" por su data-testid
        aplicar_button = wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@data-testid="submit-price"]')))
        # Hacer clic en el botón para aplicar el filtro
        aplicar_button.click()
        print("Filtro aplicado con éxito")

    else:
        print("Error: El monto mínimo y/o máximo deben ser mayores que 0.")

except Exception as e:
    logging.error(f"Error al aplicar filtros de precio: {e}")

No se encontró el banner de cookies
Monto mínimo ingresado: 100000
Monto máximo ingresado: 15000000
Filtro aplicado con éxito


Función para buscar y extraer la URL de la variable buscada en todas las páginas que muestre el sitio web.

In [31]:
def extraer_url():
    try:
        datos_departamentos = []
        pagina_actual = 1

        print("Iniciando extracción de datos...")

        while pagina_actual <= cant_paginas:  # Limitar el número de páginas
            print(f"Extrayendo datos de la página {pagina_actual}...")

            # Extraer los enlaces de los departamentos
            try:
                departamentos = wait.until(
                    EC.presence_of_all_elements_located(
                        (By.XPATH, "//div[@class='poly-card__content']//h2[@class='poly-box poly-component__title']//a")
                    )
                )
                for departamento in departamentos:
                    enlace = departamento.get_attribute("href")
                    datos_departamentos.append(enlace)
                print(f"Se encontraron {len(departamentos)} departamentos en la página {pagina_actual}.")
            except TimeoutException:
                print("Error: No se encontraron departamentos en la página actual.")
                break

            # Intentar navegar a la siguiente página
            try:
                siguiente_pagina = wait.until(
                    EC.element_to_be_clickable(
                        (By.XPATH, "//li[contains(@class, 'andes-pagination__button andes-pagination__button--next')]/a")
                    )
                )
                siguiente_pagina.click()
                time.sleep(5)  # Esperar a que se cargue la nueva página
                pagina_actual += 1
            except TimeoutException:
                print("No se encontró el botón de siguiente página. Posiblemente sea la última página.")
                break
            except NoSuchElementException:
                print("No se encontró el botón de siguiente página. Posiblemente sea la última página.")
                break
            except Exception as e:
                logging.error(f"Error inesperado al navegar a la siguiente página: {e}")
                break

        print(f"Extracción completa. Total de enlaces extraídos: {len(datos_departamentos)}")
        return datos_departamentos

    except Exception as e:
        logging.error(f"Error general en el proceso de extracción: {e}")
        return []

# Llamar la función para extraer las URLs
datos_departamentos = extraer_url()
print("Datos extraídos:", datos_departamentos)

Iniciando extracción de datos...
Extrayendo datos de la página 1...
Se encontraron 48 departamentos en la página 1.
Extrayendo datos de la página 2...
Se encontraron 42 departamentos en la página 2.
No se encontró el botón de siguiente página. Posiblemente sea la última página.
Extracción completa. Total de enlaces extraídos: 90
Datos extraídos: ['https://portalinmobiliario.com/MLC-1563676979-edificio-centro-i-_JM#polycard_client=search-nordic&position=1&search_layout=grid&type=item&tracking_id=7db51424-63a2-4b9c-99ea-73d7849c8f88', 'https://portalinmobiliario.com/MLC-1563715177-departamento-condominio-don-jorge-_JM#polycard_client=search-nordic&position=2&search_layout=grid&type=item&tracking_id=7db51424-63a2-4b9c-99ea-73d7849c8f88', 'https://portalinmobiliario.com/MLC-1563689691-departamento-amoblado-_JM#polycard_client=search-nordic&position=3&search_layout=grid&type=item&tracking_id=7db51424-63a2-4b9c-99ea-73d7849c8f88', 'https://portalinmobiliario.com/MLC-1563754449-departamento-c

Funciones requeridas para extraer los datos de los inmuebles de una comuna específica.

In [32]:
# Función para encontrar elementos de forma segura
def safe_find_element(driver, by, value, default="No disponible"):
    try:
        return driver.find_element(by, value).text
    except NoSuchElementException:
        return default


# Función para validar URLs
def is_valid_url(url):
    parsed = urlparse(url)
    return bool(parsed.netloc) and bool(parsed.scheme)


# Función principal para extraer datos
def extraer_datos_departamentos(datos_departamentos, driver, wait):
    dict_info = {}
    failed_urls = []

    for href in datos_departamentos:
        # Validar URL
        if not is_valid_url(href):
            logging.error(f"URL inválida: {href}")
            continue

        try:
            # Navegar a la URL
            driver.get(href)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, "ui-pdp-title")))

            # Extraer información
            titulo = safe_find_element(driver, By.CLASS_NAME, "ui-pdp-title", "Título no disponible")
            direccion = safe_find_element(driver, By.CSS_SELECTOR, "div.ui-vip-location__subtitle p", "Dirección no disponible")

            # Extraer precio y moneda
            try:
                contenedor_precio = driver.find_element(By.CLASS_NAME, "andes-money-amount")
                meta_precio = contenedor_precio.find_element(By.XPATH, ".//meta[@itemprop='price']")
                valor = meta_precio.get_attribute("content")
                simbolo_moneda = contenedor_precio.text.split()[0]  # Extraer el símbolo desde el texto completo
                moneda = "UF" if "UF" in simbolo_moneda else "$"
            except Exception as e:
                moneda, valor = "Error", "Error"
                logging.error(f"Error al procesar precio en {href}: {e}")

            # Guardar en el diccionario
            if href not in dict_info:
                dict_info[href] = { "titulo": titulo, 
                                    "direccion": direccion, 
                                    "moneda": moneda, 
                                    "valor": valor,
                                    "tipo_inmueble": tipo_inmueble,
                                    "tipo_contrato": tipo_contrato}
            else:
                logging.warning(f"URL duplicada detectada: {href}")

        except TimeoutException:
            logging.warning(f"Tiempo de espera excedido para la URL: {href}")
            failed_urls.append(href)
        except Exception as e:
            logging.error(f"Error al procesar {href}: {e}")
            dict_info[href] = {"titulo": "Error al obtener título", "direccion": "Error", "moneda": "Error", "valor": "Error", "tipo_inmueble": "Error", "tipo_contrato": "Error"}
            failed_urls.append(href)

        # Pausa aleatoria para evitar bloqueo
        time.sleep(random.uniform(2, 5))

    # Guardar URLs fallidas en un archivo
    if failed_urls:
        with open("errores.txt", "w") as f:
            for url in failed_urls:
                f.write(url + "\n")

    # Crear un DataFrame con los datos extraídos
    df = pd.DataFrame.from_dict(dict_info, orient='index').reset_index()
    df.columns = ['pag', 'titulo', 'direccion', 'moneda', 'valor', 'tipo_inmueble', 'tipo_contrato']

    print("\nDatos extraídos desde portalinmobiliario")
    print(df)

    return df


Creación del dataframe con los datos obtenidos para un tipo de inmueble específico.

In [33]:
df = extraer_datos_departamentos(datos_departamentos, driver, wait)


Datos extraídos desde portalinmobiliario
                                                  pag  \
0   https://portalinmobiliario.com/MLC-1563676979-...   
1   https://portalinmobiliario.com/MLC-1563715177-...   
2   https://portalinmobiliario.com/MLC-1563689691-...   
3   https://portalinmobiliario.com/MLC-1563754449-...   
4   https://portalinmobiliario.com/MLC-2817812864-...   
..                                                ...   
85  https://portalinmobiliario.com/MLC-1565570255-...   
86  https://portalinmobiliario.com/MLC-1565813143-...   
87  https://portalinmobiliario.com/MLC-1561615011-...   
88  https://portalinmobiliario.com/MLC-2819267948-...   
89  https://portalinmobiliario.com/MLC-1558590441-...   

                                               titulo  \
0                                   Edificio Centro I   
1                   Departamento Condominio Don Jorge   
2                               Departamento Amoblado   
3          Departamento Condominio Parque Los

## Webscraping del valor diario de la UF

Obtención del valor diario de la unidad de fomento, necesario para convertir los valores de inmuebles en UF a pesos chilenos.

In [34]:
# Inicializar el navegador
driver2 = webdriver.Chrome(options=chrome_options)
url = "https://valoruf.cl/"
driver2.get(url)

try:
    # Buscar el elemento que contiene el valor de la UF usando su clase 'vpr'
    uf_element = driver2.find_element(By.CLASS_NAME, "vpr")
    valor_uf_texto = uf_element.text  # Extraer el texto del elemento
    print(f"El valor de la UF al día de hoy es: {valor_uf_texto}")

    # Convertir el valor al formato numérico
    valor_uf_numerico = float(valor_uf_texto.replace("$", "").replace(".", "").replace(",", ".").strip())

finally:
    # Cerrar el navegador
    driver2.quit()

El valor de la UF al día de hoy es: $ 38.434,03


In [35]:
valor_uf_numerico

38434.03

## Generación de DF con valores estandarizados

Se realiza operaciones utilizando información capturada desde el portal inmobiliario y valoruf para estandarizar el valor de la moneda de los anuncios a pesos chilenos, utilizando un valor al dia de la UF

In [36]:
# Verificación tipos de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   pag            90 non-null     object
 1   titulo         90 non-null     object
 2   direccion      90 non-null     object
 3   moneda         90 non-null     object
 4   valor          90 non-null     object
 5   tipo_inmueble  90 non-null     object
 6   tipo_contrato  90 non-null     object
dtypes: object(7)
memory usage: 5.1+ KB


In [37]:
# Limpia la columna 'valor' para asegurar que sea numérica
df['valor'] = df['valor'].astype(str).str.replace(",", "").str.replace(".", "").str.strip()
# Convierte 'valor' a float para cálculos numéricos
df['valor'] = pd.to_numeric(df['valor'], errors='coerce')
# Verifica si hay valores NaN en la columna 'valor' después de la conversión
if df['valor'].isnull().any():
    print("Hay valores no numéricos en la columna 'valor'. Estos serán tratados como NaN.")
# Realiza la conversión considerando UF o pesos
df['valor_en_pesos'] = df.apply(
    lambda row: row['valor'] * valor_uf_numerico if row['moneda'] == 'UF' else row['valor'] if row['moneda'] == '$' else None,
    axis=1
)

# Crea una copia filtrada solo con las filas donde la moneda sea 'UF' para verificar
df_uf = df[df['moneda'] == 'UF'].copy()
print(df_uf.head())
print("\n")
df.info()

                                                  pag  \
80  https://portalinmobiliario.com/MLC-2822351114-...   

                                           titulo  \
80  1d+1b Departamento Edificio Centro Chillán ||   

                                            direccion moneda  valor  \
80  Arauco 861 505, Centro de Chillán, Chillán, Ñuble     UF     13   

    tipo_inmueble tipo_contrato  valor_en_pesos  
80  Departamentos      Arriendo       499642.39  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   pag             90 non-null     object 
 1   titulo          90 non-null     object 
 2   direccion       90 non-null     object 
 3   moneda          90 non-null     object 
 4   valor           90 non-null     int64  
 5   tipo_inmueble   90 non-null     object 
 6   tipo_contrato   90 non-null     object 
 7   valor_en_pesos  90 no

## Función para limpiar las direcciones

En esta sección se limpiarán las direcciones que estén escritas como un rango y no como una dirección exacta.

In [38]:
def process_address(address):
    # Expresión regular para detectar rangos como "1200 – 1800" o "1200-1800"
    match = re.search(r'(\d+)\s*[–\-]\s*(\d+)', address)
    if match:
        # Extraer los límites del rango
        start, end = map(int, match.groups())
        # Calcular el punto medio del rango
        midpoint = (start + end) // 2
        # Reemplazar el rango con el punto medio en la dirección
        address = re.sub(r'(\d+\s*[–\-]\s*\d+)', str(midpoint), address)
    return address

# Aplicar la función a la columna 'direccion'
df['direccion'] = df['direccion'].apply(process_address)

In [40]:
df.head()

Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato,valor_en_pesos
0,https://portalinmobiliario.com/MLC-1563676979-...,Edificio Centro I,"Edificio Centro I, Centro de Chillán, Chillán,...",$,450000,Departamentos,Arriendo,450000.0
1,https://portalinmobiliario.com/MLC-1563715177-...,Departamento Condominio Don Jorge,"Condominio Don Jorge, Centro de Chillán, Chill...",$,400000,Departamentos,Arriendo,400000.0
2,https://portalinmobiliario.com/MLC-1563689691-...,Departamento Amoblado,"Departamento Amoblado, Quilamapu, Chillán, Ñuble",$,750000,Departamentos,Arriendo,750000.0
3,https://portalinmobiliario.com/MLC-1563754449-...,Departamento Condominio Parque Los Encinos,"Condominio Parque Los Encinos, Chillán, Ñuble",$,460000,Departamentos,Arriendo,460000.0
4,https://portalinmobiliario.com/MLC-2817812864-...,Depto Amoblado Edificio Itata,"Depto Amoblado Edificio Itata, Centro de Chill...",$,700000,Departamentos,Arriendo,700000.0


## Geocoding API de Google para obtener latitud, longitud y place_id

En esta sección se utilizará la API Geocoding de Google para obtener el place_id, latitud y longitud correspondiente a un inmueble específico.

In [41]:
api_key = "AIzaSyBmfjPJS7gJTavidD4nG1spfPm5I5pVqJk" # Api Camilo para no gastar la de Kurt

In [42]:
# Initialize Google Maps client
gmaps = googlemaps.Client(key=api_key)

def geocode_address(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            result = geocode_result[0]
            return result['geometry']['location']['lat'], result['geometry']['location']['lng'], result['place_id']
        else:
            return None, None, None
    except Exception as e:
        print(f"Error geocoding {address}: {e}")
        return None, None, None

# Geocode addresses and add to DataFrame
df['latitude'], df['longitude'], df['place_id'] = zip(*df['direccion'].apply(geocode_address))
df

Unnamed: 0,pag,titulo,direccion,moneda,valor,tipo_inmueble,tipo_contrato,valor_en_pesos,latitude,longitude,place_id
0,https://portalinmobiliario.com/MLC-1563676979-...,Edificio Centro I,"Edificio Centro I, Centro de Chillán, Chillán,...",$,450000,Departamentos,Arriendo,450000.0,-36.603352,-72.103674,ChIJW7sKSZHXaJYR9_7sHDDMbWQ
1,https://portalinmobiliario.com/MLC-1563715177-...,Departamento Condominio Don Jorge,"Condominio Don Jorge, Centro de Chillán, Chill...",$,400000,Departamentos,Arriendo,400000.0,-36.608414,-72.113012,ChIJXcFzJN_XaJYRDwcId5RYFQ8
2,https://portalinmobiliario.com/MLC-1563689691-...,Departamento Amoblado,"Departamento Amoblado, Quilamapu, Chillán, Ñuble",$,750000,Departamentos,Arriendo,750000.0,-36.595281,-72.096112,ChIJGT7wPc3XaJYReyWGXaGtY40
3,https://portalinmobiliario.com/MLC-1563754449-...,Departamento Condominio Parque Los Encinos,"Condominio Parque Los Encinos, Chillán, Ñuble",$,460000,Departamentos,Arriendo,460000.0,-36.617475,-72.117889,ChIJ3Z8CnxgoaZYRTlJylaWLn4E
4,https://portalinmobiliario.com/MLC-2817812864-...,Depto Amoblado Edificio Itata,"Depto Amoblado Edificio Itata, Centro de Chill...",$,700000,Departamentos,Arriendo,700000.0,-36.598123,-72.088506,ChIJSbiHFADXaJYRHGbHitQkAHI
...,...,...,...,...,...,...,...,...,...,...,...
85,https://portalinmobiliario.com/MLC-1565570255-...,Arriendo Departamento Tipo Studio,"Independencia 150, Ñuble, Chillán, Centro de C...",$,330000,Departamentos,Arriendo,330000.0,-36.603434,-72.094971,ChIJQa7XudTXaJYRE5jLTrsGVEE
86,https://portalinmobiliario.com/MLC-1565813143-...,Arriendo Departamento En Condominio Don Jorge ...,"Av. Brasil 855, Chillán, Centro de Chillán, Ch...",$,320000,Departamentos,Arriendo,320000.0,-36.608300,-72.112567,ChIJ6YoICqzXaJYREMyqXBq3f4Q
87,https://portalinmobiliario.com/MLC-1561615011-...,"Departamento 3 Dormitorios 2 Baño, En Arboleda...","Arboleda 88, Quilamapu, Chillán, Ñuble",$,350000,Departamentos,Arriendo,350000.0,-36.595281,-72.096112,ChIJGT7wPc3XaJYReyWGXaGtY40
88,https://portalinmobiliario.com/MLC-2819267948-...,Arriendo Departamento Dentro De Las 4 Avenidas...,"Puren 355, Centro de Chillán, Chillán, Ñuble",$,350000,Departamentos,Arriendo,350000.0,-36.612537,-72.108862,EiNQdXLDqW4gMzU1LCBDaGlsbMOhbiwgw5F1YmxlLCBDaG...


In [43]:
df.info() # Visualizar columnas del primer dataframe para la base de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   pag             90 non-null     object 
 1   titulo          90 non-null     object 
 2   direccion       90 non-null     object 
 3   moneda          90 non-null     object 
 4   valor           90 non-null     int64  
 5   tipo_inmueble   90 non-null     object 
 6   tipo_contrato   90 non-null     object 
 7   valor_en_pesos  90 non-null     float64
 8   latitude        89 non-null     float64
 9   longitude       89 non-null     float64
 10  place_id        89 non-null     object 
dtypes: float64(3), int64(1), object(7)
memory usage: 7.9+ KB


In [None]:
# # Exporta a un archivo
# df.to_csv('df.csv', index=False)

## Extrae los lugares cercanos, además del user_ratings_total

En esta sección se utiizará la API Places de Google para localizar lugares cercanos a los inmuebles obtenidos mediante webscraping.

In [44]:
# Inicializa el cliente de Google Maps
gmaps = googlemaps.Client(key=api_key)

# Función para obtener lugares cercanos
def get_nearby_places(location, radius, place_types, property_place_id):
    nearby_places = []
    try:
        for place_type in place_types:
            # Llama a la API de Places Nearby Search para cada tipo
            places_result = gmaps.places_nearby(location=location, radius=radius, type=place_type)

            # Verifica si hay resultados
            if 'results' in places_result:
                for place in places_result['results']:
                    # Extraer los datos con manejo de ausencia de campos
                    nearby_places.append({
                        'property_place_id': property_place_id,  # Identificador de la propiedad original
                        'nearby_place_id': place.get('place_id'),  # Identificador del lugar cercano
                        'name': place.get('name'),
                        'address': place.get('vicinity', 'Dirección no disponible'),
                        'place_type': place_type,
                        'rating': place.get('rating', None),
                        'user_ratings_total': place.get('user_ratings_total', None)
                    })
            else:
                print(f"No se encontraron resultados para la ubicación {location}, tipo: {place_type}")
    except Exception as e:
        print(f"Error obteniendo lugares cercanos para {location}, tipos: {place_types}: {e}")
    return nearby_places

# Procesar datos de un DataFrame
def process_places_dataframe(df, radio_busqueda, busqueda_rubros):
    nearby_places_data = []

    for index, row in df.iterrows():
        if pd.notna(row.get('latitude')) and pd.notna(row.get('longitude')):
            # Construye la coordenada de la ubicación
            location = f"{row['latitude']},{row['longitude']}"
            # Busca lugares cercanos
            nearby_places = get_nearby_places(location, radio_busqueda, busqueda_rubros, row['place_id'])

            # Agregar los resultados al DataFrame
            nearby_places_data.extend(nearby_places)

    # Crear DataFrame con los lugares cercanos
    return pd.DataFrame(nearby_places_data, columns=[
        'property_place_id', 'nearby_place_id', 'name', 'address', 'place_type', 'rating', 'user_ratings_total'
    ])

# Supongamos que df es el DataFrame original con las coordenadas
nearby_places_df = process_places_dataframe(df, radio_busqueda, busqueda_rubros)

# Muestra el DataFrame resultante
nearby_places_df.head()


Unnamed: 0,property_place_id,nearby_place_id,name,address,place_type,rating,user_ratings_total
0,ChIJW7sKSZHXaJYR9_7sHDDMbWQ,ChIJWQLwtsLXaJYRqC4J8cSE_hQ,Chillán,Chillán,restaurante,,
1,ChIJW7sKSZHXaJYR9_7sHDDMbWQ,ChIJrU171tbXaJYRDshhG_Lq39o,Luis Pasteur Medical Center,"Dieciocho de Septiembre 325, Chillán, Chillán",restaurante,3.4,16.0
2,ChIJW7sKSZHXaJYR9_7sHDDMbWQ,ChIJxfV8H9fXaJYRKPy-qRL69s0,Fund de Beneficencia Hogar de Cris To,"Dieciocho de Septiembre 399, Chillán, Chillán",restaurante,5.0,1.0
3,ChIJW7sKSZHXaJYR9_7sHDDMbWQ,ChIJ7xe9LtHXaJYRMcHzcIK1sPo,Instituto Chileno Norteamericano de Cultura,"Dieciocho de Septiembre 253, Chillán, Chillán",restaurante,4.4,12.0
4,ChIJW7sKSZHXaJYR9_7sHDDMbWQ,ChIJ2X-To9bXaJYR0YaA2zwWby4,Ministerio de Obras Publicas,"Dieciocho de Septiembre 246, Chillán",restaurante,2.3,3.0


In [45]:
nearby_places_df.info() # Visualizar columnas del segundo dataframe para la base de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3522 entries, 0 to 3521
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   property_place_id   3522 non-null   object 
 1   nearby_place_id     3522 non-null   object 
 2   name                3522 non-null   object 
 3   address             3522 non-null   object 
 4   place_type          3522 non-null   object 
 5   rating              2382 non-null   float64
 6   user_ratings_total  2382 non-null   float64
dtypes: float64(2), object(5)
memory usage: 192.7+ KB


In [None]:
# # Exporta a un archivo csv
# nearby_places_df.to_csv('nearby_places.csv', index=False)

## Creación base de datos

Luego de obtener los datos de la página portalinmobiliario.com mediante webscraping y los datos de latitud, longitud y lugares cercanos mediante el uso de las APIs Geocoding y Places de Google, se creará el esquema de la base de datos que almacenará la información obtenida.

In [47]:
# Conexión a la base de datos SQLite (se crea si no existe)
conn = sqlite3.connect('portal_inmobiliario.db')

# Crear un cursor para ejecutar comandos SQL
cursor = conn.cursor()


# Definir el esquema de la base de datos
esquema_sql = """
BEGIN TRANSACTION;

-- Tabla de inmuebles
DROP TABLE IF EXISTS inmuebles;
CREATE TABLE inmuebles (
    place_id TEXT PRIMARY KEY,  -- Identificador único de lugar (Google Places)
    pag TEXT,                   -- Página del inmueble
    titulo TEXT,                -- Título del inmueble
    direccion TEXT,             -- Dirección del inmueble
    moneda TEXT,                -- Moneda del precio
    valor INTEGER,              -- Valor en peso o UF
    tipo_inmueble TEXT,         -- Tipo de inmueble (ej. Departamentos)
    tipo_contrato TEXT,         -- Tipo contrato (ej. Arriendo)
    valor_en_pesos INTEGER,     -- Valor convertido a pesos
    latitude REAL,              -- Latitud
    longitude REAL              -- Longitud
);

-- Tabla de lugares cercanos
DROP TABLE IF EXISTS lugares;
CREATE TABLE lugares (
    property_place_id TEXT,           -- Identificador único del inmueble al que está asociado
    nearby_place_id TEXT PRIMARY KEY, -- Identificador único del lugar cercano (Google Places)
    name TEXT,                        -- Nombre del lugar cercano
    address TEXT,                     -- Dirección del lugar cercano
    place_type TEXT,                  -- Tipo de lugar cercano (ej. Restaurante)
    rating REAL,                      -- Calificación del lugar
    user_ratings_total INTEGER,       -- Total de calificaciones del lugar
    FOREIGN KEY (property_place_id) REFERENCES inmuebles (place_id) -- Relación con inmuebles
);
COMMIT;
"""

# Ejecutar el esquema SQL
cursor.executescript(esquema_sql)

# Cerrar la conexión
conn.close()

## Carga de los datos obtenidos

In [48]:
# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')

# Guardar los DataFrames en la base de datos
df.to_sql('inmuebles', conn, if_exists='replace', index=False)
nearby_places_df.to_sql('lugares', conn, if_exists='replace', index=False)
print("Datos insertados correctamente.")

# Cerrar la conexión
conn.close()

Datos insertados correctamente.


## Consultas

Las consultas a realizar son:

¿Cuál es el valor promedio de los veinte arriendos de departamento más baratos de la comuna?


In [49]:
# Define las variables para filtrar
tipo_contrato = 'Arriendo' # venta, arriendo o arriendo_temporal
tipo_inmueble = 'Departamentos' # dpto, casa u oficina.

# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta actualizada para filtrar por tipo de inmueble y tipo de contrato
consulta_promedio = """
SELECT
    AVG(valor_en_pesos) AS promedio_precio
FROM (
    SELECT
        valor_en_pesos
    FROM
        inmuebles
    WHERE
        tipo_inmueble = ? AND
        tipo_contrato = ?
    ORDER BY
        valor_en_pesos ASC
    LIMIT 20
);
"""

# Ejecuta la consulta pasando las variables como parámetros
cursor.execute(consulta_promedio, (tipo_inmueble, tipo_contrato))
promedio_precio = cursor.fetchone()[0]

# Muestra el resultado
print(f"El promedio de los 20 arriendos más baratos es: {promedio_precio}")

# Cierra la conexión
conn.close()

El promedio de los 20 arriendos más baratos es: 331000.0



¿Cuál es la mediana de comentarios (user_ratings_total), de aquellos lugares cercanos, que tienen una valoración igual o superior a cuatro estrellas, y que corresponden a los 15 departamentos más baratos de la comuna?

In [50]:
tipo_inmueble = 'Departamentos' # dpto, casa u oficina.

# Conexión a la base de datos SQLite
conn = sqlite3.connect('portal_inmobiliario.db')
cursor = conn.cursor()

# Consulta para calcular la mediana de comentarios
consulta_mediana = """
SELECT 
    lugares.user_ratings_total
FROM 
    lugares, 
    (SELECT place_id 
    FROM inmuebles
    WHERE tipo_inmueble = ?
    ORDER BY valor_en_pesos ASC
    LIMIT 15) AS top_departamentos
WHERE 
    lugares.rating >= 4
    AND lugares.property_place_id = top_departamentos.place_id
ORDER BY 
    lugares.user_ratings_total
LIMIT 1 OFFSET 
    (SELECT COUNT(*) 
    FROM lugares, 
        (SELECT place_id 
        FROM inmuebles
        WHERE tipo_inmueble = ?
        ORDER BY valor_en_pesos ASC
        LIMIT 15) AS top_departamentos
    WHERE lugares.rating >= 4
    AND lugares.property_place_id = top_departamentos.place_id) / 2;
"""

# Ejecuta la consulta pasando la variable 'Departamento' como parámetro
cursor.execute(consulta_mediana, (tipo_inmueble,tipo_inmueble))
mediana_comentarios = cursor.fetchone()[0]

# Muestra el resultado
print(f"Mediana de comentarios para lugares cercanos: {mediana_comentarios}")

# Cierra la conexión
conn.close()

Mediana de comentarios para lugares cercanos: 14.0
