Exploración Web Scrapping para descargar CSV Viajes Ocasionales (Sernatur)

In [2]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [3]:
# Definición de url y headers para el Web Scrapping

url = 'https://www.sernatur.cl/dataturismo/big-data-turismo-interno/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

# Se realiza el get a la página web

response = requests.get(url, headers=headers)

# Verificación de status

if response.status_code == 403:
    print("Acceso prohibido: El servidor bloquea el acceso.")
else:
    # Se convierte la respuesta HTML en un objeto soup
    soup = BeautifulSoup(response.content, 'html.parser')
soup

<!DOCTYPE html>

<html class="no-js" lang="es-CL">
<head>
<!-- Google Tag Manager -->
<script>
        (function(w, d, s, l, i) {
            w[l] = w[l] || [];
            w[l].push({
                'gtm.start': new Date().getTime(),
                event: 'gtm.js'
            });
            var f = d.getElementsByTagName(s)[0],
                j = d.createElement(s),
                dl = l != 'dataLayer' ? '&l=' + l : '';
            j.async = true;
            j.src =
                'https://www.googletagmanager.com/gtm.js?id=' + i + dl;
            f.parentNode.insertBefore(j, f);
        })(window, document, 'script', 'dataLayer', 'GTM-K6CVNCM');
    </script>
<!-- End Google Tag Manager -->
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<!-- FavIcon test-->
<!--[if IE]><link rel="shortcut icon" href="https://www.sernatur.cl/wp-content/themes/visual-composer-starter-theme-child/

In [4]:
# Búsqueda de botones por su etiqueta < a > y atributo href 

botones = soup.find_all('a', href=True)  # Encuentra todos los enlaces
botones

[<a class="block" href="https://www.sernatur.cl">
 <img alt="logo-sernatur" class="sernatur-logo" src="https://www.sernatur.cl/wp-content/uploads/2020/12/LOGOWEB.png"/>
 </a>,
 <a class="col-xs-4 col-sm-3 col-md-1" href="#">
 <img alt="logo-buscador" src="https://www.sernatur.cl/wp-content/uploads/2018/03/icono-buscar.svg"/>
 </a>,
 <a class="ubermenu-target ubermenu-target-with-image ubermenu-item-layout-image_above lugar-container" href="/region/arica-y-parinacota/"><img alt="foto-regiones_0015_arica" class="ubermenu-image ubermenu-image-size-full" height="666" sizes="(max-width: 654px) 100vw, 654px" src="https://www.sernatur.cl/wp-content/uploads/2018/09/foto-regiones_0015_arica.jpg" srcset="https://www.sernatur.cl/wp-content/uploads/2018/09/foto-regiones_0015_arica.jpg 654w, https://www.sernatur.cl/wp-content/uploads/2018/09/foto-regiones_0015_arica-295x300.jpg 295w" width="654"><span class="ubermenu-target-title ubermenu-target-text">Región de Arica y Parinacota</span><span class=

In [5]:
#  Búsqueda de los URL que puedan contener el .csv o algunad descarga (download)

csv_url = []
for boton in botones:
    if '.csv' in boton['href'] or 'download' in boton['href']:
        csv_url.append(boton['href'])
print("Lista URL con CSV:", csv_url)


Lista URL con CSV: ['https://www.sernatur.cl/wp-content/uploads/2020/11/Viajes-ocasionales-1.csv', 'https://www.sernatur.cl/wp-content/uploads/2020/11/Viajes-totales-1.csv']


In [6]:
# Se identifica el csv de interés (Viajes Ocasionales)

url_viajes_ocasionales_csv = csv_url[0]
url_viajes_ocasionales_csv

'https://www.sernatur.cl/wp-content/uploads/2020/11/Viajes-ocasionales-1.csv'

In [7]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
response = requests.get(url_viajes_ocasionales_csv,headers=headers)

# Se Guarda el csv obtenido

with open("/workspaces/Exploracion_Proyecto_Final/data/raw/viajes_ocasionales.csv", "wb") as file:
    file.write(response.content)


In [8]:
# Comprobación

df = pd.read_csv('/workspaces/Exploracion_Proyecto_Final/data/raw/viajes_ocasionales.csv', sep=';')
df

Unnamed: 0,CUT Comuna Origen,Comuna Origen,CUT Provincia Origen,Provincia Origen,CUT Region Origen,Region Origen,CUT Comuna Destino,Comuna Destino,Destino Turistico,CUT Provincia Destino,...,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,1101,Iquique,11,Iquique,1,Tarapacá,1402,Camiña,Camiña,14,...,3364346123,1059657514,9998492432,1497668982,2575340796,2538203788,117386158,1459445314,4433861542,6434864473
1,1101,Iquique,11,Iquique,1,Tarapacá,1403,Colchane,Colchane - P.N. Volcán Isluga,14,...,1101058731,1392692733,9998492432,6889277315,1688278966,1579326801,2627214012,1319114034,1607274809,4364516773
2,1101,Iquique,11,Iquique,1,Tarapacá,1404,Huara,Resto región Tarapacá,14,...,1064356773,2086011506,1521645567,973484838,1573819375,6449857847,1900537796,1299467655,114449051,1421265718
3,1101,Iquique,11,Iquique,1,Tarapacá,1405,Pica,Pica,14,...,9328414249,1653065722,15685135,9345454445,1485113192,1613169518,2495853312,1403312802,1629444117,2039572261
4,1101,Iquique,11,Iquique,1,Tarapacá,2101,Antofagasta,Antofagasta,21,...,8991979637,1068740293,18497211,7488344908,1115981011,1644192009,1771972004,1465058566,119991378,1631098256
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
540801,16305,San Nicolás,163,Punilla,16,Ñuble,16203,Coelemu,Valle del Itata,162,...,1523200631,2456091499,9039206028,314348402,8263839483,,,,,
540802,16305,San Nicolás,163,Punilla,16,Ñuble,16207,Treguaco,Resto región Ñuble,162,...,1523200631,2763102937,3916989279,5715425491,5233765006,,,,,
540803,16305,San Nicolás,163,Punilla,16,Ñuble,16302,Coihueco,Resto región Ñuble,163,...,6397442651,7061263061,6628751087,1085930843,8539300799,,,,,
540804,16305,San Nicolás,163,Punilla,16,Ñuble,16303,Ñiquén,Resto región Ñuble,163,...,3655681515,2149080062,120522747,8573138237,2754613161,,,,,


Exploración Web Scrapping para descargar CSV PIB Regional (Banco Central)

In [17]:
# Definición de url y headers para el Web Scrapping

url = 'https://si3.bcentral.cl/Siete/ES/Siete/Cuadro/CAP_ESTADIST_REGIONAL/MN_REGIONAL1/CCNN2018_PIB_REGIONAL_T'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

# Se realiza el get a la página web

response = requests.get(url, headers=headers)

# Verificación de status

if response.status_code == 403:
    print("Acceso prohibido: El servidor bloquea el acceso.")
else:
    # Se convierte la respuesta HTML en un objeto soup
    soup = BeautifulSoup(response.content, 'html.parser')
soup


<!DOCTYPE html>

<html class="ltr" dir="ltr" lang="es-CL">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="initial-scale=1.0, width=device-width" name="viewport">
<meta content="" name="description"/>
<meta content="" name="author"/>
<title>Base de Datos Estadísticos (BDE) </title>
<link href="/Siete/favicon.ico" rel="shortcut icon"/>
<link href="/Siete/Includes/jquery-ui-1.13.2/jquery-ui.min.css" rel="stylesheet"/>
<link href="/Siete/Includes/css/custom.min.css" rel="stylesheet"/>
<link href="/Siete/Includes/bootstrap-table-1.16/bootstrap-table.min.css" rel="stylesheet"/>
<link href="/Siete/Includes/bootstrap-table-1.16/extensions/fixed-columns/bootstrap-table-fixed-columns.min.css" rel="stylesheet"/>
<link href="/Siete/Includes/datepicker/bootstrap-datepicker.min.css" rel="stylesheet"/>
<link href="/Siete/Includes/css/base.css" rel="stylesheet">
<link href="/Siete/Includes/css/app.css" rel="stylesheet">
<link href="/Siete/Includes

In [29]:
import os
from playwright.async_api import async_playwright

# URL de la página donde se encuentra el botón
URL = url # Cambia esto a la URL real

# Nombre del archivo que queremos guardar
DIRECTORIO_DESCARGAS = "descargas"  # Nombre de la carpeta donde deseas guardar
ARCHIVO_DESTINO = os.path.join(DIRECTORIO_DESCARGAS, "archivo_descargado.xlsx")

# Crear la carpeta si no existe
os.makedirs(DIRECTORIO_DESCARGAS, exist_ok=True)

async def descargar_excel():
    async with async_playwright() as p:
        # Inicia el navegador en modo headless (cambiar a False si deseas ver la acción)
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        # Abre la página
        print("Abriendo la página...")
        await page.goto(URL)
        print("Página abierta.")

        # Paso 1: Hacer clic en el botón para exportar
        try:
            print("Esperando el botón de exportar...")
            await page.wait_for_selector('button[onclick="ExportarExcelCuadro()"]', timeout=60000)
            print("Botón de exportar encontrado. Haciendo clic...")
            await page.click('button[onclick="ExportarExcelCuadro()"]')
            print("Clic en el botón de exportar realizado.")
        except Exception as e:
            print(f"No se pudo hacer clic en el botón de exportar: {e}")
            await browser.close()
            return

        # Paso 2: Esperar y hacer clic en la opción "Horizontal"
        try:
            print("Esperando la opción 'Horizontal'...")
            await page.wait_for_selector('input#radioExportH', timeout=60000)  # Cambia esto si es necesario
            print("Opción 'Horizontal' encontrada. Haciendo clic...")
            await page.click('input#radioExportH')  # Haciendo clic en el radio button de "Horizontal"
            print("Clic en la opción 'Horizontal' realizado.")
        except Exception as e:
            print(f"No se pudo seleccionar la opción 'Horizontal': {e}")
            await browser.close()
            return

        # Paso 3: Esperar y hacer clic en el botón "Aceptar" en la ventana modal
        try:
            print("Esperando el botón de aceptar en la ventana modal...")
            await page.wait_for_selector('button[onclick="ExecuteExportExcel()"]', timeout=60000)
            print("Botón de aceptar encontrado. Haciendo clic...")
            await page.click('button[onclick="ExecuteExportExcel()"]')
            print("Clic en el botón de aceptar realizado.")
        except Exception as e:
            print(f"No se pudo hacer clic en el botón de aceptar: {e}")
            await browser.close()
            return

        # Paso 4: Esperar la descarga
        try:
            print("Esperando la descarga...")
            async with page.expect_download() as download_info:
                # Aquí simplemente hacemos clic, y esperamos que el evento de descarga ocurra
                await page.click('button[onclick="ExecuteExportExcel()"]')  # Asegúrate de hacer clic nuevamente

            # Paso 5: Manejar la descarga
            download = await download_info.value
            await download.save_as(ARCHIVO_DESTINO)

            print(f"Archivo descargado exitosamente como {ARCHIVO_DESTINO}")
        except Exception as e:
            print(f"Error al manejar la descarga: {e}")

        # Cierra el navegador
        print("Cerrando el navegador...")
        await browser.close()
        print("Navegador cerrado.")

# Llama a la función usando await
await descargar_excel()


Abriendo la página...
Página abierta.
Esperando el botón de exportar...
Botón de exportar encontrado. Haciendo clic...
Clic en el botón de exportar realizado.
Esperando la opción 'Horizontal'...
Opción 'Horizontal' encontrada. Haciendo clic...
Clic en la opción 'Horizontal' realizado.
Esperando el botón de aceptar en la ventana modal...
Botón de aceptar encontrado. Haciendo clic...
Clic en el botón de aceptar realizado.
Esperando la descarga...
Error al manejar la descarga: Page.click: Timeout 30000ms exceeded.
Call log:
waiting for locator("button[onclick=\"ExecuteExportExcel()\"]")
  -   locator resolved to <button type="button" class="btn btn-default" onclick="ExecuteExportExcel()">Aceptar</button>
  - attempting click action
  -   waiting for element to be visible, enabled and stable
  -   element is not stable
  - retrying click action, attempt #1
  -   waiting for element to be visible, enabled and stable
  -   element is not stable
  - retrying click action, attempt #2
  -   wai