<div style="text-align: center; font-family: 'charter'; color: rgb(0, 65, 75);">
    <h1>
    GDP Revisions Datasets
    </h1>
</div>

<div style="text-align: center; font-family: 'charter'; color: rgb(0, 65, 75);">
    <h4>
        Documentation
        <br>
        ____________________
            </br>
    </h4>
</div>

<div style="font-family: charter; text-align: left; color: dark;">
    This 
    <span style="color: rgb(61, 48, 162);">jupyter notebook</span>
    provides a step-by-step guide to <b>data building</b> regarding the project <b>'Revisiones y sesgos en las estimaciones preliminares del PBI en el Perú'</b>. The guide covers downloading PDF files containing tables with information on annual, quarterly, and monthly Peru's GDP growth rates (including sectoral GDP) and extracting this information into SQL tables. These data sets will be used for data analysis.
</div>


<div style="text-align: center; font-family: 'charter'; color: rgb(0, 65, 75);">
    Jason Cruz
    <br>
    <a href="mailto:jj.cruza@up.edu.pe" style="color: rgb(0, 153, 123)">
        jj.cruza@up.edu.pe
    </a>
</div>

<div style="font-family: Times New Roman; text-align: left; color: rgb(61, 48, 162)">The provided outline is functional. Use the buttons to enhance the experience of this script.<div/>

<div id="outilne">
   <!-- Contenido de la celda de destino -->
</div>

<div style="background-color: #141414; padding: 10px;">
<h2 style="text-align: left; font-family: 'charter'; color: #E0E0E0;">
    Outline
    </h2>
    <br>
    <a href="#1" style="color: #687EFF; font-size: 18px;">
        1. PDF Downloader</a>
    <br>
    <a href="#1-a" style="color: #E0E0E0; font-size: 12px;">
        (a) Download the returns for the “Portfolios Formed by Size”.</a>
    <br>
    <a href="#1-b-1" style="color: rgb(0, 153, 123); font-size: 12px;"><i>
        Figure: Returns of Portfolios Formed by Size over Time (High)<i/></a>
        <br>
    <a href="#2" style="color: #687EFF; font-size: 18px;">
        2. Extracting Tables</a>
        <br>
    <a href="#3" style="color: #687EFF; font-size: 18px;">3. SQL Tables</a>
</div>

<div style="text-align: left; font-family: 'charter'; color: dark;">
    Any questions or issues regarding the coding, please <a href="mailto:jj.cruza@alum.up.edu.pe" style="color: rgb(0, 153, 123)">email Jason Cruz
    </a>.
    <div/>

<div style="text-align: left; font-family: 'charter'; color: dark;">
    If you don't have the libraries below, please use the following code (as example) to install the required libraries.
    <div/>

In [None]:
#!pip install os # Comment this code with "#" if you have already installed this library.

<div style="text-align: left; font-family: 'charter'; color: dark;">
    <h2>
    Libraries
    </h2>
    <div/>

In [None]:
# PDF Downloader

import os  # for file and directory manipulation
import random  # to generate random numbers
import time  # to manage time and take breaks in the script
import requests  # to make HTTP requests to web servers
from selenium import webdriver  # for automating web browsers
from selenium.webdriver.common.by import By  # to locate elements on a webpage
from selenium.webdriver.support.ui import WebDriverWait  # to wait until certain conditions are met on a webpage.
from selenium.webdriver.support import expected_conditions as EC  # to define expected conditions
from selenium.common.exceptions import StaleElementReferenceException  # To handle exceptions related to elements on the webpage that are no longer available.


# Extracting Tables

# Dataframes and 

# SQL tables


<div style="text-align: left; font-family: 'charter'; color: dark;">
    <h2>
    Initial set-up
    </h2>
    <div/>

<div style="font-family: charter; text-align: left; color:dark"> The next 3 code lines will create folders in your current path, call them to import and export your outputs. <div/>

In [None]:
# Folder path to download PDF files

raw_pdf = 'raw_pdf' # to save raw data (.pdf).
if not os.path.exists(raw_pdf):
    os.mkdir(raw_pdf) # to create the folder (if it doesn't exist)

In [None]:
# Folder path to save text file with the names of already downloaded files

download_record = 'download_record'
if not os.path.exists(download_record):
    os.mkdir(download_record) # to create the folder (if it doesn't exist)

<div id="1">
   <!-- Contenido de la celda de destino -->
</div>

<h1><span style = "color: rgb(0, 65, 75); font-family: charter;">1.</span> <span style = "color: dark; font-family: charter;">PDF Downloader</span></h1>

<div style="font-family: charter; text-align: left; color:dark">
    Our main source for data collection is the <a href="https://www.bcrp.gob.pe/" style="color: rgb(0, 153, 123)">BCRP's web page</a> (.../publicaciones/nota-semanal). The BCRP publishes "Notas Semanales", documents that contain, among other information, tables of GDP and sectoral GDP growth rate values for annual, quarterly and monthly frequencies.
    <div/>

<div style="font-family: charter; text-align: left; color:dark">
    The provided code will download all the 'Notas Semanales' files in PDF format from this web page.
    <div/>

In [None]:
# Setting the BCRP URL
bcrp_url = "https://www.bcrp.gob.pe/publicaciones/nota-semanal.html"  # Never replace this URL

In [None]:
# Getting the driver path
driver_path = os.environ.get('driver_path')

In [None]:
# List for keeping track of successfully downloaded files
downloaded_files = []

# Load list of previously downloaded files if available
if os.path.exists(os.path.join(download_record, "downloaded_files.txt")):
    with open(os.path.join(download_record, "downloaded_files.txt"), "r") as f:
        downloaded_files = f.read().splitlines()

# Browser driver configuration
driver = webdriver.Chrome(executable_path=driver_path)

def esperar_aleatorio(min_tiempo, max_tiempo):
    tiempo_espera = random.uniform(min_tiempo, max_tiempo)
    print(f"Esperando aleatoriamente durante {tiempo_espera:.2f} segundos")
    time.sleep(tiempo_espera)

def descargar_pdf(enlace_pdf):
    # Hacer clic en el enlace usando JavaScript
    driver.execute_script("arguments[0].click();", enlace_pdf)

    # Esperar a que la nueva página se abra completamente (ajusta el tiempo según sea necesario)
    wait.until(EC.number_of_windows_to_be(2))

    # Cambiar a la nueva ventana o pestaña
    windows = driver.window_handles
    driver.switch_to.window(windows[1])

    # Obtener la URL actual (puede variar según la lógica específica del sitio)
    nueva_url = driver.current_url
    print(f"{contador_descarga}. Nueva URL: {nueva_url}")

    # Obtener el nombre del archivo de la URL
    nombre_archivo = nueva_url.split("/")[-1]

    # Formar la ruta de destino completa
    ruta_destino = os.path.join(raw_pdf, nombre_archivo)

    # Descargar el PDF
    response = requests.get(nueva_url, stream=True)

    # Verificar si la solicitud fue exitosa (código 200)
    if response.status_code == 200:
        # Guardar el contenido del PDF en el archivo local
        with open(ruta_destino, 'wb') as archivo_pdf:
            for chunk in response.iter_content(chunk_size=128):
                archivo_pdf.write(chunk)

        print(f"PDF descargado exitosamente en: {ruta_destino}")

    else:
        print(f"Error al descargar el PDF. Código de respuesta: {response.status_code}")

    # Cerrar la nueva ventana o pestaña
    driver.close()

    # Cambiar de nuevo a la ventana principal
    driver.switch_to.window(windows[0])

# Cantidad de descargas por lote
descargas_por_lote = 5
# Cantidad total de descargas
cantidad_total_descargas = 25

try:
    # Abrir la página de publicaiones de NS del BCRP
    driver.get(bcrp_url)
    print("Sitio abierto exitosamente")

    # Esperar a que el área contenedora esté presente
    wait = WebDriverWait(driver, 60)
    area_contenedora = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="rightside"]')))

    # Obtener todos los enlaces dentro de la área contenedora
    enlaces_pdf = area_contenedora.find_elements(By.XPATH, './/a')

    # Invertir el orden de los enlaces
    enlaces_pdf = list(reversed(enlaces_pdf))

    # Inicializar contador de descarga
    contador_descarga = 0

    # Iterar sobre los enlaces invertidos y descargar los PDF en lotes
    for enlace_pdf in enlaces_pdf:
        contador_descarga += 1

        # Obtener el nombre del archivo de la URL
        nueva_url = enlace_pdf.get_attribute("href")
        nombre_archivo = nueva_url.split("/")[-1]

        # Verificar si el archivo ya fue descargado
        if nombre_archivo in downloaded_files:
            print(f"{contador_descarga}. El archivo {nombre_archivo} ya ha sido descargado previamente. Saltando...")
            continue

        # Intentar descargar el archivo
        try:
            descargar_pdf(enlace_pdf)

            # Actualizar la lista de archivos descargados
            downloaded_files.append(nombre_archivo)

            # Guardar el nombre del archivo en el registro
            with open(os.path.join(download_record, "downloaded_files.txt"), "a") as f:
                f.write(nombre_archivo + "\n")

        except Exception as e:
            print(f"Error al descargar el archivo {nombre_archivo}: {str(e)}")

        # Si la cantidad de descargas alcanza un múltiplo del tamaño del lote, notificar
        if contador_descarga % descargas_por_lote == 0:
            print(f"Se ha completado el lote {contador_descarga // descargas_por_lote} de {descargas_por_lote}")

        # Esperar aleatoriamente antes de realizar la siguiente iteración
        esperar_aleatorio(5, 10)

        # Si se alcanza la cantidad total de descargas, salir del bucle
        if contador_descarga == cantidad_total_descargas:
            print(f"Se han completado todas las descargas ({cantidad_total_descargas} en total)")
            break

except StaleElementReferenceException:
    print("Se produjo una excepción StaleElementReferenceException. Reintentando...")

finally:
    # Cerrar el navegador al finalizar
    driver.quit()


<div style="color: rgb(61, 48, 162); font-size: 12px;">
    Back to the
    <a href="#outilne" style="color: #687EFF;">
    outline.
    </a>
    <div/>