In [1]:
import requests
from bs4 import BeautifulSoup
import csv

BASE_URL = "https://repositorio.upch.edu.pe"
START_URL = f"{BASE_URL}/handle/20.500.12866/1318/recent-submissions"

# Lista para almacenar los datos
datos = []

def scrape_listing_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    #print(soup)
    items = soup.select("li.ds-artifact-item")

    for item in items:
        titulo = item.select_one("div.artifact-title a")
        autores = item.select_one("span.author")
        fecha = item.select_one("span.date")
        publisher = item.select_one("span.publisher")
        resumen = item.select_one("div.artifact-abstract")

        datos.append({
            "titulo": titulo.text.strip() if titulo else "NA",
            "autores": autores.text.strip() if autores else "NA",
            "resumen": resumen.text.strip() if resumen else "NA",
            "editorial": publisher.text.strip() if publisher else "NA",
            "fecha": fecha.text.strip() if fecha else "NA",
            "link": BASE_URL + titulo['href'] if titulo else "NA"
        })

    # Buscar el siguiente botón de paginación
    next_button = soup.select_one("a.next-page-link")
    if next_button:
        next_page_url = BASE_URL + next_button["href"]

        print(f"Avanzando a: {next_page_url}")
        scrape_listing_page(next_page_url)


# Ejecutar el scraping desde la primera página
scrape_listing_page(START_URL)

# Guardar en un archivo CSV
with open("articulos_upch.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["titulo", "autores", "resumen", "editorial", "fecha", "link"])
    writer.writeheader()
    writer.writerows(datos)

print(f"Se guardaron {len(datos)} artículos en 'articulos_upch.csv'")


Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=20
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=40
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=60
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=80
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=100
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=120
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=140
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=160
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=180
Avanzando a: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=200
Avan

## Documentado

In [None]:
import requests  # Para realizar solicitudes HTTP al sitio web
from bs4 import BeautifulSoup  # Para analizar y extraer información del HTML
import csv  # Para guardar los datos extraídos en un archivo CSV

# URL base del repositorio UPCH
BASE_URL = "https://repositorio.upch.edu.pe"

# URL de la página donde comienzan las publicaciones recientes
START_URL = f"{BASE_URL}/handle/20.500.12866/1318/recent-submissions"

# Lista donde se almacenarán los datos extraídos de cada artículo
datos = []

def scrape_listing_page(url):
    """
    Función que extrae los datos de los artículos en una página del repositorio.
    Luego, si existe una página siguiente, la procesa también de forma recursiva.

    Parámetros:
        url (str): URL de la página a analizar.
    """
    # Realizamos la solicitud a la URL
    response = requests.get(url)

    # Analizamos el contenido HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Seleccionamos todos los elementos que contienen artículos
    items = soup.select("li.ds-artifact-item")

    # Iteramos sobre cada artículo encontrado
    for item in items:
        # Extraemos el título del artículo (etiqueta <a> dentro de un div con clase artifact-title)
        titulo = item.select_one("div.artifact-title a")

        # Extraemos los autores (span con clase author)
        autores = item.select_one("span.author")

        # Extraemos la fecha de publicación (span con clase date)
        fecha = item.select_one("span.date")

        # Extraemos la editorial o publicador (span con clase publisher)
        publisher = item.select_one("span.publisher")

        # Extraemos el resumen del artículo (div con clase artifact-abstract)
        resumen = item.select_one("div.artifact-abstract")

        # Añadimos los datos a la lista 'datos', verificando si el elemento existe
        datos.append({
            "titulo": titulo.text.strip() if titulo else "NA",
            "autores": autores.text.strip() if autores else "NA",
            "resumen": resumen.text.strip() if resumen else "NA",
            "editorial": publisher.text.strip() if publisher else "NA",
            "fecha": fecha.text.strip() if fecha else "NA",
            "link": BASE_URL + titulo['href'] if titulo else "NA"
        })

    # Buscamos si hay un botón de paginación para continuar a la siguiente página
    next_button = soup.select_one("a.next-page-link")
    if next_button:
        # Si existe, construimos la URL completa de la siguiente página
        next_page_url = BASE_URL + next_button["href"]

        # Imprimimos en consola para seguimiento del progreso
        print(f"Avanzando a: {next_page_url}")

        # Llamamos recursivamente a la función para continuar con la siguiente página
        scrape_listing_page(next_page_url)

# Iniciamos el scraping desde la URL inicial
scrape_listing_page(START_URL)

# Guardamos los datos recolectados en un archivo CSV
with open("articulos_upch.csv", "w", newline="", encoding="utf-8") as f:
    # Definimos las columnas que tendrá el archivo
    writer = csv.DictWriter(f, fieldnames=["titulo", "autores", "resumen", "editorial", "fecha", "link"])

    # Escribimos la cabecera del archivo CSV
    writer.writeheader()

    # Escribimos todas las filas con los datos recolectados
    writer.writerows(datos)

# Imprimimos un mensaje final con la cantidad de artículos guardados
print(f"Se guardaron {len(datos)} artículos en 'articulos_upch.csv'")


# Extraccion, ejemplo de solo 2


In [None]:
import requests
from bs4 import BeautifulSoup
import csv
import time

BASE_URL   = "https://repositorio.upch.edu.pe"
START_URL  = f"{BASE_URL}/handle/20.500.12866/1318/recent-submissions"
MAX_ITEMS  = 80  # ← Número máximo de artículos a extraer para la prueba

# Lista para almacenar los datos
datos = []

def extraer_resumen_completo(url):
    """Visita la página individual del artículo y extrae el resumen completo."""
    try:
        r = requests.get(url)
        soup = BeautifulSoup(r.text, "html.parser")
        tag = soup.select_one("div.simple-item-view-description")
        return tag.get_text(strip=True) if tag else "NA"
    except Exception as e:
        print(f"Error al extraer resumen en {url}: {e}")
        return "NA"

def scrape_listing_page(url):
    """Rastrea la página de listados, pero se detiene cuando datos alcanza MAX_ITEMS."""
    print(f"Scraping listado: {url}")
    r = requests.get(url)
    soup = BeautifulSoup(r.text, "html.parser")
    items = soup.select("li.ds-artifact-item")

    for item in items:
        if len(datos) >= MAX_ITEMS:
            return  # ¡Detiene el scraping en cuanto tengamos suficientes!

        titulo_tag    = item.select_one("div.artifact-title a")
        autores_tag   = item.select_one("span.author")
        fecha_tag     = item.select_one("span.date")
        publisher_tag = item.select_one("span.publisher")

        titulo    = titulo_tag.text.strip() if titulo_tag else "NA"
        link      = BASE_URL + titulo_tag["href"] if titulo_tag else "NA"
        autores   = autores_tag.text.strip() if autores_tag else "NA"
        fecha     = fecha_tag.text.strip() if fecha_tag else "NA"
        editorial = publisher_tag.text.strip() if publisher_tag else "NA"

        resumen = extraer_resumen_completo(link) if link != "NA" else "NA"
        datos.append({
            "titulo":      titulo,
            "autores":     autores,
            "resumen":     resumen,
            "editorial":   editorial,
            "fecha":       fecha,
            "link":        link
        })

        # Pausa breve; para prueba puedes reducirla o eliminarla
        time.sleep(0.2)

    # Si aún no llegamos a MAX_ITEMS, seguimos a la siguiente página
    if len(datos) < MAX_ITEMS:
        next_button = soup.select_one("a.next-page-link")
        if next_button and next_button.get("href"):
            next_url = BASE_URL + next_button["href"]
            scrape_listing_page(next_url)

if __name__ == "__main__":
    scrape_listing_page(START_URL)

    # Guardar resultados en CSV
    with open("articulos_upch_prueba_80.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=[
            "titulo", "autores", "resumen", "editorial", "fecha", "link"
        ])
        writer.writeheader()
        writer.writerows(datos)

    print(f"Se guardaron {len(datos)} artículos en 'articulos_upch_prueba_80.csv'")


Scraping listado: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions
Scraping listado: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=20
Scraping listado: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=40
Scraping listado: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=60
Se guardaron 80 artículos en 'articulos_upch_prueba_80.csv'


In [None]:
!ls
!pwd

articulos_upch_prueba.csv  sample_data
/content


# Extraccion global

In [None]:
import requests
from bs4 import BeautifulSoup
import csv
import time
import re

BASE_URL  = "https://repositorio.upch.edu.pe"
START_URL = f"{BASE_URL}/handle/20.500.12866/1318/recent-submissions"

datos = []

def limpia_texto(t):
    # elimina saltos de línea normales, LS (\u2028) y PS (\u2029)
    return re.sub(r'[\r\n\u2028\u2029]', ' ', t).strip()

def extraer_resumen_completo(url):
    try:
        r = requests.get(url)
        soup = BeautifulSoup(r.text, "html.parser")
        tag  = soup.select_one("div.simple-item-view-description")
        txt  = tag.get_text(" ", strip=True) if tag else ""
        return limpia_texto(txt)
    except Exception as e:
        print(f"Error al extraer resumen en {url}: {e}")
        return "NA"

def scrape_listing_page(url):
    print(f"Scraping: {url}")
    r    = requests.get(url)
    soup = BeautifulSoup(r.text, "html.parser")
    items = soup.select("li.ds-artifact-item")

    for item in items:
        titulo_tag    = item.select_one("div.artifact-title a")
        autores_tag   = item.select_one("span.author")
        fecha_tag     = item.select_one("span.date")
        publisher_tag = item.select_one("span.publisher")

        titulo    = limpia_texto(titulo_tag.text)    if titulo_tag    else "NA"
        link      = BASE_URL + titulo_tag["href"]    if titulo_tag    else "NA"
        autores   = limpia_texto(autores_tag.text)   if autores_tag   else "NA"
        fecha     = limpia_texto(fecha_tag.text)     if fecha_tag     else "NA"
        editorial = limpia_texto(publisher_tag.text) if publisher_tag else "NA"

        resumen = extraer_resumen_completo(link) if link != "NA" else "NA"

        datos.append({
            "titulo":    titulo,
            "autores":   autores,
            "resumen":   resumen,
            "editorial": editorial,
            "fecha":     fecha,
            "link":      link
        })

        # time.sleep(0.1)  # ← puedes comentar o reducir esta pausa

    next_btn = soup.select_one("a.next-page-link")
    if next_btn and next_btn.get("href"):
        scrape_listing_page(BASE_URL + next_btn["href"])

if __name__ == "__main__":
    scrape_listing_page(START_URL)

    with open("articulos_upch_global.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=[
            "titulo","autores","resumen","editorial","fecha","link"
        ], quoting=csv.QUOTE_ALL)
        writer.writeheader()
        writer.writerows(datos)

    print(f"Se guardaron {len(datos)} artículos en 'articulos_upch_global.csv'")


Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=20
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=40
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=60
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=80
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=100
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=120
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=140
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=160
Scraping: https://repositorio.upch.edu.pe/handle/20.500.12866/1318/recent-submissions?offset=180
Scraping: https://repositorio.upch.edu.pe/han