In [None]:
# Script para la descarga de PDFs con la API de arXiv.org
# Versión 1.0

In [5]:
# Se importan las librerias necesarias y se determinan los parámetros de busqueda
# (términos y número máximo de resutlados, URL de la API donde se realiza la busqueda)
# Nota: La API es compatible con términos como "AND", "OR", "AND NOT", y paréntesis de jerarquías

import os
import requests
import xml.etree.ElementTree as ET

search_term = "(digitalisation OR digitalization) AND (maritime)"
max_results = 250  # Number of results to retrieve

base_url = "http://export.arxiv.org/api/query?search_query=all:{}&start=0&max_results={}".format(search_term, max_results)
response = requests.get(base_url)


In [None]:
# Se define la función con la que se extraen los URL de los PDFs de la 
# respuesta de la API de busqueda

def get_pdf_urls(response_content):
    root = ET.fromstring(response_content)
    pdf_urls = []
    for entry in root.findall("{http://www.w3.org/2005/Atom}entry"):
        pdf_url = entry.find("{http://www.w3.org/2005/Atom}link[@title='pdf']").attrib['href']
        pdf_urls.append(pdf_url)
    return pdf_urls

pdf_urls = get_pdf_urls(response.content)


In [None]:
# Se imprime el número de URLs que se han encontrado, útil para comprobar que el número
# es similar al que se encuentra con la búsqueda manual en la web de arXiv

print(len(pdf_urls))

In [112]:
# Se descargan los PDFs en la carpeta dada en el parámetro download_dir

def download_pdfs(pdf_urls, download_dir="arxiv_pdfs4"):
    if not os.path.exists(download_dir):
        os.makedirs(download_dir)
    i=1
    for url in pdf_urls:
        filename = url.split('/')[-1] + ".pdf"
        filepath = os.path.join(download_dir, filename)
        response = requests.get(url)
        with open(filepath, 'wb') as f:
            f.write(response.content)
        print(f"{i} Downloaded {filename}")
        i=i+1

download_pdfs(pdf_urls)

1 Downloaded 2201.06947v2.pdf
2 Downloaded 2111.05605v1.pdf
3 Downloaded 2204.04085v2.pdf
4 Downloaded 2401.04032v2.pdf
5 Downloaded 2301.09574v1.pdf
6 Downloaded 1911.10498v1.pdf
7 Downloaded 2101.08812v1.pdf
8 Downloaded 2407.08406v1.pdf
9 Downloaded 2111.06116v1.pdf
10 Downloaded 2307.06688v1.pdf
11 Downloaded 2209.01952v1.pdf
12 Downloaded 2302.02635v2.pdf
13 Downloaded 0911.1759v1.pdf
14 Downloaded 1911.03240v1.pdf
15 Downloaded 2111.13436v2.pdf
16 Downloaded 2208.14842v1.pdf
17 Downloaded 2301.07676v1.pdf
18 Downloaded 2105.13733v1.pdf
19 Downloaded 1812.00989v1.pdf
20 Downloaded 2212.04132v1.pdf
21 Downloaded 2310.12880v2.pdf
