In [1]:
from urllib.request import urlopen
from html.parser import HTMLParser
import os
import wget

In [2]:
class MyHTMLParser(HTMLParser):
    def __init__(self, predicate):
        super().__init__()
        self.journals = []
        self.state = False
        self.predicate = predicate
        
    def handle_starttag(self, tag, attrs):
        self.state = tag == 'a'
        
    def handle_data(self, data):
        text = data.strip()
        if self.state and len(text) > 0 and self.predicate(text):
            self.journals.append(data)

class PDFHTMLParser(HTMLParser):
    def __init__(self, predicate):
        super().__init__()
        self.journals = []
        self.predicate = predicate
        
    def handle_data(self, data):
        text = data.strip()
        if self.predicate(text):
            self.journals.append(data)

# Выгружение всех журналов

In [3]:
url_root = "https://socionet.ru/~cyrcitec/newr-nbr/nberwo/"
html_root = urlopen(url_root).read().decode()

journals_catalogue = MyHTMLParser(lambda x: x.endswith('.xml'))
journals_catalogue.feed(html_root)

In [4]:
xml_root = "http://no-xml.socionet.ru/~cyrcitec/newr-nbr/nberwo/"

In [5]:
len(journals_catalogue.journals)

23173

In [6]:
from lxml import etree

In [7]:
def parseXML(xml):
    """
    Парсинг XML
    """
    handle, pdf_link, json_link = None, None, None
    
    if xml.decode().count('\n') <= 17:
        return handle, pdf_link, json_link
    root = etree.fromstring(xml)
    
    for appt in root.getchildren():
        handle = appt.attrib.get('handle') 
        for elem in appt.getchildren():
            if elem.text:
                json_link = elem.attrib.get('rich')
                for t in elem:
                    pdf_link = t.attrib.get('data')
    return handle, pdf_link, json_link

In [10]:
parseXML(urlopen(''.join([xml_root, journals_catalogue.journals[3]])).read())

('repec:nbr:nberwo:0005',
 'http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w0005.pdf',
 'http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/0005.json')

# Из каждого журнала выбираем статью (например, первую) и ищем для нее PDF

In [24]:
try:
    os.mkdir('articles')
except:
    pass

In [25]:
url_prefix = "http://no-xml.socionet.ru/~cyrcitec/"
url_prefix_len = len(url_prefix)

In [26]:
import numpy as np
np.random.seed(42)

In [27]:
for journal in np.random.choice(journals_catalogue.journals[7900:], size=250):
    print(journal)
    try:
        journal_id, journal_link_pdf, journal_link_json = parseXML(urlopen(''.join([xml_root, journal])).read())
        print(journal_id, journal_link_pdf, journal_link_json)
        if (journal_id is None) or (journal_link_pdf is None) or (journal_link_json is None):
            continue
    except:
        continue
    
    try:
        os.mkdir(f'articles/{journal_id}')
    except:
        pass
    try:
        wget.download(journal_link_pdf, out=f'articles/{journal_id}/{journal_id}:orig.pdf')
    except:
        pass
    try:
        # http://no-xml.socionet.ru/~cyrcitec/jfmt.cgi?file=j-nbr/nberwo/0011.json
        wget.download(f"{url_prefix}jfmt.cgi?file={journal_link_json[url_prefix_len:]}", 
                      out=f'articles/{journal_id}/{journal_id}:orig.txt')
    except:
        pass
    

17487.xml
repec:nbr:nberwo:17487 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w17487.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/17487.json
10999.xml
repec:nbr:nberwo:10999 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w10999.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/10999.json
15575.xml
repec:nbr:nberwo:15575 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w15575.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/15575.json
23732.xml
repec:nbr:nberwo:23732 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w23732.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/23732.json
15370.xml
repec:nbr:nberwo:15370 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w15370.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/15370.json
22257.xml
repec:nbr:nberwo:22257 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w22257.pdf http://no-xml.socionet.ru/~cyrcitec/j-nb

21676.xml
repec:nbr:nberwo:21676 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w21676.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/21676.json
13717.xml
repec:nbr:nberwo:13717 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w13717.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/13717.json
14055.xml
repec:nbr:nberwo:14055 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w14055.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/14055.json
19081.xml
repec:nbr:nberwo:19081 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w19081.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/19081.json
24689.xml
repec:nbr:nberwo:24689 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w24689.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/24689.json
21359.xml
repec:nbr:nberwo:21359 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w21359.pdf http://no-xml.socionet.ru/~cyrcitec/j-nb

21820.xml
repec:nbr:nberwo:21820 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w21820.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/21820.json
23052.xml
repec:nbr:nberwo:23052 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w23052.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/23052.json
17852.xml
repec:nbr:nberwo:17852 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w17852.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/17852.json
22285.xml
repec:nbr:nberwo:22285 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w22285.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/22285.json
19720.xml
repec:nbr:nberwo:19720 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w19720.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/19720.json
11156.xml
repec:nbr:nberwo:11156 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w11156.pdf http://no-xml.socionet.ru/~cyrcitec/j-nb

25618.xml
repec:nbr:nberwo:25618 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w25618.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/25618.json
13261.xml
repec:nbr:nberwo:13261 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w13261.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/13261.json
17431.xml
repec:nbr:nberwo:17431 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w17431.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/17431.json
23100.xml
repec:nbr:nberwo:23100 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w23100.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/23100.json
12604.xml
repec:nbr:nberwo:12604 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w12604.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/12604.json
22130.xml
repec:nbr:nberwo:22130 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w22130.pdf http://no-xml.socionet.ru/~cyrcitec/j-nb

11200.xml
repec:nbr:nberwo:11200 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w11200.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/11200.json
16875.xml
repec:nbr:nberwo:16875 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w16875.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/16875.json
23786.xml
repec:nbr:nberwo:23786 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w23786.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/23786.json
20175.xml
repec:nbr:nberwo:20175 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w20175.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/20175.json
21792.xml
repec:nbr:nberwo:21792 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w21792.pdf http://no-xml.socionet.ru/~cyrcitec/j-nbr/nberwo/21792.json
13314.xml
repec:nbr:nberwo:13314 http://no-xml.socionet.ru/~cyrcitec/pdf-cache/www.nber.org/papers/w13314.pdf http://no-xml.socionet.ru/~cyrcitec/j-nb