In [291]:
import requests
import re
import hashlib
from pathlib import Path
from collections import Counter

In [300]:
'''
Собирает ссылку на Вики
'''
def get_link(topic):
    return 'https://ru.wikipedia.org/wiki/'+topic.capitalize()

In [308]:
'''
Вытаскивает данные с указанного URL и складывет в кэш
'''
def get_content(link, force=False):
    h = hashlib.md5(link.encode()).hexdigest()
    p = Path(f'cache/{h}.html')
    
    if not p.exists():       
        # print('Getting data...')
        data = requests.get(link).text
        
        with open(p, 'w') as f:
            f.write(data)
    else:
        # print('Reading cache...')
        with open(p, 'r') as f:
            data = f.read()
    
    return data

In [302]:
'''
Парсит URL и собирает все слова длиннее 3 симовлов на русском языке
'''
def get_words(link):
    data = get_content(link)
    
    return re.findall("[а-яА-Я]{3,}", data)

In [303]:
'''
Считает слова и возращает список наиболее часто встречающихся
'''
def common_words(link, n=10):
    # можно перебрать слова
    # words = get_words(topic)
    
    # result = {}
    # for word in words:
    #    if word not in result:
    #        result[word] = 0
    #    result[word] += 1
    
    # result_list = list(result.items())
    # result_list.sort(key = lambda x: -x[1])
    
    # return result_list
    
    # но можно сделать collections.Counter
    # правда, что-то подсказывает, что эта штука съедает больше памяти
    return Counter(get_words(link)).most_common(n)

In [309]:
common_words(get_link('Россия'))

[('России', 692),
 ('года', 242),
 ('Российской', 229),
 ('Федерации', 216),
 ('Россия', 211),
 ('отношения', 205),
 ('Российско', 162),
 ('году', 147),
 ('СССР', 128),
 ('Российская', 100)]

In [305]:
'''
Ищет раздел Ссылки на Вики и возвращает список ссылок
- Далеко от идеала :)
'''
def get_links(topic):
    data = get_content(get_link(topic))
    
    return re.findall(
        'href="([^"]+)">(.*)</a>', 
        re.findall("<h2>.+Ссылки.+</h2>([\n<> \w\-=\"';:\.а-яА-Я_{}#%@\(\)\/,&\?]*)\n<ul>([\n <>\w=\":/\.\-а-яА-Я’\?#@\(\)]*)</ul>", data, re.M)[0][1]
    )


In [307]:
links = get_links('Дерево')
print(f'Найдено {len(links)} ссылок(-ки)')
links

Найдено 5 ссылок


[('http://transspot.ru/2013/05/31/pro-derevya-na-ulicax/',
  'Роль деревьев в городской среде'),
 ('http://ec-dejavu.ru/d/Derevo.html',
  'Представления о дереве в истории культуры и философии'),
 ('http://www.maleus.ru/index.php/news/129-tree',
  'Найдены самые древние деревья на Земле'),
 ('http://www.na.fs.fed.us/spfo/pubs/silvics_manual/table_of_contents.htm',
  'Silvics of North America'),
 ('http://hort.ifas.ufl.edu/woody/',
  'University of Florida’s Landscape Plants website')]

In [318]:
'''
Обрабатывает указанный список ссылок и считает возращает словарь ссылка: слова
Также записывает данные в файлы
'''
def process_links(link_list):
    res = {}
    for link in links:
        url, text = link
        print(f'Processing {url}...')
        words = common_words(url)
        res[url] = words
        f_name = text.replace(' ', '_')+'.txt'
        
        with open('data/'+f_name, 'w') as f:
            print(f'Writing data to `data/{f_name}`')
            for word in words:
                w, c = word
                f.write(f'{w} - {c}\n')
                
    return res

In [319]:
process_links(links)

Processing http://transspot.ru/2013/05/31/pro-derevya-na-ulicax/...
Writing data to `data/Роль_деревьев_в_городской_среде.txt`
Processing http://ec-dejavu.ru/d/Derevo.html...
Writing data to `data/Представления_о_дереве_в_истории_культуры_и_философии.txt`
Processing http://www.maleus.ru/index.php/news/129-tree...
Writing data to `data/Найдены_самые_древние_деревья_на_Земле.txt`
Processing http://www.na.fs.fed.us/spfo/pubs/silvics_manual/table_of_contents.htm...
Writing data to `data/Silvics_of_North_America.txt`
Processing http://hort.ifas.ufl.edu/woody/...
Writing data to `data/University_of_Florida’s_Landscape_Plants_website.txt`


{'http://transspot.ru/2013/05/31/pro-derevya-na-ulicax/': [('движения', 26),
  ('деревьев', 25),
  ('для', 23),
  ('деревья', 19),
  ('городе', 17),
  ('Деревья', 16),
  ('дорожного', 13),
  ('улицах', 11),
  ('ТрансСпот', 11),
  ('Про', 9)],
 'http://ec-dejavu.ru/d/Derevo.html': [],
 'http://www.maleus.ru/index.php/news/129-tree': [],
 'http://www.na.fs.fed.us/spfo/pubs/silvics_manual/table_of_contents.htm': [],
 'http://hort.ifas.ufl.edu/woody/': []}