# Формируем список русскоязычных поэтов из Википедии

Для формирования списка русскоязычных поэтов из Википедии запросим список страниц в следующих категориях:

In [1]:
page_categories = [
    'Русские поэты',
    'Поэты_России',
    'Поэтессы России'
]
page_categories

['Русские поэты', 'Поэты_России', 'Поэтессы России']

## Запрос страниц Википедии из определенной категории

In [2]:
import requests

S = requests.Session()
URL = 'https://ru.wikipedia.org/w/api.php'

def get_category_chunk(cmtitle, cmcontinue=None):
    params = {
        'action': 'query',
        'format': 'json',
        'list': 'categorymembers',
        'cmtitle': cmtitle,
        'cmlimit': 50
    }
    
    if cmcontinue:
        params['cmcontinue'] = cmcontinue
    
    r = S.get(url=URL, params=params)
    return r.json()

In [3]:
def get_category_pages(category):
    pages = []
    cmcontinue = None

    while True :
        data = get_category_chunk('Category:' + category, cmcontinue)
        pages += data['query']['categorymembers']

        if 'continue' not in data or 'cmcontinue' not in data['continue']:
            break

        cmcontinue = data['continue']['cmcontinue']

    return pages

russian_poets_category = 'Русские поэты'
pages = get_category_pages(russian_poets_category)

## Сохраняем данные в текстовый файл

In [4]:
import csv

def save_pages_to_file(pages, file_path):
    keys = pages[0].keys()
    with open(file_path, 'w', encoding='utf8', newline='') as f:
        dict_writer = csv.DictWriter(f, keys)
        dict_writer.writeheader()
        dict_writer.writerows(pages)

def process_category(category, file_path):
    print('Processing category: {}'.format(category))
    category_pages = get_category_pages(category)
    print('Pages in category: {}'.format(len(category_pages)))
    save_pages_to_file(category_pages, file_path)

In [5]:
page_categories

['Русские поэты', 'Поэты_России', 'Поэтессы России']

In [6]:
process_category('Русские поэты', 'data/russian-poets-pages.csv')

Processing category: Русские поэты
Pages in category: 2131


In [7]:
process_category('Поэты_России', 'data/poets-of-russia-pages.csv')

Processing category: Поэты_России
Pages in category: 2310


In [8]:
process_category('Поэтессы России', 'data/russian-wmn-poets-pages.csv')

Processing category: Поэтессы России
Pages in category: 249
