### Импорты

In [25]:
import os
import time
import pandas as pd
from transliterate import translit

from mediawikiapi import MediaWikiApi

In [11]:
mediawikiapi = MediaWikiApi('ru')

In [12]:
terms = [
    "Пермский период",
    "Пермское вымирание",
    "Пермско-триасовое вымирание",
    "Поздний палеозой",
    "Палеозойская эра",
    "Пермская система",
]

In [None]:
all_titles = set()

for term in terms:
    print(f'Поиск по запросу: {term}')
    try:
        term_titles = mediawikiapi.get_titles(term, 10)
        all_titles.update(term_titles)
        time.sleep(0.5)
    except Exception as e:
        print(f'Ошибка при поиске по запросу "{term}": {e}')

Поиск по запросу: Пермский период
Поиск по запросу: Пермское вымирание
Поиск по запросу: Пермско-триасовое вымирание
Поиск по запросу: Поздний палеозой
Поиск по запросу: Палеозойская эра
Поиск по запросу: Пермская система


In [14]:
all_titles

{'3I/ATLAS',
 'Архозавры',
 'Верхнекамское месторождение калийно-магниевых солей',
 'Вымирание',
 'Геологическая история Земли',
 'Геология Антарктиды',
 'Герцинская складчатость',
 'Гибель человечества',
 'Ильмень',
 'История Земли',
 'История жизни на Земле',
 'Кембрийский период',
 'Кратер Земли Уилкса',
 'Куштау',
 'Ледниковый период',
 'Массовое вымирание',
 'Массовое пермское вымирание',
 'Мел-палеогеновое вымирание',
 'Ордовикско-силурийское вымирание',
 'Палеозой',
 'Палеонтологический музей имени Ю. А. Орлова',
 'Пангея',
 'Пермская ГРЭС',
 'Пермская область',
 'Пермский край',
 'Пермский период',
 'Пермь',
 'Растения',
 'Салават',
 'Сибирские траппы',
 'Силурийский период',
 'Союз Советских Социалистических Республик',
 'Татарский отдел',
 'Триасово-юрское вымирание',
 'Триасовый период',
 'Шахтау',
 'Шихан',
 'Энциклопедический словарь Брокгауза и Ефрона',
 'Эра',
 'Юрактау'}

In [17]:
non_relevant_titles = [
    '3I/ATLAS',
    'Гибель человечества',
    'Ильмень',
    'Палеонтологический музей имени Ю. А. Орлова',
    'Пермская ГРЭС',
    'Пермская область',
    'Пермский край',
    'Пермь',
    'Растения',
    'Салават',
    'Силурийский период',
    'Союз Советских Социалистических Республик',
    'Татарский отдел',
    'Триасово-юрское вымирание',
    'Энциклопедический словарь Брокгауза и Ефрона',
    'Эра',
]

In [18]:
relevant_titles = [title for title in all_titles if title not in non_relevant_titles]

In [19]:
relevant_titles

['Сибирские траппы',
 'Вымирание',
 'Архозавры',
 'Массовое вымирание',
 'Кратер Земли Уилкса',
 'Герцинская складчатость',
 'Массовое пермское вымирание',
 'Ордовикско-силурийское вымирание',
 'Геологическая история Земли',
 'Палеозой',
 'Шихан',
 'Кембрийский период',
 'Триасовый период',
 'Мел-палеогеновое вымирание',
 'Пермский период',
 'Ледниковый период',
 'Куштау',
 'Пангея',
 'Юрактау',
 'Шахтау',
 'Верхнекамское месторождение калийно-магниевых солей',
 'История Земли',
 'История жизни на Земле',
 'Геология Антарктиды']

In [20]:
data = []

for title in relevant_titles:
    print(f'Поиск текста по статье: {title}')
    try:
        text = mediawikiapi.get_text(title)
        data.append({
            'title': title,
            'text': text,
        })
        time.sleep(0.5)
    except Exception as e:
        print(f'Ошибка при поиске текста статьи "{title}": {e}')

Поиск текста по статье: Сибирские траппы
Поиск текста по статье: Вымирание
Поиск текста по статье: Архозавры
Поиск текста по статье: Массовое вымирание
Поиск текста по статье: Кратер Земли Уилкса
Поиск текста по статье: Герцинская складчатость
Поиск текста по статье: Массовое пермское вымирание
Поиск текста по статье: Ордовикско-силурийское вымирание
Поиск текста по статье: Геологическая история Земли
Поиск текста по статье: Палеозой
Поиск текста по статье: Шихан
Поиск текста по статье: Кембрийский период
Поиск текста по статье: Триасовый период
Поиск текста по статье: Мел-палеогеновое вымирание
Поиск текста по статье: Пермский период
Поиск текста по статье: Ледниковый период
Поиск текста по статье: Куштау
Поиск текста по статье: Пангея
Поиск текста по статье: Юрактау
Поиск текста по статье: Шахтау
Поиск текста по статье: Верхнекамское месторождение калийно-магниевых солей
Поиск текста по статье: История Земли
Поиск текста по статье: История жизни на Земле
Поиск текста по статье: Геоло

In [34]:
output_dir = "permian_articles"
os.makedirs(output_dir, exist_ok=True)

for article in data:
    safe_article = article['title'].lower().replace(' ', '_').replace('-', '_')
    translit_safe_article = translit(safe_article, language_code='ru', reversed=True)
    filename = f"{translit_safe_article}.txt"
    filepath = os.path.join(output_dir, filename)

    with open(filepath, 'w', encoding='utf-8') as f:
        f.write(article['text'])

    print(f'Статья "{article['title']}" сохранена по пути {filepath}')

Статья "Сибирские траппы" сохранена по пути permian_articles\sibirskie_trappy.txt
Статья "Вымирание" сохранена по пути permian_articles\vymiranie.txt
Статья "Архозавры" сохранена по пути permian_articles\arhozavry.txt
Статья "Массовое вымирание" сохранена по пути permian_articles\massovoe_vymiranie.txt
Статья "Кратер Земли Уилкса" сохранена по пути permian_articles\krater_zemli_uilksa.txt
Статья "Герцинская складчатость" сохранена по пути permian_articles\gertsinskaja_skladchatost'.txt
Статья "Массовое пермское вымирание" сохранена по пути permian_articles\massovoe_permskoe_vymiranie.txt
Статья "Ордовикско-силурийское вымирание" сохранена по пути permian_articles\ordoviksko_silurijskoe_vymiranie.txt
Статья "Геологическая история Земли" сохранена по пути permian_articles\geologicheskaja_istorija_zemli.txt
Статья "Палеозой" сохранена по пути permian_articles\paleozoj.txt
Статья "Шихан" сохранена по пути permian_articles\shihan.txt
Статья "Кембрийский период" сохранена по пути permian_art