In [None]:
##################################################################
#  Цель - отсканировать существующие препринты на сайте Банка России 
#     и собрать из этих них информацию о ключевых словах
# 1) Нужно научиться сканировать сайты и открывать пдф-файлы на этом сайте
# 2) Нужно научиться извлекать текст из этих pdf-файлов по заданному правилу
# 3) Нужно извлеченный текст соотнести с названием конкретного исследования в виде таблицы
# 4) Нужно экспортировать полученные данные в эксель формат
#
# Сайт 1: https://www.cbr.ru/ec_research/ser/
# Сайт 2: https://www.cbr.ru/dkp/system_p/
#################################################################

In [1]:
# библиотеки
import requests
import lxml
from bs4 import BeautifulSoup

In [None]:
# целевые сайты
url1 = 'https://www.cbr.ru/ec_research/ser/'
url2 = 'https://www.cbr.ru/dkp/system_p/research_notes/#a_119347'

r1 = requests.get(url1)
r2 = requests.get(url2)

# чтобы начать парсить, нужно преобразовать информацию с сайта в объект "Soup"
soup1 = BeautifulSoup(r1.text, 'html')
soup2 = BeautifulSoup(r2.text, 'html')

<!DOCTYPE html>
<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<meta content="ru" name="zoom:lang"/>
<meta content="Wed, 20 Aug 2025 08:43:43 GMT" name="zoom:last-modified"/>
<title>Исследования и аналитические записки | Банк России</title>
<meta content="/common/images/share-1.jpg" property="og:image"/>
<link href="/common/libs/jquery-ui/jquery-ui.min.css?v=v478607061" media="all" rel="stylesheet" type="text/css"/>
<!--[if IE 9]><link rel="stylesheet" type="text/css" href="/common/style/main-ie9.css?v=v1043280877" media="all"><![endif]-->
<!--[if gt IE 9]><!--><link href="/common/style/main.min.css?v=v1043280877" media="all" rel="stylesheet" type="text/css"/><!--<![endif]-->
<script src="/common/libs/jquery-3.7.1.min.js?v=v735956814" type="text/j

In [None]:
# находим все ссылки на исследования, которые расположены на сайте номер 1
base1 = soup1.find_all('a', class_ = 'referenceable')


In [None]:
# находим все ссылки на исследования, которые расположены на сайте номер 2
base2 = soup2.find_all('a')

[<a class="header_logo" href="/"></a>,
 <a class="d-flex d-md-none" data-tooltip="" data-tooltip-class="mobile-hide" data-tooltip-content="Версия для слабовидящих" href="#"><img class="header_visual-impaired_item" src="/common/images/icon-la-glasses-dark.svg"/></a>,
 <a aria-label="Поиск по сайту" class="header_search_btn d-flex d-md-none" data-search-form-show="" href="#"><div class="header_search_icon"></div></a>,
 <a href="/contactBR/">Обратиться в Банк России</a>,
 <a data-tooltip="" data-tooltip-class="mobile-hide" data-tooltip-content="Версия для слабовидящих" href="#"><img class="header_visual-impaired_item" src="/common/images/icon-la-glasses-dark.svg"/></a>,
 <a href="/Localization/SwitchLanguage?url=%2Fdkp%2Fsystem_p%2Fresearch_notes%2F&amp;from=ru-RU&amp;to=en-CB"><!--noindex-->EN<!--/noindex--></a>,
 <a aria-label="Поиск по сайту" class="header_search_btn" data-search-form-show="" href="#">
 <div class="header_search_icon"></div>
 </a>,
 <a class="header_logo" href="/"></a>

In [97]:
# создаем словарь
research_data = []

In [98]:
# извлекаем ссылки и соответствующие названия к статьям из сайта номер 1
for link in base1:
    # извлекаем название и ссылку
    title_span = link.find('span', class_='document-regular_name_visible')
    if title_span:
        title = title_span.get_text(strip=True)
        href = link.get('href')

        research_data.append({
            'title': title,
            'link': f"https://www.cbr.ru{href}"
        })

In [99]:
# извлекаем ссылки и соответствующие названия к статьям из сайта номер 1
for link in base2:
    # извлекаем значение атрибута href из ссылки
    href = link.get('href', '')
    if href and href.startswith('/StaticHtml') or href.startswith('/Content') :
        title = link.get_text(strip=True)
        href = link.get('href')

        research_data.append({
            'title': title,
            'link': f"https://www.cbr.ru{href}"
        })

In [None]:
# можно посмотреть на отобранные статьи
for i, research in enumerate(research_data, 1):
    print(f"{i}. {research['title']}")
    print(f"Ссылка: {research['link']}")
    print()

1. Оценка разрыва и потенциального выпуска с учетом финансовых условий по данным опросов Банка России на примере ЦФО
Ссылка: https://www.cbr.ru/ec_research/ser/wp_155/

2. Учебная модель малой открытой экономики для анализа денежно-кредитной политики (с примерами из практики Банка России)
Ссылка: https://www.cbr.ru/ec_research/ser/wp_154/

3. Жесткости отечественного рынка труда в период структурной трансформации экономики: неизвестные возможности известного источника данных
Ссылка: https://www.cbr.ru/ec_research/ser/wp_153/

4. Неоднородность инфляционных ожиданий разных типов экономических агентов: выводы для денежно-кредитной политики
Ссылка: https://www.cbr.ru/ec_research/ser/wp_152/

5. О равновесиях в модели рынков депозитов с экзогенными издержками перехода вкладчиков из банка в банк
Ссылка: https://www.cbr.ru/ec_research/ser/wp_151/

6. Синхронизация деловых циклов России и Китая
Ссылка: https://www.cbr.ru/ec_research/ser/wp_150/

7. Декомпозиция индекса потребительских цен на 

In [None]:
# Теперь есть список статей и ссылки на них. Требуется из всех ссылок извлечь те, которые ведут на сайт и заменить их на ссылки на pdf файлы

In [None]:
def replace_with_pdf(articles_list):
    # данная функция заменяет ссылки на статьи на прямые ссылки на pdf-файлы
    results = articles_list.copy() # финальный словарь, в который будут сохраняться финальные ссылки на pdf

    for i, article in enumerate(results):
        current_link = article['link'] # получаем текущую ссылку на статью
        print(f"Обрабатываем: {current_link}")

        if current_link.lower().endswith('.pdf'):
            print("Уже PDF, пропускаем")
            continue
        
        else:
            print("Уже исправляю ссылку на PDF")
            urltest = current_link
            rtest = requests.get(urltest)
            souptest = BeautifulSoup(rtest.text, 'html.parser')
            basetest = souptest.find_all('a')

            for i, link in enumerate(basetest, 1):
                href = link.get('href')
                if href and href.endswith('.pdf'):
                    if href.startswith('/'):
                        hrefpdf = f"https://www.cbr.ru{href}"
                        article['link'] = hrefpdf
                    elif href.startswith('http'):
                        hrefpdf = href
                        article['link'] = hrefpdf
                    else:
                        hrefpdf = f"https://www.cbr.ru/{href}"
                        article['link'] = hrefpdf

    return results

research_data_pdf = replace_with_pdf(research_data)

Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_155/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_154/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_153/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_152/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_151/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_150/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_149/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_148/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_147/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_146/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_145/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_144/
Уже испр

In [106]:
# можно посмотреть на отобранные статьи
for i, research in enumerate(research_data_pdf, 1):
    print(f"{i}. {research['title']}")
    print(f"Ссылка: {research['link']}")
    print()

1. Оценка разрыва и потенциального выпуска с учетом финансовых условий по данным опросов Банка России на примере ЦФО
Ссылка: https://www.cbr.ru/StaticHtml/File/180764/wp_155.pdf

2. Учебная модель малой открытой экономики для анализа денежно-кредитной политики (с примерами из практики Банка России)
Ссылка: https://www.cbr.ru/StaticHtml/File/180505/wp_154.pdf

3. Жесткости отечественного рынка труда в период структурной трансформации экономики: неизвестные возможности известного источника данных
Ссылка: https://www.cbr.ru/StaticHtml/File/178855/wp_153.pdf

4. Неоднородность инфляционных ожиданий разных типов экономических агентов: выводы для денежно-кредитной политики
Ссылка: https://www.cbr.ru/StaticHtml/File/178678/wp_152.pdf

5. О равновесиях в модели рынков депозитов с экзогенными издержками перехода вкладчиков из банка в банк
Ссылка: https://www.cbr.ru/StaticHtml/File/177177/wp_151.pdf

6. Синхронизация деловых циклов России и Китая
Ссылка: https://www.cbr.ru/StaticHtml/File/176714