In [2]:
##################################################################
#  Цель - отсканировать существующие препринты на сайте Банка России 
#     и собрать из этих них информацию о ключевых словах
# 1) Нужно научиться сканировать сайты и открывать пдф-файлы на этом сайте
# 2) Нужно научиться извлекать текст из этих pdf-файлов по заданному правилу
# 3) Нужно извлеченный текст соотнести с названием конкретного исследования в виде таблицы
# 4) Нужно экспортировать полученные данные в эксель формат
#
# Сайт 1: https://www.cbr.ru/ec_research/ser/
# Сайт 2: https://www.cbr.ru/dkp/system_p/
#################################################################

In [1]:
# библиотеки
import requests
import lxml
from bs4 import BeautifulSoup
import pandas as pd

In [24]:
# целевые сайты
url1 = 'https://www.cbr.ru/ec_research/ser/'
# url2 = 'https://www.cbr.ru/dkp/system_p/research_notes/#a_119347'

r1 = requests.get(url1)
# r2 = requests.get(url2)

# чтобы начать парсить, нужно преобразовать информацию с сайта в объект "Soup"
soup1 = BeautifulSoup(r1.text, 'html')
# soup2 = BeautifulSoup(r2.text, 'html')

In [25]:
# находим все ссылки на исследования, которые расположены на сайте номер 1
base1 = soup1.find_all('a', class_ = 'referenceable')
# находим все ссылки на исследования, которые расположены на сайте номер 2
# base2 = soup2.find_all('a')


In [26]:
# создаем словарь
research_data = []

In [27]:
# извлекаем ссылки и соответствующие названия к статьям из сайта номер 1
for link in base1:
    # извлекаем название и ссылку
    title_span = link.find('span', class_='document-regular_name_visible')
    if title_span:
        title = title_span.get_text(strip=True)
        href = link.get('href')

        research_data.append({
            'title': title,
            'link': f"https://www.cbr.ru{href}"
        })

In [None]:
# извлекаем ссылки и соответствующие названия к статьям из сайта номер 2
'''
for link in base2:
    # извлекаем значение атрибута href из ссылки
    href = link.get('href', '')
    if href and href.startswith('/StaticHtml') or href.startswith('/Content') :
        title = link.get_text(strip=True)
        href = link.get('href')

        research_data.append({
            'title': title,
            'link': f"https://www.cbr.ru{href}"
        })
        '''

In [28]:
# можно посмотреть на отобранные статьи
for i, research in enumerate(research_data, 1):
    print(f"{i}. {research['title']}")
    print(f"Ссылка: {research['link']}")
    print()

1. Оценка разрыва и потенциального выпуска с учетом финансовых условий по данным опросов Банка России на примере ЦФО
Ссылка: https://www.cbr.ru/ec_research/ser/wp_155/

2. Учебная модель малой открытой экономики для анализа денежно-кредитной политики (с примерами из практики Банка России)
Ссылка: https://www.cbr.ru/ec_research/ser/wp_154/

3. Жесткости отечественного рынка труда в период структурной трансформации экономики: неизвестные возможности известного источника данных
Ссылка: https://www.cbr.ru/ec_research/ser/wp_153/

4. Неоднородность инфляционных ожиданий разных типов экономических агентов: выводы для денежно-кредитной политики
Ссылка: https://www.cbr.ru/ec_research/ser/wp_152/

5. О равновесиях в модели рынков депозитов с экзогенными издержками перехода вкладчиков из банка в банк
Ссылка: https://www.cbr.ru/ec_research/ser/wp_151/

6. Синхронизация деловых циклов России и Китая
Ссылка: https://www.cbr.ru/ec_research/ser/wp_150/

7. Декомпозиция индекса потребительских цен на 

### Теперь есть список статей и ссылки на них. Требуется из всех ссылок извлечь те, которые ведут на сайт, и заменить их на ссылки на pdf файлы

In [29]:
def replace_with_pdf(articles_list): # данная функция заменяет ссылки на статьи на прямые ссылки на pdf-файлы
    results = articles_list.copy() # финальный словарь, в который будут сохраняться финальные ссылки на pdf

    for i, article in enumerate(results):
        current_link = article['link'] # получаем текущую ссылку на статью
        print(f"Обрабатываем: {current_link}")

        if current_link.lower().endswith('.pdf'):
            print("Уже PDF, пропускаем")
            continue
        
        else:
            print("Уже исправляю ссылку на PDF")
            urltest = current_link
            rtest = requests.get(urltest)
            souptest = BeautifulSoup(rtest.text, 'html.parser')
            basetest = souptest.find_all('a')

            for i, link in enumerate(basetest, 1):
                href = link.get('href')
                if href and href.endswith('.pdf'):
                    if href.startswith('/'):
                        hrefpdf = f"https://www.cbr.ru{href}"
                        article['link'] = hrefpdf
                    elif href.startswith('http'):
                        hrefpdf = href
                        article['link'] = hrefpdf
                    else:
                        hrefpdf = f"https://www.cbr.ru/{href}"
                        article['link'] = hrefpdf

    seen_links = set()
    unique_research = []
    
    for research in results:
        link = research.get('link', '').strip()
        if link.endswith('.pdf'): # есть ссылки, которые ведут не на pdf, а на .xsls
            if link and link not in seen_links:
                seen_links.add(link)
                unique_research.append(research)
            elif not link:
                # Исследования без ссылки тоже добавляем
                unique_research.append(research)
        
    # Возвращаем список уникальных исследований
    return unique_research

research_data_pdf = replace_with_pdf(research_data)

Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_155/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_154/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_153/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_152/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_151/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_150/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_149/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_148/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_147/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_146/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_145/
Уже исправляю ссылку на PDF
Обрабатываем: https://www.cbr.ru/ec_research/ser/wp_144/
Уже испр

In [30]:
# можно посмотреть на отобранные статьи
for i, research in enumerate(research_data_pdf, 1):
    print(f"{i}. {research['title']}")
    print(f"Ссылка: {research['link']}")
    print()

1. Оценка разрыва и потенциального выпуска с учетом финансовых условий по данным опросов Банка России на примере ЦФО
Ссылка: https://www.cbr.ru/StaticHtml/File/180764/wp_155.pdf

2. Учебная модель малой открытой экономики для анализа денежно-кредитной политики (с примерами из практики Банка России)
Ссылка: https://www.cbr.ru/StaticHtml/File/180505/wp_154.pdf

3. Жесткости отечественного рынка труда в период структурной трансформации экономики: неизвестные возможности известного источника данных
Ссылка: https://www.cbr.ru/StaticHtml/File/178855/wp_153.pdf

4. Неоднородность инфляционных ожиданий разных типов экономических агентов: выводы для денежно-кредитной политики
Ссылка: https://www.cbr.ru/StaticHtml/File/178678/wp_152.pdf

5. О равновесиях в модели рынков депозитов с экзогенными издержками перехода вкладчиков из банка в банк
Ссылка: https://www.cbr.ru/StaticHtml/File/177177/wp_151.pdf

6. Синхронизация деловых циклов России и Китая
Ссылка: https://www.cbr.ru/StaticHtml/File/176714

## Извлекаем ключевые слова из PDF

In [9]:
import PyPDF2
from io import BytesIO
import re
import pdfplumber

### *Напишем функцию, которая извлекает текст из pdf-файла*

In [31]:
def extract_text_from_pdf(pdf_link: str) -> str:
    try:
        response = requests.get(pdf_link)
        response.raise_for_status()
                
        with pdfplumber.open(BytesIO(response.content)) as pdf:
            text = []
            total_pages = len(pdf.pages)
            for i in range(min(10, total_pages)):
                page = pdf.pages[i]  # Получаем объект страницы по индексу
                text.append(page.extract_text())

            # Извлекаем последние 4 страницы (если есть)
            if total_pages > 10:  # Чтобы не дублировать страницы
                start_last_pages = max(10, total_pages - 4)  # Начинаем с max(8, total_pages-4)
                for i in range(start_last_pages, total_pages):
                    page = pdf.pages[i]  # Получаем объект страницы по индексу
                    text.append(page.extract_text())
        return text

    except:
        response = requests.get(pdf_link)
        response.raise_for_status()

        pdf_data = BytesIO(response.content)

    
        reader = PyPDF2.PdfReader(pdf_data, strict=False)
        text = []

        total_pages = len(reader.pages)
        
        # Извлекаем первые 10 страниц
        for page_num in range(min(10, total_pages)):
            content = reader.pages[page_num].extract_text()
            text.append(content)
        
        # Извлекаем последние 4 страницы (если есть)
        if total_pages > 10:  # Чтобы не дублировать страницы
            start_last_pages = max(10, total_pages - 4)
            for page_num in range(start_last_pages, total_pages):
                content = reader.pages[page_num].extract_text()
                text.append(content)
            
        return text


### *Напишем функцию, которая очищает текст*

In [100]:
def clean_keywords_text(text: str) -> str: # данная функция очищает и восстанавливает текст
    proceeded_parts = []
    for part in text: # добавим точку в конец страницы, если ее нет
        if not part.endswith('.'):
                part += '.'
        proceeded_parts.append(part) 

    combined_text = " ".join(proceeded_parts) # объединяем все страницы вместе с пробелом
    lines = combined_text.split('\n') # разделяем текст на строки

    cleaned_lines = []
    for line in lines:
            # Убираем пробелы в начале и конце строки
            line = line.strip()
            cleaned_lines.append(line)

    full_text = ' '.join(cleaned_lines) # добавим пробел между строками

    full_text = re.sub(r'(\w+)-\s+', r'\1', full_text)
    full_text = re.sub(r'\s+', ' ', full_text)
    full_text = re.sub(r'\s+:', ':', full_text) # убираем пробел перед двоеточием
    full_text = re.sub(r'\s+ь', 'ь', full_text) # убираем пробел мягким знаком (в некоторых файлах при извлечении текста есть данная проблема)
    full_text = re.sub(r'\s+ы', 'ы', full_text)
    full_text = re.sub(r'\s+ъ', 'ъ', full_text)
    full_text = re.sub(r'\s+-', '-', full_text)
    full_text = re.sub(r'\s+»', '»', full_text)
    full_text = re.sub(r'\s+;', ';', full_text)
    full_text = re.sub(r':(\w)', r': \1', full_text) # добавляем пробел после двоеточия, если его нет

    return full_text.strip()

### *Напишем функцию, которая ищет в тексте ключевые слова*

In [91]:
def extract_keywords(text: str) -> str: # извлечение ключевых слов с учетом различных форматов:
    # варианты паттернов для поиска начала ключевых слов
    patterns = [
        r'Ключевые слова:*',
        r'Keywords:*',
        r'Key words:*',
        r'KEYWORDS:*',
        r'KEY WORDS:*',
        r'Ключевые слова\s*',  # Без двоеточия
        r'Keywords\s*',        # Без двоеточия
        r'Key words\s*',       # Без двоеточия
    ]
    
    for pattern in patterns:
        match = re.search(pattern, text, re.IGNORECASE)
        if match:
            start_pos = match.end()
            # Находим позицию начала ключевых слов
            keywords_text = text[start_pos:]
            
            # Разбиваем текст на токены для анализа
            tokens = []
            current_token = ""
            
            # Проходим по каждому символу для анализа структуры
            for char in keywords_text:
                if char in [':', '.']:  # Сначала проверяем точку и двоеточие (если они есть, то значит ключевые слова 100% уже перечислены)
                    if current_token:
                        tokens.append(current_token)  # Добавляем последнее слово
                    break  # Выходим из цикла

                elif char in [',', ';'] or char.isspace():
                    if current_token:
                        tokens.append(current_token)
                        current_token = ""
                    tokens.append(char)
                else:
                    current_token += char


            # Собираем ключевые слова до условия остановки
            result_tokens = []
            prev_comma = False  # Флаг, что предыдущий токен был запятой
            
            for i, token in enumerate(tokens):
                if token and token[0].isupper() and prev_comma:
                    # Слово с заглавной буквы после запятой - вероятно начало нового раздела
                    # Проверяем, не является ли это частью ключевого слова (например, "ВВП")
                    if len(token) > 1 and not any(c.islower() for c in token[1:]):
                        # Если все остальные буквы заглавные (акроним), то продолжаем
                        result_tokens.append(token)
                    else:
                        # Останавливаемся на слове с заглавной буквы после запятой
                        break

                elif token.lower().startswith('jel') or token.lower().startswith('j.e.l'):
                    # начало JEL классификации
                    break
                    
                else:
                    result_tokens.append(token)
                
                # проверяем, был ли предыдущий токен запятой
                prev_comma = (token == ',')
            
            # Собираем результат
            keywords_result = "".join(result_tokens).strip()
            
            # Очищаем результат от лишних символов в конце
            keywords_result = re.sub(r'[,\s]+$', '', keywords_result)  # Убираем запятые и пробелы в конце
            keywords_result = re.sub(r'\s+,\s*', ', ', keywords_result)  # Нормализуем запятые
            
            return keywords_result
        
    return 'Нет ключевых слов'

In [99]:
kewrds = extract_keywords(clean)
kewrds

'изменение климата, байесовское обучение, «ный» парадокс, обучение в процессе деятельности, гетерогенные ния'

In [None]:
# проблемные места:
#1) 41 статья: Коды?
#2) 32 статья: Классификация
#3) 59 статья: Коды

## Применим функции к полученным ранее ссылкам

In [13]:
def final_keywords_formation(data):
    for i, research in enumerate(data, 1):
        extracted_text = extract_text_from_pdf(research['link'])
        clean_text = clean_keywords_text(extracted_text)
        keywords = extract_keywords(clean_text) 
        research['keywords_total'] = keywords #список всех ключевых слов

        keyword_list = [kw.strip() for kw in re.split(r'[,;]', keywords) if kw.strip()] # разделяю список на отдельные ключевые слова
        # добавляю каждое ключевое слово в отдельный столбец
        for j, keyword in enumerate(keyword_list, 1):
            research[f'keyword_{j}'] = keyword
        
        print(f"Препринт {i}: {keywords}")
    return data

In [103]:
finally_keywords = final_keywords_formation(research_data_pdf)

Препринт 1: разрыв выпуска, потенциальный выпуск, валовой региональный продукт, HP-фильтр, фильтр Калмана, факторная декомпозиция, региональный анализ
Препринт 2: денежно-кредитная политика, малая открытая экономика, валютный рынок, таргетирование инфляции, дилемма денежно-кредитной политики, графическая модель общего равновесия, квартальная прогнозная модель, Банк России


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 3: постоянная эластичность замещения, CES, денежно-кредитная политика, ДКП, рынок труда


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 4: инфляционные ожидания, неоднородные агенты, шоки ожиданий, денежно-кредитная политика, финансовые посредники, новая кейнсианская модель, общее равновесие, неоднородность инфляционных ожиданий
Препринт 5: банки, депозиты, издержки перехода, равновесие Нэша, равновесие в безопасных стратегиях, уровень благосостояния
Препринт 6: Россия, Китай, международные деловые циклы, торговые связи, OECD TiVA, Global VAR


Cannot set gray non-stroke color because /'P27' is an invalid float value


Препринт 7: инфляция, деловой цикл, циклическая инфляция, ациклическая инфляция, кривая Филлипса


Cannot set gray non-stroke color because /'P23' is an invalid float value


Препринт 8: инфляционные ожидания, рандомизируемый контролируемый эксперимент (RCT), обследование финансов домохозяйств, коммуникационная политика центральных банков


Cannot set gray non-stroke color because /'P13' is an invalid float value


Препринт 9: цены, инфляция, ценовой индекс, данные контрольно-кассовой техники, гранулярные данные, Россия


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 10: инфляционные ожидания, финансовая грамотность, инструментальные переменные, наблюдаемая инфляция, логит-модель, псевдопанель


Cannot set gray non-stroke color because /'P21' is an invalid float value


Препринт 11: наукастинг, ВВП, DSGE-модель, данные со смешанной частотой, прогнозирование в псевдореальном времени


Cannot set gray non-stroke color because /'P17' is an invalid float value


Препринт 12: DSGE; monetary policy; estimated optimal policy under commitment
Препринт 13: ценообразование корпоративных кредитов, кредитный реестр, российские банки, данные на уровне кредита, «коричневые» компании, «зеленые» компании, экологические платежи, загрязнение окружающей среды, банки с государственным участием, экспорт
Препринт 14: инфляционные ожидания, ИО, денежно-кредитная политика, заякоренность
Препринт 15: трансмиссия денежно-кредитной политики, финансовые ограничения, внешнеторговые ограничения
Препринт 16: динамика предприятий; малые и средние предприятия; льготное кредитование; программы гарантий по кредитам
Препринт 17: «местные» банки, стратегия кредитования, персонифицированный подход, транзакционный подход


Cannot set gray non-stroke color because /'P22' is an invalid float value


Препринт 18: региональные финансы, бюджет, региональный бюджет, бюджетный сектор, бюджетно-налоговое регулирование, бюджетный мультипликатор


Cannot set gray non-stroke color because /'P32' is an invalid float value
Cannot set gray non-stroke color because /'P184' is an invalid float value
Cannot set gray non-stroke color because /'P185' is an invalid float value
Cannot set gray non-stroke color because /'P186' is an invalid float value
Cannot set gray non-stroke color because /'P187' is an invalid float value


Препринт 19: ставки по кредитам, нефинансовые организации, плавающая ставка, пролонгации, квартальная прогнозная модель, модель коррекции ошибок


Cannot set gray non-stroke color because /'P30' is an invalid float value


Препринт 20: денежно-кредитная политика, коммуникация, прозрачность, текстовый анализ, LLM
Препринт 21: демографические тренды; сбережения; одинокие домохозяйства; домохозяйства, возглавляемые женщиной
Препринт 22: динамические модели, рациональные ожидания, бюджетная политика, привычки, фискальная экспансия, эффект вытеснения


Cannot set gray non-stroke color because /'P13' is an invalid float value
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from 

Препринт 23: изменение климата, байесовское обучение, «зеленый» парадокс, обучение в процессе деятельности, гетерогенные убеждения
Препринт 24: Нет ключевых слов


Cannot set gray non-stroke color because /'P11' is an invalid float value


Препринт 25: денежная масса, инфляция, эффект Кантильона, сети, таблицы «затраты – выпуск»


Cannot set gray non-stroke color because /'P19' is an invalid float value


Препринт 26: разрыв выпуска, мониторинг предприятий, ожидания, наукастинг, регрессия Elastic Net, мультиколлинеарность
Препринт 27: денежно-кредитная политика, трансмиссионный механизм, банковские ставки, панельные данные, региональная неоднородность, региональное неравенство


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 28: sign-restriction, BVAR, VAR, SVAR


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 29: кредитный риск, вероятность дефолта, коррелированные исходы Бернулли


Cannot set gray non-stroke color because /'P11' is an invalid float value


Препринт 30: Дальневосточный макрорегион, полуструктурная модель, разрыв выпуска, инфляция, денежно-кредитная политика


Cannot set gray non-stroke color because /'P21' is an invalid float value


Препринт 31: мировые цены продовольствия, эффект переноса, регионы России, потребительские цены, цены производителей, векторная авторегрессия
Препринт 32: Россия, климатическая политика, сценарии NGFS, ограничения экспорта, вычислимая модель общего равновесия, CGE, система торговли квотами на выбросы, СТК Классификация


Cannot set gray non-stroke color because /'P21' is an invalid float value


Препринт 33: ВВП, винтажи данных, пересмотры данных, Россия
Препринт 34: трансмиссия денежно-кредитной политики; рыночная концентрация
Препринт 35: динамические модели, общее равновесие, рациональные ожидания, «зеленая» энергетика, энергопереход, климатическая политика, трансграничный налог, денежно-кредитная политика
Препринт 36: корреляция дефолтов; бимодальное распределение; доля дефолтов; эффект резкого перепада; смесь распределений


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 37: обследование финансов домохозяйств, спрос на кредит, вероятность обращения за кредитом, эластичность спроса по процентной ставке, факторы спроса на кредит
Препринт 38: Нет ключевых слов


Cannot set gray non-stroke color because /'P10' is an invalid float value


Препринт 39: банковское регулирование, микропруденциальный, макропруденциальный, норматив достаточности капитала, эффекты воздействия, СЗКО, уникальные надзорные данные


Cannot set gray non-stroke color because /'P22' is an invalid float value


Препринт 40: региональные финансы, бюджет, региональный бюджет, бюджетноналоговое регулирование, бюджетный импульс
Препринт 41: денежно-кредитная политика, международные эффекты, трансграничная трансмиссия, низкие процентные ставки Коды
Препринт 42: инфляционные ожидания, домашние хозяйства, товары-маркеры, цены товаров-маркеров, Росстат, опрос ФОМ
Препринт 43: агентно-ориентированные модели, амортизированный симуляционный алгоритм оценки, байесовские модели, нейронные сети, прогнозирование


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 44: ДКП, неравенство, неоднородность д/х, кривая Лоренца, шоки неравенства, Россия


Cannot set gray non-stroke color because /'P0' is an invalid float value


Препринт 45: компоненты ИПЦ, прогнозирование, относительные цены, трендовая инфляция, идиосинкразические шоки, сравнение прогнозных моделей в панельных данных
Препринт 46: денежно-кредитная политика, текстовый анализ, инфляционные ожидания
Препринт 47: Россия, климатическая политика, энергетический переход, финансовая стабильность, расчетные модели общего равновесия, CGE


Cannot set gray non-stroke color because /'P23' is an invalid float value


Препринт 48: цифровая валюта центрального банка, цифровой рубль, платежные инструменты, упорядоченный пробит, банкноты, банковские карты, Россия
Препринт 49: Нет ключевых слов
Препринт 50: ДСМОР, бюджетное правило, инфляция, перенос валютного курса, деловой цикл, цены на сырье, бюджетная политика, денежно-кредитная политика Коды


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 51: таблицы «затраты-выпуск», импортозависимость, импорт промежуточной продукции


Cannot set gray non-stroke color because /'P21' is an invalid float value


Препринт 52: амортизированный симуляционный алгоритм оценки, байесовские модели пространства состояний, нейронные сети, сезонная корректировка, стохастическая волатильность, SV-DSGE
Препринт 53: долговая нагрузка, коэффициент обслуживания долга, отраслевой анализ, шок выручки
Препринт 54: динамика компании, пандемия COVID-19, компании-зомби


Cannot set gray non-stroke color because /'P30' is an invalid float value


Препринт 55: сбережения, потребительское поведение, кластеризация, регионы России
Препринт 56: «зеленая» компания, «коричневая» компания, Sustainalytics, выбросы углекислого газа, Хекман


Cannot set gray non-stroke color because /'P26' is an invalid float value


Препринт 57: денежно-кредитная политика, информационная политика, текстовый анализ, высокочастотная идентификация, неопределенность


Cannot set gray non-stroke color because /'P25' is an invalid float value


Препринт 58: конвергенция, регионы, экономический рост, пространственный анализ, географически взвешенная регрессия


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 59: модель вероятности дефолта, транзакционные данные, случайный лес, логистическая регрессия Коды


Cannot set gray non-stroke color because /'P11' is an invalid float value
Cannot set gray non-stroke color because /'P44' is an invalid float value


Препринт 60: влияние рынка труда на инфляцию, региональная гетерогенность, кластерный анализ, метод главных компонент, безработица, заработная плата, регрессионный анализ


Cannot set gray non-stroke color because /'P0' is an invalid float value


Препринт 61: Нет ключевых слов
Препринт 62: валютный курс, валовой региональный продукт, регионы России, структурная векторная авторегрессия, функции импульсных откликов
Препринт 63: денежно-кредитная политика, машинное обучение, градиентный бустинг, эластичная сеть, прогнозирование временных рядов


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 64: Bank clean-ups, Regulatory forbearance, Firm-bank matching, Common ownership, Loan delinquencies, Duration models, Difference-in-differences


Cannot set gray non-stroke color because /'P20' is an invalid float value


Препринт 65: regulation, risk-weight, capital adequacy ratio, capital buffer, difference-indifferences method, risk-weight add-ons, data resampling, IRB


Cannot set gray non-stroke color because /'P9' is an invalid float value


Препринт 66: полуструктурная модель, прогноз, монетарная политика, регионы России, федеральные округа
Препринт 67: миграция, экономическая активность, рынок труда, модели структурной векторной авторегрессии
Препринт 68: Нет ключевых слов
Препринт 69: Нет ключевых слов


Cannot set gray non-stroke color because /'P25' is an invalid float value


Препринт 70: валовой региональный продукт, полуструктурные модели


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 71: market liquidity, liquidity mismatch, liquidity risks, bank-based and marketbased financing, financial instruments, balances of financial assets and liabilities


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 72: DSGE, нулевая граница ставок, нелинейная модель, оптимальная политика, денежно-кредитная политика, условия торговли Коды
Препринт 73: Macroprudential policy, monetary policy, pecuniary externalities, nominal rigidities, financial frictions, capital accumulation


Cannot set gray non-stroke color because /'P12' is an invalid float value


Препринт 74: Excess reserves, Lending rates, Fund transfer pricing, Russia


Cannot set gray non-stroke color because /'P13' is an invalid float value
Cannot set gray non-stroke color because /'P228' is an invalid float value
Cannot set gray non-stroke color because /'P229' is an invalid float value
Cannot set gray non-stroke color because /'P230' is an invalid float value
Cannot set gray non-stroke color because /'P231' is an invalid float value
Cannot set gray non-stroke color because /'P232' is an invalid float value
Cannot set gray non-stroke color because /'P233' is an invalid float value
Cannot set gray non-stroke color because /'P234' is an invalid float value
Cannot set gray non-stroke color because /'P235' is an invalid float value
Cannot set gray non-stroke color because /'P236' is an invalid float value
Cannot set gray non-stroke color because /'P237' is an invalid float value
Cannot set gray non-stroke color because /'P244' is an invalid float value
Cannot set gray non-stroke color because /'P246' is an invalid float value
Cannot set gray non-stroke

Препринт 75: платежи, банки, структура рынка, асимметрия информации, клиентские данные


Cannot set gray non-stroke color because /'P25' is an invalid float value


Препринт 76: bank interest margin, bank interest spread, corporate credit, credit registry, financial stability, credit market fragmentation, Russian banking sector in the pandemic
Препринт 77: пересмотры данных, винтажи данных, база данных, Россия


Cannot set gray non-stroke color because /'P20' is an invalid float value


Препринт 78: Basel II, Basel III, BCBS, CAR, difference-in-difference, D-SIB, G-SIB, IRB, risk-weight


Cannot set gray non-stroke color because /'P9' is an invalid float value


Препринт 79: неполный перенос курса в цены; реальная жесткость цен; дистрибуционная наценка; эффект захвата доли рынка; региональное смещение в потреблении; эффект Балассы-Самуэльсона; байесовская оценка; пространственная авторегрессия
Препринт 80: потребительский спрос, инфляция, безработица, таргетирование, оборот розничной торговли, региональная дифференциация, оценка факторов региональной дифференциации, импульсные отклики, модель структурной векторной авторегрессии


Cannot set gray non-stroke color because /'P9' is an invalid float value


Препринт 81: глобальная векторная авторегрессия, монетарная политика, региональная неоднородность, монетарная трансмиссия, каналы денежной трансмиссии Keywords


Cannot set gray non-stroke color because /'P19' is an invalid float value


Препринт 82: денежно-кредитная политика, инвестиции, ставка межбанковского рынка, структурная векторная авторегрессия, функции импульсных откликов, Elastic Net


Cannot set gray non-stroke color because /'P14' is an invalid float value


Препринт 83: Нет ключевых слов


Cannot set gray non-stroke color because /'P12' is an invalid float value


Препринт 84: комбинирование прогнозов, наукаст, Банк России, таргетирование инфляции, ВВП, DFM


Cannot set gray non-stroke color because /'P26' is an invalid float value


Препринт 85: инфляция, индекс потребительских цен, валютный курс, эффект переноса, регионы России, федеральные округа, торгуемые товары, неторгуемые товары


Cannot set gray non-stroke color because /'P10' is an invalid float value


Препринт 86: Dollarization, behavioral finance, variational Bayes, Russia
Препринт 87: ex ante probability of default, corporate credit, credit registry, probability of default mode, credit quality groups, credit spreads


Cannot set gray non-stroke color because /'P23' is an invalid float value


Препринт 88: дневная сезонная корректировка, временные ряды, отраслевые финансовые потоки, байесовская оценка


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 89: DSGE model, fiscal rule, reserve fund, credit cycle, commodity prices, financial frictions, monetary policy
Препринт 90: monetarypolicy,macroprudentialpolicy,internationalspillovers,crossborder transmission


Cannot set gray non-stroke color because /'P26' is an invalid float value


Препринт 91: рынок труда, региональная разнородность, NAIRU, разрыв безработицы, инфляция, модели ненаблюдаемых компонент, фильтр Калмана


Cannot set gray non-stroke color because /'P17' is an invalid float value


Препринт 92: Нет ключевых слов


Cannot set gray non-stroke color because /'P13' is an invalid float value


Препринт 93: Нет ключевых слов


Cannot set gray non-stroke color because /'P13' is an invalid float value


Препринт 94: индикаторы раннего предупреждения, финансовый кризис, финансовое развитие, кредитный разрыв, «случайный лес»


Cannot set gray non-stroke color because /'P18' is an invalid float value


Препринт 95: региональная неоднородность; региональная конвергенция цен; таргетирование инфляционного прогноза; денежно-кредитная политика; модель малой открытой экономики; калибровка; Байесовская оценка


Cannot set gray non-stroke color because /'P15' is an invalid float value


Препринт 96: деловые циклы, малая открытая экономика, развивающиеся страны, сырьевые товары, цены на нефть, финансовая стабильность, макропруденциальная политика


Cannot set gray non-stroke color because /'P13' is an invalid float value


Препринт 97: КОД, долговая нагрузка, база данных на микроуровне, кредитный регистр


Cannot set gray non-stroke color because /'P28' is an invalid float value


Препринт 98: опережающий индикатор, валовый региональный продукт, темпоральное дезагрегирование, Chow-Lin, Litterman, Fernandez
Препринт 99: динамическая иерархическая факторная модель, глобальная инфляция, относительные цены, Россия


Cannot set gray non-stroke color because /'P10' is an invalid float value


Препринт 100: денежно-кредитная политика, макропруденциальная политика, финансовая стабильность, экспорт сырья, малая открытая экономика


Cannot set gray non-stroke color because /'P9' is an invalid float value


Препринт 101: кривая Филлипса, факторная модель, модель ненаблюдаемых компонент, разрыв выпуска, байесовская оценка


Cannot set gray non-stroke color because /'P30' is an invalid float value


Препринт 102: динамика фирм, гранулярные остатки, идиосинкратические шоки, агрегированная волатильность, промышленное производство


Cannot set gray non-stroke color because /'P14' is an invalid float value


Препринт 103: инфляция, декомпозиция, эффект переноса


Cannot set gray non-stroke color because /'P13' is an invalid float value


Препринт 104: трендовая инфляция, нестационарная динамическая факторная модель, Россия
Препринт 105: систематическая монетарная политика, оптимальная политика центрального банка, таргетирование инфляции, макропруденциальная политика, относительные цены, кредитный цикл, несовершенства финансовых рынков, принцип «дуть против ветра», цены на ресурсы


Cannot set gray non-stroke color because /'P10' is an invalid float value


Препринт 106: денежная масса, кредит, валютные интервенции, валютные резервы, развивающиеся рынки
Препринт 107: байесовское усреднение моделей, неопределенность параметров модели, эконометрическое моделирование, модель большой размерности, прогноз инфляции
Препринт 108: денежно-кредитная политика, глобальные эффекты изменений денежнокредитной политики в системных экономиках, трансграничная трансмиссия
Препринт 109: денежное предложение, международные резервы, прогнозирование, агентная модель, Россия
Препринт 110: динамическая иерархическая факторная модель, региональная инфляция, относительные цены, Россия
Препринт 111: кредитный разрыв, кредитный цикл, контрциклический буфер капитала, агентноориентированное моделирование
Препринт 112: индекс потребительских цен, инфляция, сезонность, сезонная корректировка, сводный индекс, динамика потребительских цен
Препринт 113: оптимальный уровень, развитие финансового сектора, экономический рост, волатильность темпов экономического роста, ценовая

Cannot set gray non-stroke color because /'P164' is an invalid float value
Cannot set gray non-stroke color because /'P166' is an invalid float value


Препринт 114: Нет ключевых слов
Препринт 115: системный риск, финансовая хрупкость, динамическая факторная модель, квантильные регрессии, Китай
Препринт 116: долговая нагрузка, структура капитала, отраслевой анализ, микроданные российских компаний, развивающиеся рынки
Препринт 117: фискальные мультипликаторы, доходы расширенного бюджета, расходы расширенного бюджета, Россия, структурная байесовская авторегрессионная модель
Препринт 118: DSGE, BVAR, российская экономика, финансовые трения, банковский сектор
Препринт 119: оценивание экономической активности, текстовый анализ, машинное обучение
Препринт 120: зависимость от долгового финансирования, макрофинансовые взаимосвязи, байесовский VAR с плавным переходом
Препринт 121: финансовое развитие, сравнительный анализ финансовых систем, кластеризация, развивающиеся рынки, Россия
Препринт 122: банковский сектор России, отзыв лицензий, политика оздоровления банковского сектора, конкуренция, устойчивость банковского сектора
Препринт 123: фина

Cannot set gray non-stroke color because /'P62' is an invalid float value
Cannot set gray non-stroke color because /'P71' is an invalid float value


Препринт 141: спрос на кредиты, предложение кредитов, коинтеграция, структурная векторная авторегрессия, обследования условий банковского кредитования
Препринт 142: краткосрочный прогноз ВВП, динамические факторные модели, опережающие показатели, нефинансовые показатели реального сектора, финансовые показатели, показатели внешнего сектора, фильтр Калмана, среднеквадратическая ошибка прогноза
Препринт 143: байесовская векторная авторегрессия, прогнозирование, Россия


# Экспортируем результаты в CSV

In [104]:
import csv

In [105]:
df = pd.DataFrame(finally_keywords)
df.to_csv('Preprints_Links_keywords', index = False, encoding='utf-8')
print("Данные экспортированы в Preprints_Links_keywords")

Данные экспортированы в Preprints_Links_keywords


#### Функции ниже предназначены для обнаружения и исправления ошибок в коде:

In [None]:
text = extract_text_from_pdf(research_data_pdf[22]['link'])
text

Cannot set gray non-stroke color because /'P13' is an invalid float value
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from 

In [None]:
clean = clean_keywords_text(text)
clean

'Неопределенность технического прогресса, байесовское обучение и «зеленый» парадокс Серия докладов об экономических исследованиях №. 133 / август 2024 А.А. Реентович. Александр Реентович Банк России, Департамент исследований и прогнозирования E-mail: ReentovichAA@cbr.ru Доклады Банка России проходят процедуру анонимного реЯцеНнзВирАовРанЬия 2с0о1 9ст ороны членов Консультативного исследовательского совета Банка России и внешних рецензентов. Автор благодарен Андрею Синякову за привлечение внимания автора к теме исследования. Автор также благодарит Ксению Юдаеву, Константина Стырина, Марка Сидоровского, анонимного рецензента и участников двух исследовательских семинаров Банка России за ценные комментарии и предложения. Автор благодарит Александра Цемахмана за подготовку русского текста. Содержание настоящего доклада по экономическим исследованиям отражает личную позицию авторов. Результаты исследования являются предварительными и публикуются с целью стимулировать обсуждение и получить ко