# Иcточники данных

- Внешние источники
  - b1: `b1_analytics.pkl`
  - kamaflow: `kamaflow_researches.pkl`
- Внутренние источники
  - Отраслевой хаб: данные выложены в sberdisk

## Формат данных 

Результат представляет собой массив словарей, где каждый словарь содержит информацию об одном аналитическом материале. Каждый словарь имеет следующие ключи:

### Пример элемента списка `analytics`:
```json
{
    "link": "/news/12345",
    "date": "2023-10-15",
    "name": "Анализ рынка ИТ в 2023 году",
    "name_en": "it-market-analysis-2023",
    "tags": ["ИТ", "аналитика", "2023"],
    "pdf_links": [
        "https://b1.ru/local/assets/surveys/it-market-analysis-2023.pdf"
    ],
    "text": "В 2023 году рынок ИТ показал рост на 14%...",
    "pdfs": [
        {
            "name": "it-market-analysis-2023.pdf",
            "content": "binary_pdf_content_here"
        }
    ]
}
```
Мы хотим получить такой, при этом часть полей можент быть пустой:
```json
{
    "link": "/news/12345",
    "date": "2023-10-15",
    "name": "Анализ рынка ИТ в 2023 году",
    "name_en": "it-market-analysis-2023",
    "tags": ["ИТ", "аналитика", "2023"],
    "sber_tags": ["Теги", "из", "сбера", "отрасль", "из", "kksb_clinet_profile"],
    "pdf_links": [
        "https://b1.ru/local/assets/surveys/it-market-analysis-2023.pdf"
    ],
    "text": "В 2023 году рынок ИТ показал рост на 14%...",
    "summary": "Саммари на основе pdfs",
    "pdfs": [
        {
            "name": "it-market-analysis-2023.pdf",
            "content": "binary_pdf_content_here",
            "full_text": "Полный текст и pdf, то что получилось вытащить из content",
            "summary": "Саммари из full_text",
        }
    ]
}
```

Для дальнейнего анализа нужно только следующие поля: date, sber_tags, summary, pdfs['full_text'], pdfs['summary']:
```json
{
    "date": "2023-10-15",
    "sber_tags": ["Теги", "из", "сбера", "отрасль", "из", "kksb_clinet_profile"],
    "summary": "Саммари",
    "pdfs": [
        {
            "full_text": "Полный текст и pdf, то что получилось вытащить из content",
            "summary": "Саммари из full_text",
        },
        {
            "full_text": "Полный текст и pdf, то что получилось вытащить из content",
            "summary": "Саммари из full_text",
        }
    ]
}
```

In [1]:
import pickle


with open('b1_analytics.pkl', 'rb') as f:
    b1_analytics = pickle.load(f)

with open('kamaflow_researches.pkl', 'rb') as f:
    kamaflow_researches = pickle.load(f)

with open('industry_hub_analytics_update.pkl', 'rb') as f:
    industry_hub_analytics = pickle.load(f)


docs = b1_analytics + kamaflow_researches + industry_hub_analytics

## Добавляем саммари

In [None]:
from langchain_openai import ChatOpenAI
from langchain.chains.summarize import load_summarize_chain
from langchain.document_loaders import PyPDFLoader
from langchain.schema import Document
import tempfile
from tqdm import tqdm


llm = ChatOpenAI(model_name="gpt-4o-mini")

for doc in tqdm(docs):
    name = doc['name']
    tags = doc['tags']
    additional_text = doc['text']
    
    text_documents = []
    
    for pdf in doc['pdfs']:
        pdf_name = pdf['name']

        pdf_content = pdf.get('content', None)
        full_text = pdf.get('full_text', None)
        
        if full_text is None and pdf_content is not None:
            try:
                with tempfile.NamedTemporaryFile() as temp_file:
                    temp_file.write(pdf_content)
                    temp_file_path = temp_file.name
                    loader = PyPDFLoader(temp_file_path)
                    pdf_data = loader.load()
            except Exception as e:
                print(f"Error processing PDF {pdf_name}: {e}")
                pdf_data = None
            if pdf_data:
                full_text = "\n".join([doc.page_content for doc in pdf_data])
                pdf['full_text'] = full_text
        
        if full_text:
            if additional_text is None or len(additional_text) == 0:
                additional_text = 'нет краткого описание'
            text_document = f'**Документ с наименованием {pdf_name}, его содержимое:** {full_text}'
            text_documents.append(text_document)
            
            prompt = f"""
            **Название документа:**  {name}
            **Теги документа:** {", ".join(tags)} 
            **Краткое содержание документа с сайта (возможны html артефакты):** {additional_text}

            Перед тобой текст, полученный из PDF-документа. Он может содержать пропуски, так как изображения и таблицы не были извлечены. В этом тексте отраслевой анализ и отреслевыен отчёты.
            ```
                {text_document}
            ```


            **Твоя задача** - сделать саммари или краткое содержание этого отчёта, провести подробный и детальный отраслевой анализ на основе этого текста на русском языке. Не жалей букв, достань и саммаризируй всю полезную информацию. 
            Если информация обрывочна, попытайся восстановить логический контекст или отметь, какие данные отсутствуют.
            Данная информация потом будет использоваться для формирования стратегии компании.

            **Формат анализа:**
            1. **Ключевые выводы** - выдели главных мыслей.
            2. **Тенденции в отрасли** - связаны ли идеи с актуальными событиями или трендами? краткосрочные и долгосрочные прогнозы.
            3. **Анализ рисков, неопределённости и возможностей** - есть ли критические моменты или перспективные направления?
            4. **Основные показатели** - ключевые цифры, тренды, прогнозы.
            5. **Рыночная динамика** - влияние факторов на отрасль.
            6. Всё остальное, что может быть важно
            7. Итог.

            **Выведи отчёт (саммари) в структурированном виде:**
            """

            summarize_chain = load_summarize_chain(llm, chain_type="stuff")
            summary = summarize_chain.invoke([Document(page_content=prompt)])
            pdf['summary'] = summary['output_text']
        else:
            pdf['summary'] = ''
    if len(text_documents) == 0:
        doc['summary'] = ''
    elif len(text_documents) == 1:
        doc['summary'] = pdf['summary']
    else:
        text_document = "\n".join(text_documents)
        prompt = f"""
        **Название документа:**  {name}
        **Теги документа:** {", ".join(tags)} 
        **Краткое содержание документов с сайта (возможны html артефакты):** {additional_text}

        Перед тобой текста, полученные из PDF-документов. Там могут быть пропуски, так как изображения и таблицы не были извлечены. В этих текстах отраслевой анализ и отреслевыен отчёты.
        **Документы:**
        ```
            {text_document}
        ```

        **Твоя задача** - сделать саммари или краткое содержание этого отчёта, провести подробный и детальный отраслевой анализ на основе этого текста на русском языке. Не жалей букв, достань и саммаризируй всю полезную информацию. 
        Если информация обрывочна, попытайся восстановить логический контекст или отметь, какие данные отсутствуют.
        Данная информация потом будет использоваться для формирования стратегии компании.

        **Формат анализа:**
        1. **Ключевые выводы** - выдели главных мыслей.
        2. **Тенденции в отрасли** - связаны ли идеи с актуальными событиями или трендами? краткосрочные и долгосрочные прогнозы.
        3. **Анализ рисков, неопределённости и возможностей** - есть ли критические моменты или перспективные направления?
        4. **Основные показатели** - ключевые цифры, тренды, прогнозы.
        5. **Рыночная динамика** - влияние факторов на отрасль.
        6. Всё остальное, что может быть важно
        7. Итог.

        **Выведи отчёт (саммари)  в структурированном виде:**
        """
        summarize_chain = load_summarize_chain(llm, chain_type="stuff")
        summary = summarize_chain.invoke([Document(page_content=prompt)])
        doc['summary'] = summary['output_text']

 45%|████▌     | 96/211 [23:58<24:44, 12.91s/it]  invalid pdf header: b'RIFF\x8c'
EOF marker not found


Error processing PDF Супертренд на здоровое питание — ключевая тенденция на рынке хлебобулочных и кондитерских изделий в России: Stream has ended unexpectedly


100%|██████████| 211/211 [47:45<00:00, 13.58s/it]


### пример

In [68]:
print(docs[0]['pdfs'][0]['full_text'])

Итоги 2024 года
Оглавление
2
Вступительные слова
4
Обзор венчурного рынка
Россия
6
Обзор венчурного рынка
Средняя Азия и Закавказье
34
Обзор венчурного рынка
Восточная Европа
39
Методология
45
Российские основатели 
за рубежом
31
Команда проекта
Арсений Даббах
Основатель Dsight
Дарья Жаркова
Руководитель проекта
Владимир Хабибулин
Венчурный аналитик Dsight
Евгений Кулькин 
Дизайн и верстка
3
Вступительное слово
Дорогие друзья, читатели и коллеги по рынку!
Прошлый год стал периодом умеренного восстановления 
российского венчурного рынка. Объем инвестиций вырос на 
108%, что свидетельствует о постепенном возвращении интереса 
к венчурному капиталу.
Одним из ключевых драйверов роста стало развитие 
инвестиционных платформ и инвестиционных синдикатов, 
которые способствовали расширению доступа к капиталу для 
стартапов. В результате этого тренда мы увидели активное 
развитие инвестиций на стадии pre-IPO, а также рекордное 
количество IPO: 14 публичных размещений, из которых восемь 
были те

In [65]:
print(docs[0]['pdfs'][0]['summary'])

### 1. Ключевые выводы
- В 2024 году российский венчурный рынок показал умеренное восстановление, объем инвестиций составил $177 млн, увеличившись на 108% по сравнению с 2023 годом.
- Средний чек венчурного инвестирования вырос до $1,01 млн (+124% г/г).
- Преобладание инвестиций наблюдается в секторе B2B Software (41% от общего объема) и восстановление интереса к Consumer Goods & Services.
- Ожидаемое замедление активности сделок M&A в 2025 году связано с предыдущими покупками и высокой долговой нагрузкой.
- Рост популярности инструментов pre-IPO ввел 14 IPO в 2024 году, 8 из которых – технологические.

### 2. Тенденции в отрасли
- Краткосрочные: Увеличение числа сделок и ухода бизнес-ангелов с малочисленных сделок в условии высоких ставок, рост интереса к синдицированным сделкам.
- Долгосрочные: Ожидаемое восстановление венчурного рынка в 2025 году под воздействием нормализации геополитической ситуации и роста средней заработной платы, что повысит покупательскую способность населения.

## Добавляем теги
Теги из kksb_client_profile

In [None]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate

# Данные
data = {
    "date": "2023-10-15",
    "summary": "Саммари",
    "pdfs": [
        {
            "full_text": "Полный текст и pdf, то что получилось вытащить из content",
            "summary": "Саммари из full_text",
        },
        {
            "full_text": "Полный текст и pdf, то что получилось вытащить из content",
            "summary": "Саммари из full_text",
        }
    ]
}

llm = ChatOpenAI(model_name="gpt-4o-mini")

# Возможные теги
tags_list = [
    'Энергетика', 'Лизинг', 'Нефтегазовая промышленность', 'Пищевая промышленность',
    'Финансы', 'Органы государственного и муниципального управления', 'Материалы', 'Промышленность',
    'Телекоммуникации', 'Телекоммуникации, медиа и ИТ-технологии', 'ЖКХ', 'Услуги',
    'Электроэнергетика и ЖКХ', 'Строительные подрядчики', 'Сельское хозяйство', 'Товары первой необходимости',
    'Энергоносители', 'Товары выборочного спроса', 'Операции с недвижимым имуществом', 'Государство',
    'Недвижимость', 'Фармацевтика и здравоохранение', 'Химическая промышленность', 'Розничная торговля товарами первой необходимости',
    'Машиностроение', 'Металлургическая и горнодобывающая промышленность', 'Производство строительных материалов',
    'Розничная торговля товарами выборочного спроса', 'Финансовая деятельность', 'Легкая промышленность',
    'Транспорт и логистика', 'Производство потребительских товаров', 'Лесная, деревообрабатывающая и целлюлозно-бумажная промышленность'
]

for data in tqdm(docs):
    text_sources = [', '.join([x for x in data["tags"]if x != 'Прочее']), data["summary"], data["text"]] + [pdf["summary"] for pdf in data["pdfs"]]
    context_text = "\n".join(filter(None, text_sources))[:10_000]

    prompt = PromptTemplate(
        input_variables=["text", "tags"],
        template=(
            "Определи, какие из следующих тегов наиболее подходят для данного текста:\n\n{text}\n\n"
            "Выбери из списка: {tags}. "
            "Отвечай только списком тегов через запятую, без пояснений."
        )
    )

    response = llm.invoke(prompt.format(text=context_text, tags=", ".join(tags_list))).content.strip()
    data["sber_tags"] = [tag.strip() for tag in response.split(",") if tag.strip() in tags_list]


  0%|          | 1/211 [00:01<05:01,  1.44s/it]

['Финансы', 'Телекоммуникации', 'Фармацевтика и здравоохранение', 'Услуги', 'Пищевая промышленность', 'Производство потребительских товаров']


  1%|          | 2/211 [00:02<04:03,  1.17s/it]

['Исследование Б1', 'МСФО', 'Услуги в области устойчивого развития']


  1%|▏         | 3/211 [00:03<04:11,  1.21s/it]

['Исследование Б1', 'Программа «Деловые женщины»']


  2%|▏         | 4/211 [00:05<04:25,  1.28s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


  2%|▏         | 5/211 [00:06<04:05,  1.19s/it]

['Исследование Б1', 'Финансовый сектор', 'Консалтинг, технологии и транзакции']


  3%|▎         | 6/211 [00:07<03:52,  1.13s/it]

['Исследование Б1', 'Форензик', 'Сектор технологий, медиа и телекоммуникаций']


  3%|▎         | 7/211 [00:08<03:42,  1.09s/it]

['Исследование Б1', 'МСФО', 'Аудиторские услуги', 'Финансовый сектор']


  4%|▍         | 8/211 [00:09<04:01,  1.19s/it]

['Исследование Б1', 'Академия бизнеса Б1']


  4%|▍         | 9/211 [00:11<04:20,  1.29s/it]

['Исследование Б1', 'Топливно-энергетический комплекс']


  5%|▍         | 10/211 [00:12<04:34,  1.36s/it]

['Промышленное производство']


  5%|▌         | 11/211 [00:13<04:08,  1.24s/it]

['Медико-биологическая и фармацевтическая отрасли']


  6%|▌         | 12/211 [00:14<03:44,  1.13s/it]

['Исследование Б1', 'МСФО', 'Аудиторские услуги', 'Финансовый сектор']


  6%|▌         | 13/211 [00:16<04:20,  1.32s/it]

['Исследование Б1', 'Сектор недвижимости, гостиничного бизнеса и строительства']


  7%|▋         | 14/211 [00:17<04:10,  1.27s/it]

['Исследование Б1', 'АПК и агротех']


  7%|▋         | 15/211 [00:18<03:59,  1.22s/it]

['Исследование Б1', 'Академия бизнеса Б1']


  8%|▊         | 16/211 [00:19<03:51,  1.19s/it]

['ТМТ', 'Услуги в области подготовки IPO']


  8%|▊         | 17/211 [00:20<03:39,  1.13s/it]

['Исследование Б1', 'Устойчивое развитие']


  9%|▊         | 18/211 [00:22<04:00,  1.25s/it]

['ТМТ', 'Услуги в области подготовки IPO', 'Финансовый сектор']


  9%|▉         | 19/211 [00:23<04:26,  1.39s/it]

['Исследование Б1', 'Академия бизнеса Б1']


  9%|▉         | 20/211 [00:24<03:59,  1.25s/it]

['Исследование Б1', 'Финансовый сектор']


 10%|▉         | 21/211 [00:25<03:41,  1.17s/it]

['Исследование Б1', 'Сектор недвижимости, гостиничного бизнеса и строительства']


 10%|█         | 22/211 [00:26<03:26,  1.09s/it]

['Исследование Б1', 'Операционное сопровождение бухгалтерской и налоговой функции', 'Услуги в области управления персоналом']


 11%|█         | 23/211 [00:27<03:19,  1.06s/it]

['Исследование Б1', 'Сектор недвижимости, гостиничного бизнеса и строительства']


 11%|█▏        | 24/211 [00:30<05:20,  1.72s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


 12%|█▏        | 25/211 [00:32<04:59,  1.61s/it]

['Исследование Б1']


 12%|█▏        | 26/211 [00:33<04:37,  1.50s/it]

['Право']


 13%|█▎        | 27/211 [00:34<04:02,  1.32s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


 13%|█▎        | 28/211 [00:35<03:39,  1.20s/it]

['ТМТ', 'Услуги в области подготовки IPO', 'Финансовый сектор']


 14%|█▎        | 29/211 [00:36<03:58,  1.31s/it]

['Исследование Б1', 'Устойчивое развитие']


 14%|█▍        | 30/211 [00:37<03:44,  1.24s/it]

['Исследование Б1', 'Консультационные услуги по вопросам бухгалтерского учета и финансовой отчетности', 'Технологический консалтинг', 'Услуги в области устойчивого развития']


 15%|█▍        | 31/211 [00:39<04:01,  1.34s/it]

['Исследование Б1', 'Академия бизнеса Б1']


 15%|█▌        | 32/211 [00:40<03:30,  1.18s/it]

['Исследование Б1', 'Финансовый сектор']


 16%|█▌        | 33/211 [00:44<05:51,  1.98s/it]

['Услуги для предприятий промышленного производства и автомобильного сектора']


 16%|█▌        | 34/211 [00:45<05:14,  1.77s/it]

['ТМТ', 'Услуги в области подготовки IPO', 'Финансовый сектор']


 17%|█▋        | 35/211 [00:46<04:28,  1.52s/it]

['Исследование Б1', 'Автомобильный сектор']


 17%|█▋        | 36/211 [00:48<05:06,  1.75s/it]

['Исследование Б1', 'МСФО', 'Услуги в области устойчивого развития']


 18%|█▊        | 37/211 [00:49<04:15,  1.47s/it]

['Исследование Б1', 'МСФО', 'Аудиторские услуги', 'Финансовый сектор']


 18%|█▊        | 38/211 [00:50<03:39,  1.27s/it]

['Исследование Б1', 'Финансовый сектор']


 18%|█▊        | 39/211 [00:51<03:57,  1.38s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


 19%|█▉        | 40/211 [00:52<03:28,  1.22s/it]

['Исследование Б1', 'Программа «Деловые женщины»']


 19%|█▉        | 41/211 [00:54<03:42,  1.31s/it]

[]


 20%|█▉        | 42/211 [00:55<03:51,  1.37s/it]

['Медико-биологическая отрасль']


 20%|██        | 43/211 [00:57<03:51,  1.38s/it]

['Промышленное производство']


 21%|██        | 44/211 [00:58<03:45,  1.35s/it]

[]


 21%|██▏       | 45/211 [00:59<03:33,  1.28s/it]

['Исследование Б1', 'Устойчивое развитие']


 22%|██▏       | 46/211 [01:01<03:50,  1.40s/it]

['Исследование Б1', 'Стратегия и трансформация бизнеса']


 22%|██▏       | 47/211 [01:02<03:29,  1.28s/it]

['Исследование Б1', 'ГМК']


 23%|██▎       | 48/211 [01:03<03:15,  1.20s/it]

['Обзор Б1']


 23%|██▎       | 49/211 [01:03<02:52,  1.06s/it]

['Обзор Б1', 'Сектор технологий, медиа и телекоммуникаций']


 24%|██▎       | 50/211 [01:04<02:48,  1.04s/it]

['Обзор Б1', 'Туризм']


 24%|██▍       | 51/211 [01:08<04:56,  1.85s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


 25%|██▍       | 52/211 [01:09<04:08,  1.56s/it]

['Исследование Б1', 'Управление персоналом']


 25%|██▌       | 53/211 [01:10<03:31,  1.34s/it]

['Исследование Б1', 'Финансовый сектор']


 26%|██▌       | 54/211 [01:11<03:15,  1.24s/it]

[]


 26%|██▌       | 55/211 [01:12<03:01,  1.17s/it]

['Обзор Б1', 'Транспортный сектор']


 27%|██▋       | 56/211 [01:14<03:24,  1.32s/it]

['Исследование Б1', 'Услуги в области устойчивого развития']


 27%|██▋       | 57/211 [01:15<03:14,  1.26s/it]

[]


 27%|██▋       | 58/211 [01:16<03:02,  1.19s/it]

['Обзор Б1', 'Транспортный сектор']


 28%|██▊       | 59/211 [01:17<03:01,  1.19s/it]

['Исследование Б1', 'Сектор розничной торговли и потребительских товаров']


 28%|██▊       | 60/211 [01:18<02:41,  1.07s/it]

['Обзор Б1', 'Транспортный сектор']


 29%|██▉       | 61/211 [01:19<02:35,  1.04s/it]

['Исследование Б1', 'Финансовый сектор']


 29%|██▉       | 62/211 [01:20<02:28,  1.00it/s]

['Промышленность и технологии', 'Технологии, медиа и телекоммуникации (ТМТ)']


 30%|██▉       | 63/211 [01:21<02:42,  1.10s/it]

['Транспорт и логистика', 'Автомобильный сектор']


 30%|███       | 64/211 [01:22<02:55,  1.19s/it]

['Агропромышленный комплекс (АПК)']


 31%|███       | 65/211 [01:24<02:56,  1.21s/it]

['Транспорт и логистика']


 31%|███▏      | 66/211 [01:25<02:46,  1.15s/it]

[]


 32%|███▏      | 67/211 [01:26<02:53,  1.20s/it]

['Недвижимость и строительство']


 32%|███▏      | 68/211 [01:27<02:41,  1.13s/it]

['Недвижимость и строительство']


 33%|███▎      | 69/211 [01:28<02:53,  1.22s/it]

['Недвижимость и строительство', 'Туризм']


 33%|███▎      | 70/211 [01:29<02:49,  1.20s/it]

['Промышленность и технологии', 'Технологии, медиа и телекоммуникации (ТМТ)']


 34%|███▎      | 71/211 [01:35<05:29,  2.35s/it]

['Агропромышленный комплекс (АПК)']


 34%|███▍      | 72/211 [01:35<04:24,  1.90s/it]

['Транспорт и логистика']


 35%|███▍      | 73/211 [01:37<03:51,  1.68s/it]

['Промышленность и технологии', 'Технологии, медиа и телекоммуникации (ТМТ)']


 35%|███▌      | 74/211 [01:38<03:25,  1.50s/it]

['Недвижимость и строительство', 'Туризм']


 36%|███▌      | 75/211 [01:39<03:13,  1.42s/it]

[]


 36%|███▌      | 76/211 [01:40<02:58,  1.32s/it]

[]


 36%|███▋      | 77/211 [01:41<02:32,  1.14s/it]

['Туризм']


 37%|███▋      | 78/211 [01:42<02:56,  1.33s/it]

['Промышленность и технологии', 'Технологии, медиа и телекоммуникации (ТМТ)']


 37%|███▋      | 79/211 [01:43<02:42,  1.23s/it]

['Промышленность и технологии', 'Транспорт и логистика', 'Автомобильный сектор']


 38%|███▊      | 80/211 [01:45<02:41,  1.23s/it]

['Промышленность и технологии', 'Транспорт и логистика']


 38%|███▊      | 81/211 [01:46<02:39,  1.23s/it]

['Недвижимость и строительство']


 39%|███▉      | 82/211 [01:47<02:30,  1.17s/it]

['Туризм']


 39%|███▉      | 83/211 [01:48<02:35,  1.21s/it]

['Промышленность и технологии']


 40%|███▉      | 84/211 [01:49<02:33,  1.21s/it]

['Недвижимость и строительство']


 40%|████      | 85/211 [01:50<02:27,  1.17s/it]

['Промышленность и технологии', 'Финансовый сектор']


 41%|████      | 86/211 [01:52<02:39,  1.27s/it]

[]


 41%|████      | 87/211 [01:53<02:26,  1.19s/it]

['Туризм']


 42%|████▏     | 88/211 [02:02<07:25,  3.62s/it]

['Некоммерческий сектор и институты развития']


 42%|████▏     | 89/211 [02:03<05:40,  2.79s/it]

['Туризм']


 43%|████▎     | 90/211 [02:04<04:40,  2.32s/it]

['Технологии, медиа и телекоммуникации (ТМТ)']


 43%|████▎     | 91/211 [02:09<06:14,  3.12s/it]

['Лесная и целлюлозно-бумажная промышленность']


 44%|████▎     | 92/211 [02:11<05:10,  2.61s/it]

['Недвижимость и строительство']


 44%|████▍     | 93/211 [02:12<04:12,  2.14s/it]

['Туризм']


 45%|████▍     | 94/211 [02:13<03:30,  1.80s/it]

['Транспорт и логистика']


 45%|████▌     | 95/211 [02:14<03:05,  1.60s/it]

['Транспорт и логистика', 'Автомобильный сектор']


 45%|████▌     | 96/211 [02:15<02:51,  1.49s/it]

['Недвижимость и строительство']


 46%|████▌     | 97/211 [02:17<02:44,  1.44s/it]

['Агропромышленный комплекс (АПК)', 'Потребительский сектор и торговля']


 46%|████▋     | 98/211 [02:22<04:58,  2.64s/it]

['Транспорт и логистика']


 47%|████▋     | 99/211 [02:23<04:01,  2.15s/it]

['Технологии, медиа и телекоммуникации (ТМТ)']


 47%|████▋     | 100/211 [02:24<03:16,  1.77s/it]

['Транспорт и логистика']


 48%|████▊     | 101/211 [02:25<02:48,  1.53s/it]

['Металлы и уголь']


 48%|████▊     | 102/211 [02:26<02:23,  1.32s/it]

['Транспорт']


 49%|████▉     | 103/211 [02:26<02:06,  1.17s/it]

['Транспорт']


 49%|████▉     | 104/211 [02:28<02:07,  1.19s/it]

['Транспорт']


 50%|████▉     | 105/211 [02:30<02:49,  1.60s/it]

['Нефть и газ']


 50%|█████     | 106/211 [02:31<02:34,  1.47s/it]

['Нефть и газ']


 51%|█████     | 107/211 [02:32<02:17,  1.32s/it]

['Нефть и газ']


 51%|█████     | 108/211 [02:33<02:02,  1.19s/it]

['Нефть и газ']


 52%|█████▏    | 109/211 [02:34<01:53,  1.11s/it]

['Недвижимость']


 52%|█████▏    | 110/211 [02:35<01:43,  1.02s/it]

['Недвижимость']


 53%|█████▎    | 111/211 [02:36<01:36,  1.03it/s]

['Недвижимость']


 53%|█████▎    | 112/211 [02:38<01:58,  1.20s/it]

['Недвижимость']


 54%|█████▎    | 113/211 [02:39<01:51,  1.14s/it]

['Недвижимость']


 54%|█████▍    | 114/211 [02:39<01:41,  1.05s/it]

['Недвижимость']


 55%|█████▍    | 115/211 [02:41<01:44,  1.09s/it]

['Недвижимость']


 55%|█████▍    | 116/211 [02:42<01:38,  1.04s/it]

['Недвижимость']


 55%|█████▌    | 117/211 [02:43<01:37,  1.04s/it]

['Недвижимость']


 56%|█████▌    | 118/211 [02:44<01:40,  1.09s/it]

['Недвижимость']


 56%|█████▋    | 119/211 [02:45<01:52,  1.22s/it]

['Недвижимость']


 57%|█████▋    | 120/211 [02:47<01:51,  1.23s/it]

['Недвижимость']


 57%|█████▋    | 121/211 [02:48<01:47,  1.20s/it]

['Недвижимость']


 58%|█████▊    | 122/211 [02:49<01:48,  1.22s/it]

['Недвижимость']


 58%|█████▊    | 123/211 [02:50<01:50,  1.25s/it]

['Недвижимость']


 59%|█████▉    | 124/211 [02:52<02:01,  1.39s/it]

['Недвижимость']


 59%|█████▉    | 125/211 [02:53<02:01,  1.41s/it]

['Недвижимость']


 60%|█████▉    | 126/211 [02:55<01:51,  1.31s/it]

['Недвижимость']


 60%|██████    | 127/211 [02:57<02:06,  1.51s/it]

['Леспопромышленный комплекс']


 61%|██████    | 128/211 [02:58<01:59,  1.44s/it]

['Леспопромышленный комплекс']


 61%|██████    | 129/211 [03:01<02:43,  2.00s/it]

['Стройматериалы']


 62%|██████▏   | 130/211 [03:02<02:16,  1.68s/it]

['Фармацевтика']


 62%|██████▏   | 131/211 [03:03<02:00,  1.51s/it]

['Фармацевтика']


 63%|██████▎   | 132/211 [03:04<01:51,  1.41s/it]

['Фармацевтика']


 63%|██████▎   | 133/211 [03:06<01:46,  1.36s/it]

['Фармацевтика']


 64%|██████▎   | 134/211 [03:07<01:45,  1.37s/it]

['Фармацевтика']


 64%|██████▍   | 135/211 [03:10<02:27,  1.94s/it]

['Фармацевтика']


 64%|██████▍   | 136/211 [03:12<02:12,  1.76s/it]

['Агропромышленный комплекс']


 65%|██████▍   | 137/211 [03:13<01:56,  1.57s/it]

['Агропромышленный комплекс']


 65%|██████▌   | 138/211 [03:14<01:45,  1.45s/it]

['Удобрения и химия']


 66%|██████▌   | 139/211 [03:21<03:50,  3.20s/it]

['Удобрения и химия']


 66%|██████▋   | 140/211 [03:27<04:42,  3.98s/it]

['Удобрения и химия']


 67%|██████▋   | 141/211 [03:28<03:36,  3.10s/it]

['Удобрения и химия']


 67%|██████▋   | 142/211 [03:29<02:48,  2.45s/it]

['Розничная торговля']


 68%|██████▊   | 143/211 [03:30<02:27,  2.16s/it]

['Розничная торговля']


 68%|██████▊   | 144/211 [03:32<02:22,  2.12s/it]

['Розничная торговля']


 69%|██████▊   | 145/211 [03:34<02:10,  1.98s/it]

['Розничная торговля']


 69%|██████▉   | 146/211 [03:35<01:56,  1.79s/it]

['Розничная торговля']


 70%|██████▉   | 147/211 [03:37<01:48,  1.70s/it]

['Отраслевые отчеты']


 70%|███████   | 148/211 [03:38<01:40,  1.59s/it]

['Отраслевые отчеты']


 71%|███████   | 149/211 [03:39<01:28,  1.43s/it]

['Отраслевые отчеты']


 71%|███████   | 150/211 [03:41<01:22,  1.36s/it]

['Отраслевые отчеты']


 72%|███████▏  | 151/211 [03:42<01:17,  1.28s/it]

['Отраслевые отчеты']


 72%|███████▏  | 152/211 [03:43<01:16,  1.30s/it]

['Отраслевые отчеты']


 73%|███████▎  | 153/211 [03:44<01:11,  1.23s/it]

['Отраслевые отчеты']


 73%|███████▎  | 154/211 [03:45<01:08,  1.20s/it]

['Отраслевые отчеты']


 73%|███████▎  | 155/211 [03:46<01:03,  1.13s/it]

['Отраслевые отчеты']


 74%|███████▍  | 156/211 [03:47<01:03,  1.15s/it]

['Отраслевые отчеты']


 74%|███████▍  | 157/211 [03:48<01:02,  1.15s/it]

['Отраслевые отчеты']


 75%|███████▍  | 158/211 [03:50<01:02,  1.17s/it]

['Отраслевые отчеты']


 75%|███████▌  | 159/211 [03:51<00:58,  1.12s/it]

['Отраслевые отчеты']


 76%|███████▌  | 160/211 [03:52<01:00,  1.18s/it]

['ТМТ']


 76%|███████▋  | 161/211 [03:53<00:55,  1.11s/it]

['Энергетика']


 77%|███████▋  | 162/211 [03:54<00:53,  1.09s/it]

['Энергетика']


 77%|███████▋  | 163/211 [03:55<00:57,  1.19s/it]

['Энергетика']


 78%|███████▊  | 164/211 [04:00<01:45,  2.25s/it]

['Энергетика']


 78%|███████▊  | 165/211 [04:01<01:27,  1.91s/it]

['Автомобилестроение']


 79%|███████▊  | 166/211 [04:02<01:12,  1.61s/it]

['Автомобилестроение']


 79%|███████▉  | 167/211 [04:03<01:03,  1.44s/it]

['Автомобилестроение']


 80%|███████▉  | 168/211 [04:05<01:08,  1.59s/it]

['Автомобилестроение']


 80%|████████  | 169/211 [04:06<01:00,  1.45s/it]

['Прочее']


 81%|████████  | 170/211 [04:07<00:55,  1.36s/it]

['Прочее']


 81%|████████  | 171/211 [04:10<01:04,  1.60s/it]

['Прочее']


 82%|████████▏ | 172/211 [04:11<01:03,  1.62s/it]

['Прочее']


 82%|████████▏ | 173/211 [04:14<01:13,  1.93s/it]

['Прочее']


 82%|████████▏ | 174/211 [04:15<01:02,  1.70s/it]

['Прочее']


 83%|████████▎ | 175/211 [04:21<01:49,  3.04s/it]

['Прочее']


 83%|████████▎ | 176/211 [04:23<01:33,  2.67s/it]

['Прочее']


 84%|████████▍ | 177/211 [04:24<01:17,  2.27s/it]

['Прочее']


 84%|████████▍ | 178/211 [04:25<01:03,  1.92s/it]

['Прочее']


 85%|████████▍ | 179/211 [04:27<00:54,  1.69s/it]

['Прочее']


 85%|████████▌ | 180/211 [04:28<00:46,  1.50s/it]

['Прочее']


 86%|████████▌ | 181/211 [04:29<00:40,  1.34s/it]

['Прочее']


 86%|████████▋ | 182/211 [04:30<00:36,  1.27s/it]

['Прочее']


 87%|████████▋ | 183/211 [04:31<00:38,  1.37s/it]

['Прочее']


 87%|████████▋ | 184/211 [04:32<00:33,  1.26s/it]

['Прочее']


 88%|████████▊ | 185/211 [04:44<01:55,  4.45s/it]

['Прочее']


 88%|████████▊ | 186/211 [04:46<01:33,  3.73s/it]

['Прочее']


 89%|████████▊ | 187/211 [04:49<01:21,  3.40s/it]

['Прочее']


 89%|████████▉ | 188/211 [04:57<01:52,  4.90s/it]

['Прочее']


 90%|████████▉ | 189/211 [05:01<01:36,  4.38s/it]

['Прочее']


 90%|█████████ | 190/211 [05:02<01:10,  3.37s/it]

['Прочее']


 91%|█████████ | 191/211 [05:03<00:57,  2.89s/it]

['Прочее']


 91%|█████████ | 192/211 [05:04<00:45,  2.37s/it]

['Прочее']


 91%|█████████▏| 193/211 [05:30<02:46,  9.26s/it]

['Прочее']


 92%|█████████▏| 194/211 [05:32<02:01,  7.17s/it]

['Прочее']


 92%|█████████▏| 195/211 [05:34<01:29,  5.59s/it]

['Прочее']


 93%|█████████▎| 196/211 [05:37<01:12,  4.82s/it]

['Прочее']


 93%|█████████▎| 197/211 [05:39<00:57,  4.12s/it]

['Прочее']


 94%|█████████▍| 198/211 [05:44<00:53,  4.10s/it]

['Прочее']


 94%|█████████▍| 199/211 [05:46<00:43,  3.61s/it]

['Прочее']


 95%|█████████▍| 200/211 [05:49<00:39,  3.57s/it]

['Дайджесты']


 95%|█████████▌| 201/211 [05:52<00:32,  3.30s/it]

['Дайджесты']


 96%|█████████▌| 202/211 [06:00<00:42,  4.69s/it]

['Дайджесты']


 96%|█████████▌| 203/211 [06:02<00:30,  3.76s/it]

['Дайджесты']


 97%|█████████▋| 204/211 [06:03<00:20,  3.00s/it]

['Дайджесты']


 97%|█████████▋| 205/211 [06:28<00:58,  9.67s/it]

['Дайджесты']


 98%|█████████▊| 206/211 [06:37<00:46,  9.32s/it]

['Дайджесты']


 98%|█████████▊| 207/211 [06:40<00:30,  7.56s/it]

['Дайджесты']


 99%|█████████▊| 208/211 [06:42<00:17,  5.94s/it]

['Дайджесты']


 99%|█████████▉| 209/211 [06:44<00:09,  4.64s/it]

['Дайджесты']


100%|█████████▉| 210/211 [06:46<00:03,  3.92s/it]

['Дайджесты']


100%|██████████| 211/211 [06:49<00:00,  1.94s/it]

['Дайджесты']





### Пример

In [82]:
print(data["summary"])
print('SberTags', data["sber_tags"])

# Санкционный Дайджест 2023

## 1. Ключевые выводы:
- В июле 2023 года количество новых персональных санкций против россиян составило 251, из которых 91 касалась физических лиц и 160 организаций, увеличив общее число до 14 304.
- Основные инициаторы санкций – США, Канада и Австралия. Наиболее известные фигуры среди новых подсанкционных лиц – Алексей Кудрин и ряд российских банков.
- Комитет Европарламента одобрил установление уголовной ответственности за нарушения санкционных режимов.
- Синхронизация секторальных ограничений продолжается; расширение контроля за экспортом товаров.

## 2. Тенденции в отрасли:
- Наращивание санкций и требований к соблюдению экспортных правил может привести к затруднениям в торговых операциях с Россией.
- Возможное усиление уголовных наказаний за нарушение санкций на уровне ЕС.
- Явное влияние добровольного сокращения предложения нефти на рост цен и снижение дисконта на российскую нефть.

## 3. Анализ рисков, неопределённости и возможностей:
- Увеличение р

# Сохраняемся

In [90]:
with open('docs.pkl', 'wb') as f:
    pickle.dump(docs, f)

In [101]:
from datetime import datetime

new_docs = []
for doc in docs:
    new_doc = {
        "date": doc['date'],
        "sber_tags": doc['sber_tags'],
        "summary": doc['summary'],
    }
    if isinstance(new_doc['date'], datetime):
        new_doc['date'] = new_doc['date'].strftime('%d.%m.%Y')
    pdfs = []
    for pdf in doc['pdfs']:
        pdfs.append({
            "full_text": pdf.get('full_text', ''),
            "summary": pdf['summary'],
        })
    new_doc['pdfs'] = pdfs
    new_docs.append(new_doc)

In [103]:
import json

json_lines = "\n".join(json.dumps(item) for item in new_docs)

with open("industry_docs.jsonl", "w") as f:
    f.write(json_lines)