# **Важно!** 

Домашнее задание состоит из нескольких задач, которые вам нужно решить.
*   Баллы выставляются по принципу выполнено/невыполнено.
*   За каждую выполненую задачу вы получаете баллы (количество баллов за задание указано в скобках).

**Инструкция выполнения:** Выполните задания в этом же ноутбуке (места под решения **КАЖДОЙ** задачи обозначены как **#НАЧАЛО ВАШЕГО РЕШЕНИЯ** и **#КОНЕЦ ВАШЕГО РЕШЕНИЯ**)

**Как отправить задание на проверку:** Вам необходимо сохранить ваше решение в данном блокноте и отправить итоговый **файл .IPYNB** на учебной платформе в **стандартную форму сдачи домашнего задания.**

**Срок проверки преподавателем:** домашнее задание проверяется **в течение 3 дней после дедлайна сдачи** с предоставлением обратной связи

# **Прежде чем проверять задания:**

1. Перезапустите **ядро (restart the kernel)**: в меню, выбрать **Ядро (Kernel)**
→ **Перезапустить (Restart)**
2. Затем **Выполнить** **все ячейки (run all cells)**: в меню, выбрать **Ячейка (Cell)**
→ **Запустить все (Run All)**.

После ячеек с заданием следуют ячейки с проверкой **с помощью assert.**

Если в коде есть ошибки, assert выведет уведомление об ошибке.

Если в коде нет ошибок, assert отработает без вывода дополнительной информации.

---

# 1 Регулярные выражения

In [1]:
import re
# 1 Непосредственно регулярные выражения

# Напишите функцию, которая находит даты в формате "dd-mm-yyyy" в данном тексте и возвращает их список.
def find_dates(text):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    return re.findall(r"\d{2}-\d{2}-\d{4}", text)
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

# Напишите функцию, которая находит электронные адреса в данном тексте и возвращает их список.
def find_emails(text):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    return re.findall(r"\w+@\w+\.\w+", text)
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

# Напишите функцию, которая находит хэштеги (начинаются с символа #) в данном тексте и возвращает их список.
def find_hashtags(text):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    return re.findall(r"#\w+", text)
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

# 2 Группы

# Напишите функцию, которая парсит дату в формате "dd-mm-yyyy" и возвращает год, месяц и день в виде отдельных групп, если есть match, иначе None
# Определите регулярку, затем используйте: 
# match = re.match(pattern, date_str)
# match.groups()

def parse_date(date_str):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    match = re.match(r"(\d{2})-(\d{2})-(\d{4})", date_str)
    return tuple(map(int, match.groups()[::-1])) if match is not None else match
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

# 3 Регулярные выражения с позитивным и негативным просмотром вперед (lookahead) и назад (lookbehind)

# Напишите функцию, которая извлекает слово перед ключевым словом "apple" в данном тексте.

def extract_word_before_apple(text):
    
    # пример pattern = r'... (?=apple)'
    
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    return re.search(r"(\w+)\s+(?=apple)", text).group(1)
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [2]:
text = "Сегодня 20-09-2023, а завтра 21-09-2023. А послезавтра 22-09-2023."
assert find_dates(text) == ['20-09-2023', '21-09-2023', '22-09-2023'], "ошибка в find_dates"

text = "Контактный адрес: email@example.com или info@company.org"
assert find_emails(text) == ['email@example.com', 'info@company.org'], "ошибка в find_emails"

text = "Сегодня #праздник, #выходной и #солнце!"
assert find_hashtags(text) == ['#праздник', '#выходной', '#солнце'], "ошибка в find_hashtags"

date_str = "20-09-2023"
assert parse_date(date_str) == (2023, 9, 20), "ошибка в parse_date"

text = "I have an apple and a banana."
assert extract_word_before_apple(text) == "an", "ошибка в extract_word_before_apple"

# Лексический поиск

## Загрузка файлов, ~300 МБ 

In [3]:
import os
import requests
from tqdm import tqdm
import zipfile

# URL для загрузки
url = "http://images.cocodataset.org/annotations/annotations_trainval2017.zip"

# Определите путь, по которому сохранить файл
file_path = "annotations.zip"

# Проверяем, существует ли распакованная директория
if os.path.exists(file_path[:-4]):
    print(f"Директория {file_path[:-4]} уже существует. Загрузка и распаковка пропущены.")
else:
    # Отправьте GET-запрос для загрузки файла
    response = requests.get(url, stream=True)
    total_size_in_bytes = int(response.headers.get('content-length', 0))
    block_size = 1024
    progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True)
    with open(file_path, 'wb') as file:
        for data in response.iter_content(block_size):
            progress_bar.update(len(data))
            file.write(data)
    progress_bar.close()
    
    # Проверяем, успешно ли загрузился файл
    if total_size_in_bytes != 0 and progress_bar.n != total_size_in_bytes:
        print(f"Не удалось загрузить файл. Код состояния: {response.status_code}")
    else:
        print(f"Файл {file_path} успешно загружен.")

        # Директория, в которую вы хотите распаковать архив
        extract_to_directory = "."
        
        # Создайте объект ZipFile
        with zipfile.ZipFile(file_path, 'r') as zip_ref:
            # Распакуйте все содержимое архива в указанную директорию
            zip_ref.extractall(extract_to_directory)
        
        print(f"Архив {file_path} успешно распакован в директорию {extract_to_directory}")

        # Удаляем ZIP-файл после распаковки
        os.remove(file_path)
        print(f"ZIP-файл {file_path} был удален.")

Директория annotations уже существует. Загрузка и распаковка пропущены.


## Поиск с rank_bm25

In [4]:
import subprocess
import sys

def install_package(package_name):
    """Функция для установки пакета с помощью pip."""
    subprocess.check_call([sys.executable, "-m", "pip", "install", package_name])

def check_and_install(package_name):
    """Проверяет, установлен ли пакет, и устанавливает его при необходимости."""
    try:
        __import__(package_name)
        print(f"Пакет {package_name} уже установлен.")
    except ImportError:
        print(f"Пакет {package_name} не установлен. Устанавливаю...")
        install_package(package_name)
        
# Проверяем и устанавливаем пакет rank-bm25
check_and_install("rank_bm25")

Пакет rank_bm25 уже установлен.


In [5]:
from rank_bm25 import BM25Okapi
import json
import os

json_file = os.path.join("annotations", "captions_train2017.json")
with open(json_file, 'r') as file:
    # Загрузите данные из JSON-файла в словарь
    data = json.load(file)

# Создайте список документов documents из data['annotations'], data['annotations'] - это список словарей, в каждом словаре 
# нужно извлечь текст из ключа "caption"

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
documents = [doc["caption"] for doc in data["annotations"]]
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

del data

# Создайте список списков tokenized_documents, разбив каждый документ из documents на токены (слова) с помощью .split()
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
tokenized_documents = [capt.split() for capt in documents]
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

# Создайте объект bm25, передав в BM25Okapi tokenized_documents - будет построен поисковый индекс
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
bm25 = BM25Okapi(tokenized_documents)
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [6]:
assert len(documents) == 591753
assert len(tokenized_documents[0]) == 10
assert isinstance(bm25, BM25Okapi)

In [7]:
# Пример запроса
query = "man bike"

# Токенизируйте запрос
tokenized_query = query.split()

# Выполните поиск с использованием BM25 и получите ранжированные результаты
doc_scores = bm25.get_scores(tokenized_query)

# Получите индексы документов в порядке убывания их релевантности к запросу
sorted_doc_indices = sorted(range(len(doc_scores)), key=lambda i: doc_scores[i], reverse=True)[:10]

# Выведите результаты поиска
for index in sorted_doc_indices:
    print(f"Документ {index + 1}: {documents[index]}, Релевантность: {doc_scores[index]:.5f}")

Документ 202832: A man walking a bike towards a bike stand., Релевантность: 9.99410
Документ 5441: A man and woman's bike parked in a bike rack., Релевантность: 9.65476
Документ 241662: a man ona bike plays with his friends bike too, Релевантность: 9.65476
Документ 185252: A man riding a bike in front of a bike shop., Релевантность: 9.33821
Документ 236880: A man beside a bike with a child on the bike , Релевантность: 9.33821
Документ 204336: A man stands with his bike at a bike rake on a street., Релевантность: 8.76466
Документ 73: a man with a bike at a marina, Релевантность: 8.12833
Документ 292: A man riding a dirt bike becomes airborne., Релевантность: 8.12833
Документ 5831: A man on a bike in a station, Релевантность: 8.12833
Документ 9156: A man riding a bike past a car., Релевантность: 8.12833


## Elasticsearch

<b>Запускаем службу Elasticsearch через Docker Compose</b>

1. Убедитесь, что файл compose.yml находится в текущем каталоге и содержит сервисы elasticsearch и kibana.
Пример секции для elasticsearch в compose.yml:
```
services:
  elasticsearch:
    image: bitnami/elasticsearch:latest
    container_name: elasticsearch
  environment:
    - discovery.type=single-node
    volumes:
      - ./elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml
    ports:
      - "9200:9200"
    networks:
      - elk-network
  kibana:
    image: bitnami/kibana:latest
    container_name: kibana
    environment:
      - ELASTICSEARCH_HOSTS=http://localhost:9200
    ports:
      - "5601:5601"
    networks:
      - elk-network
  volumes:
    - ./kibana.yml:/usr/share/kibana/config/kibana.yml
networks:
  elk-network:
    driver: bridge
```
2. Перед запуском убедитесь, что параметр vm.max_map_count увеличен:
В Unix: sudo sysctl -w vm.max_map_count=262144
В Windows: через WSL sudo sysctl -w vm.max_map_count=262144

3. Запустите все сервисы командой:
!docker compose up -d

4. После запуска Elasticsearch будет доступен на http://localhost:9200

5. Для остановки используйте:
!docker compose down

In [8]:
check_and_install("elasticsearch==8.9.0")

Пакет elasticsearch==8.9.0 не установлен. Устанавливаю...


In [9]:
# https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
from elasticsearch import Elasticsearch

# Создайте client, передав в класс Elasticsearch параметр 'http://localhost:9200'
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
!docker compose up -d # may need to wait for pulling layers
client = Elasticsearch('http://localhost:9200')
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

[1A[1B[0G[?25l[+] Running 1/3
 [32m✔[0m Network hw1_elk-network  [32mCreated[0m                                        [34m0.0s [0m
 [33m⠋[0m Container kibana         Creating                                       [34m0.1s [0m
 [33m⠋[0m Container elasticsearch  Creating                                       [34m0.1s [0m
[?25h[1A[1A[1A[1A[0G[?25l[+] Running 1/3
 [32m✔[0m Network hw1_elk-network  [32mCreated[0m                                        [34m0.0s [0m
 [33m⠙[0m Container kibana         Starting                                       [34m0.2s [0m
 [33m⠙[0m Container elasticsearch  Starting                                       [34m0.2s [0m
[?25h[1A[1A[1A[1A[0G[?25l[+] Running 1/3
 [32m✔[0m Network hw1_elk-network  [32mCreated[0m                                        [34m0.0s [0m
 [33m⠹[0m Container kibana         Starting                                       [34m0.3s [0m
 [33m⠹[0m Container elasticsearch  Starting      

In [10]:
# !!! внимание, запуск контейнера занимает некоторе время, следует подождать ~1 минуту, прежде чем запускать ячейку с assert
import time
time.sleep(60)
assert client.ping(), "Не удалось установить связь с сервером Elasticsearch."

In [11]:
import json
import os

"""
https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html
Маппинг (схема) для индекса в Elasticsearch определяет структуру и типы данных, которые могут быть хранены в данном индексе. 
Маппинг определяет, как Elasticsearch будет анализировать и индексировать документы, а также какие операции поиска и агрегации 
доступны для полей в индексе.

Маппинг включает в себя следующие аспекты:

1. **Типы полей (Field Types)**: Определяют, какой тип данных может содержаться в поле (например, текст, число, дата и т. д.). 
Elasticsearch предоставляет разнообразные типы полей, такие как `text`, `keyword`, `integer`, `date`, `boolean`, и другие.

2. **Анализ и нормализация (Analysis)**: Определяет, как текстовые данные будут анализироваться и храниться в обратных индексах 
для выполнения поиска. Это включает в себя токенизацию (разделение текста на токены), фильтрацию стоп-слов, стемминг и другие процессы.

3. **Индексация (Indexing)**: Определяет, как данные будут индексироваться для быстрого поиска. Например, поле может быть 
индексировано целиком (keyword) или разбито на токены для полнотекстового поиска (text).

4. **Анализаторы (Analyzers)**: Это наборы правил анализа, которые определяют, как текст будет разбит на токены и 
какие преобразования будут применяться к тексту. Elasticsearch предоставляет стандартные анализаторы, и вы также можете создавать собственные.

5. **Поля вложенных объектов (Nested Fields)**: Если документ содержит вложенные объекты или массивы, маппинг 
может определять структуру и типы данных внутри таких объектов.

Пример маппинга для индекса может выглядеть следующим образом (в формате JSON):

```json
    {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "english"
      },
      "author": {
        "type": "keyword"
      },
      "publish_date": {
        "type": "date",
        "format": "yyyy-MM-dd"
      }
    }
  }
```

В этом примере:
- `title` - поле с текстовыми данными, использующее анализатор "english" для полнотекстового поиска.
- `author` - поле с ключевыми словами (текстом без анализа).
- `publish_date` - поле с датой, где указан формат даты.

Маппинг является важной частью проектирования индекса Elasticsearch, поскольку он определяет, как данные будут храниться 
и какие операции поиска и агрегации будут доступны для этих данных.
"""

# Список JSON-файлов, которые будут обработаны
json_files = [os.path.join("annotations", "captions_train2017.json"), os.path.join("annotations", "captions_val2017.json")]

# Список для хранения имен индексов
indices = []

# Список для хранения данных из JSON-файлов
data_list = []

for json_file in json_files:
    # Открытие JSON-файла для чтения
    with open(json_file, 'r') as file:
        # Загрузка данных из JSON-файла в словарь
        data = json.load(file)
        data_list.append(data)

    # Определение имени индекса на основе имени файла без расширения
    index_name = json_file.split(f"{os.sep}")[1].split(".")[0]
    indices.append(index_name)

    # Определение маппинга (схемы) для индекса по шаблону:
    """
    mappings = {
        "properties": {
            "field1": {
                "type": "integer"
            },
            "field2": {
                "type": "integer"
            },
            "field3": {
                "type": "text"
            }
        }
    }   
    """
    # Замените field1 из шаблона на image_id, field2 из шаблона на id, field3 из шаблона на caption
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    mappings = {
        "properties": {
            "image_id": {
                "type": "integer"
            },
            "id": {
                "type": "integer"
            },
            "caption": {
                "type": "text"
            }
        }
    } 
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

    # Настройки индекса (в данном случае, 1 шард и 0 реплик)
    settings = {
        "number_of_shards": 1,
        "number_of_replicas": 0
    }

    # Создание индекса с указанным именем, маппингом и настройками
    response = client.indices.create(index=index_name, mappings=mappings, settings=settings)

    # В результате выполнения этой операции будет создан индекс в Elasticsearch

In [12]:
# Ожидаемое значение маппинга
expected_mappings = {
    "properties": {
        "image_id": {
            "type": "integer"
        },
        "id": {
            "type": "integer"
        },
        "caption": {
            "type": "text"
        }
    }
}

# Проверка с использованием assert
assert mappings == expected_mappings, "Маппинг не соответствует ожидаемому значению"
assert response and response.get('acknowledged', False), "Не удалось создать индекс"

In [13]:
# Генерация операций для индексации с помощью bulk API
from elasticsearch.helpers import bulk

for i in range(2):
    actions = [
        {
            "_op_type": "index",
            "_index": indices[i],
            "_source": document
        }
        for document in data_list[i]['annotations']
    ]
    
    # Используйте bulk API для эффективной индексации большого количества документов
    # success, failed = bulk(client, actions, index=index), в параметр index передайте indices[i]
    
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    success, failed = bulk(client, actions, index=indices[i])
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ
    
    # Проверьте, успешно ли добавлены документы
    if not failed:
        print(f"Успешно добавлено {success} документов в индекс '{indices[i]}'.")
    else:
        print(f"Не удалось добавить некоторые документы в индекс '{indices[i]}'. Успешно добавлено {success} документов, не удалось добавить {len(failed)} документов.")

Успешно добавлено 591753 документов в индекс 'captions_train2017'.
Успешно добавлено 25014 документов в индекс 'captions_val2017'.


In [14]:
assert success == 25014

In [17]:
# Напишите запрос с использованием оператора match, который ищет документы, 
# содержащие ключевые "man" и "bike" в поле "caption".
"""
пример:
simple_query = {
        "match": {
            "field1": "word1 word2"
        }
    }
"""

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
simple_query = {
        "match": {
            "caption": "man bike"
        }
    }
# КОНЕЦ ВАШЕГО РЕШЕНИЯ


# Выполните поиск
results = client.search(index="captions_train2017", query=simple_query, size=10)

# Обработайте результаты поиска
for hit in results['hits']['hits']:
    print(hit['_source'], hit['_score'])

{'image_id': 18882, 'id': 681802, 'caption': 'Man riding a dirt bike, doing bike stunts.'} 9.770972
{'image_id': 492020, 'id': 639702, 'caption': 'A man walking a bike towards a bike stand.'} 9.466185
{'image_id': 507249, 'id': 147219, 'caption': "A man and woman's bike parked in a bike rack."} 9.180421
{'image_id': 146324, 'id': 790629, 'caption': 'a man ona bike plays with his friends bike too'} 9.180421
{'image_id': 358237, 'id': 192713, 'caption': 'A man riding a bike in front of a bike shop.'} 8.911898
{'image_id': 242008, 'id': 666588, 'caption': 'A man beside a bike with a child on the bike '} 8.911898
{'image_id': 363455, 'id': 547860, 'caption': 'A man riding a bike next to another person on a bike.'} 8.659053
{'image_id': 575310, 'id': 108740, 'caption': 'A young girl riding a bike next to a man on another bike.'} 8.420515
{'image_id': 25506, 'id': 237576, 'caption': 'A public train carries different bike, and a man stands with his bike.'} 8.420515
{'image_id': 530896, 'id': 

In [18]:
# Ожидаемое значение запроса
expected_query = {
        "match": {
            "caption": "man bike"
        }
    }

# Проверка с использованием assert
assert simple_query == expected_query, "simple_query не соответствует ожидаемому значению"

In [19]:
# Указать имя индекса, в котором выполняется поиск
index_name = 'captions_train2017'

# Cформируйте запрос с использованием функции оценки (function_score). 
# В запросе должен использоваться оператор match, который ищет документы, содержащие  ключевые слова "man bike".
# Настройте функцию оценки с помощью параметров, таких как boost (вес), равный 2, boost_mode, равный "multiply"
"""
Пример:

weighted_query = {
        "function_score": {
            "query": {
                "match": {"field1": "word1 word2"}
            },
            "boost": "5.0",  # Установите вес для функции оценки
            "boost_mode": "multiply"
        }
    }
""" 

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
weighted_query = {
        "function_score": {
            "query": {
                "match": {"caption": "man bike"}
            },
            "boost": "2.0",  # Установите вес для функции оценки
            "boost_mode": "multiply"
        }
    }
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

# Выполнить запрос и получить результаты
results = client.search(index=index_name, query=weighted_query)

# Обработать результаты поиска
for hit in results['hits']['hits']:
    print(hit['_source'], hit['_score'])

{'image_id': 18882, 'id': 681802, 'caption': 'Man riding a dirt bike, doing bike stunts.'} 19.541945
{'image_id': 492020, 'id': 639702, 'caption': 'A man walking a bike towards a bike stand.'} 18.93237
{'image_id': 507249, 'id': 147219, 'caption': "A man and woman's bike parked in a bike rack."} 18.360842
{'image_id': 146324, 'id': 790629, 'caption': 'a man ona bike plays with his friends bike too'} 18.360842
{'image_id': 358237, 'id': 192713, 'caption': 'A man riding a bike in front of a bike shop.'} 17.823795
{'image_id': 242008, 'id': 666588, 'caption': 'A man beside a bike with a child on the bike '} 17.823795
{'image_id': 363455, 'id': 547860, 'caption': 'A man riding a bike next to another person on a bike.'} 17.318106
{'image_id': 575310, 'id': 108740, 'caption': 'A young girl riding a bike next to a man on another bike.'} 16.84103
{'image_id': 25506, 'id': 237576, 'caption': 'A public train carries different bike, and a man stands with his bike.'} 16.84103
{'image_id': 530896, 

In [20]:
# Ожидаемое значение запроса
expected_query = {
        "function_score": {
            "query": {
                "match": {"caption": "man bike"}
            },
            "boost": "2.0",
            "boost_mode": "multiply"
        }
    }

# Проверка с использованием assert
assert weighted_query == expected_query, "weighted_query не соответствует ожидаемому значению"

In [21]:
# Укажите названия индексов
index1_name = 'captions_train2017' # Имя первого индекса
index2_name = 'captions_val2017'  # Имя второго индекса

# Создайте запрос с функцией оценки (function_score) для двух индексов
# Сформируйте запрос с использованием функции оценки (function_score). В запросе должен использоваться 
# оператор match, который ищет документы, содержащие ключевое слово "bike" в текстовом поле.

# Определите две функции оценки с разными весами для двух индексов. В данном случае, 
# вес для первого индекса установлен в 1.0 (по умолчанию), а для второго индекса - 2.0 (2 раза больше).

# Устанавите режим суммирования скоров "sum" из функций оценки с помощью параметра score_mode.

"""
Пример:

two_indices_query = {
        "function_score": {
            "query": {
                "match": {"caption": "word1"}  # Ваш запрос
            },
            "functions": [
                {
                    "filter": {"term": {"_index": index1_name}},
                    "weight": 1.0  # Вес для первого индекса (по умолчанию)
                },
                {
                    "filter": {"term": {"_index": index2_name}},
                    "weight": 2.0  # Вес для второго индекса (2 раза больше)
                }
            ],
            "score_mode": "sum"  # Режим суммирования скоров из функций оценки
        }
    }
""" 
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
two_indices_query = {
        "function_score": {
            "query": {
                "match": {"caption": "bike"}  # Ваш запрос
            },
            "functions": [
                {
                    "filter": {"term": {"_index": index1_name}},
                    "weight": 1.0  # Вес для первого индекса (по умолчанию)
                },
                {
                    "filter": {"term": {"_index": index2_name}},
                    "weight": 2.0  # Вес для второго индекса (2 раза больше)
                }
            ],
            "score_mode": "sum"  # Режим суммирования скоров из функций оценки
        }
    }
# КОНЕЦ ВАШЕГО РЕШЕНИЯ
# Выполните поиск
results = client.search(index=[index1_name, index2_name], query=two_indices_query)

# Обработайте результаты поиска
for hit in results['hits']['hits']:
    print(hit['_source'], hit['_index'], hit['_score'])

{'image_id': 55022, 'id': 682234, 'caption': 'A pink bike in a bike shop with hardwood floors.'} captions_val2017 14.178101
{'image_id': 295809, 'id': 522668, 'caption': 'A bike lane with a bike lane symbol painted on it.'} captions_val2017 13.802022
{'image_id': 357737, 'id': 147373, 'caption': 'A man smiles while he stands beside a bike with a bike on it'} captions_val2017 12.784669
{'image_id': 251140, 'id': 500395, 'caption': 'The book is about fixing your bike. '} captions_val2017 11.776944
{'image_id': 295809, 'id': 542387, 'caption': 'an empty street with a bike lane '} captions_val2017 11.776944
{'image_id': 281929, 'id': 473919, 'caption': 'A formally dressed man holding his bike. '} captions_val2017 11.776944
{'image_id': 230008, 'id': 55608, 'caption': 'A police officer is outside on his bike.'} captions_val2017 11.266925
{'image_id': 214192, 'id': 101382, 'caption': 'Two competitors skidding during a dirt bike competition'} captions_val2017 11.266925
{'image_id': 472623, 'i

In [22]:
# Ожидаемое значение запроса
expected_query = {
        "function_score": {
            "query": {
                "match": {"caption": "bike"}  # Ваш запрос
            },
            "functions": [
                {
                    "filter": {"term": {"_index": index1_name}},
                    "weight": 1.0  # Вес для первого индекса (по умолчанию)
                },
                {
                    "filter": {"term": {"_index": index2_name}},
                    "weight": 2.0  # Вес для второго индекса (2 раза больше)
                }
            ],
            "score_mode": "sum"  # Режим суммирования скоров из функций оценки
        }
    }

# Проверка с использованием assert
assert two_indices_query == expected_query, "two_indices_query не соответствует ожидаемому значению"

In [23]:
!docker compose down

[1A[1B[0G[?25l[+] Running 0/2
 [33m⠋[0m Container elasticsearch  Stopping                                       [34m0.1s [0m
 [33m⠋[0m Container kibana         Stopping                                       [34m0.1s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 0/2
 [33m⠙[0m Container elasticsearch  Stopping                                       [34m0.2s [0m
 [33m⠙[0m Container kibana         Stopping                                       [34m0.2s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 0/2
 [33m⠹[0m Container elasticsearch  Stopping                                       [34m0.3s [0m
 [33m⠹[0m Container kibana         Stopping                                       [34m0.3s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 0/2
 [33m⠸[0m Container elasticsearch  Stopping                                       [34m0.4s [0m
 [33m⠸[0m Container kibana         Stopping                                       [34m0.4s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 0/