# Проект 01 – Python 

## Инвертированный индекс

Информационный поиск (Information Retrieval) — это область компьютерных наук, которая изучает методы поиска нужной
информации в больших коллекциях данных. Классический пример — поисковые системы в интернете, которые позволяют найти 
документы, статьи или веб-страницы по ключевым словам.

Цель информационного поиска — не просто найти документы, содержащие слово, но и оценить их релевантность запросу 
пользователя. Одним из основных инструментов в информационном поиске является **инвертированный индекс**.

**Инвертированный индекс** — это структура данных, которая для каждого уникального слова хранит список документов или 
частей текста, где это слово встречается. Проще говоря, он «переворачивает» данные: вместо списка документов с их 
словами создаётся список слов с привязкой к документам.

<center><img src="../misc/inverted_index_scheme.png" alt="inverted_index_scheme.png" width="600"/>

### Задание 1.1. Подготовка текстовых данных
* Считай текст книги **«Война и мир»** из `.txt` [файла](datasets/war_and_peace.txt).
* Раздели текст на **единицы поиска**. В этом задании будем считать единицей поиска **предложение**.
* Очисти текст от знаков препинания и приведи все слова к **нижнему регистру**.
* Разбей каждое предложение на список слов.
* Удали **стоп-слова** из [файла](datasets/stop_words_russian.txt).
* Выведи:
  * **общее количество предложений**,
  * **предложение с наибольшим количеством слов** после обработки.

### Задание 1.2. Построение инвертированного индекса
В этом задании тебе предстоит реализовать **инвертированный индекс** для поиска слов в предложениях, 
используя класс `InvertedIndex`.

1. **Построение индекса**
   * Реализуй метод `build_index` класса `InvertedIndex`, который строит инвертированный индекс из словарного объекта `documents`.
   * `documents` — это словарь: ключ — номер предложения, значение — список слов в предложении.
   * Для каждого уникального слова сохраняй **список id предложений**, где оно встречается.
   * Используй `word2doc` для хранения данных внутри индекса.

2. **Поиск в индексе**
   * Реализуй метод поиска слов в индексе `query`.
   * Метод принимает список слов и возвращает **список id предложений**, в которых встречаются **все указанные слова** (операция «и»).
   * Результат должен быть отсортирован по возрастанию id предложения.

3. **Проверка работы индекса**
   * Проверь свой индекс на наборе слов:
   ```python
   test_words = ["мир"]
   index.query(test_words)  # должен вернуть все предложения, где встречается слово "мир"

   test_words = ["война", "мир"]
   index.query(test_words)  # должен вернуть предложения, где встречаются оба слова
   ```

In [1]:
from typing import List
from collections import defaultdict

class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def build_index(self, documents: dict):
        """Построение инвертированного индекса"""
        pass

    def query(self, words: List) -> List:
        """Поиск документов, содержащих все слова"""
        pass

## Детектор глаз

До широкого распространения нейросетей многие задачи компьютерного зрения решались с помощью классических алгоритмов, 
основанных на статистических признаках и шаблонах. Одним из таких алгоритмов является [Viola-Jones](https://www.face-rec.org/algorithms/Boosting-Ensemble/16981346.pdf), который активно 
использовался для детекции лиц и глаз.

В этом задании тебе предстоит загрузить любое изображение лица, использовать каскады Хаара и библиотеку `opencv` для 
нахождения глаз и на их место поставить черные очки. 
Это позволит понять, как раньше решались задачи детекции объектов и научиться базовой обработке изображений.

### Задание 2.1. Детекция глаз на изображении
Используя библиотеку **OpenCV** и каскады Хаара, найди глаза на изображении лица и **визуализируй их координаты**:
* Загрузи лююое изображение лица из файла (файл запуш в репозиторий в папке `datasets`)
* Примени каскад Хаара для обнаружения глаз.
* Отобрази изображение с прямоугольниками или отметками, показывающими положение глаз.
* Вывели координаты найденных глаз

| Признаки Хаара | Наложение признаков | Детекция глаз |
|---------|---------|---------|
| ![Image1](../misc/haar_features.jpg) | ![Image2](../misc/haar.png) | ![Image3](../misc/eyes.png) |

### Задание 2.2. Наложение очков
Используя координаты глаз из первого задания, наложи на изображение **очков** из [файла](datasets/glasses.jpg) так, 
чтобы глаза были закрыты:
* Загрузи изображение очков из [файла](datasets/glasses.jpg).
* При наложении очков избавься от **заднего фона изображения очков**, чтобы на месте глаз не было белого фона.
* Используй координаты глаз для корректного размещения очков.
* Отобрази итоговое изображение с наложенными очками

| Детекция глаз | Наложение очков  |
|---------|---------|
| ![Image3](../misc/eyes.png) | ![Image2](../misc/with_glasses.png)  |

### Задание 2.3. Анимация очков. Бонусное задание
Сделай анимацию в формате `.gif`, где очки плавно опускаются на глаза лица.
* Сгенерируй несколько кадров, постепенно перемещая очки от верхней части лица к положению глаз.
* Объедини кадры в .gif файл с плавной анимацией.
* Сохрани результат и покажи, как очки «опускаются» на лицо.


![glasses_animation](../misc/glasses_animation.gif)

## Обнаружение голосовой активности