# Проект 01 – Python 

## Инвертированный индекс

Информационный поиск (Information Retrieval) — это область компьютерных наук, которая изучает методы поиска нужной
информации в больших коллекциях данных. Классический пример — поисковые системы в интернете, которые позволяют найти 
документы, статьи или веб-страницы по ключевым словам.

Цель информационного поиска — не просто найти документы, содержащие слово, но и оценить их релевантность запросу 
пользователя. Одним из основных инструментов в информационном поиске является **инвертированный индекс**.

**Инвертированный индекс** — это структура данных, которая для каждого уникального слова хранит список документов или 
частей текста, где это слово встречается. Проще говоря, он «переворачивает» данные: вместо списка документов с их 
словами создаётся список слов с привязкой к документам.

<center><img src="../misc/inverted_index_scheme.png" alt="inverted_index_scheme.png" width="600"/>

### Задание 1.1. Разделение на предложения
* Считай текст книги **«Война и мир»** из `.txt` [файла](datasets/war_and_peace.txt)
* Раздели текст на предложения по знакам `. ! ?`, удали пробелы и пустые строки
* Посмотри на полученные предложения и приведи несколько примеров, когда разбиение некорреткное
* Раздели текст на предложения с помощью библиотеки [razdel](https://github.com/natasha/razdel)
* Выведи количество предложений, полученных с помощью `razdel`

### Задание 1.2. Очистка текста
* Очисти текст от знаков препинания и приведи все слова к **нижнему регистру**
* Разбей каждое предложение на список слов
* Удали **стоп-слова** из [файла](datasets/stop_words_russian.txt)
* Удали все пустые предложения (те, что после очистки не содержат слов)
* Выведи:
  * **количество слов** в самом длинном предложении
  * **общее количество предложений**, оставшихся после очистки.

### Задание 1.3. Построение инвертированного индекса
Реализуй **инвертированный индекс** для поиска слов в предложениях с помощью класса `InvertedIndex`.

**Что нужно сделать:**

* Реализуй метод `build_index`, который строит индекс из списка документов, где каждый документ — это список слов.
  * Для каждого уникального слова сохраняй список id документов (предложений), в которых оно встречается.
  * Используй атрибут `word2doc` для хранения данных.
* Реализуй метод `save_index`, чтобы **сохранять индекс в файл** (например, с помощью `pickle`) для последующего использования.
* Реализуй метод `load_index`, чтобы **загружать индекс из файла**.
* Реализуй метод `__len__`, который возвращает **количество уникальных слов** в индексе.

**Протестируй работу индекса:**

1. Построй индекс на списке предложений книги.
2. **Сохрани** индекс в файл.
3. **Загрузи** индекс из файла в **новый объект**.
4. Выведи количество **уникальных слов** в загруженном индексе

In [3]:
from typing import List
from collections import defaultdict

In [4]:
class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def build_index(self, documents: List[str]):
        """
        Построение инвертированного индекса из списка документов
        documents: список, где каждый элемент — список слов в предложении
        """
        pass

    def save_index(self, filepath: str):
        """Сохранение индекса на диск"""
        pass

    def load_index(self, filepath: str):
        """Загрузка индекса с диска"""
        pass

### Задание 1.4. Поиск по индексу
* Реализуй метод `query` класса `InvertedIndex`, который выполняет поиск слов в индексе.
* Метод принимает **список слов** и возвращает список id предложений, в которых встречаются **все указанные слова** (операция «и»).
* Результат должен быть **отсортирован по возрастанию** id предложения.
* Проверь работу метода `query` на следующих примерах:
  * Слово: `университет`
  * Слова: `война` и `мир`
  * Слово: `школа`

## Головоломка Судоку

После предыдущих заданий, где мы вспомнили базовый синтаксис Python, перейдём к изучению библиотеки **NumPy**.

**NumPy** — это мощный инструмент для работы с массивами и матрицами, который широко используется в анализе данных и 
научных вычислениях. Чтобы почувствовать себя увереннее при работе с матрицами, мы попробуем реализовать 
**решатель головоломок Судоку**.

В этом задании ты научишься:
* Работать с матрицами и массивами с помощью NumPy,
* Практиковаться в использовании базовых алгоритмов и циклов,
* Писать программу, которая решает головоломку Судоку,
* Писать **тесты для проверки корректности решения**, чтобы убедиться, что солвер работает правильно.


### Задание 2.1. Запрос по API
* Изучи API [YouDoSudoku](https://www.youdosudoku.com/) и разберитесь, как получать игры судоку и их решения
* Напиши функцию `get_sudoku(level)`, которая принимает уровень сложности (`'easy'`, `'medium'`, `'hard'`)
* Функция должна возвращать две матрицы `numpy` размером 9×9: одну с головоломкой, другую — с полным решением
* После запроса выведи обе матрицы, чтобы убедиться, что данные получены и преобразованы правильно

### Задание 2.2. Написание тестов
* Используя библиотеку `ipytest`, напиши тесты, которые проверяют корректность работы решения Судоку
* Каждый тест должен содержать [docstring](https://peps.python.org/pep-0257/), в котором кратко описано, какое правило Судоку он проверяет
* Один тест должен проверять одно правило Судоку

### Задание 2.3. Реализация алгоритма решения
* Напиши алгоритм решения Судоку. Можно использовать **brute-force (backtracking)**. Алгоритм должен заполнять все пустые клетки числами от 1 до 9, соблюдая правила Судоку для строк, столбцов и 3×3 блоков
* Проверь работу алгоритма с помощью ранее написанных тестов и убедись, что они покрывают все крайние случаи
* Получи через [YouDoSudoku API](https://www.youdosudoku.com/) по 5 примеров Судоку разной сложности, реши их своим алгоритмом и выведи на экран как исходные поля, так и решения. Проверь, что решения корректны