# Проект 01 – Python 

## Инвертированный индекс

Информационный поиск (Information Retrieval) — это область компьютерных наук, которая изучает методы поиска нужной
информации в больших коллекциях данных. Классический пример — поисковые системы в интернете, которые позволяют найти 
документы, статьи или веб-страницы по ключевым словам.

Цель информационного поиска — не просто найти документы, содержащие слово, но и оценить их релевантность запросу 
пользователя. Одним из основных инструментов в информационном поиске является **инвертированный индекс**.

**Инвертированный индекс** — это структура данных, которая для каждого уникального слова хранит список документов или 
частей текста, где это слово встречается. Проще говоря, он «переворачивает» данные: вместо списка документов с их 
словами создаётся список слов с привязкой к документам.

<center><img src="../misc/inverted_index_scheme.png" alt="inverted_index_scheme.png" width="600"/>

### Задание 1.1. Разделение на предложения
* Считай текст книги **«Война и мир»** из `.txt` [файла](datasets/war_and_peace.txt)
* Раздели текст на предложения по знакам `. ! ?`, удали пробелы и пустые строки
* Посмотри на полученные предложения и приведи несколько примеров, когда разбиение некорреткное
* Раздели текст на предложения с помощью библиотеки [razdel](https://github.com/natasha/razdel)
* Выведи количество предложений, полученных с помощью `razdel`

In [1]:
import re

In [2]:
book_path = "../project-1/datasets/war_and_peace.txt"

In [3]:
with open(book_path, "r", encoding="utf-8") as f:
    text = f.read()

In [4]:
sentences = re.split("[.?!]", text)
sentences = [s.strip() for s in sentences if s.strip()]

In [5]:
from razdel import sentenize

In [6]:
sentences = [s.text for s in sentenize(text)]

In [7]:
len(sentences)

30255

### Задание 1.2. Очистка текста
* Очисти текст от знаков препинания и приведи все слова к **нижнему регистру**
* Разбей каждое предложение на список слов
* Удали **стоп-слова** из [файла](datasets/stop_words_russian.txt)
* Удали все пустые предложения (те, что после очистки не содержат слов)
* Выведи:
  * **количество слов** в самом длинном предложении
  * **общее количество предложений**, оставшихся после очистки.

In [8]:
stopwords_path = "../project-1/datasets/stop_words_russian.txt"

In [9]:
with open(stopwords_path, "r", encoding="utf-8") as f:
    stopwords = set(word.strip() for word in f)

In [10]:
processed_sentences = []
for sent in sentences:
    # удалить всё, кроме букв и пробелов
    clean_sent = re.sub(r"[^а-яА-ЯёЁa-zA-Z ]", " ", sent)
    # нижний регистр
    clean_sent = clean_sent.lower()
    # разбить на слова
    words = clean_sent.split()
    # удалить стоп-слова
    words = [w for w in words if w not in stopwords]
    if words:
        processed_sentences.append(words)

In [11]:
len(processed_sentences)

29620

In [12]:
longest_sentence = max(processed_sentences, key=len)

In [13]:
print("Самое длинное предложение (количество слов:", len(longest_sentence), "):")

Самое длинное предложение (количество слов: 136 ):


In [14]:
print(" ".join(longest_sentence))

граф растопчин стыдил уезжали вывозил присутственные места выдавал годное оружие пьяному сброду поднимал образа запрещал августину вывозить мощи иконы захватывал частные подводы бывшие москве ста тридцати шести подводах увозил делаемый леппихом воздушный шар намекал сожжет москву рассказывал сжег свой дом написал прокламацию французам торжественно упрекал разорили детский приют принимал славу сожжения москвы отрекался приказывал народу ловить шпионов приводить упрекал народ высылал французов москвы оставлял городе жу обер шальме составлявшую центр французского московского населения особой вины приказывал схватить увезти ссылку старого почтенного почт директора ключарева сбирал народ горы драться французами отделаться народа отдавал убийство человека уезжал задние ворота переживет несчастия москвы писал альбомы французски стихи своем участии деле понимал значения совершающегося события хотел сделать удивить совершить патриотически геройское мальчик резвился величавым неизбежным событием

### Задание 1.3. Построение инвертированного индекса
Реализуй **инвертированный индекс** для поиска слов в предложениях с помощью класса `InvertedIndex`.

**Что нужно сделать:**

* Реализуй метод `build_index`, который строит индекс из списка документов, где каждый документ — это список слов.
  * Для каждого уникального слова сохраняй список id документов (предложений), в которых оно встречается.
  * Используй атрибут `word2doc` для хранения данных.
* Реализуй метод `save_index`, чтобы **сохранять индекс в файл** (например, с помощью `pickle`) для последующего использования.
* Реализуй метод `load_index`, чтобы **загружать индекс из файла**.
* Реализуй метод `__len__`, который возвращает **количество уникальных слов** в индексе.

**Протестируй работу индекса:**

1. Построй индекс на списке предложений книги.
2. **Сохрани** индекс в файл.
3. **Загрузи** индекс из файла в **новый объект**.
4. Выведи количество **уникальных слов** в загруженном индексе

In [15]:
from typing import List
from collections import defaultdict

In [16]:
class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def build_index(self, documents: List[str]):
        """
        Построение инвертированного индекса из списка документов
        documents: список, где каждый элемент — список слов в предложении
        """
        pass

    def save_index(self, filepath: str):
        """Сохранение индекса на диск"""
        pass

    def load_index(self, filepath: str):
        """Загрузка индекса с диска"""
        pass

In [17]:
import pickle

In [18]:
class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def __len__(self):
        return len(self.word2doc)

    def build_index(self, documents: List[List[str]]):
        """
        Реализуй построение инвертированного индекса из списка документов.
        documents: список, где каждый элемент — список слов в предложении.
        """
        self.word2doc.clear()
        for doc_id, words in enumerate(documents):
            unique_words = set(words)
            for word in unique_words:
                self.word2doc[word].append(doc_id)

    def query(self, words: List[str]) -> List[int]:
        """
        Реализуй поиск предложений, содержащих все слова из списка words.
        Возвращает список id предложений, отсортированный по возрастанию.
        """
        if not words:
            return []

        # Начинаем с множества документов первого слова
        result_set = set(self.word2doc.get(words[0], []))
        for word in words[1:]:
            result_set &= set(self.word2doc.get(word, []))  # пересечение множеств

        return sorted(result_set)

    def save_index(self, filepath: str):
        """Реализуй сохранение индекса на диск"""
        with open(filepath, "wb") as f:
            pickle.dump(self.word2doc, f)

    def load_index(self, filepath: str):
        """Реализуй загрузку индекса с диска"""
        with open(filepath, "rb") as f:
            self.word2doc = pickle.load(f)

In [None]:
index = InvertedIndex()
index.build_index(processed_sentences)

In [None]:
index.save_index("index.pkl")

In [None]:
index2 = InvertedIndex()

In [None]:
index2.load_index("index.pkl")

In [None]:
len(index2)

### Задание 1.4. Поиск по индексу
* Реализуй метод `query` класса `InvertedIndex`, который выполняет поиск слов в индексе.
* Метод принимает **список слов** и возвращает список id предложений, в которых встречаются **все указанные слова** (операция «и»).
* Результат должен быть **отсортирован по возрастанию** id предложения.
* Проверь работу метода `query` на следующих примерах:
  * Слово: `университет`
  * Слова: `война` и `мир`
  * Слово: `школа`

In [None]:
index2.query(["война", "мир"])

In [None]:
index2.query(["университет"])

In [None]:
index2.query(["школа"])

## Решатель и генератор судоку

В этом задании ты научишься работать с матрицами и попрактикуешься в использовании библиотеки **NumPy**. 
Мы будем писать простой генератор и валидатор головоломок судоку.

#### Задание 2.1. Генератор судоку
1. Сначала сгенерируй случайную матрицу 9×9 с числами от 1 до 9 и проверь её на корректность с помощью функции `validate_sudoku`.
   * Валидация должна проверять:
     * нет повторов чисел в строках,
     * нет повторов чисел в столбцах,
     * нет повторов чисел в блоках 3×3.
2. Напиши несколько функций для модификации матрицы:
   * `transpose(matrix)` — транспонирует матрицу,
   * `swap_rows(matrix)` — случайным образом меняет местами строки внутри одного блока 3×3,
   * `swap_columns(matrix)` — случайным образом меняет местами столбцы внутри одного блока 3×3.
3. Возьми базовую корректную матрицу судоку и примени к ней случайную последовательность этих операций, чтобы получить новую корректную матрицу.
   После этого удали случайные клетки (замени их на нули или `None`), чтобы получилась заготовка для головоломки.
4. Проверь получившуюся матрицу функцией `validate_sudoku` и выведи результат.

### Задание 3.2. Солвер для судоку
Теперь, когда ты научился генерировать и проверять матрицы, пора написать **решатель судоку**. 
Это задание поможет тебе попрактиковаться в алгоритмах перебора и рекурсии, а также закрепить работу с тестами.

1. **Напиши функцию-решатель** для судоку 9×9.
   * Можно использовать алгоритм перебора (backtracking).
   * На вход функция получает матрицу с числами от 1 до 9 и пустыми клетками (0).
   * На выходе возвращает полностью решённую матрицу.

2. **Проверь корректность работы решателя.**
   * Напиши минимум **3 юнит-теста** с помощью библиотеки `pytest`.
   * Тесты должны проверять, что твой решатель находит правильное решение для разных входных матриц.

3. **Сравни решение с API.**
   * Используй API [youdosudoku.com](https://www.youdosudoku.com/) для генерации игры в судоку.
   * Запроси новое поле размером 9×9 с простой сложностью.
   * Прогони его через свой решатель.
   * Сравни результат с решением, которое возвращает API.
4. Выведи результат проверки в консоль: совпадает ли решение твоего солвера с эталонным решением.