# Проект 01 – Python 

## Инвертированный индекс

Информационный поиск (Information Retrieval) — это область компьютерных наук, которая изучает методы поиска нужной
информации в больших коллекциях данных. Классический пример — поисковые системы в интернете, которые позволяют найти 
документы, статьи или веб-страницы по ключевым словам.

Цель информационного поиска — не просто найти документы, содержащие слово, но и оценить их релевантность запросу 
пользователя. Одним из основных инструментов в информационном поиске является **инвертированный индекс**.

**Инвертированный индекс** — это структура данных, которая для каждого уникального слова хранит список документов или 
частей текста, где это слово встречается. Проще говоря, он «переворачивает» данные: вместо списка документов с их 
словами создаётся список слов с привязкой к документам.

<center><img src="../misc/inverted_index_scheme.png" alt="inverted_index_scheme.png" width="600"/>

### Задание 1.1. Разделение на предложения
* Считай текст книги **«Война и мир»** из `.txt` [файла](datasets/war_and_peace.txt)
* Раздели текст на предложения по знакам `. ! ?`, удали пробелы и пустые строки
* Посмотри на полученные предложения и приведи несколько примеров, когда разбиение некорреткное
* Раздели текст на предложения с помощью библиотеки [razdel](https://github.com/natasha/razdel)
* Выведи количество предложений, полученных с помощью `razdel`

In [1]:
import re

In [2]:
book_path = "../project-1/datasets/war_and_peace.txt"

In [3]:
with open(book_path, "r", encoding="utf-8") as f:
    text = f.read()

In [4]:
sentences = re.split("[.?!]", text)
sentences = [s.strip() for s in sentences if s.strip()]

In [5]:
from razdel import sentenize

In [6]:
sentences = [s.text for s in sentenize(text)]

In [7]:
len(sentences)

30255

### Задание 1.2. Очистка текста
* Очисти текст от знаков препинания и приведи все слова к **нижнему регистру**
* Разбей каждое предложение на список слов
* Удали **стоп-слова** из [файла](datasets/stop_words_russian.txt)
* Удали все пустые предложения (те, что после очистки не содержат слов)
* Выведи:
  * **количество слов** в самом длинном предложении
  * **общее количество предложений**, оставшихся после очистки.

In [8]:
stopwords_path = "../project-1/datasets/stop_words_russian.txt"

In [9]:
with open(stopwords_path, "r", encoding="utf-8") as f:
    stopwords = set(word.strip() for word in f)

In [10]:
processed_sentences = []
for sent in sentences:
    # удалить всё, кроме букв и пробелов
    clean_sent = re.sub(r"[^а-яА-ЯёЁa-zA-Z ]", " ", sent)
    # нижний регистр
    clean_sent = clean_sent.lower()
    # разбить на слова
    words = clean_sent.split()
    # удалить стоп-слова
    words = [w for w in words if w not in stopwords]
    if words:
        processed_sentences.append(words)

In [11]:
len(processed_sentences)

29620

In [12]:
longest_sentence = max(processed_sentences, key=len)

In [13]:
print("Самое длинное предложение (количество слов:", len(longest_sentence), "):")

Самое длинное предложение (количество слов: 136 ):


In [14]:
print(" ".join(longest_sentence))

граф растопчин стыдил уезжали вывозил присутственные места выдавал годное оружие пьяному сброду поднимал образа запрещал августину вывозить мощи иконы захватывал частные подводы бывшие москве ста тридцати шести подводах увозил делаемый леппихом воздушный шар намекал сожжет москву рассказывал сжег свой дом написал прокламацию французам торжественно упрекал разорили детский приют принимал славу сожжения москвы отрекался приказывал народу ловить шпионов приводить упрекал народ высылал французов москвы оставлял городе жу обер шальме составлявшую центр французского московского населения особой вины приказывал схватить увезти ссылку старого почтенного почт директора ключарева сбирал народ горы драться французами отделаться народа отдавал убийство человека уезжал задние ворота переживет несчастия москвы писал альбомы французски стихи своем участии деле понимал значения совершающегося события хотел сделать удивить совершить патриотически геройское мальчик резвился величавым неизбежным событием

### Задание 1.3. Построение инвертированного индекса
Реализуй **инвертированный индекс** для поиска слов в предложениях с помощью класса `InvertedIndex`.

**Что нужно сделать:**

* Реализуй метод `build_index`, который строит индекс из списка документов, где каждый документ — это список слов.
  * Для каждого уникального слова сохраняй список id документов (предложений), в которых оно встречается.
  * Используй атрибут `word2doc` для хранения данных.
* Реализуй метод `save_index`, чтобы **сохранять индекс в файл** (например, с помощью `pickle`) для последующего использования.
* Реализуй метод `load_index`, чтобы **загружать индекс из файла**.
* Реализуй метод `__len__`, который возвращает **количество уникальных слов** в индексе.

**Протестируй работу индекса:**

1. Построй индекс на списке предложений книги.
2. **Сохрани** индекс в файл.
3. **Загрузи** индекс из файла в **новый объект**.
4. Выведи количество **уникальных слов** в загруженном индексе

In [15]:
from typing import List, Dict
from collections import defaultdict

In [16]:
class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def build_index(self, documents: List[str]):
        """
        Построение инвертированного индекса из списка документов
        documents: список, где каждый элемент — список слов в предложении
        """
        pass

    def save_index(self, filepath: str):
        """Сохранение индекса на диск"""
        pass

    def load_index(self, filepath: str):
        """Загрузка индекса с диска"""
        pass

In [17]:
import pickle

In [18]:
class InvertedIndex:
    """Класс для инвертированного индекса"""

    def __init__(self):
        self.word2doc = defaultdict(list)

    def __len__(self):
        return len(self.word2doc)

    def build_index(self, documents: List[List[str]]):
        """
        Реализуй построение инвертированного индекса из списка документов.
        documents: список, где каждый элемент — список слов в предложении.
        """
        self.word2doc.clear()
        for doc_id, words in enumerate(documents):
            unique_words = set(words)
            for word in unique_words:
                self.word2doc[word].append(doc_id)

    def query(self, words: List[str]) -> List[int]:
        """
        Реализуй поиск предложений, содержащих все слова из списка words.
        Возвращает список id предложений, отсортированный по возрастанию.
        """
        if not words:
            return []

        # Начинаем с множества документов первого слова
        result_set = set(self.word2doc.get(words[0], []))
        for word in words[1:]:
            result_set &= set(self.word2doc.get(word, []))  # пересечение множеств

        return sorted(result_set)

    def save_index(self, filepath: str):
        """Реализуй сохранение индекса на диск"""
        with open(filepath, "wb") as f:
            pickle.dump(self.word2doc, f)

    def load_index(self, filepath: str):
        """Реализуй загрузку индекса с диска"""
        with open(filepath, "rb") as f:
            self.word2doc = pickle.load(f)

In [19]:
index = InvertedIndex()
index.build_index(processed_sentences)

In [20]:
index.save_index("index.pkl")

In [21]:
index2 = InvertedIndex()

In [22]:
index2.load_index("index.pkl")

In [23]:
len(index2)

51639

### Задание 1.4. Поиск по индексу
* Реализуй метод `query` класса `InvertedIndex`, который выполняет поиск слов в индексе.
* Метод принимает **список слов** и возвращает список id предложений, в которых встречаются **все указанные слова** (операция «и»).
* Результат должен быть **отсортирован по возрастанию** id предложения.
* Проверь работу метода `query` на следующих примерах:
  * Слово: `университет`
  * Слова: `война` и `мир`
  * Слово: `школа`

In [24]:
index2.query(["война", "мир"])

[0, 1, 7568, 7569, 15258, 15259, 15260, 23307]

In [25]:
index2.query(["университет"])

[1013, 2387, 16480]

In [26]:
index2.query(["школа"])

[]

## Головоломка Судоку

После предыдущих заданий, где мы вспомнили базовый синтаксис Python, перейдём к изучению библиотеки **NumPy**.

**NumPy** — это мощный инструмент для работы с массивами и матрицами, который широко используется в анализе данных и 
научных вычислениях. Чтобы почувствовать себя увереннее при работе с матрицами, мы попробуем реализовать 
**решатель головоломок Судоку**.

В этом задании ты научишься:
* Работать с матрицами и массивами с помощью NumPy,
* Практиковаться в использовании базовых алгоритмов и циклов,
* Писать программу, которая решает головоломку Судоку,
* Писать **тесты для проверки корректности решения**, чтобы убедиться, что солвер работает правильно.


### Задание 2.1. Запрос по API
* Изучи API [YouDoSudoku](https://www.youdosudoku.com/) и разберитесь, как получать игры судоку и их решения.
* Напиши функцию `get_sudoku(level)`, которая принимает уровень сложности (`'easy'`, `'medium'`, `'hard'`).
* Функция должна возвращать две матрицы `numpy` размером 9×9: одну с головоломкой, другую — с полным решением.
* После запроса выведи обе матрицы, чтобы убедиться, что данные получены и преобразованы правильно.


In [27]:
import requests
import numpy as np

In [28]:
def get_sudoku(level="easy"):
    """
    Получение поля Судоку с API YouDoSudoku.
    level: "easy", "medium", "hard"
    """
    body = {
        "difficulty": level, # "easy", "medium", or "hard" (defaults to "easy")
        "solution": True, # True or False (defaults to True)
        "array": False # True or False (defaults to False)
    }
    headers =  {"Content-Type":"application/json"}
    url = f"https://youdosudoku-api.com/api/"
    response = requests.get("https://you-do-sudoku-api.vercel.app/api", json=body, headers=headers)
    if response.status_code != 200:
        raise RuntimeError("Ошибка при получении судоку")
    
    data = response.json()
    # Предполагаем, что поле возвращается в data['board']
    sudoku_list = [int(char) for char in data['puzzle']]
    sudoku_array = np.array(sudoku_list).reshape(9, 9)
    solution = [int(char) for char in data['solution']]
    solution = np.array(solution).reshape(9, 9)
    return sudoku_array, solution

In [29]:
sudoku_board, solution = get_sudoku("hard")
print(sudoku_board)

[[0 6 0 0 0 5 0 9 0]
 [5 0 0 0 9 0 0 0 3]
 [0 4 0 6 0 0 0 8 0]
 [0 0 0 3 0 8 0 0 0]
 [7 0 3 9 2 0 0 0 0]
 [0 5 0 4 0 0 0 0 2]
 [0 0 4 0 0 0 0 0 0]
 [8 0 0 0 0 0 5 0 0]
 [0 9 0 0 8 2 4 0 0]]


In [30]:
print(solution)

[[3 6 7 8 4 5 2 9 1]
 [5 8 1 2 9 7 6 4 3]
 [2 4 9 6 1 3 7 8 5]
 [4 2 6 3 5 8 9 1 7]
 [7 1 3 9 2 6 8 5 4]
 [9 5 8 4 7 1 3 6 2]
 [6 7 4 5 3 9 1 2 8]
 [8 3 2 1 6 4 5 7 9]
 [1 9 5 7 8 2 4 3 6]]


### Задание 2.2. Написание тестов
* Используя библиотеку `ipytest`, напиши тесты, которые проверяют корректность работы решения Судоку
* Каждый тест должен содержать [docstring](https://peps.python.org/pep-0257/), в котором кратко описано, какое правило Судоку он проверяет
* Один тест должен проверять одно правило Судоку

In [31]:
def solve_sudoku(board):
    """Решает судоку с помощью backtracking"""
    for i in range(9):
        for j in range(9):
            if board[i, j] == 0:
                for num in range(1, 10):
                    board[i, j] = num
                    if is_partial_valid(board, i, j):
                        if solve_sudoku(board):
                            return True
                    board[i, j] = 0
                return False
    return True

In [32]:
def is_valid_sudoku(board):
    """Проверяет корректность заполненного поля судоку"""
    for i in range(9):
        row = board[i, :]
        col = board[:, i]
        if len(np.unique(row)) != 9 or len(np.unique(col)) != 9:
            return False
    for r in range(0, 9, 3):
        for c in range(0, 9, 3):
            block = board[r:r+3, c:c+3].flatten()
            if len(np.unique(block)) != 9:
                return False
    return True

In [33]:
def is_partial_valid(board, row, col):
    """Проверяет корректность текущего частичного заполнения"""
    num = board[row, col]
    # Проверка строки и столбца
    if np.count_nonzero(board[row, :] == num) > 1:
        return False
    if np.count_nonzero(board[:, col] == num) > 1:
        return False
    # Проверка блока
    start_row, start_col = 3*(row//3), 3*(col//3)
    block = board[start_row:start_row+3, start_col:start_col+3]
    if np.count_nonzero(block == num) > 1:
        return False
    return True

In [34]:
import ipytest
ipytest.autoconfig()

def test_sudoku_solution():
    board = np.array([
        [5,3,0,0,7,0,0,0,0],
        [6,0,0,1,9,5,0,0,0],
        [0,9,8,0,0,0,0,6,0],
        [8,0,0,0,6,0,0,0,3],
        [4,0,0,8,0,3,0,0,1],
        [7,0,0,0,2,0,0,0,6],
        [0,6,0,0,0,0,2,8,0],
        [0,0,0,4,1,9,0,0,5],
        [0,0,0,0,8,0,0,7,9]
    ])
    solved_board = board.copy()
    assert solve_sudoku(solved_board)
    assert is_valid_sudoku(solved_board)

def test_empty_board():
    board = np.zeros((9,9), dtype=int)
    solved_board = board.copy()
    assert solve_sudoku(solved_board)
    assert is_valid_sudoku(solved_board)

def test_partial_board():
    board = np.zeros((9,9), dtype=int)
    board[0,0] = 1
    board[1,1] = 2
    solved_board = board.copy()
    assert solve_sudoku(solved_board)
    assert is_valid_sudoku(solved_board)

ipytest.run()

[32m.[0m[32m.[0m[32m.[0m[32m                                                                                          [100%][0m
[32m[32m[1m3 passed[0m[32m in 0.08s[0m[0m


<ExitCode.OK: 0>

### Задание 2.3. Реализация алгоритма решения
* Напиши алгоритм решения Судоку. Можно использовать **brute-force (backtracking)**. Алгоритм должен заполнять все пустые клетки числами от 1 до 9, соблюдая правила Судоку для строк, столбцов и 3×3 блоков
* Проверь работу алгоритма с помощью ранее написанных тестов и убедись, что они покрывают все крайние случаи
* Получи через [YouDoSudoku API](https://www.youdosudoku.com/) по 5 примеров Судоку разной сложности, реши их своим алгоритмом и выведи на экран как исходные поля, так и решения. Проверь, что решения корректны

In [35]:
for i in range(5):
    board, sol = get_sudoku("hard")
    board_to_solve = board.copy()
    solve_sudoku(board_to_solve)
    print(f"\nПример {i+1} решение:")
    print(board_to_solve == sol)


Пример 1 решение:
[[ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]]

Пример 2 решение:
[[ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True

## Бонусное задание: TF-IDF

Построив **инвертированный индекс**, мы научились быстро находить документы, содержащие определённые слова. 
Однако этого недостаточно для реального поиска. Представьте, что вы ищете слово *«мир»* в романе *«Война и мир»*. 
Индекс вернёт сотни предложений, но не все они будут одинаково полезны.

В поисковых системах важно не только найти документы, где встречается слово, но и **оценить, насколько это слово 
важно именно в данном документе**. Для этого используется одна из ключевых идей информационного поиска — 
**TF-IDF (Term Frequency – Inverse Document Frequency)**.

* **TF** показывает, насколько часто слово встречается в документе.
* **IDF** снижает вес слов, которые встречаются слишком часто в коллекции (например, «и», «он», «the»).
* В итоге TF-IDF позволяет отличать «шумовые» слова от действительно значимых.


#### Задание 3.1. Формула
* Прочитай, как работает метод **TF-IDF**
* Разберись, что означают:
  * TF — частота слова в документе,
  * IDF — обратная частота документа,
  * TF-IDF — произведение этих величин.
* Запиши формулу TF-IDF с помощью **Markdown-разметки**


$$TF(t, d) = \frac{f_{t,d}}{\sum_{k} f_{k,d}}$$
$$IDF(t, D) = \log \frac{N}{df_t}$$
$$TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)$$

In [36]:
import math
from collections import defaultdict, Counter

In [57]:
class TfidfIndex(InvertedIndex):
    """Класс для вычисления TF-IDF"""

    def _tf(self, document: List[str]) -> Dict[str, float]:
        """
        Расчет term frequency (TF) для одного документа
        """
        word_count = Counter(document)
        total_words = len(document)
        return {word: count / total_words for word, count in word_count.items()}

    def _idf(self, documents: List[List[str]]) -> Dict[str, float]:
        """
        Расчет inverse document frequency (IDF) для коллекции документов
        """
        N = len(documents)
        idf = {}
        for word, doc_ids in self.word2doc.items():
            df = len(doc_ids)
            idf[word] = math.log(N / (1 + df))
        return idf

    def compute_tfidf(self, documents: List[List[str]]) -> Dict[int, Dict[str, float]]:
        """
        Вычисление TF-IDF для всех слов во всех документах
        """
        self.build_index(documents)  # строим индекс
        idf = self._idf(documents)   # считаем IDF
        tfidf = {}

        for doc_id, words in enumerate(documents):
            tf = self._tf(words)
            tfidf[doc_id] = {word: tf[word] * idf[word] for word in tf}
        return tfidf

In [58]:
index = TfidfIndex()
index.build_index(processed_sentences)

In [59]:
processed_sentences[0]

['лев', 'николаевич', 'толстой', 'война', 'мир']

In [60]:
index._tf(processed_sentences[0])

{'лев': 0.2, 'николаевич': 0.2, 'толстой': 0.2, 'война': 0.2, 'мир': 0.2}

In [65]:
top_words = sorted(index._idf(processed_sentences).items(), key=lambda x: x[1], reverse=False)[:5]

print("Топ-5 слов по значению IDF:")
for word, value in top_words:
    print(f"{word}: {value:.3f}")

Топ-5 слов по значению IDF:
пьер: 3.070
князь: 3.103
наташа: 3.591
андрей: 3.617
княжна: 3.968


In [71]:
[word[0] for word in top_words]

['пьер', 'князь', 'наташа', 'андрей', 'княжна']

In [76]:
result = index.compute_tfidf(processed_sentences)

In [80]:
result[0]["война"]

1.221310069159073

In [79]:
result[0]["мир"]

1.2541706794173282

In [74]:
for doc_id, values in result.items():
    print(f"Документ {doc_id}:")
    for word, score in values.items():
        print(f"  {word}: {score:.3f}")

Документ 0:
  л: 0.074
  е: 0.170
  в: 0.074
Документ 1:
  н: 0.051
  и: 0.102
  к: 0.092
  о: 0.022
  л: 0.022
  а: 0.051
  е: 0.051
  в: 0.022
  ч: 0.092
Документ 2:
  т: 0.262
  о: 0.064
  л: 0.032
  с: 0.131
  й: 0.073
Документ 3:
  в: 0.045
  о: 0.045
  й: 0.102
  н: 0.102
  а: 0.102
Документ 4:
  м: 0.305
  и: 0.170
  р: 0.305
