# I Задачи на Извличането на Информация. Булев модел. Обърнат индекс.

### **Извличане на информация (Information Retrieval – IR)**  

**1. Основни задачи на Извличането на Информация:**  
- **Търсене на документи** – Намиране на най-релевантните документи спрямо заявката на потребителя.  
- **Класиране на резултатите** – Подреждане на намерените документи по значимост.  
- **Обработка на естествен език (NLP)** – Анализ на текст чрез техники като стеминг, лематизация и разпознаване на синоними.  
- **Филтриране на информация** – Автоматично предлагане на съдържание според потребителските интереси.  

---

### **2. Булев модел (Boolean Model)**  
Булевият модел е една от най-старите техники в IR, която работи с логически операции.  

**Основни принципи:**  
- Всеки документ се представя като множество от термини.  
- Потребителската заявка се формулира чрез логически оператори:  
  - **AND** – Документът трябва да съдържа всички термини.  
  - **OR** – Документът трябва да съдържа поне един от термините.  
  - **NOT** – Изключване на документи, съдържащи даден термин.  

**Предимства:**  
✅ Лесен за разбиране и прилагане.  
❌ Не подрежда резултатите по релевантност.  

Пример:  
**Запитване:** „(машинно AND обучение) OR (невронни AND мрежи)“  
**Резултат:** Връща всички документи, съдържащи „машинно обучение“ или „невронни мрежи“.  

---

### **3. Обърнат индекс (Inverted Index)**  
Обърнатият индекс е основна структура от данни за бързо търсене в големи текстови колекции.  

**Как работи?**  
1. **Токенизация** – Разбиване на текстовете на думи.  
2. **Стеминг/лематизация** – Намаляване на думите до основната им форма.  
3. **Изграждане на индекс** – Създава се списък, който за всяка дума съхранява списък с документи, в които се среща.  

**Пример:**  
| Дума      | Документи |
|-----------|----------|
| "машина"  | D1, D3   |
| "учене"   | D1, D2   |
| "мрежа"   | D2, D3   |

**Предимства:**  
✅ Бързо намиране на релевантни документи.  
✅ Намалява изчислителните ресурси за търсене.  

---

### **Заключение**  
- Булевият модел осигурява логическо търсене, но не подрежда резултатите.  
- Обърнатият индекс ускорява търсенето в големи бази данни.  
- Модерните IR системи използват комбинация от техники за по-прецизно извличане на информация.  

# II Отделяне на елементите на текста. Изграждане на речници от термини. Стоп думи. Нормализация. Списъци с адреси. Въпроси-фрази.

### **Обработка на текст за Извличане на Информация**  

### **1. Отделяне на елементите на текста (Tokenization)**  
Процесът на разделяне на текста на отделни елементи, наречени **токени** (обикновено думи или фрази).  
**Пример:**  
_Текст:_ „Изкуственият интелект променя света.“  
_Токени:_ [„Изкуственият“, „интелект“, „променя“, „света“]  

**Предизвикателства:**  
- Разпознаване на сложни термини („машинно обучение“ ≠ „машинно“ + „обучение“).  
- Работа с пунктуация, числа и специални символи.  

---

### **2. Изграждане на речници от термини (Dictionary Construction)**  
Създаване на **речник**, съдържащ уникалните термини в текста и тяхната честота.  
**Пример:**  
| Дума           | Срещания в документи |
|---------------|---------------------|
| „изкуствен“   | D1, D2, D5          |
| „интелект“    | D1, D3, D4          |
| „обучение“    | D2, D3              |

Речникът е в основата на **обърнатия индекс** за бързо търсене.  

---

### **3. Стоп думи (Stop Words)**  
Стоп думите са **често срещани, но малозначителни думи** (напр. „и“, „в“, „е“, „на“).  
**Защо се премахват?**  
- Намаляват размера на индекса.  
- Подобряват ефективността на търсенето.  

**Пример:**  
_Текст:_ „Това е важна тема в областта на науката.“  
_След премахване:_ [„важна“, „тема“, „област“, „наука“]  

---

### **4. Нормализация (Normalization)**  
Превръщане на думите в унифициран вид за по-добро търсене.  
**Методи:**  
- **Лематизация** – Превръщане в основна форма („бягам“ → „бягам“, „бягаш“ → „бягам“).  
- **Стеминг** – Премахване на наставки („учещ“, „учене“ → „уч“).  
- **Конвертиране в малки букви** – „НАУКА“ → „наука“.  

---

### **5. Списъци с адреси (Indexing & Address Lists)**  
Запазване на информация за това **в кои документи се срещат дадени термини**.  
**Пример:**  
_Дума: „интелект“ → среща се в документи D1, D3, D5._  
Тази структура позволява **бързо намиране на релевантни документи** при търсене.  

---

### **6. Въпроси-фрази (Query Processing & Phrase Search)**  
За търсене на **фрази** вместо единични думи.  
**Пример:**  
Запитване: **"невронна мрежа"**  
- Търси документи, където думите „невронна“ и „мрежа“ са **една до друга**, а не отделно.  

---

### **Заключение**  
1. Токенизацията и нормализацията подготвят текста за анализ.  
2. Премахването на стоп думи намалява ненужната информация.  
3. Обърнатият индекс и списъците с адреси правят търсенето ефективно.  
4. Търсенето на фрази подобрява точността на резултатите.  

🔹 **Тези техники са в основата на модерните търсачки и системи за обработка на текст.**

# III Толерантно извличане. Корекция на правописа. Фонетична корекция.

### **Толерантно извличане на информация**  

Толерантното извличане (Fuzzy Retrieval) позволява намиране на документи, дори ако **запитването съдържа грешки** (напр. правописни, фонетични или типографски). Това е особено важно при търсачките, корекцията на правописа и разпознаването на подобни думи.  

---

## **1. Корекция на правописа (Spelling Correction)**  
Често потребителите допускат **грешки при въвеждане** (напр. „изкуствен интелект“ → „изкуствен интелект“). За да коригираме това, използваме два основни подхода:  

### **1.1. Речникова корекция (Dictionary-Based Correction)**  
- Проверява дали въведената дума съществува в предварително изграден речник.  
- Ако думата липсва, предлага **най-близките коректни думи**.  

🔹 **Пример:**  
_Въвеждане:_ „машиннно обуечние“  
_Корекция:_ „машинно обучение“  

🔹 **Алгоритми за измерване на разликите между думи:**  
- **Редакционно разстояние (Edit Distance / Levenshtein Distance)** – брои минималния брой промени (замяна, добавяне, изтриване), за да превърне една дума в друга.  
- **N-грамен анализ** – разделя думите на последователности от букви и ги сравнява.  

---

## **2. Фонетична корекция (Phonetic Correction)**  
Фонетичната корекция идентифицира думи, които **звучат еднакво, но се пишат различно**. Това е полезно за обработка на **имеа, транслитерация и хомофони**.  

🔹 **Пример:**  
- „Иванов“ и „Ivanoff“  
- „Йордан“ и „Jordan“  
- „Грамада“ и „Грамата“  

### **2.1. Фонетични алгоритми**  
- **Soundex** – преобразува думи в цифрови кодове на базата на звукови съвпадения.  
- **Metaphone и Double Metaphone** – по-добри от Soundex, разпознават повече езикови варианти.  
- **Невронни мрежи и трансформър модели** – използвани за **автоматично откриване на фонетични съвпадения**.  

---

## **3. Толерантно търсене и „Did you mean?“**  
Много търсачки предлагат **автоматична корекция** на запитвания, като например:  

🔹 **Пример:**  
_Въвеждане:_ „машино обуение“  
_Търсачката предлага:_ „Did you mean: машинно обучение?“  

### **3.1. Алгоритъм за толерантно търсене**  
1. **Сравнение с най-близките думи** чрез Levenshtein Distance.  
2. **Предлагане на алтернативи** на базата на статистически данни.  
3. **Оценяване на вероятността** за грешка с езикови модели (напр. n-gram модели).  

---

## **4. Приложения на толерантното извличане**  
✅ **Търсачки (Google, Bing, Yandex)** – автоматично предлагат коригирани търсения.  
✅ **Автоматична проверка на правописа** – Microsoft Word, Grammarly.  
✅ **Гласово търсене и разпознаване на реч** – Siri, Google Assistant.  
✅ **OCR (разпознаване на текст от изображения)** – коригира грешки при сканиране на документи.  

---

## **Заключение**  
1️⃣ **Корекцията на правописа** подобрява точността на резултатите.  
2️⃣ **Фонетичната корекция** е важна за разпознаване на транслитерации и хомофони.  
3️⃣ **Толерантното търсене** повишава ефективността на търсачките.  

🔹 **Реалната стойност на тези методи е в подобряването на потребителското изживяване – по-добри резултати, по-малко грешки и по-бързо намиране на информация.**

# IV Конструиране на индекси.· Разпределени индекси. Динамични индекси.

### **Конструиране на индекси, Разпределени индекси, Динамични индекси**  

#### 📌 **Въведение**  
В областта на **извличането на информация (Information Retrieval)** индексите играят ключова роля за бързо и ефективно търсене в големи колекции от текстови документи. Основната цел на индексирането е **структурирано представяне на информацията**, така че търсенето да бъде **ефективно, мащабируемо и бързо**.  

---

## **1. Конструиране на индекси**  

**Индексирането** е процесът на **анализ, обработка и структуриране на данни**, за да се улесни търсенето. Основният тип индекс, използван в системите за търсене, е **обърнатият индекс (Inverted Index)**.  

### **1.1. Обърнат индекс (Inverted Index)**  
Обърнатият индекс е **основната структура за бързо търсене на текст**. Той представлява **списък от думи (термини) и позициите на документите, в които тези думи се срещат**.  

🔹 **Пример за частичен обърнат индекс:**  

| Термин | Среща се в документи |
|--------|--------------------|
| изкуствен  | D1, D3, D4 |
| интелект  | D1, D2, D4 |
| обучение  | D2, D3 |

👉 **Фази на конструиране на индекса:**  
1. **Токенизация** – разделяне на текста на думи.  
2. **Филтриране на стоп думи** – премахване на често срещани думи („и“, „да“, „но“).  
3. **Стеминг и лемматизация** – свеждане на думите до основната им форма (напр. „обучаване“ → „обучение“).  
4. **Създаване на списъци с документи (Postings Lists)** – всяка дума се свързва с документи, където се появява.  

📌 **Предимства на обърнатия индекс:**  
✅ Позволява бързо търсене в огромни текстови колекции.  
✅ Лесно се разширява с допълнителна информация (напр. честота на термина, позиция на думите).  

---

## **2. Разпределени индекси (Distributed Indexing)**  

Когато данните са **много големи**, индексите се **разпределят между множество сървъри**. Това позволява **паралелно обработване на заявки** и подобрява **мащабируемостта** на системата.  

### **2.1. Архитектура на разпределени индекси**  
🔹 **Модел "разделяне на индексите" (Sharding)** – индексът се разделя на **части (shards)**, като всяка част съдържа определен брой документи.  
🔹 **Модел "репликация" (Replication)** – копия на индексите се пазят на няколко машини за надеждност.  
🔹 **Мащабируемост** – разпределените индекси позволяват **балансиране на натоварването** и обработка на много заявки едновременно.  

🔹 **Пример за разпределена система:**  
- Google и Bing разпределят своите индекси между **хиляди сървъри** за по-бързо търсене.  
- Elasticsearch използва **разпределени индекси** за обработка на големи обеми от данни.  

📌 **Предимства на разпределените индекси:**  
✅ По-бърза обработка на заявки.  
✅ Подобрена устойчивост при отпадане на сървъри.  
✅ Позволяват обработка на **Big Data**.  

---

## **3. Динамични индекси (Dynamic Indexing)**  

**Динамичното индексиране** е необходимо, когато **колекцията от документи постоянно се обновява** (напр. новинарски сайтове, социални мрежи).  

### **3.1. Проблеми при динамично индексиране**  
1️⃣ **Нови документи трябва да се добавят бързо към индекса**.  
2️⃣ **Старите документи могат да бъдат премахнати или актуализирани**.  
3️⃣ **Големите индекси трябва да бъдат преработени, без да се наруши работата на системата**.  

### **3.2. Решения за динамично индексиране**  

🔹 **Метод на блоковете (Log-structured merge trees - LSM trees)**  
- Новите документи първо се записват в **малък временен индекс**.  
- Когато временният индекс стане твърде голям, той се обединява с основния индекс.  

🔹 **Структура с буферни зони**  
- Новите документи първо се записват в паметта (buffer).  
- След натрупване на достатъчно данни, те се записват на диска.  

📌 **Предимства на динамичното индексиране:**  
✅ Позволява добавяне на нови документи в реално време.  
✅ Намалява времето за преиндексиране.  
✅ Подобрява работата на големи търсачки като Google.  

---

## **4. Сравнение на различните методи за индексиране**  

| Вид индекс | Подходящ за | Предимства | Недостатъци |
|------------|------------|-------------|-------------|
| **Статичен индекс** | Малки бази данни | Бързо търсене, не изисква актуализации | Труден за разширяване |
| **Разпределен индекс** | Големи бази данни (напр. Google) | Мащабируем, надежден | Изисква сложна архитектура |
| **Динамичен индекс** | Постоянно обновяващи се данни | Позволява вмъкване и актуализация на документи | По-сложна поддръжка |

---

## **5. Заключение**  

📌 **Конструирането на индекси** е основен процес в **извличането на информация**. Използването на **обърнати индекси** подобрява бързината на търсенето, а **разпределените индекси** осигуряват **мащабируемост**. За **динамично променящи се колекции** се използват **динамични индекси**, които позволяват **ефективно добавяне и актуализиране на документи**.  

✅ **Обърнатите индекси** са основа за бързо текстово търсене.  
✅ **Разпределените индекси** правят системите по-надеждни и мащабируеми.  
✅ **Динамичните индекси** са ключови за модерни търсачки и бази данни.  

---

💡 **Приложения на индексите:**  
🔹 Google Search, Bing – използват **разпределени и динамични индекси**.  
🔹 Elasticsearch, Apache Solr – мощни системи за индексиране и търсене.  
🔹 Социални мрежи (Facebook, Twitter) – използват **динамично индексиране** за реалновременна обработка на съдържание.  

📢 **Индексите са гръбнакът на модерните системи за търсене и извличане на информация!** 🚀

# V Параметрично и зонално индексиране. Честота и тегла на термините. Теглови функции.

# **Параметрично и зонално индексиране. Честота и тегла на термините. Теглови функции.**  

## **1. Въведение**  
Извличането на информация (Information Retrieval) разчита на **индекси** за бързо и ефективно търсене в текстови колекции. Освен стандартните индекси (като **обърнат индекс**), съществуват специализирани техники като **параметрично** и **зонално индексиране**, които подобряват **релевантността** на резултатите.  

Освен това, за да се оцени важността на термините, се използват **честота на термина и теглови функции**, които играят ключова роля в **ранкирането на резултатите**.  

---

## **2. Параметрично и зонално индексиране**  

### **2.1. Параметрично индексиране**  
📌 **Параметричното индексиране** съхранява **структурирана информация за документите** под формата на **атрибути (параметри)**.  

🔹 **Примери за параметри:**  
- **Автор** (например: „Иван Петров“)  
- **Дата на публикуване** (например: „05.02.2025“)  
- **Категория** (например: „Научна статия“)  
- **Дължина на документа**  

👉 **Приложение:**  
- Позволява **филтриране на резултатите** (напр. „Покажи само документи от 2024 г.“).  
- Използва се в **библиотечни системи, научни бази данни и търсачки като Google Scholar**.  

### **2.2. Зонално индексиране**  
📌 **Зоналното индексиране** разглежда **различни зони в документите** и оценява значението на думите в тези зони.  

🔹 **Примери за зони в документа:**  
- **Заглавие** (по-важно от тялото на текста)  
- **Подзаглавия**  
- **Основен текст**  
- **Ключови думи**  
- **Бележки под линия**  

👉 **Как работи?**  
- Думи, срещащи се в **заглавия и ключови думи**, получават **по-висока тежест**.  
- Това подобрява **ранкирането на резултатите** и повишава **релевантността**.  

🔹 **Пример:**  
Ако търсим „изкуствен интелект“, статия със заглавие **„Изкуствен интелект: бъдещето на технологиите“** ще бъде оценена **по-високо**, отколкото ако терминът се среща само в основния текст.  

👉 **Приложение:**  
- **Търсачки (Google, Bing)** – заглавията и метаописанията получават по-голяма тежест.  
- **Научни бази данни (IEEE, Springer)** – ключовите думи и абстрактите са приоритетни.  

---

## **3. Честота и тегла на термините**  

### **3.1. Честота на термините (Term Frequency - TF)**  
📌 Честотата на дадена дума в документ влияе на нейната **важност**.  

🔹 **Определение:**  
- **TF(t, d)** – броят на срещанията на термин \( t \) в документ \( d \).  

🔹 **Пример:**  
| Документ | Термин "изкуствен" | TF |
|----------|-----------------|----|
| D1       | 3               | 3  |
| D2       | 1               | 1  |

✅ **Честотата помага, но има проблем:**  
- Често срещаните думи (напр. „данни“, „анализ“) ще имат висока честота, но не носят уникална информация.  
- Затова се използва **инверсираната честота на документа (IDF)**.  

### **3.2. Инверсирана честота на документа (Inverse Document Frequency - IDF)**  
📌 **IDF измерва значимостта на термин в цялата колекция от документи**.  

🔹 **Формула:**  
\[
IDF(t) = \log \left(\frac{N}{df_t} \right)
\]
Където:  
- \( N \) – общият брой документи.  
- \( df_t \) – броят на документите, съдържащи термина \( t \).  

🔹 **Пример:**  
| Термин | Среща се в \( N=1000 \) документа | IDF |
|--------|--------------------------|----|
| "изкуствен" | 10 документа | 2.0 |
| "интелект" | 500 документа | 0.3 |

✅ **По-високото IDF означава, че терминът е по-уникален и значим!**  

---

## **4. Теглови функции**  

Тегловите функции комбинират **TF** и **IDF**, за да се изчисли важността на думите.  

### **4.1. TF-IDF (Term Frequency - Inverse Document Frequency)**  
📌 **TF-IDF е стандартен метод за оценка на значимостта на термините.**  

🔹 **Формула:**  
\[
TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)
\]

🔹 **Пример:**  
| Документ | Термин "изкуствен" (TF) | IDF | TF-IDF |
|----------|-----------------|-----|-------|
| D1       | 3               | 2.0 | 6.0   |
| D2       | 1               | 2.0 | 2.0   |

✅ **По-висока стойност означава по-важен термин!**  

### **4.2. Косинусова прилика (Cosine Similarity)**  
📌 **Използва се за сравнение на документи по тяхното съдържание.**  

🔹 **Формула:**  
\[
\cos(\theta) = \frac{V_1 \cdot V_2}{||V_1|| \cdot ||V_2||}
\]
Където \( V_1 \) и \( V_2 \) са векторите на термините в два документа.  

👉 **Приложение:**  
- Позволява **класиране на резултатите** според релевантността.  
- Използва се в **търсачки, препоръчителни системи, анализ на текстове**.  

---

## **5. Заключение**  

✅ **Параметричното индексиране** позволява **филтриране** на документи по **атрибути (дата, автор, категория)**.  
✅ **Зоналното индексиране** дава **по-голяма тежест на важните части на документа (заглавия, ключови думи)**.  
✅ **Честотата на термините (TF) и инверсираната честота (IDF)** помагат за определяне на **значимостта** на думите.  
✅ **TF-IDF и косинусовата прилика** са основни методи за **ранкиране и класиране на резултатите**.  

📢 **Тези техники са основата на съвременните търсачки и системи за извличане на информация!** 🚀

# VI Векторно-пространствен модел.

# **Векторно-пространствен модел (Vector Space Model - VSM)**  

## **1. Въведение**  
Векторно-пространственият модел (VSM) е **един от най-използваните модели за извличане на информация**, който представя **документи и заявки като вектори в многомерно пространство**.  

📌 **Основна идея:**  
- **Документите** се представят като вектори, съставени от **термини**.  
- **Заявките за търсене** също са вектори в същото пространство.  
- **Сходството между заявката и документите** се измерва чрез **ъгловата разлика между векторите** (най-често с **косинусова прилика**).  

👉 **Приложения на VSM:**  
- Уеб търсачки (Google, Bing).  
- Системи за търсене в научни бази данни.  
- Препоръчителни системи.  

---

## **2. Представяне на документи като вектори**  

### **2.1. Векторно представяне**  
Нека имаме **N документа**, съдържащи **M различни термина**.  
Всеки документ \(D_i\) се представя като вектор:  
\[
D_i = (w_{i1}, w_{i2}, ..., w_{iM})
\]  
където \( w_{ij} \) е теглото на термина \( j \) в документа \( i \).  

### **2.2. Определяне на тегла на термините**  
Най-често използваната техника за претегляне на термини е **TF-IDF**:  
\[
w_{ij} = TF_{ij} \times IDF_j
\]  
Където:  
- **\( TF_{ij} \)** – честота на термина \( j \) в документа \( i \).  
- **\( IDF_j \)** – инверсирана честота на документа за термина \( j \).  

👉 **Пример:**  
| Термин  | D1 (тегло) | D2 (тегло) | D3 (тегло) |
|---------|------------|------------|------------|
| „изкуствен“ | 0.8 | 0.3 | 0.0 |
| „интелект“ | 0.6 | 0.9 | 0.2 |
| „машинен“ | 0.4 | 0.1 | 0.7 |

---

## **3. Измерване на сходство между заявки и документи**  

### **3.1. Косинусова прилика**  
📌 Най-често използваната **мерка за сходство** между документи и заявки е **косинусовата прилика**:  
\[
\cos(\theta) = \frac{D_i \cdot Q}{||D_i|| \times ||Q||}
\]
Където:  
- **\( D_i \)** – векторът на документа.  
- **\( Q \)** – векторът на заявката.  
- **\( ||D_i|| \) и \( ||Q|| \)** – дължините на векторите.  

### **3.2. Пример за изчисление**  
Ако имаме заявка **Q** = („изкуствен“, „интелект“), нека разгледаме два документа:  

| Термин  | Q (тегло) | D1 (тегло) | D2 (тегло) |
|---------|----------|------------|------------|
| „изкуствен“ | 0.9 | 0.8 | 0.3 |
| „интелект“ | 0.5 | 0.6 | 0.9 |

**Косинусова прилика:**  
- \( \cos(Q, D1) = \frac{(0.9 \times 0.8) + (0.5 \times 0.6)}{\sqrt{(0.9^2 + 0.5^2)} \times \sqrt{(0.8^2 + 0.6^2)}} = 0.94 \)  
- \( \cos(Q, D2) = \frac{(0.9 \times 0.3) + (0.5 \times 0.9)}{\sqrt{(0.9^2 + 0.5^2)} \times \sqrt{(0.3^2 + 0.9^2)}} = 0.78 \)  

👉 **Заключение:**  
Тъй като **D1 има по-висока косинусова прилика с Q (0.94)**, той ще бъде класиран **по-високо** от D2 в резултатите.  

---

## **4. Предимства и недостатъци на VSM**  

### ✅ **Предимства:**  
✔ **По-добра релевантност от булевия модел** – търсенето не е само „да/не“, а **класира резултатите по релевантност**.  
✔ **Гъвкавост** – позволява използване на **различни претеглящи функции** (напр. BM25).  
✔ **Може да се подобри с машинно обучение** (например чрез Latent Semantic Analysis).  

### ❌ **Недостатъци:**  
✖ **Не отчита синоними и многозначност** – думи със **сходни значения не се обединяват**.  
✖ **Големи вектори** – за големи колекции **размерът на векторното пространство става проблем**.  
✖ **Претеглянето не винаги е оптимално** – за някои приложения **TF-IDF не е достатъчно** (например в правния или медицинския сектор).  

---

## **5. Разширения и подобрения**  
💡 **BM25 (Best Matching 25)** – подобрен вариант на VSM, който отчита **дължината на документа**.  
💡 **LSI (Latent Semantic Indexing)** – намалява размерността на векторите и **улавя латентни зависимости** между термините.  
💡 **Word Embeddings (Word2Vec, BERT)** – модерни техники, които представят думите като **по-семантично богати вектори**.  

---

## **6. Заключение**  

📌 **Векторно-пространственият модел е основен метод в извличането на информация**, използван в **търсачките, препоръчителните системи и анализа на текстове**.  
📌 Основава се на **представяне на документи като вектори** и **измерване на тяхната прилика със заявката** чрез **косинусова прилика**.  
📌 Въпреки някои ограничения, **VSM остава ключова техника в информационното търсене**, а неговите разширения като **BM25 и Word2Vec** продължават да се използват в съвременните технологии.  

🚀 **VSM е в основата на модерните системи за търсене – от Google до чатботове и изкуствен интелект!**

# VII Оценка на системите за ИзИнф. Мерки. Оценка върху корпуси от текстове.	

# **Обратна връзка и разширяване на въпроси в извличането на информация**  

## **1. Въведение**  
📌 В системите за извличане на информация (IR) **обратната връзка и разширяването на въпроси** са ключови техники за подобряване на резултатите от търсенето.  
📌 Потребителите често използват **неясни или непълни заявки**, а системата трябва **динамично да адаптира резултатите** спрямо техните нужди.  

🔹 **Обратната връзка** позволява на системата да се учи от предишни взаимодействия.  
🔹 **Разширяването на въпроси** подобрява заявките, за да извлече по-подходяща информация.  

---

## **2. Обратна връзка (Relevance Feedback)**  
### **2.1. Видове обратна връзка**  
✅ **Явна обратна връзка (Explicit Feedback)**  
- Потребителят **съзнателно маркира** релевантни и нерелевантни документи.  
- Пример: "Харесвам" или "Не харесвам" резултатите.  

✅ **Неявна обратна връзка (Implicit Feedback)**  
- Системата **анализира поведението** на потребителя, без директен отговор.  
- Пример: Времето, прекарано върху даден документ, честота на кликвания и т.н.  

✅ **Псевдо-обратна връзка (Pseudo-Relevance Feedback)**  
- Системата **автоматично приема**, че първите няколко резултата са релевантни и подобрява заявката въз основа на тях.  
- Това е без намеса на потребителя.  

---

### **2.2. Класически модел за обратна връзка – Rocchio Algorithm**  
📌 **Rocchio алгоритъмът** използва първоначалната заявка и я **модифицира** въз основа на релевантните документи.  

📌 Нова заявка се формира така:  
\[
Q_{\text{ново}} = \alpha Q_{\text{старо}} + \beta \sum D_{\text{релевантни}} - \gamma \sum D_{\text{нерелевантни}}
\]  
- **\( \alpha \)** – тежест на първоначалната заявка.  
- **\( \beta \)** – тежест на релевантните документи.  
- **\( \gamma \)** – тежест на нерелевантните документи.  

👉 **Пример:**  
1. Потребителят търси "спортни коли".  
2. Първоначалните резултати съдържат "Ferrari", "Lamborghini", но също така "семейни автомобили".  
3. След обратна връзка, системата увеличава тежестта на "спортни коли", "скорост", "двигател V8" и премахва нерелевантни термини като "семейни".  

✅ Подобрява **релевантността на резултатите** без излишни допълнителни заявки от потребителя.  

---

## **3. Разширяване на въпроси (Query Expansion)**  
### **3.1. Методи за разширяване**  
🔹 **Синоними и свързани думи (Thesaurus-Based Expansion)**  
- Използване на **онтологии** и **тезауруси** (напр. WordNet), за да добавим синоними и хипоними.  
- Пример: "автомобил" → "кола", "превозно средство".  

🔹 **Анализ на предишни заявки (Relevance-Based Expansion)**  
- Разширяване чрез **термини от предишни успешни търсения**.  
- Ако потребителите, търсили "програмиране", често разглеждат "Python", системата може да разшири заявката с "Python програмиране".  

🔹 **Статистически методи (Co-Occurrence Analysis)**  
- Често срещани думи в релевантните документи се **добавят** към заявката.  
- Ако "спортни коли" често се среща с "Ferrari", системата разширява заявката.  

🔹 **Потребителски речници (User Profiles and Preferences)**  
- Ако потребителят предпочита "Apple" продукти, заявката "телефон" може да бъде разширена с "iPhone".  

---

### **3.2. Автоматично разширяване чрез машинно обучение**  
📌 **Модерните IR системи** използват **невронни мрежи** и **големи езикови модели (LLM)** за разширяване.  
📌 **Примерни техники:**  
✅ **Word Embeddings (напр. Word2Vec, BERT)** – разширяване на заявките с контекстуално свързани думи.  
✅ **Transformer модели (GPT, T5)** – разбиране на намерението на заявката.  
✅ **Latent Semantic Analysis (LSA)** – анализ на семантичните връзки между термините.  

👉 **Пример:**  
🔍 Заявка: "екологично чисти автомобили"  
🔹 Разширява се с "електромобили", "Tesla", "хибридни коли".  

---

## **4. Сравнение между обратна връзка и разширяване на въпроси**  

| Характеристика | Обратна връзка | Разширяване на въпроси |
|---------------|---------------|----------------------|
| Източник | Отговори на потребителя | Автоматичен анализ |
| Цел | Подобряване на резултатите | Подобряване на заявката |
| Видове | Явна, неявна, псевдо-обратна връзка | Синоними, ко-окуренция, ML-базирано разширяване |
| Приложение | Коригира съществуващите резултати | Добавя термини за по-добро търсене |

✅ **Комбинацията от двете техники** дава най-добри резултати!  

---

## **5. Приложения на обратната връзка и разширяването на въпроси**  
📌 **Търсачки (Google, Bing, Yandex)** – използват разширяване на заявки и обратна връзка за персонализация.  
📌 **Рекомендателни системи (Netflix, Spotify)** – анализират поведение за подобряване на препоръките.  
📌 **Медицински търсачки** – подобряват заявките с медицински термини и синоними.  
📌 **Научни бази данни (PubMed, IEEE Xplore)** – разширяват заявки с научни термини.  

---

## **6. Предизвикателства и бъдещи насоки**  
⚠ **Предизвикателства:**  
- Неправилно разширяване на заявки (пример: "Jaguar" – кола или животно?).  
- Лоша обратна връзка (потребителите не винаги дават правилни оценки).  
- Баланс между **прецизност** и **пълнота**.  

🚀 **Бъдещи насоки:**  
- Използване на **дълбоки невронни мрежи** за по-интелигентно разширяване.  
- **Персонализация на търсенето** според потребителския контекст.  
- **Мултимодално разширяване** – комбиниране на текст, изображения и видео.  

---

## **7. Заключение**  
📌 **Обратната връзка и разширяването на въпроси** са ключови за **по-точни и полезни резултати** в извличането на информация.  
📌 **Обратната връзка** помага да коригираме и подобрим търсенето въз основа на потребителската реакция.  
📌 **Разширяването на заявки** допълва първоначалното търсене, намирайки допълнителни полезни резултати.  
📌 **Комбинирането на двете техники с машинно обучение** води до **по-интелигентни търсачки и препоръчителни системи**.  

🚀 **Крайната цел?** Напълно адаптивни системи за търсене, които разбират потребителя още преди той да осъзнае какво точно търси! 🚀