# VIII Обратна връзка и разширяване на въпроси.

# **Обратна връзка и разширяване на въпроси в извличането на информация**  

## **1. Въведение**  
📌 В системите за извличане на информация (IR) **обратната връзка и разширяването на въпроси** са ключови техники за подобряване на резултатите от търсенето.  
📌 Потребителите често използват **неясни или непълни заявки**, а системата трябва **динамично да адаптира резултатите** спрямо техните нужди.  

🔹 **Обратната връзка** позволява на системата да се учи от предишни взаимодействия.  
🔹 **Разширяването на въпроси** подобрява заявките, за да извлече по-подходяща информация.  

---

## **2. Обратна връзка (Relevance Feedback)**  
### **2.1. Видове обратна връзка**  
✅ **Явна обратна връзка (Explicit Feedback)**  
- Потребителят **съзнателно маркира** релевантни и нерелевантни документи.  
- Пример: "Харесвам" или "Не харесвам" резултатите.  

✅ **Неявна обратна връзка (Implicit Feedback)**  
- Системата **анализира поведението** на потребителя, без директен отговор.  
- Пример: Времето, прекарано върху даден документ, честота на кликвания и т.н.  

✅ **Псевдо-обратна връзка (Pseudo-Relevance Feedback)**  
- Системата **автоматично приема**, че първите няколко резултата са релевантни и подобрява заявката въз основа на тях.  
- Това е без намеса на потребителя.  

---

### **2.2. Класически модел за обратна връзка – Rocchio Algorithm**  
📌 **Rocchio алгоритъмът** използва първоначалната заявка и я **модифицира** въз основа на релевантните документи.  

📌 Нова заявка се формира така:  
\[
Q_{\text{ново}} = \alpha Q_{\text{старо}} + \beta \sum D_{\text{релевантни}} - \gamma \sum D_{\text{нерелевантни}}
\]  
- **\( \alpha \)** – тежест на първоначалната заявка.  
- **\( \beta \)** – тежест на релевантните документи.  
- **\( \gamma \)** – тежест на нерелевантните документи.  

👉 **Пример:**  
1. Потребителят търси "спортни коли".  
2. Първоначалните резултати съдържат "Ferrari", "Lamborghini", но също така "семейни автомобили".  
3. След обратна връзка, системата увеличава тежестта на "спортни коли", "скорост", "двигател V8" и премахва нерелевантни термини като "семейни".  

✅ Подобрява **релевантността на резултатите** без излишни допълнителни заявки от потребителя.  

---

## **3. Разширяване на въпроси (Query Expansion)**  
### **3.1. Методи за разширяване**  
🔹 **Синоними и свързани думи (Thesaurus-Based Expansion)**  
- Използване на **онтологии** и **тезауруси** (напр. WordNet), за да добавим синоними и хипоними.  
- Пример: "автомобил" → "кола", "превозно средство".  

🔹 **Анализ на предишни заявки (Relevance-Based Expansion)**  
- Разширяване чрез **термини от предишни успешни търсения**.  
- Ако потребителите, търсили "програмиране", често разглеждат "Python", системата може да разшири заявката с "Python програмиране".  

🔹 **Статистически методи (Co-Occurrence Analysis)**  
- Често срещани думи в релевантните документи се **добавят** към заявката.  
- Ако "спортни коли" често се среща с "Ferrari", системата разширява заявката.  

🔹 **Потребителски речници (User Profiles and Preferences)**  
- Ако потребителят предпочита "Apple" продукти, заявката "телефон" може да бъде разширена с "iPhone".  

---

### **3.2. Автоматично разширяване чрез машинно обучение**  
📌 **Модерните IR системи** използват **невронни мрежи** и **големи езикови модели (LLM)** за разширяване.  
📌 **Примерни техники:**  
✅ **Word Embeddings (напр. Word2Vec, BERT)** – разширяване на заявките с контекстуално свързани думи.  
✅ **Transformer модели (GPT, T5)** – разбиране на намерението на заявката.  
✅ **Latent Semantic Analysis (LSA)** – анализ на семантичните връзки между термините.  

👉 **Пример:**  
🔍 Заявка: "екологично чисти автомобили"  
🔹 Разширява се с "електромобили", "Tesla", "хибридни коли".  

---

## **4. Сравнение между обратна връзка и разширяване на въпроси**  

| Характеристика | Обратна връзка | Разширяване на въпроси |
|---------------|---------------|----------------------|
| Източник | Отговори на потребителя | Автоматичен анализ |
| Цел | Подобряване на резултатите | Подобряване на заявката |
| Видове | Явна, неявна, псевдо-обратна връзка | Синоними, ко-окуренция, ML-базирано разширяване |
| Приложение | Коригира съществуващите резултати | Добавя термини за по-добро търсене |

✅ **Комбинацията от двете техники** дава най-добри резултати!  

---

## **5. Приложения на обратната връзка и разширяването на въпроси**  
📌 **Търсачки (Google, Bing, Yandex)** – използват разширяване на заявки и обратна връзка за персонализация.  
📌 **Рекомендателни системи (Netflix, Spotify)** – анализират поведение за подобряване на препоръките.  
📌 **Медицински търсачки** – подобряват заявките с медицински термини и синоними.  
📌 **Научни бази данни (PubMed, IEEE Xplore)** – разширяват заявки с научни термини.  

---

## **6. Предизвикателства и бъдещи насоки**  
⚠ **Предизвикателства:**  
- Неправилно разширяване на заявки (пример: "Jaguar" – кола или животно?).  
- Лоша обратна връзка (потребителите не винаги дават правилни оценки).  
- Баланс между **прецизност** и **пълнота**.  

🚀 **Бъдещи насоки:**  
- Използване на **дълбоки невронни мрежи** за по-интелигентно разширяване.  
- **Персонализация на търсенето** според потребителския контекст.  
- **Мултимодално разширяване** – комбиниране на текст, изображения и видео.  

---

## **7. Заключение**  
📌 **Обратната връзка и разширяването на въпроси** са ключови за **по-точни и полезни резултати** в извличането на информация.  
📌 **Обратната връзка** помага да коригираме и подобрим търсенето въз основа на потребителската реакция.  
📌 **Разширяването на заявки** допълва първоначалното търсене, намирайки допълнителни полезни резултати.  
📌 **Комбинирането на двете техники с машинно обучение** води до **по-интелигентни търсачки и препоръчителни системи**.  

🚀 **Крайната цел?** Напълно адаптивни системи за търсене, които разбират потребителя още преди той да осъзнае какво точно търси! 🚀

# IX Извличане от XML документи.



# **Извличане на информация от XML документи**  

## **1. Въведение в XML**  
📌 **XML (eXtensible Markup Language)** е стандарт за представяне на данни в текстов формат, който е **читаем за хора и машини**.  
📌 XML документи представляват структура от **елементи, атрибути и стойности**, които описват и съхраняват данни.  

🔹 **Пример на XML документ:**
```xml
<книга>
  <заглавие>Изкуствени интелигенции</заглавие>
  <автор>Иван Иванов</автор>
  <година>2025</година>
  <жанр>Технологии</жанр>
</книга>
```

---

## **2. Защо извличаме информация от XML документи?**  
📌 XML се използва в много области за съхранение на структурирани данни:  
- **Уеб услуги (SOAP, REST)**  
- **Бази данни (например XML база данни)**  
- **Конфигурационни файлове**  
- **Системи за търсене**  
- **Научни и правителствени документи**

📌 Задачата при извличане на информация е да извлечем полезни данни от **структурирания** XML формат, като запазим **целостта на данните**.  

---

## **3. Методи за извличане на информация от XML документи**  
Съществуват различни техники за извличане на информация от XML, включително **XPath**, **XQuery**, **DOM** и **SAX**.

---

### **3.1. Използване на XPath (XML Path Language)**  
📌 **XPath** е език за навигация в XML документи и извличане на данни чрез задаване на **пътища** към елементите.  

🔹 **Основни концепции:**
- Пътят се изразява чрез **нива и елементи** (като адреси в файловата система).
- Поддържа **условия и филтри**, които позволяват извличането на конкретни данни.  

🔹 **Пример:**  
Извличане на заглавие на книга от XML:
```xml
/книга/заглавие
```
Това ще върне стойността на елемента `<заглавие>` в първия `<книга>` елемент.

🔹 **XPath синтаксис:**
- **/книга/автор** - намира първия елемент `<автор>` в `<книга>`.
- **//книга/автор** - намира всички елементи `<автор>` в документа.
- **/книга[@година='2025']** - намира елемент `<книга>`, чийто атрибут `година` е 2025.

---

### **3.2. Използване на XQuery**  
📌 **XQuery** е език за извличане на данни от XML, който е по-гъвкав от XPath и може да работи с по-сложни заявки, включващи **функции**, **променливи** и **условия**.

🔹 **Пример на XQuery**:
```xquery
for $k in doc("books.xml")//книга
where $k/година = "2025"
return $k/заглавие
```
Това извлича заглавията на книги, издадени през 2025 година.

---

### **3.3. DOM (Document Object Model)**  
📌 **DOM** е API за достъп и манипулиране на XML документи. Той зарежда целия XML документ в паметта и го представя като **дървовидна структура** от елементи.  
- Подходящ за **по-малки документи** или когато е необходима **пълна манипулация** на XML структурата.

🔹 **Пример на DOM в Python** с библиотека `xml.dom.minidom`:
```python
from xml.dom import minidom

doc = minidom.parse("books.xml")
books = doc.getElementsByTagName("книга")
for book in books:
    title = book.getElementsByTagName("заглавие")[0].firstChild.nodeValue
    print(title)
```

---

### **3.4. SAX (Simple API for XML)**  
📌 **SAX** е събитийно базиран подход за обработка на XML. Всяка част от XML документа се обработва по време на четене, като не се зареждат всички данни в паметта. Това го прави **по-ефективен за големи документи**.

🔹 **Пример със SAX в Python**:
```python
import xml.sax

class MyHandler(xml.sax.ContentHandler):
    def startElement(self, name, attrs):
        if name == "книга":
            print("Нова книга:")
    
    def characters(self, content):
        print(content)

parser = xml.sax.make_parser()
handler = MyHandler()
parser.setContentHandler(handler)
parser.parse("books.xml")
```

---

## **4. Често срещани задачи при извличането на информация от XML**  
### **4.1. Търсене по атрибути**  
📌 Понякога данни в XML се съхраняват в **атрибути**, а не в елементи. Например:
```xml
<книга година="2025">Изкуствени интелигенции</книга>
```

🔹 **Пример за извличане на атрибут с XPath**:
```xpath
/книга[@година='2025']
```

### **4.2. Извличане на текстови стойности**  
📌 Често ще искате да извадите текстовата стойност на елементите (напр. заглавия, имена). Можете да използвате **XPath** или **DOM**, за да получите само текстовата стойност.

### **4.3. Обработка на големи XML документи**  
📌 Когато работите с **големи XML документи**, използвайте **SAX**, тъй като той не зарежда целия файл в паметта и позволява обработка на поточни данни.

---

## **5. Проблеми и предизвикателства при извличане на информация от XML**  
### **5.1. Нееднородност на структурите**  
📌 XML документите могат да имат различни структури и формати, което затруднява процеса на извличане на информация, особено ако има **липса на стандартизация**.  

📌 Решение: Използване на **схеми (XSD)** за дефиниране на структурата на XML документа и облекчаване на извличането на данни.

### **5.2. Проблеми със сложни имена на елементи и атрибути**  
📌 XML може да включва **пространства от имена (namespaces)**, което добавя **сложност при обработката** на данните.

🔹 Пример:  
```xml
<soapenv:Envelope xmlns:soapenv="http://schemas.xmlsoap.org/soap/envelope/" xmlns:web="http://www.example.com/webservice">
    <soapenv:Header/>
    <soapenv:Body>
        <web:book>
            <web:title>XML Програмиране</web:title>
            <web:author>Иван Иванов</web:author>
        </web:book>
    </soapenv:Body>
</soapenv:Envelope>
```
📌 Трябва да се справите с имената на елементите като `soapenv:title` и `web:author`.

---

## **6. Заключение**  
📌 Извличането на информация от **XML документи** е основна задача за манипулиране на структурирани данни.  
📌 Техниките като **XPath**, **XQuery**, **DOM** и **SAX** предоставят различни подходи в зависимост от размера на данните и нуждите на приложението.  
📌 Важно е да се отчита **структурата на документа** и **ефективността на обработката**, когато избирате подходящия метод за извличане на данни.

🔄 **Приложения**: Извличане на информация от XML е широко използвано в области като обработка на уеб данни, интеграция на системи и управление на бази данни.



# X Вероятностни модели в Извличането на Информация

# **Вероятностни модели в Извличането на Информация**  
(30 минути лекция)

## **1. Въведение в вероятностните модели**  
📌 **Вероятностните модели** са основа за изграждане на съвременни информационни системи за извличане на информация (ИзИнф). Те използват математически теории за анализ на вероятностите и статистиката, за да подобрят процеса на търсене и класифициране на документи.  
📌 Тези модели позволяват на системите да правят прогнози и да вземат решения въз основа на **непълна** или **несигурна** информация.

📌 Основна цел на вероятностните модели в ИзИнф е да увеличат **релевантността** на резултатите от търсенето, като се фокусират върху вероятността даден документ да е релевантен за дадена заявка.

---

## **2. Вероятностни модели на търсене**  
### **2.1. Модел на вероятностната оценка на релевантността (PRP)**  
📌 **PRP (Probability Ranking Principle)** е основен принцип в вероятностните модели за извличане на информация. Той гласи, че е необходимо да се **подредят документите по вероятността**, с която те ще бъдат релевантни за дадена заявка.

📌 Формулира се така:  
За всяка заявка \( q \) и всеки документ \( d \), вероятността за релевантност \( P(d | q) \) е вероятността даден документ \( d \) да бъде релевантен за дадена заявка \( q \).  
Задачата е да се подредят документите в низходящ ред според тяхната **вероятност на релевантност**.

🔹 **Пример:**
- Имаме заявка "Изкуствени интелигенции".
- Трябва да оценим вероятността на релевантност на всеки документ по отношение на тази заявка и да ги подредим.

---

### **2.2. Базови предположения**  
📌 **PRP** се основава на няколко предположения:  
1. **Заявка и документ** са представени чрез **термини**.  
2. Всеки термин има своя вероятност да е свързан с дадена заявка.  
3. Релевантността на документите може да бъде оценена чрез **статистически методи** и **интерпретации** на термини в контекста на заявката.

---

### **2.3. Изчисляване на вероятността за релевантност**  
📌 За да се изчисли вероятността за релевантност \( P(d | q) \), се използват различни **методи за моделиране**. Най-основният начин е чрез използване на **терминална вероятност**.

### **2.4. Модел на наивната Байесова класификация**  
📌 **Наивният Байесов модел** използва теоремата на Байес, за да оцени вероятността за релевантност на даден документ.  

📌 Формулата за този модел изглежда така:
\[
P(d | q) = \frac{P(q | d) P(d)}{P(q)}
\]
Където:
- \( P(q | d) \) е вероятността термини от заявката \( q \) да се срещат в документ \( d \).
- \( P(d) \) е вероятността, че документ \( d \) е релевантен.
- \( P(q) \) е общата вероятност за заявка \( q \).

🔹 **Пример:** За да оценим вероятността даден документ да бъде релевантен за заявката "Изкуствени интелигенции", може да изчислим вероятностите за всяка дума в заявката да се среща в съответния документ.

---

## **3. Оценка на вероятностните модели**  
### **3.1. Оценка чрез точност и възстановяване (Precision & Recall)**  
📌 **Точност (Precision)** и **възстановяване (Recall)** са две важни метрики за оценка на вероятностните модели за извличане на информация.  

1. **Точност (Precision)** измерва процента на релевантни документи сред всички върнати резултати:
\[
\text{Precision} = \frac{\text{Релевантни документи}}{\text{Общо върнати документи}}
\]
2. **Възстановяване (Recall)** измерва процента на релевантни документи, които са били намерени:
\[
\text{Recall} = \frac{\text{Релевантни документи}}{\text{Общо релевантни документи}}
\]

📌 В идеалния случай и точността, и възстановяването трябва да бъдат максимални, но те често са в **компромис** помежду си.

---

### **3.2. F-мярка (F-Measure)**  
📌 **F-мярката** комбинира точността и възстановяването в една единна метрика:
\[
\text{F-Measure} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
\]
Това е важна метрика, когато търсим баланс между точност и възстановяване.

---

## **4. Модел на термините и тяхната вероятност**  
### **4.1. TF-IDF (Term Frequency - Inverse Document Frequency)**  
📌 Въпреки че **TF-IDF** е статистически метод, той има връзка с вероятностните модели, като помага за определяне на важността на термините в документите.  

- **Term Frequency (TF)** измерва колко често се появява даден термин в документа.
- **Inverse Document Frequency (IDF)** измерва колко рядко се появява терминът в документите.

📌 Целта на TF-IDF е да идентифицира важните термини, които са специфични за дадена заявка и да увеличи вероятността за релевантност на документи, съдържащи тези термини.

---

### **4.2. Вероятност на термините**  
📌 Всеки термин в документ има **вероятност** да бъде свързан със заявка въз основа на неговата **терминна честота** и **редкост** в документите.  

📌 **Формула за вероятност на термини**:
\[
P(t | d) = \frac{f(t, d)}{|d|}
\]
където:
- \( f(t, d) \) е честотата на термина \( t \) в документа \( d \),
- \( |d| \) е броят на термините в документа \( d \).

---

## **5. Прилагане на вероятностни модели в системи за търсене**  
### **5.1. Пример за приложението на PRP в търсачките**  
📌 Повечето съвременни търсачки използват вероятностни модели като **PRP** за подреждане на резултатите от търсенето. Те изчисляват вероятността за релевантност на всеки документ спрямо дадена заявка и ги подреждат съобразно това.

---

### **5.2. Моделите на класификация и групиране**  
📌 Вероятностните модели се използват и за класифициране на документи в различни **категории** или **групи** на база на термини, които се срещат често в тях. Пример за това е използването на **Байесова класификация** за категоризация на документи.

---

## **6. Проблеми и предизвикателства**  
📌 **Предизвикателства**:  
1. **Релевантност на термини**: Термините, които са често срещани в заявките, не винаги са свързани с релевантността на документите.  
2. **Многозначност на термините**: Един термин може да има различни значения в зависимост от контекста.
3. **Обработка на големи обеми от данни**: Трябва да се осигури ефективност в изчисленията, когато се работи с големи текстови колекции.

📌 **Решения**: Използването на **модели с обучаващи се параметри** като **машинно обучение** и **невронни мрежи** може да помогне за справяне с тези предизвикателства.

---

## **7. Заключение**  
📌 Вероятностните модели са основополагащи за модерните системи за извличане на информация. Те предлагат теоретична основа за оценка на релевантността на документите и подобряват качеството на резултатите от търсенето.  
📌 Разработването на по-сложни и динамични вероятностни модели, използващи статистика и машинно обучение, е бъдещето на извличането на информация и класификацията на текстове.

# XI Модели на езика

# **Модели на езика**  
(30 минути лекция)

## **1. Въведение в моделите на езика**  
📌 **Модели на езика** са основни математически и статистически подходи за представяне и обработка на езикови данни. Тези модели се използват в множество приложения като автоматичен превод, разпознаване на реч, търсене на информация, синтез на текст и много други.  
📌 Основната цел на моделите на езика е да се предскаже вероятността на една последователност от думи, въз основа на контекста и предходни наблюдения.

---

## **2. Видове модели на езика**  
### **2.1. Статистически модели на езика**  
📌 Статистическите модели се основават на изчисленията на вероятността за възникване на определена дума в даден контекст. Най-използваните статистически модели са **n-грамовите модели**.

#### **2.1.1. N-грамови модели**  
📌 **N-грамовите модели** предсказват вероятността за поява на дума на базата на предходни \( n-1 \) думи. Например:  
- **Биграмови модели** (n=2) се използват за предсказване на следващата дума, като се вземат предвид само последните две думи.
- **Триграмови модели** (n=3) използват три предходни думи и т.н.  
📌 Основната идея на n-грамовите модели е, че **появата на думи в езика** следва определени вероятностни правила, които могат да бъдат научени от текстови корпуси. Те се използват широко в обработката на естествен език (NLP) и задачите на машинно обучение.

**Пример:**
- За изречението "Котката спи на килима", биграмовият модел ще използва:
  - \( P(\text{спи}|\text{котката}) \)
  - \( P(\text{на}|\text{спи}) \)
  - \( P(\text{килима}|\text{на}) \)

#### **2.1.2. Предимства на n-грамовите модели**  
- Прости и лесни за изграждане.
- Могат да бъдат ефективни, когато имаме голямо количество данни за обучение.
  
#### **2.1.3. Недостатъци на n-грамовите модели**  
- Не хващат дългосрочни зависимости между думите, тъй като се базират само на близки думи.
- Изискват голямо количество памет за съхранение на вероятностите за всички възможни n-грамове, което може да бъде проблем при големи текстови корпуси.
- Съществува проблема с **оцеляване на редки n-грамови комбинации** (т. нар. "сценарий на изчезващите вероятности").

---

### **2.2. Модели на езика, базирани на невронни мрежи**  
📌 В последните години, с напредъка на **дълбокото обучение** (deep learning), невронните мрежи започнаха да се използват за изграждане на по-сложни и мощни модели на езика. Те се опитват да решат някои от проблемите на n-грамовите модели, като запаметяват контексти, които са по-широки и не зависят само от близките думи.

#### **2.2.1. Рекурентни невронни мрежи (RNN)**  
📌 **RNN** са специални видове невронни мрежи, които могат да обработват последователности от данни (например текст). Те имат вътрешни цикли, които позволяват на модела да запомня контекста на предишните думи в изречението.

- Основната идея е, че за разлика от n-грамовите модели, които вземат само определен брой предишни думи, RNN може да взема предвид цялото изречение или текст, което го прави по-гъвкав и мощен.

#### **2.2.2. Long Short-Term Memory (LSTM)**  
📌 **LSTM** е специален вид RNN, който е проектиран да се справя с проблема на **изчезващите градиенти** и да запомня дългосрочни зависимости в текста. Това го прави подходящ за задачи, които изискват разбиране на контекст от големи текстови пасажи.

- LSTM мрежите се използват широко за задачи като **машинни преводи**, **разпознаване на реч** и **генериране на текст**.

#### **2.2.3. Преобразуватели (Transformers)**  
📌 **Transformers** са най-новият и най-мощен тип модели за обработка на естествен език. Тези модели използват механизъм за **внимание** (attention), който позволява на модела да фокусира вниманието си върху различни части от текста и да взема предвид глобалния контекст.

- **BERT** и **GPT** са примери за трансформаторни модели, които се използват за задачи като **отговор на въпроси**, **генериране на текст**, **синтактични анализи** и други.

---

## **3. Приложения на моделите на езика**  
📌 Моделите на езика намират приложение в множество области, включително:  
1. **Автоматичен превод**: Моделите на езика са основа за автоматичния превод на текстове, като позволяват на системите да разбират и генерират текст на различни езици.  
2. **Търсене на информация**: Моделите на езика се използват за подобряване на резултатите от търсенето, като се оценява вероятността даден документ да бъде релевантен за заявката.  
3. **Разпознаване на реч**: Моделите на езика се използват за преобразуване на говор в текст, като се предсказват вероятности за думи въз основа на звуковите вълни.  
4. **Генериране на текст**: Моделите на езика могат да генерират последователности от текст въз основа на зададени начални условия, което е полезно за създаване на новини, разкази и дори код.  

---

## **4. Оценка на моделите на езика**  
### **4.1. Перплексия**  
📌 **Перплексия** е една от основните метрики за оценка на ефективността на моделите на езика. Тя измерва колко добре моделът може да предсказва следващата дума в последователност.

- Формула:
\[
\text{Perplexity}(P) = 2^{H(P)}
\]
където \( H(P) \) е ентропията на разпределението на вероятностите. По-малката перплексия показва по-добро представяне на модела.

### **4.2. BLEU (Bilingual Evaluation Understudy)**  
📌 **BLEU** е метрика, използвана главно за оценка на качеството на автоматичния превод, като измерва степента на съвпадение на генерираните фрази с референтни фрази.

---

## **5. Проблеми и предизвикателства в моделите на езика**  
📌 Някои от основните проблеми при създаването и използването на модели на езика включват:  
1. **Многозначност на думите**: Думи с множество значения могат да създадат трудности за разбирането на контекста.  
2. **Обработка на нови и редки термини**: Моделите на езика трябва да се справят с нови или непознати думи, което изисква подходи за справяне с неизвестни думи.  
3. **Контекстуално разбиране**: Моделите трябва да разбират контекста и значението на текста в дълбочина, което изисква сложни подходи като тези, използващи трансформери и LSTM.

---

## **6. Заключение**  
📌 Моделите на езика играят централна роля в съвременните технологии за обработка на естествен език и имат широко приложение в различни области на изкуствения интелект.  
📌 Въпреки напредъка в разработването на тези модели, все още има много предизвикателства, които изискват нови подходи и иновации, като например дълбочинно контекстуално разбиране и подобрено справяне с многозначността и редките термини.

# XII Класификация на текст – Векторно-пространствен модел

# **Класификация на текст – Векторно-пространствен модел**  
(30 минути лекция)

---

## **1. Въведение в класификацията на текст**  
📌 **Класификацията на текст** е процес, при който се присвояват етикети или категории на текстови документи въз основа на тяхното съдържание. Това е важен етап в обработката на естествен език (NLP) и се използва в множество приложения като категоризация на новини, спам филтриране, анализ на емоции и т.н.

📌 Класификацията на текст обикновено включва следните етапи:
1. **Предобработка на текст** (премахване на стоп думи, леманизация, токенизация).
2. **Представяне на текста в подходяща форма** – най-често чрез векторизация.
3. **Избор на класификационен модел** – например логистична регресия, наивен байесов класификатор, SVM и други.
4. **Оценка на класификационния модел** – чрез метрики като точност, прецизност, отзивчивост и F1-мерка.

---

## **2. Векторно-пространствени модели (Vector Space Models)**  
📌 **Векторно-пространствени модели** (VSM) са един от основните подходи за представяне на текстови документи и са основата на много методи за класификация на текст. В тези модели текстовете се представят като **вектори в многомерно пространство**, където всяка ос съответства на отделен термин от текстовия корпус.

### **2.1. Основи на векторно-пространствените модели**  
📌 **Представянето на текст** в векторно-пространствени модели е процес, при който всеки документ или текст се преобразува в **вектор**, който може да бъде използван за извършване на математически операции, като изчисляване на сходството между текстове. Това представяне се извършва чрез **векторизация**.

#### **2.1.1. Преобразуване на текст в вектори**  
📌 За да представим текстовете в пространството, първо трябва да извлечем **термини** (думи или фрази) от текста, които ще формират "осите" на вектора. Ето как може да стане това:
- **Терминизация (токенизация)** – разделяме текста на отделни термини (думи, символи).
- **Изключване на стоп думи** – премахваме често срещаните, но безсмислени думи (например "и", "на", "с").
- **Леманизация/стеминг** – съкращаване на думите до тяхната основна форма (например "бягане" става "бяг").
  
#### **2.1.2. Представяне чрез **Bag-of-Words** (BoW)**  
📌 Моделът **Bag-of-Words** е основен метод за представяне на текст като вектор. Той счита всеки документ като множество думи без да отчита тяхната граматическа структура. За всеки документ се създава вектор, в който всеки елемент съответства на честотата на поява на даден термин в текста.

Пример:
- Документ 1: "Коте е на масата"
- Документ 2: "Коте скача от масата"

Корпус: {коте, е, на, масата, скача, от}

Вектор за Документ 1: [1, 1, 1, 1, 0, 0]  
Вектор за Документ 2: [1, 0, 0, 1, 1, 1]

#### **2.1.3. Термни тежести (TF-IDF)**  
📌 Често срещаната техника за подобряване на представянето на текст е **TF-IDF (Term Frequency-Inverse Document Frequency)**, която измерва важността на даден термин в контекста на целия корпус. Това предотвратява ситуация, в която често срещаните, но неинформативни думи (като "и", "на") да получат висока тежест.

- **TF (Term Frequency)**: Честота на даден термин в документа.
  
  \[
  \text{TF}(t) = \frac{\text{Брой на термините } t \text{ в документа}}{\text{Общ брой термини в документа}}
  \]
  
- **IDF (Inverse Document Frequency)**: Колко рядък е терминът в целия корпус.
  
  \[
  \text{IDF}(t) = \log \left(\frac{\text{Общ брой документи}}{\text{Брой документи съдържащи термин } t}\right)
  \]
  
- **TF-IDF**: Множество от двете стойности, което измерва важността на термина.
  
  \[
  \text{TF-IDF}(t) = \text{TF}(t) \times \text{IDF}(t)
  \]

---

## **3. Класификация с векторно-пространствени модели**  
📌 След като текстовете са представени като вектори, можем да използваме различни **класификационни алгоритми**, за да присвоим категории на документите. Ето някои от най-популярните методи:

### **3.1. Логистична регресия**  
📌 **Логистичната регресия** е метод, използван за бинарна класификация. Използва се за предсказване на вероятността на даден документ да принадлежи към определена категория.

- Логистичната регресия се използва, когато имаме задачи, които включват две категории (например спам/не спам).

### **3.2. Наивен байесов класификатор**  
📌 **Наивният байесов класификатор** се базира на теоремата на Байес и предполага, че всички термини в документа са независими (наивност). Той използва вероятностни изчисления за класифициране на текстови документи в категории.

- Наивният байесов класификатор е лесен за имплементиране и е много ефективен за задачи като спам филтриране и анализ на емоции.

### **3.3. Support Vector Machines (SVM)**  
📌 **SVM** е метод, който максимизира разделителната хиперплоскост между различните категории. Той работи добре за текстова класификация, когато документите са представени като високо измерни вектори.

- SVM е много ефективен, когато имаме големи набори от данни с висока измерност.

### **3.4. K-близки съседи (KNN)**  
📌 **KNN** е прост метод за класификация, който присвоява етикет на нов документ въз основа на етикетите на най-близките му съседи в пространството.

- Този метод не изисква обучение и е лесен за разбиране, но може да бъде бавен за големи набори от данни.

---

## **4. Оценка на класификационни модели**  
📌 След като класифицираме текстовете, трябва да оценим производителността на класификационния модел. За тази цел използваме следните метрики:

### **4.1. Точност (Accuracy)**  
📌 **Точността** е процентът на правилно класифицираните документи спрямо общия брой документи.

\[
\text{Точност} = \frac{\text{Брой правилно класифицирани документи}}{\text{Общ брой документи}}
\]

### **4.2. Прецизност и отзивчивост (Precision и Recall)**  
📌 **Прецизност** (Precision) измерва колко от класифицираните като положителни документи са действително положителни.  
📌 **Отзивчивост** (Recall) измерва колко от всички действително положителни документи са били класифицирани като положителни.

### **4.3. F1-мерка**  
📌 **F1-мерката** е хармоничното средно между прецизността и отзивчивостта и е полезна метрика, когато имаме несиметричен клас (например малко положителни примери и много отрицателни).

---

## **5. Заключение**  
📌 Векторно-пространствените модели са основа на много от съвременните методи за класификация на текст. Те представляват начин за преобразуване на текстовите данни в числово представяне, което може да бъде обработвано от различни класификационни алгоритми. Въпреки това, векторните модели имат своите ограничения, особено когато става въпрос за обхващане на семантични зависимости и контекстуална информация, което води до напредък в разработването на нови модели като трансформаторите.

# XIIIМашинно обучение за подреждане (learning to rank)

# **Машинно обучение за подреждане (Learning to Rank): Лекция за 30 минути**

---

## **1. Въведение в машинното обучение за подреждане (LTR)**  
📌 **Машинно обучение за подреждане (Learning to Rank, LTR)** е клас техники на машинното обучение, използвани за изграждане на модели за подреждане. Тези модели са проектирани да предсказват оптималния ред на набор от елементи (например документи, продукти или уеб страници) въз основа на дадено запитване. Основната цел на LTR е да подобри системите за извличане на информация, където подреждането на резултатите е от решаващо значение за удовлетвореността на потребителите.

📌 **Приложения на LTR**:
- **Търсачки**: Подреждане на резултатите от търсенето (например Google, Bing).
- **Електронна търговия**: Подреждане на продукти въз основа на предпочитанията и поведението на потребителите.
- **Системи за препоръки**: Подреждане на елементи, които да се препоръчат на потребителите въз основа на техните интереси.
- **Социални медии**: Подреждане на публикации или съдържание във фийда на потребителя.

---

## **2. Основни понятия в машинното обучение за подреждане**  

### **2.1. Проблем за подреждане**  
📌 В проблема за подреждане имаме набор от елементи и набор от характеристики, които описват всеки елемент. Целта е да се предскаже най-добрият ред (подреждане) на тези елементи. Например, в контекста на търсачка, елементите могат да бъдат уеб страници, а характеристиките могат да включват релевантността на страница към дадено запитване.

### **2.2. Видове подреждане**  
Има няколко вида подреждане в машинното обучение:

- **Pointwise (по точка)**: Този подход подрежда елементите поотделно. Всеки елемент се третира самостоятелно и моделът предсказва резултат за всеки елемент.
  
- **Pairwise (по двойки)**: При този подход моделът научава да сравнява двойки елементи и да решава кой е по-добър. Той се фокусира върху двойки документи и се опитва да определи кой е по-релевантен.
  
- **Listwise (по списък)**: При този подход моделът разглежда целия списък с елементи като цяло. Целта на модела е да оптимизира подреждането на целия списък елементи по отношение на дадено запитване.

---

## **3. Формулиране на машинното обучение за подреждане**  
Проблемът на машинното обучение за подреждане може да бъде формулиран като наблюдавано обучение, като целта е да се предскаже подреждането на елементите въз основа на техните характеристики.

### **3.1. Характеристики**  
📌 Характеристиките представляват характеристиките на елементите, които трябва да бъдат подредени. В търсачка тези характеристики могат да включват:
- **Релевантност на текста**: Колко тясно документът съвпада с запитването.
- **Клик-статистика**: Колко често е кликнат даден документ, когато се показва в резултатите от търсенето.
- **Авторитет на страницата**: Мярка за достоверността или доверието в уеб страница.

### **3.2. Лейбъли**  
📌 Лейбълите са релевантността на всеки елемент в проблема за подреждане. Те могат да бъдат:
- **Бинарна релевантност**: Елементът е или не е релевантен.
- **Оценка на релевантност**: Елементите са оценявани по скала (например от 1 до 5, където 1 означава "не релевантен" и 5 означава "силно релевантен").
- **Имплицитна обратна връзка**: Като данни за кликвания, при които поведението на потребителя (кликване, скролване, време прекарано на страницата) индиректно показва релевантност.

### **3.3. Функция на загубите**  
📌 **Функцията на загубите** се използва за измерване на това доколко предсказанията на модела съвпадат с истинските подреждания. Целта е да се минимизира загубата по време на обучението. Някои често използвани функции на загуби в LTR са:
- **Средна квадратична грешка (MSE)**: Измерва разликата между предсказаното и истинското подреждане.
- **Ranking Loss**: Измерва колко елемента са подредени неправилно в сравнение с истинския ред.

---

## **4. Видове модели на машинно обучение за подреждане**  
Има три основни подхода към машинното обучение за подреждане: **Pointwise**, **Pairwise** и **Listwise**.

### **4.1. Pointwise (по точка)**  
📌 При подхода "по точка" моделът предсказва резултат за всеки документ или елемент поотделно. Тези резултати след това се използват за подреждане на елементите. Моделът се обучава с етикетирани данни, при които се предоставя релевантността на всеки документ към запитването. Функцията на загубите може да бъде MSE или крос-ентропия в зависимост от типа на етикета (бинарен или оценен).

- **Пример**: Прогнозиране на релевантността на документ спрямо запитване като числов резултат (например от 0 до 5).

### **4.2. Pairwise (по двойки)**  
📌 При подхода "по двойки" моделът научава да сравнява двойки документи. За всяка двойка документи моделът предсказва кой документ е по-релевантен към даденото запитване. Моделът се обучава с двойки документи, етикетирани според тяхната относителна релевантност.

- **Пример**: За две документа моделът предсказва дали документ A е по-релевантен от документ B.

#### **Популярни алгоритми по двойки**:
- **RankNet**: Модел на невронни мрежи, който учи двойкови отношения чрез сравняване на два елемента наведнъж.
- **Support Vector Machines (SVM)**: Може да бъде адаптиран за подреждане на елементи чрез сравняване на двойки елементи (RankSVM).

### **4.3. Listwise (по списък)**  
📌 При подхода "по списък" се оптимизира подреждането на целия списък с документи. Моделът се обучава да оптимизира подреждането на целия набор документи спрямо дадено запитване.

- **Пример**: Моделът се обучава да подреди списък от документи така, че най-релевантният документ да бъде на върха.

#### **Популярни алгоритми по списък**:
- **LambdaMART**: Известен алгоритъм за подреждане, който оптимизира позицията на най-релевантните елементи в списък чрез градиентно усилване.

---

## **5. Метрики за оценка на машинно обучение за подреждане**  
📌 За да оценим представянето на моделите за подреждане, използваме различни метрики. Тези метрики оценяват доколко предсказаното подреждане съвпада с истинския ред на елементите.

### **5.1. Прецизност на k (P@k)**  
📌 **Прецизност на k** измерва колко от първите k подредени елементи са релевантни. Тя е често използвана в търсачките за измерване на това дали най-релевантните резултати са подредени високо.

### **5.2. Средна средна прецизност (MAP)**  
📌 **MAP** изчислява прецизността на различни позиции и я средна за всички запитвания. Тя взема под внимание позицията на релевантните елементи в подредбата.

### **5.3. Нормализиран дисконтирен кумулативен печалба (NDCG)**  
📌 **NDCG** оценява подреждането на базата на както релевантността, така и позицията на релевантните елементи в списъка. Тя отстъпва стойността на релевантния елемент въз основа на неговата позиция (релевантните елементи в горната част на списъка имат по-голяма тежест).

\[
\text{NDCG@k} = \frac{DCG@k}{IDCG@k}
\]
Където **DCG@k** е дисконтирният кумулативен печалба за позиция k, а **IDCG@k** е идеалният DCG.

### **5.4. Среден обратен ранг (MRR)**  
📌 **MRR** оценява средния ранг, на който се появява първият релевантен документ. Тя е полезна, когато се интересуваме от намирането на първия релевантен резултат.

---

## **6. Предизвикателства в машинното обучение за подреждане**  
📌 Въпреки своето мощност, машинното обучение за подреждане има няколко предизвикателства:

- **Недостиг на данни**: В някои случаи може да има ограничени етикетирани данни, особено за нови или нишови запитвания.
- **Неравномерни данни**: Може да има дисбаланс между броя на релевантните и нерелевантни документи.
- **Мащабируемост**: Моделите за LTR могат да бъдат изчислително скъпи, особено при работа с големи набори от данни (например, милиарди уеб страници).
- **Инженеринг на характеристики**: Проектирането на значими и информативни характеристики е често трудно, но от решаващо значение за представянето на модела.

---

## **7. Заключение**  
📌 Машинното обучение за подреждане е мощна техника, използвана в извличането на информация, системите за препоръки и търсачките, за да се оптимизира подреждането на елементи въз основа на релевантност. Като прилагаме техники на машинно обучение, като **Pointwise**, **Pairwise** и **Listwise**, можем да изградим модели, които подреждат елементите ефективно. Въпреки това, предизвикателства като недостиг на данни и инженеринг на характеристики трябва да бъдат внимателно разгледани, за да се постигнат оптимални резултати. Моделите за машинно обучение за подреждане са основни за подобряване на потребителския опит в различни области.

---

### **Край на лекцията**  
Не се колебайте да задавате въпроси или да разгледате допълнителни теми!

# XIV WWW: уеб характеристики; спам; реклами; търсене; индекси.

## **30-минутна лекция: WWW – Уеб характеристики, спам, реклами, търсене и индекси**

---

### **1. Въведение в WWW (World Wide Web)**
📌 **World Wide Web (WWW)** е глобална система от свързани документи и мултимедийно съдържание, които могат да се достъпват чрез интернет. WWW е изградена върху основни технологии като **HTML**, **HTTP**, и **URL**, които позволяват на потребителите да преглеждат уеб страници и да извършват търсене.

📌 WWW е една от основните платформи за обмен на информация, като предоставя:
- **Текстови документи**
- **Изображения**
- **Видеоклипове**
- **Музика**
- **Приложения и социални мрежи**

---

### **2. Уеб характеристики**
Уебът притежава специфични характеристики, които го правят уникален:

#### **2.1. Мащабируемост**
📌 WWW е изключително мащабируем, като включва милиарди уеб страници и постоянен растеж на данни. Всеки ден се създават нови сайтове, добавят се нови документи и информация.

#### **2.2. Динамичност**
📌 Съдържанието на уеб страниците може да бъде динамично променяно в реално време. Уебсайтовете могат да се адаптират към взаимодействия с потребителите, да обновяват съдържание на базата на новини или действия на потребители.

#### **2.3. Свързаност**
📌 Уебът се състои от хипертекстови връзки (линкове), които свързват различни страници и ресурси, като така осигурява лесен достъп до информация. Свързаността е основата на навигацията в WWW.

#### **2.4. Сложност на съдържанието**
📌 Уеб страниците могат да съдържат разнообразно съдържание, включително текст, изображения, видеоклипове, таблици, диаграми и други. Структурата на документите също може да бъде изключително сложна.

---

### **3. Спам в WWW**
📌 **Спамът** е нежелана, масова комуникация, която се изпраща за рекламни цели или с друга нежелана цел. В уеб контекста, спамът може да се прояви по различни начини, включително:

#### **3.1. Спам в търсачките**
- **Ключови думи за манипулация**: Някои уеб страници използват неетични техники за манипулиране на резултатите в търсачките (като "ключови думи с висока плътност" или скрити текстове), за да привлекат повече трафик.
  
#### **3.2. Спам в електронната поща**
- **Електронен спам**: Нежеланите имейли, които съдържат реклами или фишинг атаки, са основен проблем за интернет потребителите.

#### **3.3. Спам в социалните медии**
- **Автоматизирани съобщения**: Използване на ботове за изпращане на нежелано съдържание или реклама в социални медии.

📌 **Методи за борба с уеб спама**:
- Използване на **филтри за спам** в търсачките и имейл услугите.
- Приложение на **филтри за линкове** и алгоритми за откриване на неестествени навигационни структури.
- **Репутационни системи**, които класифицират сайтовете според тяхната надеждност.

---

### **4. Реклами в WWW**
📌 **Рекламите в WWW** представляват основен бизнес модел за уеб сайтове и услуги. Те включват платформи като Google Ads, които предоставят рекламни услуги на търсачки и други онлайн платформи. Рекламите могат да се появяват във формата на банери, видеореклами, текстови реклами или препоръки.

#### **4.1. Възможности за таргетиране на реклами**
- **Контекстуално таргетиране**: Рекламите се показват на базата на съдържанието на страницата, която разглежда потребителят.
- **Потребителско таргетиране**: Използват се лични данни и история на браузване, за да се предоставят реклами, които съответстват на интересите на потребителя.
- **Локационно таргетиране**: Рекламите се показват въз основа на географското местоположение на потребителя.

#### **4.2. Предизвикателства на рекламите в уеб**
- **Прекомерни реклами**: Прекаленото количество реклами може да доведе до лошо потребителско изживяване.
- **Рекламен блокиран софтуер**: Много потребители използват блокери на реклами, което може да доведе до намаляване на приходите на сайтовете.

---

### **5. Търсене в WWW**
📌 **Търсенето в WWW** е процесът, при който потребителите извършват запитвания, за да открият подходяща информация от огромния обем данни, налични в интернет. Търсачките като Google, Bing и Yahoo използват сложни алгоритми за да показват най-релевантните резултати за дадено запитване.

#### **5.1. Процес на търсене**  
- **Индексиране**: Уеб страниците се сканират от търсачките, като се създава индекс с информация за всяка страница.
- **Подреждане на резултатите**: Търсачките използват алгоритми (като PageRank на Google), за да подредят резултатите, като вземат предвид фактори като релевантност, авторитет на страницата и търсените ключови думи.
  
#### **5.2. Типове търсене**  
- **Локално търсене**: Търсене на информация, свързана с местоположение.
- **Мобилно търсене**: Търсене, извършвано чрез мобилни устройства, като смартфони.
- **Мултимедийно търсене**: Търсене на изображения, видеоклипове или аудио записи.

---

### **6. Индекси в WWW**
📌 **Индексите в WWW** играят основна роля в процеса на търсене, като позволяват бързо намиране на информация.

#### **6.1. Как се изграждат индексите**  
Индексирането е процес, при който търсачките анализират и класифицират уеб съдържанието по различни ключови думи и метаданни. Например, когато търсачка индексира страница, тя записва всички срещнати думи и тяхното местоположение в документа.

#### **6.2. Типове индекси**  
- **Обърнат индекс**: Това е най-често използваният тип индекс, който записва кои документи съдържат дадена дума. С него търсачките могат да извършват бързи търсения на конкретни думи.
- **Зонален индекс**: Използва се за съхранение на информация за различни "зони" на страницата (например заглавие, мета тагове и съдържание), за да се подобри търсенето.

#### **6.3. Релевантност и алгоритми за подреждане**  
Когато потребител прави търсене, търсачката използва алгоритми като **PageRank**, **TF-IDF (Term Frequency-Inverse Document Frequency)** и **Semantic Search**, за да подреди резултатите въз основа на тяхната релевантност към запитването.

---

### **7. Заключение**
📌 WWW предоставя огромно количество информация и ресурси, но също така среща проблеми, свързани със спам, реклами, търсене и индексиране. За да се справим с тези предизвикателства, е необходимо да се използват интелигентни алгоритми за подреждане и индексиране на съдържанието. Освен това, борбата със спама и осигуряването на качествени рекламни формати и стратегии е ключова за добро потребителско изживяване в интернет.

---

### **Край на лекцията**
Ако имате въпроси или искате да разгледате конкретни аспекти от лекцията по-задълбочено, не се колебайте да питате!

 # XV WWW: обхождане и индексиране; разпределени индекси

## **30-минутна лекция: WWW – Обхождане и индексиране; Разпределени индекси**

---

### **1. Въведение в обхождането и индексирането на WWW**
📌 **Обхождането** и **индексирането** са основни процеси в механизма на работа на търсачките. Тези процеси осигуряват възможността да се изчерпателно открие и подреди информацията, налична в огромния свят на уеб страниците.

#### **1.1. Какво е обхождане (Crawling)?**
📌 Обхождането е процесът, при който специализирани програми, наречени **пауци** (или **роботи за обхождане**, **web crawlers**), обхождат уеб страниците, за да събират информация за тях.

- Пауците започват от уеб страница и следват всички **хипервръзки** (линкове), които водят до други страници.
- По този начин те събират информация за всяка посетена страница – текст, изображения, линкове и т.н.

#### **1.2. Какво е индексиране (Indexing)?**
📌 Индексирането е процесът на организиране и съхранение на информация, събрана от пауците, в база данни, наречена **индекс**. Това е подобно на съдържанието на книга, което съдържа ключови думи и страници, на които те се намират.

- Индексите са основата, върху която търсачките извършват търсене, като използват различни алгоритми за класифициране и подреждане на резултатите.
  
---

### **2. Обхождане на WWW: Процес и техники**
📌 Обхождането на WWW е сложен процес, който изисква различни техники за ефективно събиране на информация.

#### **2.1. Алгоритъм на обхождането**
📌 Пауците започват от начален набор от уеб страници, наречен **seed list** (начални URL адреси). Оттук започва процесът на обхождане:

- **Обхождане на страници**: Пауците сканират съдържанието на страниците и записват всички важни данни (например мета тагове, заглавия, ключови думи и линкове).
- **Следване на линкове**: След като обхождат дадена страница, пауците следват хипервръзките, които водят до нови страници, и така процесът продължава.
- **Обработване на новите данни**: За всяка нова страница се добавят нови линкове към опашката за обхождане, което осигурява пълно обхождане на мрежата.

#### **2.2. Стратегии за обхождане**
- **Дълбочинно обхождане**: Пауците обхождат една страница изцяло, преди да преминат към следващата.
- **Широчинно обхождане**: Пауците обхождат всички връзки на дадена страница и само след това преминават към следващото ниво от линкове.

#### **2.3. Проблеми при обхождането**
- **Излишно натоварване на сървърите**: При интензивно обхождане може да се създаде натоварване на уеб сървърите, което да води до забавяния или откази.
- **Динамично съдържание**: Страници, които се генерират динамично (например, чрез JavaScript или генериране от база данни), могат да затруднят процеса на обхождане.
- **Честото обновяване на съдържанието**: Уеб страниците се обновяват непрекъснато, което прави обхождането и индексирането динамичен процес.

---

### **3. Индексиране на уеб съдържание: Структура и подходи**
📌 Индексирането е вторият основен етап, след обхождането, в процеса на обработка на уеб съдържанието. То включва организиране на информацията в **индекси**, които се използват от търсачките за извършване на търсения.

#### **3.1. Структура на индексите**
- **Обърнат индекс**: Това е основният тип индекс, който се използва от повечето търсачки. Той съдържа списък с всички думи, които се намират на уеб страниците, и показва кои страници ги съдържат.
  
  Пример:  
  - **Термин**: “кошница”  
  - **Документи**: [Page1, Page4, Page7]

#### **3.2. Индексиране на метаданни**
📌 Освен съдържанието на страниците, търсачките също така индексират метаданни като:
- **Мета тагове** (keywords, description)
- **Заглавия**
- **Изображения и видеоклипове** (чрез алгоритми за визуално разпознаване)

#### **3.3. Алгоритми за индексиране**
- **TF-IDF (Term Frequency-Inverse Document Frequency)**: Този алгоритъм измерва важността на даден термин спрямо определен документ, като комбинира честотата на термина в документа и броя на документите, които съдържат този термин.
- **PageRank**: Оценява важността на уеб страница въз основа на броя и качеството на линковете, които водят към нея.

---

### **4. Разпределени индекси**
📌 **Разпределените индекси** се използват за решаване на проблемите, свързани с мащабируемостта и ефективността при съхранението на индексите за огромния обем от данни в WWW.

#### **4.1. Какво е разпределено индексиране?**
📌 Разпределеното индексиране включва разделяне на индекса на множество части, които могат да се съхраняват на различни сървъри. Всеки сървър съдържа част от индекса, което прави системата много по-ефективна и мащабируема.

- **Частично индексиране**: Всяка част от индекса съдържа информация за различен набор от документи, което позволява паралелна обработка.
- **Клъстериране на индекси**: Индексите могат да бъдат класифицирани в групи, като всяка група съдържа информация за различен аспект от данни.

#### **4.2. Преимущества на разпределеното индексиране**
- **По-бързо търсене**: Разпределените индекси позволяват извършване на бързи търсения чрез паралелна обработка.
- **По-висока мащабируемост**: Могат да се добавят нови сървъри, за да се осигури обработката на още по-голям обем данни.
- **Отговорност при откази**: Ако един сървър се провали, останалите могат да поемат натоварването.

#### **4.3. Методи за разпределение на индекси**
- **Хеширане на документи**: Разпределяне на документите въз основа на хеширана стойност, което позволява равномерно разпределение на данните.
- **Репликация на индекси**: Копия на индексите могат да се съхраняват на различни сървъри за по-висока надеждност.

---

### **5. Предизвикателства и проблеми в обхождането и индексирането**
📌 Въпреки напредъка в алгоритмите и технологията, съществуват различни предизвикателства:

#### **5.1. Излишно натоварване на сървърите**
📌 Когато множество пауци започват да обхождат един и същи сайт, сървърите могат да бъдат претоварени, което води до забавяне на сайта или дори отказ от обслужване.

#### **5.2. Страници със защитено съдържание**
📌 Някои страници са защитени чрез CAPTCHA, пароли или други средства за сигурност, които пречат на пауците да обхождат съдържанието.

#### **5.3. Изменчиво съдържание**
📌 Динамичното съдържание или съдържание, което се променя често, като новини или актуализации на социални мрежи, представлява допълнително предизвикателство за обхождането и индексирането.

---

### **6. Заключение**
📌 Обхождането и индексирането на WWW са основни процеси за осигуряване на достъп до интернет информация. С напредъка в технологиите, разпределените индекси и новите подходи за обработка на данни, търсачките могат да обработват и индексират огромни количества данни и да осигуряват релевантни резултати на потребителите. Заедно с решаването на проблемите, свързани със спам и динамично съдържание, бъдещето на обхождането и индексирането изглежда обещаващо.

---

### **Край на лекцията**
Ако имате въпроси или искате да обсъдите конкретни аспекти от лекцията, не се колебайте да питате!