## 1. Word2Vec

### Что это
**Алгоритм обучения векторных представлений слов (embeddings)**.  
Слова с похожим смыслом → близкие векторы.

### Основные идеи
- **CBOW** — контекст → слово
- **Skip-gram** — слово → контекст

### Где используется
- поиск похожих слов
- семантические признаки для ML
- кластеризация слов

### Важно
- реализуется через `gensim`

### Минимальный пример (gensim)
```python
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

texts = [
    "I love natural language processing",
    "Word2Vec creates word embeddings"
]

sentences = [simple_preprocess(t) for t in texts]

model = Word2Vec(
    sentences,
    vector_size=50,
    window=5,
    min_count=1,
    sg=1  # Skip-gram
)

Похожие слова:
model.wv.most_similar("love")

Получение вектора слова:
vector = model.wv["love"]

Косинусная близость:
model.wv.similarity("love", "learning")

```


# NLTK — опорный конспект

## Что это
**NLTK (Natural Language Toolkit)** — классическая библиотека для обработки естественного языка, часто используется в обучении и исследованиях.

## Основной функционал
- токенизация текста
- стемминг
- лемматизация
- POS-tagging
- доступ к корпусам текстов

## Когда использовать
- изучение NLP
- эксперименты
- базовая предобработка текста

## Установка
```bash
pip install nltk
```
## Токенизация
```python
import nltk
from nltk.tokenize import word_tokenize

nltk.download("punkt")

text = "Natural Language Processing is interesting"
tokens = word_tokenize(text)
print(tokens)
```

## Лемматизация
```python
from nltk.stem import WordNetLemmatizer
nltk.download("wordnet")

lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(w) for w in tokens]
print(lemmas)
```

## Стемминг
```python
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
stems = [stemmer.stem(w) for w in tokens]
print(stems)
```

## Плюсы: 
- много алгоритмов
- хорошо подходит для обучения

## Минусы:
- медленнее современных библиотек
- не подходит для production

# Gensim.

## Что это
**gensim** — библиотека для семантического моделирования текста и векторных представлений.

## Основной функционал
- Word2Vec
- FastText
- Doc2Vec
- LDA (topic modeling)
- поиск семантической близости

## Когда использовать
- обучение эмбеддингов
- тематическое моделирование
- работа с большими корпусами текстов

# spaCy

## Что это
**spaCy** — быстрая и современная библиотека для обработки естественного языка, ориентированная на **production** и практические задачи NLP.



## Зачем нужен
- быстрая предобработка текста
- лемматизация и POS-tagging
- распознавание именованных сущностей (NER)
- подготовка данных для ML / DL моделей



## Основной функционал
- токенизация
- лемматизация
- POS-tagging (части речи)
- NER (Named Entity Recognition)
- dependency parsing
- пайплайны обработки текста



## Когда использовать
- реальные проекты
- подготовка текстов для ML
- когда важна скорость и стабильность


## Код

```python
import spacy

nlp = spacy.load("en_core_web_sm")

## Токенизация и лемматизация

doc = nlp("Cats are running faster than dogs")

for token in doc:
    print(token.text, token.lemma_, token.pos_)


## POS-tagging

for token in doc:
    print(token.text, token.pos_)

## Named Entity Recognition (NER)

doc = nlp("Apple is looking at buying a startup in London")

for ent in doc.ents:
    print(ent.text, ent.label_)

## Очистка и нормализация текста

def normalize(text):
    doc = nlp(text.lower())
    return " ".join(
        token.lemma_
        for token in doc
        if token.is_alpha and not token.is_stop
    )

print(normalize("Cats are running faster than the dogs!"))

```

## Плюсы: 
- очень высокая скорость
- удобен для production
- хорошие предобученные модели

## Минусы:
- не обучает Word2Vec (использует готовые эмбеддинги)