In [1]:
import spacy

```
uv pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0.tar.gz
```

In [None]:
nlp = spacy.load("en_core_web_sm")

In [None]:
doc = nlp(u'Tesla is looking at buying U.S. startup for $6 million')

.pos_ - Part of speech

.dep_ - Dependency

In [None]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.S. PROPN dobj
startup VERB advcl
for ADP prep
$ SYM quantmod
6 NUM compound
million NUM pobj


In [7]:
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x177deeca810>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x177deec9bb0>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x177def76110>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x177df1df250>),
 ('lemmatizer', <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x177df1d3e10>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x177def763b0>)]

In [9]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

In [10]:
doc2 = nlp(u"Tesla isn't looking into startups anymore.")

In [11]:
for token in doc2:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is AUX aux
n't PART neg
looking VERB ROOT
into ADP prep
startups NOUN pobj
anymore ADV advmod
. PUNCT punct


In [None]:
doc3 = nlp(u'Although commonly attributed to John Lennon from his song "Beautiful Boy," \
           the phrase "Life is what happens when you are busy making other plans" \
           has been used in various forms by other authors and public figures throughout history.')

In [15]:
life_quote = doc3[16:30]
print(life_quote)
print(type(life_quote))

phrase "Life is what happens when you are busy making other plans"
<class 'spacy.tokens.span.Span'>


In [18]:
doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [20]:
for sentence in doc4.sents:
    print(sentence)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [30]:
print(doc4[6].is_sent_start)
print(doc4[5].is_sent_end)

True
True


В библиотеке **spaCy** используются три типа тегов для обработки текста:

1. **POS-теги** (части речи) — общее обозначение типа слова.
2. **TAG-теги** (морфологические признаки) — более детализированная информация о слове.
3. **DEP-теги** (синтаксические зависимости) — связь слова с другими словами в предложении.

Я разберу все три категории с примерами на русском языке.

---

## **1. POS-теги (Части речи)**
Это общий класс слова, например, глагол, существительное, местоимение и т. д.

| POS-тег | Полное название | Описание | Примеры (англ.) | Примеры (рус.) |
|---------|---------------|----------|-----------------|----------------|
| `ADJ` | Adjective | Прилагательное | *beautiful, easy, fast* | *красивый, лёгкий, быстрый* |
| `ADP` | Adposition | Предлог или послелог | *in, on, under, without* | *в, на, под, без* |
| `ADV` | Adverb | Наречие | *quickly, very, well* | *быстро, очень, хорошо* |
| `AUX` | Auxiliary verb | Вспомогательный глагол | *is, have, will* | *(быть, есть – в значении вспомогательного глагола, было бы)* |
| `CCONJ` | Coordinating conjunction | Сочинительный союз | *and, but, or* | *и, но, или* |
| `DET` | Determiner | Определитель (артикль, указательные слова) | *the, a, this* | *(этот, та, те)* |
| `INTJ` | Interjection | Междометие | *wow, oh, hey* | *ух, ой, эй* |
| `NOUN` | Noun | Существительное | *dog, house, idea* | *собака, дом, идея* |
| `NUM` | Numeral | Числительное | *one, two, first, second* | *один, два, первый, второй* |
| `PART` | Particle | Частица | *not, 's, to (в инфинитиве)* | *не, бы, же* |
| `PRON` | Pronoun | Местоимение | *I, you, he, she, it* | *я, ты, он, она, это* |
| `PROPN` | Proper noun | Имя собственное | *London, John, Tesla* | *Москва, Иван, Яндекс* |
| `PUNCT` | Punctuation | Знаки препинания | *., !, ?, -* | *., !, ?, -* |
| `SCONJ` | Subordinating conjunction | Подчинительный союз | *if, because, although* | *если, потому что, хотя* |
| `SYM` | Symbol | Символы | *$, %, +, =* | *$, %, +, =* |
| `VERB` | Verb | Глагол | *run, eat, speak* | *бежать, есть, говорить* |
| `X` | Other | Другое (неизвестные или нерегулярные слова) | *неопознанные символы, иностранные слова* | *неизвестные или заимствованные слова* |

---

## **2. TAG-теги (Морфологические признаки)**

Эти теги дают более детальную информацию о слове, например, время глагола, падеж существительного и т. д.

| TAG-тег | Описание | Примеры |
|---------|----------|---------|
| `NOUN__Animacy=Anim` | Одушевленное существительное | *человек, собака* |
| `NOUN__Animacy=Inan` | Неодушевленное существительное | *стол, компьютер* |
| `ADJ__Degree=Pos` | Прилагательное, положительная степень | *большой, красивый* |
| `ADJ__Degree=Cmp` | Прилагательное, сравнительная степень | *больше, красивее* |
| `ADJ__Degree=Sup` | Прилагательное, превосходная степень | *самый большой, красивейший* |
| `VERB__Tense=Past` | Глагол в прошедшем времени | *бежал, сказал* |
| `VERB__Tense=Pres` | Глагол в настоящем времени | *бежит, говорит* |
| `VERB__Tense=Fut` | Глагол в будущем времени | *будет бежать, скажет* |
| `NUM__Case=Nom` | Числительное в именительном падеже | *один, два* |
| `PRON__Person=1` | Личное местоимение 1-го лица | *я, мы* |
| `PRON__Person=2` | Личное местоимение 2-го лица | *ты, вы* |
| `PRON__Person=3` | Личное местоимение 3-го лица | *он, она, оно* |

Для анализа морфологических тегов можно использовать `token.morph`:
```python
import spacy

nlp = spacy.load("ru_core_news_sm")
doc = nlp("Я видел красивую собаку.")

for token in doc:
    print(token.text, "->", token.tag_, "->", token.morph)
```

---

## **3. DEP-теги (Синтаксические зависимости)**

Эти теги показывают, как слова связаны друг с другом в предложении.

| DEP-тег | Описание | Примеры |
|---------|----------|---------|
| `nsubj` | Подлежащее | *Собака лает.* (*Собака* — подлежащее) |
| `obj` | Прямое дополнение | *Я читаю книгу.* (*книгу* — объект) |
| `iobj` | Косвенное дополнение | *Я дал другу книгу.* (*другу* — косвенное дополнение) |
| `root` | Главный глагол в предложении | *Он спит.* (*спит* — главное слово) |
| `advmod` | Обстоятельство | *Она говорит быстро.* (*быстро* — обстоятельство) |
| `amod` | Определение (прилагательное) | *Красивая кошка спит.* (*Красивая* — определение) |
| `cc` | Сочинительный союз | *Я иду и думаю.* (*и* — союз) |
| `conj` | Сочиненное слово | *Я иду и думаю.* (*думаю* — сочиненное слово) |
| `mark` | Подчинительный союз | *Я знаю, что ты здесь.* (*что* — союз) |
| `case` | Предлог | *Он сидит на стуле.* (*на* — предлог) |

Пример кода для анализа зависимостей:
```python
import spacy

nlp = spacy.load("ru_core_news_sm")
doc = nlp("Я люблю программирование.")

for token in doc:
    print(token.text, "->", token.dep_, "(", spacy.explain(token.dep_), ")")
```

---

## **Вывод**
- **POS** — показывает основную часть речи (глагол, существительное и т. д.).
- **TAG** — уточняет морфологические характеристики (время, число, падеж и т. д.).
- **DEP** — описывает синтаксическую связь слова с другими словами.
