<a href="https://colab.research.google.com/github/katrin2202/NLP/blob/main/Untitled6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Работа с объектами-контейнерами и настройками spaCy под свои нужды

##Получение индекса токена в объекте Doc

In [14]:
import spacy
from spacy.tokens.doc import Doc
from spacy.vocab import Vocab

Здесь вызываем конструктор класса `Doc` и передаем ему два параметра: объект `vocab` — контейнер хранилища со словарными данными и список токенов для добавления в создаваемый объект `Doc`

In [10]:
doc = Doc(Vocab(), words=[u'Hi', u'there'])
doc

Hi there 

## Обход в цикле синтаксических дочерних элементов токена

Нам потребуется установить и загрузать пакет обученного конвейера по умолчанию

In [None]:
!python -m spacy download en_core_web_sm

In [19]:
nlp = spacy.load("en_core_web_sm")

Для получения программным образом левосторонних дочерних элементов токена *apple* в данном предложении можно воспользоваться следующим кодом:

In [21]:
doc = nlp("I want a green apple.")
[w for w in doc[4].lefts]

[a, green]

У слова *apple* есть только левосторонние синтаксические дочерние элементы. На практике это означает, что можно заменить атрибут `Token.lefts` на `Token.children`, служащий для поиска всех дочерних элементов токена:

In [22]:
[w for w in doc[4].children]

[a, green]

Можно также использовать атрибут `Token.rights` для получения правосторонних синтаксических дочерних элементов:
Но слово *apply* само является правосторонним дочерним элементом слова want

In [23]:
[w for w in doc[4].rights]

[]

## Контейнер `doc.sents`

Cмысл синтаксических меток, присваиваемых токенам, проявляется лишь в контексте предложения, где встречается данный токен.
С помощью свойства `doc.sents` объекта `Doc` текст можно разделить на отдельные предложения, как показано в следующем примере:

Здесь проходим по предложениям из объекта `doc`, создавая отдельный список токенов для каждого предложения

In [25]:
doc = nlp(u'A severe storm hit the beach. It started to rain.')
for sent in doc.sents:
  print([sent[i] for i in range(len(sent))])

[A, severe, storm, hit, the, beach, .]
[It, started, to, rain, .]


В то же время можно ссылаться на токены в состоящем из множества предложений тексте с помощью глобальных индексов уровня документа, как показано вот здесь:

In [26]:
[doc[i] for i in range(len(doc))]

[A, severe, storm, hit, the, beach, ., It, started, to, rain, .]

Возможность ссылаться на объекты `Token` в документе по их индексам уровня предложения удобна, когда нужно, например, проверить, является ли первое слово во втором предложении обрабатываемого текста местоимением

In [27]:
for i,sent in enumerate(doc.sents):
  if i==1 and sent[0].pos_== 'PRON':
    print('The second sentence begins with a pronoun.')

The second sentence begins with a pronoun.


Выбор первого слова в предложении — элементарная задача, поскольку его индекс всегда равен 0. А как насчет последнего? Например, что делать, если необходимо определить, сколько предложений в тексте оканчивается глаголом (не считая точек и прочих знаков препинания)?

Хотя длины предложений различны, их можно легко вычислить с помощью функции `len()`. Вычитаем 2 из значения `len(sent)` по следующим причинам: во-первых, индексы всегда начинаются с 0 и заканчиваются на *size-1*, во-вторых, последний токен в обоих предложениях нашего примера текста — точка, которую не нужно учитывать.

In [28]:
counter = 0
for sent in doc.sents:
  if sent[len(sent)-2].pos_ == 'VERB':
    counter+=1
print(counter)

1


## Контейнер `doc.noun_chunks`

С помощью свойства `doc.noun_chunks` объекта `Doc` можно пройти по именным фрагментам. Именной фрагмент (*noun chunk*) — это фраза, главным элементом которой является существительное.

In [52]:
doc = nlp(u'A noun chunk is a phrase that has a noun as its head.')
for chunk in doc.noun_chunks:
  print(chunk)

A noun chunk
a phrase
that
a noun
its head


Или же для извлечения именных фрагментов можно обойти в цикле существительные в предложении и найти синтаксические дочерние элементы каждого существительного, чтобы из них образовать именные фрагменты.

In [62]:
for token in doc:
  if token.pos_=='NOUN':
    chunk = ''
    for w in token.children:
      if w.pos_ == 'DET' or w.pos_ == 'ADJ':
        chunk = chunk + w.text + ' '
    chunk = chunk + token.text
    print(chunk)

noun
A chunk
a phrase
a noun
head


In [50]:
doc=nlp('I want a green apple.')
doc[2:5]

a green apple