<a href="https://colab.research.google.com/github/katrin2202/NLP/blob/main/Untitled6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Работа с объектами-контейнерами и настройками spaCy под свои нужды

##Объекты-контейнеры бибилиотеки spaCy

###Получение индекса токена в объекте Doc

In [63]:
import spacy
from spacy.tokens.doc import Doc
from spacy.vocab import Vocab

Здесь вызываем конструктор класса `Doc` и передаем ему два параметра: объект `vocab` — контейнер хранилища со словарными данными и список токенов для добавления в создаваемый объект `Doc`

In [64]:
doc = Doc(Vocab(), words=[u'Hi', u'there'])
doc

Hi there 

### Обход в цикле синтаксических дочерних элементов токена

Нам потребуется установить и загрузать пакет обученного конвейера по умолчанию

In [87]:
!python -m spacy download en_core_web_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [88]:
nlp = spacy.load("en_core_web_sm")

Для получения программным образом левосторонних дочерних элементов токена *apple* в данном предложении можно воспользоваться следующим кодом:

In [67]:
doc = nlp("I want a green apple.")
[w for w in doc[4].lefts]

[a, green]

У слова *apple* есть только левосторонние синтаксические дочерние элементы. На практике это означает, что можно заменить атрибут `Token.lefts` на `Token.children`, служащий для поиска всех дочерних элементов токена:

In [68]:
[w for w in doc[4].children]

[a, green]

Можно также использовать атрибут `Token.rights` для получения правосторонних синтаксических дочерних элементов:
Но слово *apply* само является правосторонним дочерним элементом слова want

In [69]:
[w for w in doc[4].rights]

[]

### Контейнер `doc.sents`

Cмысл синтаксических меток, присваиваемых токенам, проявляется лишь в контексте предложения, где встречается данный токен.
С помощью свойства `doc.sents` объекта `Doc` текст можно разделить на отдельные предложения, как показано в следующем примере:

Здесь проходим по предложениям из объекта `doc`, создавая отдельный список токенов для каждого предложения

In [70]:
doc = nlp(u'A severe storm hit the beach. It started to rain.')
for sent in doc.sents:
  print([sent[i] for i in range(len(sent))])

[A, severe, storm, hit, the, beach, .]
[It, started, to, rain, .]


В то же время можно ссылаться на токены в состоящем из множества предложений тексте с помощью глобальных индексов уровня документа, как показано вот здесь:

In [71]:
[doc[i] for i in range(len(doc))]

[A, severe, storm, hit, the, beach, ., It, started, to, rain, .]

Возможность ссылаться на объекты `Token` в документе по их индексам уровня предложения удобна, когда нужно, например, проверить, является ли первое слово во втором предложении обрабатываемого текста местоимением

In [72]:
for i,sent in enumerate(doc.sents):
  if i==1 and sent[0].pos_== 'PRON':
    print('The second sentence begins with a pronoun.')

The second sentence begins with a pronoun.


Выбор первого слова в предложении — элементарная задача, поскольку его индекс всегда равен 0. А как насчет последнего? Например, что делать, если необходимо определить, сколько предложений в тексте оканчивается глаголом (не считая точек и прочих знаков препинания)?

Хотя длины предложений различны, их можно легко вычислить с помощью функции `len()`. Вычитаем 2 из значения `len(sent)` по следующим причинам: во-первых, индексы всегда начинаются с 0 и заканчиваются на *size-1*, во-вторых, последний токен в обоих предложениях нашего примера текста — точка, которую не нужно учитывать.

In [73]:
counter = 0
for sent in doc.sents:
  if sent[len(sent)-2].pos_ == 'VERB':
    counter+=1
print(counter)

1


### Контейнер `doc.noun_chunks`

С помощью свойства `doc.noun_chunks` объекта `Doc` можно пройти по именным фрагментам. Именной фрагмент (*noun chunk*) — это фраза, главным элементом которой является существительное.

In [89]:
doc = nlp(u'A noun chunk is a phrase that has a noun as its head.')
for chunk in doc.noun_chunks:
  print(chunk)

A noun chunk
a phrase
that
a noun
its head


Или же для извлечения именных фрагментов можно обойти в цикле существительные в предложении и найти синтаксические дочерние элементы каждого существительного, чтобы из них образовать именные фрагменты.

In [90]:
for token in doc:
  if token.pos_=='NOUN':
    chunk = ''
    for w in token.children:
       if w.pos_ == 'DET' or w.pos_ == 'ADJ':
         chunk = chunk + w.text + ' '
    chunk = chunk + token.text
    print(chunk)

noun
A chunk
a phrase
a noun
head


##Объект Span

Объект *Span* (от англ. span — «интервал») представляет собой часть объекта `Doc`.

In [117]:
doc=nlp('I want a green apple.')
doc[2:5]

a green apple

Объект Span включает несколько методов, самый интересный из которых — `span.merge()`. С его помощью интервал можно объединять в единый токен, производя повторную токенизацию документа.

In [148]:
doc = nlp(u'The Golden Gate Bridge is an iconic landmark in San Francisco.')
[doc[i] for i in range(len(doc))]

[The, Golden, Gate, Bridge, is, an, iconic, landmark, in, San, Francisco, .]

Каждому слову и знаку препинания соответствует отдельный токен.

С помощью метода `span.merge()` можно изменить поведение по умолчанию:



---

Поправка *Spacy* отказался от этого `span.merge()`метода с тех пор, как был создан этот учебник. Сейчас это можно сделать с помощью `doc.retokenize()`: https://spacy.io/api/doc#retokenize . 

---



In [149]:
with doc.retokenize() as retokenizer:
  attrs = {"LEMMA": "Golden Gate Bridge"}
  retokenizer.merge(doc[1:4], attrs=attrs)
with doc.retokenize() as retokenizer:
  attrs = {"LEMMA": "San Francisco"}
  retokenizer.merge(doc[7:9], attrs=attrs)
[doc[i] for i in range(len(doc))]

[The, Golden Gate Bridge, is, an, iconic, landmark, in, San Francisco, .]

In [150]:
for token in doc:
  print("{:<18}\t{:<18}\t{:<5}\t{:<5}".format(token.text, token.lemma_, token.pos_, token.dep_))

The               	the               	DET  	det  
Golden Gate Bridge	Golden Gate Bridge	PROPN	nsubj
is                	be                	AUX  	ROOT 
an                	an                	DET  	det  
iconic            	iconic            	ADJ  	amod 
landmark          	landmark          	NOUN 	attr 
in                	in                	ADP  	prep 
San Francisco     	San Francisco     	PROPN	pobj 
.                 	.                 	PUNCT	punct


##Настройка конвейера обработки текста под свои нужды

Посмотреть доступные для объекта `nlp` компоненты конвейера можно с помощью команды:

In [151]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

###Отключение компонентов конвейера

In [152]:
nlp = spacy.load('en_core_web_sm', disable=['parser'])

В данном случае мы создадим конвейер обработки без утилиты разбора зависимостей. При вызове такого экземпляра `nlp` для конкретного текста токены в этом тексте не получат метки зависимостей.

In [155]:
doc = nlp(u'I want a green apple.')
for token in doc:
  print("{:<6}\t{:<6}\t{:<5}".format(token.text, token.pos_, token.dep_))

I     	PRON  	     
want  	VERB  	     
a     	DET   	     
green 	ADJ   	     
apple 	NOUN  	     
.     	PUNCT 	     


###Пошаговая загрузка модели

In [194]:
nlp = spacy.load('en_core_web_sm')

Можете выяснить, где именно модель находится в вашей системе. Поможет вспомогательная функция `get_package_path`:

In [157]:
from spacy import util
util.get_package_path('en_core_web_sm')

PosixPath('/usr/local/lib/python3.7/dist-packages/en_core_web_sm')

Посмотрим модель и версию

In [158]:
print(nlp.meta['lang'] + '_' + nlp.meta['name'] + '-' + nlp.meta['version'])

en_core_web_sm-3.4.0


Иногда полезно взглянуть на список компонентов конвейера, используемых с моделью. Список можно получить из поля `pipeline` атрибута `nlp.meta`

In [159]:
nlp.meta['pipeline']

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

*код не работает*

In [None]:
lang = 'en'
pipeline = ['tagger', 'parser', 'ner']
model_data_path = '/usr/local/lib/python3.7/dist-packages/en_core_web_sm-3.4.0'
lang_cls = spacy.util.get_lang_class(lang)
nlp = lang_cls()
for name in pipeline:
  # component = nlp.create_pipe(name)
  nlp.add_pipe(name, name = name)
nlp.from_disk(model_data_path, exclude=pipeline)

###Настройка компонентов конвейера под свои нужды

In [169]:
doc = nlp(u'I need a taxi to Festy.')
for ent in doc.ents:
  print(ent.text, ent.label_)

Festy WORK_OF_ART


Метка `WORK_OF_AR` обозначает произведение искусства. Но нам нужно, чтобы средство распознавания сущностей классифицировало его как сущность типа `DISTRICT`.

Сначала добавим новую метку `DISTRICT` в список поддерживаемых типов сущностей.

In [170]:
LABEL = 'DISTRICT'
TRAIN_DATA = [
    ('We need to deliver it to Festy.', {
        'entities': [(25, 30, 'DISTRICT')]
    }),
    ('I like red oranges', {
        'entities': []
    })
  ]

Следующий этап — добавление новой метки сущности `DISTRICT` в компонент распознавания сущностей.

In [171]:
ner = nlp.get_pipe('ner')

Выполнив этот шаг, в полученный объект `ner` можно добавить новую метку с помощью метода `ner.add_label()`:

In [172]:
ner.add_label(LABEL)

1

Прежде чем приступить к обучению средства распознавания сущностей, необходимо отключить остальные конвейеры, чтобы во время обучения обновлялся только компонент распознавания сущностей:

In [173]:
nlp.disable_pipes('tagger')
nlp.disable_pipes('parser')

['parser']

Теперь можно начинать обучение компонента распознаванию сущностей на примерах данных из списка `TRAIN_DATA`, который был создан ранее в этом разделе:

*код исправлен*

In [182]:
optimizer = nlp.create_optimizer()
import random
from spacy.training.example import Example
for i in range(25):
  random.shuffle(TRAIN_DATA)
  for text, annotations in TRAIN_DATA:
    example = Example.from_dict(doc, annotations)
    nlp.update([example], sgd=optimizer)

По завершении выполнения можно проверить, как обновленный оптимизатор распознает токен Festy:

*не вышло*

In [183]:
doc = nlp(u'I need a taxi to Festy.')
for ent in doc.ents:
  print(ent.text, ent.label_)

Festy WORK_OF_ART




Теперь при необходимости можно загрузить обновленный компонент в новом сеансе, используя метод from_disk(). Чтобы убедиться в этом, закройте текущий сеанс интерпретатора, откройте новый и выполните следующий код:


*не работает*

In [None]:
ner.to_disk('/usr/to/ner')

In [None]:
import spacy
from spacy.pipeline import EntityRecognizer
nlp = spacy.load('en_core_web_sm', disable=['ner'])
ner = EntityRecognizer(nlp.vocab)
ner.from_disk('/usr/to/ner')
nlp.add_pipe(ner)

In [195]:
doc = nlp(u'We need to deliver it to Festy.')
for ent in doc.ents:
  print(ent.text, ent.label_)

Festy WORK_OF_ART


##Использование структур данных уровня языка С библиотеки spaCy

###Подготовка рабочей среды и получение текстовых файлов

In [196]:
!pip install Cython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


###Сценарий Cypthon

Создаем в одном из каталогов локальной файловой системы файл `spacytext.pyx` и вставляем в него следующий код:

In [209]:
f = open('spacytext.pyx', 'w')

In [210]:
f.write("""from cymem.cymem cimport Pool
from spacy.tokens.doc cimport Doc
from spacy.structs cimport TokenC
from spacy.typedefs cimport hash_t

cdef struct DocStruct:
  TokenC* c
  int length

cdef int counter(DocStruct* doc, hash_t tag):
  cdef int cnt = 0
  for c in doc.c[:doc.length]:
    if c.tag == tag:
      cnt += 1
  return cnt

cpdef main(Doc mydoc):
  cdef int cnt
  cdef Pool mem = Pool()
  cdef DocStruct* doc_ptr = <DocStruct*>mem.alloc(1, sizeof(DocStruct))
  doc_ptr.c = mydoc.c
  doc_ptr.length = mydoc.length
  tag = mydoc.vocab.strings.add('PRP')
  cnt = counter(doc_ptr, tag)
  print(doc_ptr.length)
  print(cnt)""")

623

In [211]:
f.close()

###Сборка модуля Cython

Создаем файл `setup.py` в каталоге, где располагается наш сценарий Cython. Файл должен содержать следующий код:

In [215]:
f = open('setup.py', 'w')

In [216]:
f.write('''from distutils.core import setup
from Cython.Build import cythonize

import numpy
setup(name='spacy text app',
      ext_modules=cythonize("spacytext.pyx", language="c++"),
      include_dirs=[numpy.get_include()]
      )''')

221

In [217]:
f.close()

После подготовки установочного сценария компилируем код Cython.
Сделать это можно из системного терминала:

In [218]:
!python setup.py build_ext --inplace

running build_ext
building 'spacytext' extension
creating build
creating build/temp.linux-x86_64-cpython-37
x86_64-linux-gnu-gcc -pthread -Wno-unused-result -Wsign-compare -DNDEBUG -g -fwrapv -O2 -Wall -g -fstack-protector-strong -Wformat -Werror=format-security -g -fwrapv -O2 -fPIC -I/usr/local/lib/python3.7/dist-packages/numpy/core/include -I/usr/include/python3.7m -c spacytext.cpp -o build/temp.linux-x86_64-cpython-37/spacytext.o
In file included from [01m[K/usr/local/lib/python3.7/dist-packages/numpy/core/include/numpy/ndarraytypes.h:1969:0[m[K,
                 from [01m[K/usr/local/lib/python3.7/dist-packages/numpy/core/include/numpy/ndarrayobject.h:12[m[K,
                 from [01m[K/usr/local/lib/python3.7/dist-packages/numpy/core/include/numpy/arrayobject.h:4[m[K,
                 from [01m[Kspacytext.cpp:774[m[K:
  [01;35m[K^~~~~~~[m[K
creating build/lib.linux-x86_64-cpython-37
x86_64-linux-gnu-g++ -pthread -shared -Wl,-O1 -Wl,-Bsymbolic-functions -Wl,-Bs

###Тестирование модуля

После успешного завершения процесса компиляции модуль `spacytext` будет добавлен в среду Python. Для его тестирования откройте сеанс Python и выполните команду:

In [219]:
from spacytext import main

In [223]:
import spacy
nlp = spacy.load('en_core_web_sm')
f= open("test.txt","rb")
contents =f.read()
doc = nlp(contents[:100000].decode('utf8'))
main(doc)

73
4


#Выделение и использование лингвистических признаков