### **Глава 7. Визуализация**

В этой главе вам предстоит научиться визуализировать синтаксическую структуру предложений и именованных сущностей в документе с помощью встроенных средств визуализации библиотеки spaCy — средства визуализации зависимостей displaCy и средства визуализации именованных сущностей displaCy.

#### **Знакомство с встроенными средствами визуализации spaCy**

In [25]:
import ru_core_news_lg
import spacy as sp
import sys

from spacy.tokens.doc import Doc
from spacy import displacy

nlp = sp.load('ru_core_news_lg')

Ознакомиться с онлайн визуализуацией можно на сайте: https://explosion.ai/software#spacy

#### **Средство визуализации зависимостей displaCy**
Средство визуализации зависимостей сразу же отображает синтаксическую структуру введенного текста, в том числе теги частей речи и синтаксические зависимости в нем.

In [26]:
doc = nlp(u"Фильм Солнцестояние является ярким примером фильма, который не нужно смотреть всей семьей.")
#sp.displacy.serve(doc, style="dep")
displacy.render(doc, style = 'dep')

#### **Средство визуализации именованных сущностей displaCy**

In [27]:
doc = nlp(u"Компания Google Inc основана в 1998 году (дата регистрации - 4 сентября 1998 года) Сергеем Брином и Лари Пейджем.")
#sp.displacy.serve(doc, style="ent") displacy.serve запустит веб-сервер, однако с этим проблемы

# Аналогичная функция
displacy.render(doc, style = 'ent')


В русской версии ограниченный вывод цветных сущностей, только: Персоны, Организации и Локации (PER, ORG, LOC)

In [28]:
doc = nlp(u"Microsoft Windows - это семейство проприетарных операционных систем, разработанных и продаваемых компанией Microsoft. Билл Гейтс анонсировал Microsoft Windows 10 ноября 1983 года. Microsoft впервые выпустила Windows в продажу 20 ноября 1985 года. Первоначально Windows 1.0 была продана за 100,00 долларов, а в апреле 1987 года ее продажи превысили 500 000 копий. Для сравнения, всего за первые 4 дня было продано более миллиона копий Windows 95.")
displacy.render(doc, style = 'ent')

#### **Визуализация по отдельным предложениям**

In [29]:
doc = nlp(u"У меня есть свободная пара джинсов. Теперь я хочу скини джинсы.")

spans = list(doc.sents)
displacy.render(spans, style = 'dep')

#### **Использование аргумента options средства визуализации зависимостей**

Шрифт, используемый средством визуализации, также меняется. (Полный список доступных опций можно найти в документации по API displaCy по адресу https://spacy.io/api/top-level/#options-dep/.)

In [30]:
doc = nlp(u"Я хочу греческую пиццу, очень сильно.")
options = {'compact': True, 'font': 'Arial', 'color': 'rgb(200, 0, 200)'}

displacy.render(doc, style='dep', options=options)

In [31]:
# параметр collapse_phrases не доступен для русского языка
options = {'compact': True, 'font': 'Arial', 'collapse_punct': False, 'collapse_phrases': False}


displacy.render(doc, style='dep', options=options)

#### **Использование аргумента options средства визуализации именованных сущностей**

Список опций средства визуализации именованных сущностей (его можно найти по адресу
 
https://spacy.io/api/top-level/#displacy_options-ent/) намного короче, чем у средства визуализации зависимостей. 

In [32]:
doc = nlp(u"В 2011 году Google запустила Google+, свой четвертый шаг в области социальных сетей, Сергей Брин не участвовал в этом.")
doc.user_data['title'] = "Пример визуализации объекта"

# дата не работает
options = {'ents': ["ORG", "DATE", "PER"], 'colors': {"ORG": "lightblue", "DATE": "green", "PER": "lightgreen"}}

displacy.render(doc, style='ent', options=options)

#### **Экспорт визуализации в файл**

In [44]:
doc = nlp(u"В 2011 году Google запустила Google+, свой четвертый шаг в области социальных сетей, Сергей Брин не участвовал в этом.")
doc.user_data['title'] = "Пример визуализации объекта"

html = displacy.render(doc, style='ent', page=True)
print(html)

from pathlib import Path
output_path = Path("visualizations/ent_visual.html")
output_path.open("w", encoding="utf-8").write(html)

None


TypeError: write() argument must be str, not None

#### **Форматирование данных**

In [46]:
sent = {
    "words": [
        {"text": "I", "tag": "PRON"},
        {"text": "want", "tag": "VERB"}, 
        {"text": "a", "tag": "DET"}, 
        {"text": "Greek", "tag": "ADJ"}, 
        {"text": "pizza", "tag": "NOUN"}], 
    
    "arcs": [
        {"start": 0, "end": 1, "label": "nsubj", "dir": "left"}, 
        {"start": 2, "end": 4, "label": "det", "dir": "left"}, 
        {"start": 3, "end": 4, "label": "amod", "dir": "left"}, 
        {"start": 1, "end": 4, "label": "dobj", "dir": "right"}] }

displacy.render(sent, style="dep", manual=True)