<a target="_blank" href="https://colab.research.google.com/github/knapweedss/TextMining_HSE/blob/main/autumn_2024/sem03/Sem3.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Библиотеки

Есть несколько библиотек для работы с грамматикой. Все они выполняют ряд релевантных для нас задач:

<br>

*   токенизация,
*   лемматизация,
*   морфологическая и
*   синтаксическая разметка текста.

<br>

В целом применение библиотек выглядит похоже:

<br>

*   скачиваем библиотеку,
*   подружаем анализатор,
*   анализируем текст / cлово,
*   обращаемся к разметке, чтобы выполнить другие задачи.

<br>

Посмотрим на то, как это работает.

Возьмем этот текст:

In [None]:
text = 'В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга. Третьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно. Потом я отошел, чтобы издали взглянуть, не криво ли он висит. Но когда я взглянул, то у меня похолодели ноги, а волосы встали на голове дыбом. Вместо Карла Ивановича Шустерлинга на меня глядел со стены страшный, бородатый старик в дурацкой шапочке. Я с криком выскочил из комнаты.'

In [None]:
text

'В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга. Третьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно. Потом я отошел, чтобы издали взглянуть, не криво ли он висит. Но когда я взглянул, то у меня похолодели ноги, а волосы встали на голове дыбом. Вместо Карла Ивановича Шустерлинга на меня глядел со стены страшный, бородатый старик в дурацкой шапочке. Я с криком выскочил из комнаты.'

# Библиотеки, основанные на правилах

## PyMorphy2

Эта библиотека нам известна с прошлого семинара.

<br>
Шаг 1. Cкачаем ее:

In [None]:
! pip install pymorphy2



Шаг 2. Подгрузим анализатор:

In [None]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

Шаг 3. Проанализируем слово:

In [None]:
word = morph.parse('комнате')
word

[Parse(word='комнате', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='комната', score=0.818181, methods_stack=((DictionaryAnalyzer(), 'комнате', 55, 6),)),
 Parse(word='комнате', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='комната', score=0.181818, methods_stack=((DictionaryAnalyzer(), 'комнате', 55, 2),))]

Убедимся, что анализатор вернул все возможные разборы, отранжировав их по вероятности (*score*).

<br>

Выведем информацию о морфологических признаках и начальной форме слова:

In [None]:
# word[0] => первый разбор

print('Морфологические признаки слова:', word[0].tag)
print('Начальная форма слова:', word[0].normal_form)

Морфологические признаки слова: NOUN,inan,femn sing,loct
Начальная форма слова: комната


### Немного практики

Потренируемся.
<br>
<br>
Библиотека *PyMoprhy2* может строить предположения в том числе о несуществующих словах. Проверим?
<br>
<br>
Возьмите любое слово из предложения ниже и предложите анализатору.

<br>

```
Глокая куздра штеко будланула бокра и курдячит бокрёнка.
```



In [None]:
# YOUR CODE HERE

## PyMystem3

Похожим образом работает и библиотека *PyMystem3*.
<br>
<br>
Шаг 1. Сначала ее скачаем:

In [None]:
! pip install PyMystem3



Шаг 2. Подгрузим анализатор:

In [None]:
from pymystem3 import Mystem
morph = Mystem()

Шаг 3. Проанализируем текст:

In [None]:
text_mystem = morph.analyze(text)

# Вот, что у нас получилось
text_mystem[:5]

[{'analysis': [{'lex': 'в', 'wt': 0.9999917878, 'gr': 'PR='}], 'text': 'В'},
 {'text': ' '},
 {'analysis': [{'lex': 'мой',
    'wt': 1,
    'gr': 'APRO=(пр,ед,жен|дат,ед,жен|род,ед,жен|твор,ед,жен)'}],
  'text': 'моей'},
 {'text': ' '},
 {'analysis': [{'lex': 'комната', 'wt': 1, 'gr': 'S,жен,неод=(пр,ед|дат,ед)'}],
  'text': 'комнате'}]

Выведем информацию о морфологических признаках и начальной форме того же слова:

In [None]:
# [4], потому что пробел PyMystem3 считает за слово

print('Морфологические признаки слова:', text_mystem[4]['analysis'][0]['gr'])
print('Начальная форма слова:', text_mystem[4]['analysis'][0]['lex'])

Морфологические признаки слова: S,жен,неод=(пр,ед|дат,ед)
Начальная форма слова: комната


<br>

Сравним с тем, что выдал *PyMorphy2*:
```
Морфологические признаки слова: NOUN,inan,femn sing,loct
Начальная форма слова: комната
```

### Немного практики

Вернемся к нашему предложению



```
Глокая куздра штеко будланула бокра и курдячит бокрёнка.
```

Посмотрите, как библиотека PyMystem3 справится с тем же словом, которое вы анализировали ранее.


In [None]:
# YOUR CODE HERE

## Сравним

Обе библиотеки разработаны специально для русского языка. Они опираются на словари и правила и выдают для каждого слова те разборы, которые в принципе для них возможны.

<br>

**Что эти разборы значат?**

<br>

Это сокращенные обозначения морфологических признаков, известных вам из школы: род, число, падеж и прочие.

Например: *NOUN* - имя существительное; *datv* - дательный падеж.

От библиотеки к библиотеки эти сокращения могут отличаться, поэтому лучше читайте документации. (См. [*PyMorphy2*](https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html#grammeme-docs) и [*PyMystem3*](https://yandex.ru/dev/mystem/doc/ru/grammemes-values)).

<br>

**Скорость и качество**

<br>

*PyMorphy2* работает быстрее, чем *PyMystem3*. Качество лучше у последнего.
<br>
<br>

**Проблема**
<br>
<br>
Разные разборы для одного и того же слова - это проблема. У слова *комнате* таких разборов два: единственное число, дательный или предложный падеж. А вот у слова *такси* их 12!
<br>
<br>

Обычно контекст позволяет точно сказать, в каком числе и падеже стоит то или иное слово. Но библиотеки, расмотренные нами, не обращают внимания на контекст. Поэтому обратимся к тем, которые обращают.  

# Библиотеки, которые могут снимать омонимию



## spaCy

Первая такая библиотека - это spaCy.

<br>

Шаг 1. Скачаем ее:

In [None]:
! pip install spacy



Шаг 2. Подгрузим анализатор:

In [None]:
!python -m spacy download ru_core_news_sm # скачиваем модель для русского языка
import spacy
nlp_spacy = spacy.load("ru_core_news_sm")

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


Шаг 3. Проанализируем текст:

In [None]:
text_spacy = nlp_spacy(text)

Выведем информацию о морфологических признаках и начальной форме слова *комнате* :

In [None]:
print('Морфологические признаки:', text_spacy[2].morph)
print('Начальная форма:', text_spacy[2].lemma_)

Морфологические признаки: Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing
Начальная форма: комната


Пока радуемся, что у слова только один падеж, выведем информацию о его синтаксической роли в предложении (подлежащее, дополнение и т.п.):

In [None]:
print('Синтаксическая роль:', text_spacy[2].dep_)
# Косвенное дополнение

Синтаксическая роль: obl


## Stanza

Есть еще библиотека Stanza.

Шаг 1. Скачаем ее:

In [None]:
! pip install stanza



Шаг 2. Подгрузим анализатор:

In [None]:
import stanza
stanza.download("ru")
nlp_stanza = stanza.Pipeline(lang="ru", processors="tokenize, pos, lemma, depparse")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: ru (Russian) ...
INFO:stanza:File exists: /root/stanza_resources/ru/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package            |
----------------------------------
| tokenize  | syntagrus          |
| pos       | syntagrus_charlm   |
| lemma     | syntagrus_nocharlm |
| depparse  | syntagrus_charlm   |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: pos
  checkpoint = torch.load(filename, lambda storage, loc: storage)
  data = torch.load(self.filename, lambda storage, loc: storage)
  state = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: lemma
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: depparse
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Done loading processors!


Шаг 3. Проанализируем текст:

In [None]:
text_stanza = nlp_stanza(text)

Выводем информацию о морфологических признаках и начальной форме слова *комнате* :

In [None]:
word_stanza = text_stanza.sentences[0].words[2]
print('Морфологические признаки:', word_stanza.feats)
print('Начальная форма:', word_stanza.lemma)

Морфологические признаки: Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing
Начальная форма: комната


Выведем информацию о синтаксической роли слова в предложении:

In [None]:
print('Синтаксическая роль', word_stanza.deprel)

Синтаксическая роль obl


## Немного практики

<br>

*spaCy* можно использовать для распознавания именнованных сущностей, выделять в тексте имена людей, организаций, мест и под.

<br>

Возьмите этот текст и выпишите из него все "именнованные сущности". Вам поможет код:

```
for ent in doc.ents:
    print(ent.text, ent.label_)
```

In [None]:
a = '''Двухэтажный угловой домик на Елисейских полях в Нью-Орлеане - улице
между рекой и железнодорожными путями. Убогая окраина, и есть в ней, однако,
в ее захудалости - не  в  пример  таким  же  задворкам  других  великих
американских городов - какая-то совершенно особая, забористая краса. Дома
здесь  все больше белые, пооблинявшие от непогоды, с вычурными фронтонами,
обстроены шаткими лесенками и галерейками. В домике две квартиры - вверху и
внизу, к дверям обеих ведут обшарпанные белые лесенки.

Из-за угла с чемоданом в руке подходит Бланш. Смотрит на клочок бумаги,
на дом, снова на записку и снова на дом. Непонятно поражена и словно не
верит глазам своим.

Она лет на пять старше Стеллы.'''

In [None]:
# YOUR CODE HERE

## Сравним

Обе библиотеки используюют для разметки модели машинного обучения. У этого есть ряд достоинств:
<br>
<br>


*   наивысшая точность;
*   снятие неоднозначности с опорой на контекст;
*   более точные предсказания для редких / новых слов, которых нет в словаре.

<br>


Но есть свои недостатки:

<br>

*   работают дольше;
*   испытывают влияние обучающей выборки (например, spaCy обучался на новостных текстах и лучше справляется именно с ними).

<br>

**Немного о синтаксической разметке**.

У нее, как и у морфологической, есть свои обозначения. Подробнее - [здесь](https://universaldependencies.org/ru/index.html).

Все это сильно отличается от того синтаксиса, который преподаётся в школе. Но пригодится вам, скорее всего, только это:

<br>

*   nsubj - подлежащее-существительное,
*   obj - прямое дополнение (то, что в винительном падеже и без предлога),
*   obl - косвенное дополнение,
*   amod - прилагательное-определение,
*   advmod - наречие-обстоятельство,
*   nmod - зависимое существительное в родительном падеже или с предлогом.

# Сравнение библиотек


|  Библиотека |  Метод | Качество  |  Скорость | Требовательность к ресурсам  |
|:---|:---:|:---:|:---:|:---:|
| pymorphy2  |  правила | среднее  | высокая  | очень низкая |
|  Pymystem3 | правила  | высокое  | высокая  | низкая  |
|  Spacy |  машинное обучение |  высокое | средняя  | средняя  |
|  Stanza |  машинное обучение |  очень высокое | низкая  | высокая  |

# Работаем с текстами большого объема

Возьмем датасет с несколькими сотнями новостей с сайта Панорама.

In [None]:
import pandas as pd # библиотека для работы с таблицами (о ней - на следующем семинаре)
import numpy as np # библиотека для выполнения быстрых математических вычислений

! wget https://raw.githubusercontent.com/knapweedss/TextMining_HSE/main/2023_spring/sem3/panorama_corpus.tsv

--2024-09-10 12:14:06--  https://raw.githubusercontent.com/knapweedss/TextMining_HSE/main/2023_spring/sem3/panorama_corpus.tsv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1515833 (1.4M) [text/plain]
Saving to: ‘panorama_corpus.tsv.2’


2024-09-10 12:14:06 (34.0 MB/s) - ‘panorama_corpus.tsv.2’ saved [1515833/1515833]



In [None]:
! ls

panorama_corpus.tsv  panorama_corpus.tsv.1  panorama_corpus.tsv.2  sample_data


In [None]:
panorama_corpus = pd.read_csv('panorama_corpus.tsv', sep='\t')
panorama_corpus

Unnamed: 0,index,date,sphere,title,text,link
0,0,4-3-2023,Общество,Гражданам разрешили добывать нефть и газ на св...,Государственная дума приняла в третьем чтении ...,https://panorama.pub/news/grazdanam-razresili-...
1,1,4-3-2023,Политика,Китай подал заявку на вступление в Союзное гос...,Заведующий Канцелярией Комиссии ЦК КПК по инос...,https://panorama.pub/news/kitaj-podal-zaavku-n...
2,2,4-3-2023,Политика,Деколонизаторки из Франции потребовали вернуть...,Активисты движения «Смерть колониализму» из Па...,https://panorama.pub/news/dekolonizatorki-iz-f...
3,3,4-3-2023,Политика,Победа России: Госдума пересмотрела результаты...,Государственная дума приняла постановление «Об...,https://panorama.pub/news/gosduma-peresmotrela...
4,4,3-3-2023,Общество,Бездетных россиян будут ежегодно штрафовать,Государственная дума приняла в первом чтении з...,https://panorama.pub/news/bezdetnyh-rossian-pr...
...,...,...,...,...,...,...
620,620,25-11-2022,Экономика,Напиток «Буратино» уходит из России вместе с C...,Знаменитый советский лимонад «Буратино» оконча...,https://panorama.pub/news/napitok-buratino-uho...
621,621,25-11-2022,Общество,"В Нижневартовске разыскивают местного жителя, ...","В Нижневартовске ищут местного жителя, который...",https://panorama.pub/news/v-niznevartovske-raz...
622,622,25-11-2022,Общество,Петербург учредит свой собственный часовой пояс,Депутаты Заксобрания Петербурга единогласно пр...,https://panorama.pub/news/peterburg-perejdet-n...
623,623,25-11-2022,Общество,Каждый россиянин получит бесплатно по ящику во...,C 10 декабря каждый гражданин России сможет бе...,https://panorama.pub/news/kazdyj-rossianin-pol...


Будем использовать spaCy.
<br>
<br>

Сначала проанализируем текст только одной новости:

In [None]:
text_analyzed = nlp_spacy(panorama_corpus['text'][0])

Идем по каждому слову и выписываем его начальную форму, морфологические и синтаксические признаки.

Каждому слову прописываем номер (нам поможет функция *enumerate()* ). Остановимся на десятом.

In [None]:
for word_index, word in enumerate(text_analyzed):
  print([word, word.lemma_, word.pos_, str(word.morph), word.dep_])
  if word_index >= 10:
    break

[Государственная, 'государственный', 'ADJ', 'Case=Nom|Degree=Pos|Gender=Fem|Number=Sing', 'amod']
[дума, 'дума', 'NOUN', 'Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing', 'nsubj']
[приняла, 'принять', 'VERB', 'Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act', 'ROOT']
[в, 'в', 'ADP', '', 'case']
[третьем, 'третий', 'ADJ', 'Case=Loc|Degree=Pos|Gender=Neut|Number=Sing', 'amod']
[чтении, 'чтение', 'NOUN', 'Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing', 'obl']
[законопроект«О, 'законопроект«о', 'NOUN', 'Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing', 'nmod']
[внесении, 'внесение', 'NOUN', 'Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing', 'obj']
[изменении, 'изменение', 'NOUN', 'Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing', 'nmod']
[в, 'в', 'ADP', '', 'case']
[порядок, 'порядок', 'NOUN', 'Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing', 'nmod']


Теперь сделаем то же самое, но с текстом каждой новости. Это может занять сколько-то времени.

Каждому тексту приписываем его номер (с той же функцией *enumerate()* ).

In [None]:
words = []

for text_index, row in enumerate(panorama_corpus['text']):
  text_analyzed = nlp_spacy(row)
  for word_index, word in enumerate(text_analyzed):
    words.append([word_index, text_index, word, word.lemma_, word.pos_, str(word.morph), word.dep_])

Добавим все это в таблицу, с которой потом можно будет работать.

In [None]:
cols = ['index', 'text_index', 'word', 'lemma', 'pos', 'morph', 'synt_relation']
panorama_by_word = pd.DataFrame(words, columns = cols)

panorama_by_word

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation
0,0,0,Государственная,государственный,ADJ,Case=Nom|Degree=Pos|Gender=Fem|Number=Sing,amod
1,1,0,дума,дума,NOUN,Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing,nsubj
2,2,0,приняла,принять,VERB,Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Te...,ROOT
3,3,0,в,в,ADP,,case
4,4,0,третьем,третий,ADJ,Case=Loc|Degree=Pos|Gender=Neut|Number=Sing,amod
...,...,...,...,...,...,...,...
120284,154,624,ставить,ставить,VERB,Aspect=Imp|VerbForm=Inf|Voice=Act,xcomp
120285,155,624,вопрос,вопрос,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj
120286,156,624,подобным,подобный,ADJ,Case=Ins|Degree=Pos|Gender=Masc|Number=Sing,amod
120287,157,624,образом,образ,NOUN,Animacy=Inan|Case=Ins|Gender=Masc|Number=Sing,obl
