#Разметка корпуса и работа с ним

На этом семинаре у нас две задачи:

1. Научиться делать морфологическую и синтаксическую разметку корпуса.
2. Научиться работать с ним: извлекать и обобщать информацию.

[Ссылка](https://colab.research.google.com/drive/1CriijFyazxjU6PrkiR8vW1XWhz2GL2pq?usp=sharing) на тетрадку в Google Colab.

In [None]:
!pip install spacy

In [None]:
#Работа с таблицами — понадобится, чтобы хранить наш корпус
import pandas as pd

#Выполнение быстрых математических вычислений — пригодится, потому что иначе
#корпус с большим количеством текстов может долго обрабатываться
import numpy as np

#Разметка морфологии и синтаксиса
import spacy



In [None]:
#Считываем из файла выкачанный раньше корпус

panorama_corpus = pd.read_csv('panorama_corpus.tsv', sep='\t')

In [None]:
panorama_corpus.head()

Unnamed: 0,index,date,sphere,title,text,link
0,0,4-3-2023,Общество,Гражданам разрешили добывать нефть и газ на св...,Государственная дума приняла в третьем чтении ...,https://panorama.pub/news/grazdanam-razresili-...
1,1,4-3-2023,Политика,Китай подал заявку на вступление в Союзное гос...,Заведующий Канцелярией Комиссии ЦК КПК по инос...,https://panorama.pub/news/kitaj-podal-zaavku-n...
2,2,4-3-2023,Политика,Деколонизаторки из Франции потребовали вернуть...,Активисты движения «Смерть колониализму» из Па...,https://panorama.pub/news/dekolonizatorki-iz-f...
3,3,4-3-2023,Политика,Победа России: Госдума пересмотрела результаты...,Государственная дума приняла постановление «Об...,https://panorama.pub/news/gosduma-peresmotrela...
4,4,3-3-2023,Общество,Бездетных россиян будут ежегодно штрафовать,Государственная дума приняла в первом чтении з...,https://panorama.pub/news/bezdetnyh-rossian-pr...


##Разметка

В Python есть много уже готовых средств для анализа текста: nltk, pymorphy2, pymystem3, spaCy и т. д. Разные модули лучше работают для разных языков: из перечисленных первый лучше работает для английского, второй — для русского и украинского, третий — только для русского, четвёртый содержит модели для многих языков.

Мы будем использовать [spaCy](https://spacy.io/). Это модуль, который обладает очень широкой функциональностью и содержит [обученные модели](https://spacy.io/models) для множества языков, в том числе для всех групп нашего курса, кроме арабской.

Но осторожно — для конкретного языка может быть собственный, более точный инструмент!

In [None]:
#Скачиваем обученную для русского языка модель
!python -m spacy download ru_core_news_md

In [None]:
#Загружаем модель
nlp = spacy.load("ru_core_news_md")

### Функциональность spaCy

Теперь мы можем использовать загруженную модель, чтобы разбить текст на предложения, разбить предложения на слова, выполнить морфологическую и синтаксическую разметку и т. д.

In [None]:
#Анализируем текст загруженной моделью

text = '''Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.

"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.

* * *

Читатель, вдумайся в эту басню, и тебе станет не по себе.'''

text_analyzed = nlp(text)

In [None]:
#Выглядит новая переменная, как текст, но на самом деле это особый объект spaCy
#в котором содержится много всего интересного

text_analyzed

Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.

"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.

* * *

Читатель, вдумайся в эту басню, и тебе станет не по себе.

In [None]:
#Делим на предложения

sentences = [sent.text.strip() for sent in text_analyzed.sents]

sentences[:3]

['Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше".',
 'Только он это сказал, как смотрит — перед ним волшебница.',
 'А человек небольшого роста стоит и от страха ничего сказать не может.']

In [None]:
#Получаем сколько-то токенов

tokens = [token.text.strip() for token in text_analyzed]

tokens[:15]

['Один',
 'человек',
 'небольшого',
 'роста',
 'сказал',
 ':',
 '"',
 'Я',
 'согласен',
 'на',
 'все',
 ',',
 'только',
 'бы',
 'быть']

In [None]:
#Лемматизация

text_analyzed[4].lemma_

'сказать'

In [None]:
#Часть речи

text_analyzed[4].pos_

'VERB'

In [None]:
#Морфологическая разметка

text_analyzed[4].morph

Aspect=Perf
Gender=Masc
Mood=Ind
Number=Sing
Tense=Past
VerbForm=Fin
Voice=Act


In [None]:
#Это объект, по которому можно итерировать

for morph in text_analyzed[4].morph:
  print(morph)

#Если нужны просто все грамматические признаки внутри строки, используйте str()

Aspect=Perf
Gender=Masc
Mood=Ind
Number=Sing
Tense=Past
VerbForm=Fin
Voice=Act


In [None]:
#Синтаксическая разметка

text_analyzed[1].dep_

'nsubj'

In [None]:
#Также можно узнать, от какого слова зависит то, которое вас интересует и какой
#у него номер в редложении

print(text_analyzed[1].dep_, text_analyzed[1].head,
      text_analyzed[1].head.i, sep=', ')

nsubj, сказал, 4, [Один, человек, небольшого, роста]


Больше о разметке можно прочесть [здесь](https://spacy.io/usage/linguistic-features).

#Задание

Получите морфологическую и синтаксическую разметку для первых трёх токенов из любой новости. Выведите её влюбом удобном виде.

In [None]:
#Впишите сюда код



## Структура корпуса

Перед тем как продолжать, необходимо продумать структуру корпуса. Есть мета-информация о текстах, есть разметка по словам, гипотетически может быть разметка на уровне предложений. Всю эту информацию имеет смысл не смешивать, а хранить в отдельных табличках (при этом мы фактически создаём реляционную базу данных).

Для наших целей оставим две таблички: одну, которую мы уже загрузили, и вторую, в которой будет разметка для каждого слова.

In [None]:
#Пройдёмся по каждому слову каждой из новостей и добавим в новую табличку
cols = ['index', 'text_index', 'word', 'lemma', 'pos', 'morph',
        'synt_relation', 'head']
words = []

for text_index, row in enumerate(panorama_corpus['text']):
  news_nlp = nlp(row)
  for word_index, word in enumerate(news_nlp):
    words.append([word_index, text_index, word, word.lemma_, word.pos_,
                  str(word.morph), word.dep_, word.head])

panorama_by_word = pd.DataFrame(words, columns = cols)

In [None]:
panorama_by_word.head()

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation,head
0,0,0,Государственная,государственный,ADJ,Case=Nom|Degree=Pos|Gender=Fem|Number=Sing,amod,дума
1,1,0,дума,дума,NOUN,Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing,nsubj,приняла
2,2,0,приняла,принять,VERB,Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Te...,ROOT,приняла
3,3,0,в,в,ADP,,case,чтении
4,4,0,третьем,третий,ADJ,Case=Loc|Degree=Pos|Gender=Neut|Number=Sing,amod,чтении


##Работа с таблицами с помощью Pandas

С полученной таблицей можно сделать очень много всего: извлечь любые данные, аггрегировать, представить в виде, удобном для построения графиков или статистического анализа.

In [None]:
#Ищем по любой колонке — например, по лемме

panorama_by_word[panorama_by_word['lemma'] == 'стол']

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation,head
14768,101,79,столу,стол,NOUN,Animacy=Inan|Case=Dat|Gender=Masc|Number=Sing,obl,подавал
39515,120,210,стола,стол,NOUN,Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing,obl,приобрести
74189,287,389,столе,стол,NOUN,Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing,nmod,появления
81556,135,423,столы,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur,obj,предлагают
81814,188,424,столах,стол,NOUN,Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur,obl,есть
93824,74,488,стол,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj,накрыть
109221,4,569,стол,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj,анонсировала
110873,3,578,стола,стол,NOUN,Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing,obl,обсудили
112665,77,587,стол,стол,NOUN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,nsubj:pass,проведён


In [None]:
#Ищем по больше, чем одному параметру

panorama_by_word[(panorama_by_word['lemma'] == 'стол') &
                 (panorama_by_word['synt_relation'] == 'obj')]

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation,head
81556,135,423,столы,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur,obj,предлагают
93824,74,488,стол,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj,накрыть
109221,4,569,стол,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj,анонсировала


In [None]:
#Создаём частотный список для столбца
#.groupby() группирует таблицу по значением одного из столбцов, собирает вместе
#После этого со сгруппированными значениями можно что-то сделать: посчитать,
#сложить, найти среднее и т. д. Методы .size() и .count() — считают элементы

panorama_by_word.groupby('lemma').size().nlargest(5)

lemma
,    8146
.    5532
в    4142
"    3463
и    2732
dtype: int64

# Задание

Посчитайте количество лемм так, чтобы среди них не учитывались пунктуационные знаки.

In [None]:
#Впишите сюда свой код



In [None]:
# Можно искать по подстроке, а не по полному совпадению

panorama_by_word[(panorama_by_word['lemma'] == 'стол') &
                 (panorama_by_word['morph'].str.contains('Number=Plur'))]

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation,head
81556,135,423,столы,стол,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur,obj,предлагают
81814,188,424,столах,стол,NOUN,Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur,obl,есть


In [None]:
#Более продвинутый уровень — к какому-то из столбцов можно применить функцию
#Например, посчитать количество символов для каждого из текстов, который у нас есть

panorama_corpus['len_text'] = panorama_corpus['text'].map(len)

#Можем выбрать этот столбец, чтобы посмотреть на него
panorama_corpus.loc[:, 'len_text']

0       991
1      1392
2      1673
3       776
4      1497
       ... 
620    1166
621    1120
622    1065
623     892
624    1037
Name: len_text, Length: 625, dtype: int64

In [None]:
#Численный параметр можно аггрегировать и посчитать для неё необходимую метрику
#Например, среднее:

panorama_corpus.aggregate('len_text').mean()

1188.632

In [None]:
#Медиану

panorama_corpus.aggregate('len_text').median()

1143.0

In [None]:
#Дисперсию, и так далее

panorama_corpus.aggregate('len_text').var()

103072.6432051282

In [None]:
#Если нужно использовать информацию сразу из двух таблиц, их можно объединить
#Только не целиком — иначе получится слишком огромная таблица, которая потратит
#Все наши ресурсы!

#Получим таблицу, которая содержит дату создания примера для каждого слова.
#Объединять будем по индексу текста

panorama_by_word = panorama_by_word.join(
    panorama_corpus.loc[:, ['index', 'date']].set_index('index'),
    on='text_index')

panorama_by_word

Unnamed: 0,index,text_index,word,lemma,pos,morph,synt_relation,head,date
0,0,0,Государственная,государственный,ADJ,Case=Nom|Degree=Pos|Gender=Fem|Number=Sing,amod,дума,4-3-2023
1,1,0,дума,дума,NOUN,Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing,nsubj,приняла,4-3-2023
2,2,0,приняла,принять,VERB,Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Te...,ROOT,приняла,4-3-2023
3,3,0,в,в,ADP,,case,чтении,4-3-2023
4,4,0,третьем,третий,ADJ,Case=Loc|Degree=Pos|Gender=Neut|Number=Sing,amod,чтении,4-3-2023
...,...,...,...,...,...,...,...,...,...
120287,154,624,ставить,ставить,VERB,Aspect=Imp|VerbForm=Inf|Voice=Act,xcomp,вправе,25-11-2022
120288,155,624,вопрос,вопрос,NOUN,Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing,obj,ставить,25-11-2022
120289,156,624,подобным,подобный,ADJ,Case=Ins|Degree=Pos|Gender=Masc|Number=Sing,amod,образом,25-11-2022
120290,157,624,образом,образ,NOUN,Animacy=Inan|Case=Ins|Gender=Masc|Number=Sing,obl,ставить,25-11-2022
