# Введение в автоматическую обработку текстов

## Компьютерное представление текстов

Для начала вспомним о том, что тексты в программах представлены в виде последовательности символов. Символы при этом являются некоторыми числами-кодами. Можно привести в пример кодировки ASCII, Unicode и многие другие.

![title](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4f/ASCII_Code_Chart.svg/1920px-ASCII_Code_Chart.svg.png)

In [6]:
text = "Hello world!"
code = [ord(c) for c in text]
print("Text:'Hello world!''\nCode:'" + str(code)+"'")

Text:'Hello world!''
Code:'[72, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100, 33]'


Таким образом тексты в компьютере - последовательности чисел. Какие можно выделить свойства у данных последовательностей?
- Тексты имеют переменную длину
- Символы составляют слова, расположены не случайно. Большая часть комбинаций символов не имеет смысла, осмысленные тексты - очень небольшое подмножество всех возможных комбинаций символов
- Слова связаны с друг другом, связи могут быть через длительные промежутки

In [10]:
from random import randint

randtext = ""
for c in [chr(randint(20, 126)) for _ in range(100)]:
    randtext += c
print("Generated: '"+randtext+"'")

Generated: 'Z:Gg52nQ%p,.]`n5cv~{tw<)g6Oao@_E^<D+:B4x"kiHHNygB{T&@(F48* GxlLu5<Na7%?kKd!VW{)5!JM?C<'


Первое и третье замечания, на самом деле, очень сильно усложняет задачу. В качестве примера рассмотрим нейронную сеть:

![title](https://wiki.loginom.ru/images/multilayer-neural-net.svg)

Стандартные полносвязные и сверточные сети принимают на вход тензоры *фиксированного* размера, а, как мы отмечали ранее, тексты это последовательности *переменной* длины. 

Самое простое решение - пройтись окном фиксированного размера по всему тексту. Рассмотрим на примере задачи генерации: будем подавать на вход нескольки предыдущих символов и требовать предсказать следующий.

![title](img\Французские_булки.png)

1) input="съешь ещё этих мягких ф", output="р"

2) input="ъешь ещё этих мягких фр", output="а"

3) input="ешь ещё этих мягких фра", output="н"

<details>
  <summary>Результаты генерации текста</summary>
  
  x x x

по катых оспродиться в куках — все в неплу да в суде хлебе.
и под вечернем из тамаки
привада свечкой горого брать.

x x x

скоро сыни мось в петахи в трам
пахнет радости незримый свет,
оттого мне сколоткай росет
о ненеком не будешь сык.

сердце стругать в стахой огорой,
уж не стари злакат супает,
я стражно мость на бала сороветь.

в так и хорода дарин в добой,
слышу я в сердце снего на руку.
наше пой белой колько нежный думиной
отвотила рудовой бесть волоть.

x x x

вет распуя весерцы закланом
и под забылинким пролил.
и ты, ставь, как с веткам кубой
светят в оночест.
о весели на закото
с тровенной полет молокы.

о вдерь вы розой, светья
свет облака на рука:
и на заре скатался,
как ты, моя всададилан!

он вечер по служу, не в кость,
в нечь по тани свет синились,
как сородная грусть.
  
</details>

[Источник: Бредогенератор: создаем тексты на любом языке с помощью нейронной сети](https://habr.com/ru/post/470035/)

## Естественный язык и текст

*Глокая куздра штеко будланула бокра и курдячит бокрёнка (Л.В. Щерба 1930)*

Для решения проблемы выше и не только попробуем обратиться к науке, изучающей естественный язык - лингвистике.

### Что такое естественный язык?

Существует масса определений естественного языка, однако в данном курсе мы не испытываем в нем необходимости. Вместо этого давайте рассмотрим ключевые особенности естественных языков:
- Естественные языки никем специально не составлялись, а образовались в ходе коммуникации людей*.
- Их правила строго не регламентированы
- Некоторые правила меняются от региона к региону и во времени
- От правил можно отклоняться, и все всё равно будут понимать, о чём идет речь
- Правила неоднозначные

\*Есть и другие гипотезы происхождения языка.

Естественным языкам часто противопоставляются формальные языки, например, языки программирования (C++, Python) или математические формулы:
- Формальные языки строго определены
- Процесс разбора и поиска ошибок детерменирован
- Существуют эффективные алгоритмы (LL*-, LR-парсеры)

### Уровни языка

Давайте рассмотрим, из каких элементов состоит язык, как они связаны друг с другом, какие отношения устанавливаются между ними, в чем проявляется их единство. К языковым единицам относятся звуки, фонемы, морфемы, слова, фразеологизмы, словосочетания, предложения, тексты. Единицы языка тесно связаны друг с другом. Однородные единицы объединяются и образуют *уровни языка*.

| Единицы языка  | Уровни языка |
|:-------------:|:-------------:|
| Звуки, фонемы  | Фонетический  |
| Пробелы, точки и пр. | Графематический |
| Морфемы  | Морфемный  |
| Формы и классы слов  | Морфологический  |
| Словосочетания и предложения | Синтаксический  |

В задачах обработки текста традиционно выделяют следующие уровни языка:

*Графематический* - как разделять слова и предложения между собой.

*Морфологический* - как строить и изменять слова.

*Синтаксический* - как согласовывать между собой слова.

*Семантический* - как сообщить необходимую информацию.

*Стилистический* - насколько "уместно" применять те или иные слова, конструкции и т.п. в данном контексте.

Замечание: существуют и другие уровни языка, которые не будут рассматриваться в данном курсе.

## Графематический разбор

Дан "сырой" текст, например: 

    "Roses are red. Violets are blue."

Требуется разбить его на слова и предложения:

    [["Roses", "are", red"], ["Violets", "are", "blue"]]
    
Иногда возникают проблемы:
    
    "Я прочитал роман М.А. Булгакова. Великий писатель"
    
На какой из трёх точек заканчивается предложение?   

### Свойства различных языков

Естественные языки могут отличаться друг от друга. Рассмотрим наиболее существенные различия на примере русского и английского языков.

|                              | Русский        | Английский     |
|:----------------------------:|:-------------: |:--------------:|
|Флективность (словоизменение) | Сильная        | Слабая         |
|Порядок слов                  | свободный      | фиксированный  |
|Смысловая омонимия            | высокая        | высокая        |
|Частеречная омонимия          | умеренная      | сильная        |

#### Флективность (словоизменение)    

- Английский: a cat, many cat**s**, to the cat...

- Русский: кошка, много кош**ек**, кошк**е**

Для очищения текста от лишней информации можно применить *стемминг* - отбрасывание всех морфем кроме главных: 
- cats -> cat
- кошке -> кош

В каком языке в результате применения стемминга будет теряться больше информации?

#### Порядок слов

*Только рупор капитана их к отплытью призовёт - призовёт капитана или рупор капитана?*
    
Русский (свободный):
- Вы говорите по-английски?
- Говорите вы по-английски?
- По-английски говорите вы?

Английский (утверждение: подлежащее, сказуемое, дополнение; общий вопрос: сказуемое, подлежащее, дополнение):
 - Do you speak English?
 
 
 Порядок слов в английском можно менять, но от этого будет сильно меняться значение или стиль (утверждение, вопрос и т.д.).
 
 ![title](img\English.jpg)
 
 Связанная задача - синтаксический разбор (построение синтаксического дерева). 
 ![title](https://studme.org/htm/img/15/1720/238.png)

#### Смысловая омонимия

Как определить значение, в котором находится слово в данном тексе? 

    Ключ - предмет/устройство для хапирания/отпирания замков, шифров и т.п. (отпереть ключом)

    Ключ - источник воды (бить ключом)

    Перебор - поочередное взятие чего-либо (перебор двигателя)

    Перебор - лишнее, больше, чем нужно (это был бы уже явный перебор)

Задача снятие смысловой неоднозначности (word sense disambigation). Способы:
- Cистемы правил
- Hidden Markov Model
- Conditional Random Fields
- Нейронные сети

#### Частеречная омонимия

*Печь - существительное или глагол?*

- Мама **мыла** раму (мыть=гл.)

- В ванной нет **мыла** (мыло=сущ.)

- Косил косой косой косой

- Green green greens green green

Необходимо снять неоднозначность частей речи: Part of speech(POS) tagging или POS-теггинг. 
- Cловари, системы правил
- Hidden Markov Model
- Conditional Random Fields

## Морфологический анализ

Морфология - раздел лингвистики, основным предметом изучения которого является:
- Словоизменение: бежать - бегу - бежишь - бежит - бегут...
- Словобразование: рыба - рыбка - рыбный - рыбак...

Ещё раз вернемся к примеру c словоизменением слова "кошка". 

    В.И. Алия гладил кошку, удобно расположившись на кресле.

*Словоформа* - слово в тексте **кошку**

*Лемма* - словарная словарная форма слова **кошка**

*Морфема* - минимальная морфологическая единица **кош**, **к**

*Граммема* - грамматические значения **существительное**, **ед. число**, **женский род**, **Винительный падеж**

*Парадигма* - список словоформ одной лексемы (слова)

![title](img\cat.png)

Последовательно применим всё, что мы изучили, для слова "кошка":

    Стемминг: кош
    Лемматизация: кошка
    POS-теггинг: кошка|S
    Определение граммем: кошка|S,sg,f,acc
    Синтаксическое дерево (определение предка): кошка|S,sg,f,acc,parent=1
    
[Используемые обозначения](https://yandex.ru/dev/mystem/doc/grammemes-values.html)

**Задание**: проделайте то же самое с выделенным словом.

- Лично я **ловлю** покемонов не одобряю.

### Извлечение именнованных сущностей

Bill  Gates  is  one  of  the  founders  of  Microsoft,  a company well-known in USA and all over the world. 

\[PERSON  Bill  Gates\]  is  one  of  the  founders  of  \[ORGANIZATION Microsoft\],  a company well-known in \[LOCATION USA\] and all over the world. 

[Список инструментов](https://nlpub.ru/%D0%98%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D1%83%D1%89%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9)

# Инструменты
## Корпусы текстов

- [НКРЯ](https://ruscorpora.ru/new/)
- [OpenCorpora](http://opencorpora.org/)
- [ГКРЯ](http://www.webcorpora.ru/ru/)
- [WordNet](https://wordnet.princeton.edu/)

#### Простой пример: снятие неоднозначности на основе частоты

    стекла{стекло:101.30=S|стекать:7.40=V}

    печь{печь:34.50=S|печь:7.40=V}

## Готовые решения

- [mystem](https://yandex.ru/dev/mystem/)
- [TreeTagger](https://www.cis.lmu.de/~schmid/tools/TreeTagger/)
- [nltk](https://www.nltk.org/)
- [pymorphy2](https://pymorphy2.readthedocs.io/en/stable/)
- [AOT](http://aot.ru/)

[Ещё](https://nlpub.ru/%D0%93%D1%80%D0%B0%D1%84%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7)

## pymystem

[Инструкция по установке](https://pypi.org/project/pymystem3/)

In [26]:
# Лемматизация
from pymystem3 import Mystem


text = "Красивая мама красиво мыла раму"
m = Mystem()
lemmas = m.lemmatize(text)
print(''.join(lemmas))

красивый мама красиво мыть рама



In [30]:
import json
from pymystem3 import Mystem


text = "Красивая мама красиво мыла раму"
m = Mystem()
lemmas = m.lemmatize(text)

print("lemmas:", ''.join(lemmas))
print("full info:", json.dumps(m.analyze(text), ensure_ascii=False))

lemmas: красивый мама красиво мыть рама

full info: [{"analysis": [{"lex": "красивый", "wt": 1, "gr": "A=им,ед,полн,жен"}], "text": "Красивая"}, {"text": " "}, {"analysis": [{"lex": "мама", "wt": 1, "gr": "S,жен,од=им,ед"}], "text": "мама"}, {"text": " "}, {"analysis": [{"lex": "красиво", "wt": 0.8149252476, "gr": "ADV="}], "text": "красиво"}, {"text": " "}, {"analysis": [{"lex": "мыть", "wt": 0.441520999, "gr": "V,несов,пе=прош,ед,изъяв,жен"}], "text": "мыла"}, {"text": " "}, {"analysis": [{"lex": "рама", "wt": 0.9993591156, "gr": "S,жен,неод=вин,ед"}], "text": "раму"}, {"text": "\n"}]


## NLTK

Установите библиотеку nltk и скачайте WordNet.

In [5]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\maxim\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [35]:
from nltk.corpus import wordnet as wn


def lesk(sentence, ambiguous_word):
    max_overlaps = 0
    lesk_dictionary = []
    lesk_sense = "Not found"
    context = sentence.split()
    
    for sense in wn.synsets(ambiguous_word):
        lesk_dictionary += sense.definition().split()
        lesk_dictionary += sense.lemma_names()
        
        overlaps = set(lesk_dictionary).intersection(context)
        
        # print(sense)
        # print(len(overlaps))
        if len(overlaps) > max_overlaps:
            lesk_sense = sense
            max_overlaps = len(overlaps)
    
    return lesk_sense


sentence = """I met a traveller from an antique land
Who said: Two vast and trunkless legs of stone
Stand in the desert. Near them on the sand,
Half sunk, a shattered visage lies, whose frown
And wrinkled lip and sneer of cold command
Tell that its sculptor well those passions read
Which yet survive, stamped on these lifeless things,
The hand that mocked them and the heart that fed.
And on the pedestal these words appear:
"My name is Ozymandias, King of Kings:
Look on my works, ye mighty, and despair!"
Nothing beside remains. Round the decay
Of that colossal wreck, boundless and bare,
The lone and level sands stretch far away."""

ambiguous_word = 'land'

answer = lesk(sentence, ambiguous_word)

print(answer)

if answer is not "Not found":
    print ("\nSynset name :  ", answer.name())

    # Defining the word
    print ("Synset meaning : ", answer.definition())

    # list of phrases that use the word in context
    print ("Synset example : ", answer.examples())

Synset('farming.n.02')

Synset name :   farming.n.02
Synset meaning :  agriculture considered as an occupation or way of life
Synset example :  ['farming is a strenuous life', "there's no work on the land any more"]


[Примеры лемматизации и пр.](https://iccl.inf.tu-dresden.de/w/images/f/f5/Lecture-02.pdf)

## Задание по курсу

1) Найдите текст и задачу (интересные!). Например: (IMDB, классификация), (Ф.М. Достоевский "Преступление и наказание", генерация) и т.п.

2) Предобработайте текст разными  способами: только графематический анализ, только стемминг, только лемматизация, всё что можно и т.п.

3) Обучите простую модель (GRU, LSTM).

4) Попробуйте обучить трансформер (BERT, Small BERT, ELMO, GPT-3). С "нуля" и уже предобученный.

![title](img\Bert.jpg)


Если нет мощной видеокарты Nvidia, для обучения рекомедную использовать облачные сервисы, например, Google Colab (требуется включить использование GPU).

## Ссылки
- Русский язык и культура речи: Учебник. – 2-е изд., перераб. и доп./Под ред. проф. О.Я. Гойхман
- [Stepik: Введение в обработку естественного языка](https://stepik.org/lesson/39814/step/4?unit=18596)
- [Semantic Computing Course with SWS 2/2/0 (lecture/exercise/practical) in WS 2018](https://iccl.inf.tu-dresden.de/web/Semantic_Computing_(WS_2018/2019)_(WS2018)/en)
- [TensorFlow tutorial: Classify text with BERT](https://www.tensorflow.org/tutorials/text/classify_text_with_bert?hl=en)
