# Разные задачи по обработке текста

1. Распознавание текста с картинки (OCR, optical character recognition)
2. Анализ тональности (sentiment analysis)
3. Исправление опечаток (спеллчекер / автокоррект)
4. Контекстуализированные семантические модели (BERT, ELMO)

Библиотеки (+ их зависимости)
```
pytesseract
dostoevsky
langdetect
autocorrect
allennlp
bert_embedding
sklearn
gensim
```

ПО
```
tesseract
```

Модели
```
http://vectors.nlpl.eu/repository/20/195.zip
http://vectors.nlpl.eu/repository/20/181.zip
```

## Распознавание текста

Оптическое распознавание символов (OCR, optical character recognition) - задача распознавания символов на изображении. Оно применяется, например, при оцифровке книг, в машинном переводе (функция перевода по фото в современных переводчиках, например Яндекс.Переводчике).

Одним из популярных бесплатных вариантов является tesseract, который имеет библиотеку для питона, чтобы легко это интегрировать в код.

На основе [тьюториала](https://towardsdatascience.com/optical-character-recognition-ocr-with-less-than-12-lines-of-code-using-python-48404218cccb)

In [1]:
import cv2
import pytesseract
import numpy as np

1. Считываем картинку с помощью библиотеки OpenCV, одной из основных для работы с изображениями
2. Обрабатываем, указывая язык для лучшей работы, получаем текст

In [2]:
def ocr(filename, lang="eng"):
    img = cv2.imread(filename)
    result = pytesseract.image_to_string(img, lang=lang)
    return result

<img src="./test_eng_easy.png">

In [3]:
result = ocr('test_eng_easy.png', lang="eng")
print(result)

Optical character recognition (OCR)
Given an image representing printed text, determine the corresponding text.

Speech recognition
Given a sound clip of a person or people speaking, determine the textual
representation of the speech. This is the opposite of text to speech and is
one of the extremely difficult problems colloquially termed "Al-complete" (see
above). In natural speech there are hardly any pauses between successive
words, and thus speech segmentation is a necessary subtask of speech
recognition (see below). In most spoken languages, the sounds representing
successive letters blend into each other in a process termed coarticulation,
so the conversion of the analog signal to discrete characters can be a very
difficult process. Also, given that words in the same language are spoken by
people with different accents, the speech recognition software must be able
to recognize the wide variety of input as being identical to each other in terms
of its textual equivalent.



<img src="test_rus_easy.png">

In [4]:
result = ocr('test_rus_easy.png', lang="rus")
print(result)

Местоимёние (лат. ргопотеп) — самостоятельная часть речи, которая указывает на предметы,
признаки, количество, но не называет их, то есть заменяет существительное, прилагательное и
числительное.



<img src="test_rus_tolstoy.png">

In [5]:
result = ocr('test_rus_tolstoy.png', lang="rus")
print(result)

ГЛАВА 1.
УЧИТЕЛЬ КАРЛ ИВАНЫЧ.

42-го августа 18....’ровно в третий день после дня моего рож-
дения, в который мне минуло десять лет и в который я полу-
чил такие чудесные подарки, в 7 часов утра Карл Иваныч раз-
будил меня, ударив над самой моей головой хлопушкой — из
сахарной бумаги на палке—по мухе. Он сделал это так неловко,
что задел образок моего ангела, висевший на дубовой спинке
кровати, и что убитая муха упала мне прямо на голову. Я вы-
сунул нос иг-под одеяла, остановил рукою образок, который
продолжел качаться, скинул убитую муху на пол и, хотя ва-
спанными, но сердитыми глазами окинул Карла Иваныча. Он
эке, в пестром ваточном халате, подпоясанном поясом из той
же материи, в красной вязаной ермолке © кисточкой и в мяг-
ких козловых сапогах, продолжал ходить около стен, прице-
ливаться и хлопать.



Есть ошибки (иг-под, ©), но в целом неплохо.

## Анализ тональности текста

Анализ тональности текста - это задача определения настроения текста, обычно положительный / отрицательный / нейтральный, но есть варианты, где распознаются эмоции, как в text2emotion.

Для русского есть библиотека dostoevsky.

In [6]:
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

In [7]:
tokenizer = RegexTokenizer()
model = FastTextSocialNetworkModel(tokenizer=tokenizer)



In [8]:
messages = [
    "всё довольно неплохо",
    "здесь нет ничего хорошего",
    "всё очень плохо",
    "просто ужасно",
    "замечательно сказано"
]

results = model.predict(messages, k=2)

for message, sentiment in zip(messages, results):
    print(message, '->', sentiment)

всё довольно неплохо -> {'positive': 0.9777238368988037, 'negative': 0.4378334879875183}
здесь нет ничего хорошего -> {'neutral': 0.6442351341247559, 'negative': 0.08270734548568726}
всё очень плохо -> {'negative': 0.7606606483459473, 'positive': 0.5000100135803223}
просто ужасно -> {'negative': 0.9814634323120117, 'skip': 0.053413331508636475}
замечательно сказано -> {'positive': 0.9553291201591492, 'skip': 0.031153826043009758}


## Определение языка

При работе с большими данными часто нужно разделить данные на группы по языкам, чтобы отправить на обработку в разные модели, например. Для этого есть разные инструменты, например, основанные на простом распределении частотности букв, на словарях, с нейросетевым подходом. 

In [9]:
from langdetect import detect, detect_langs
from langdetect import DetectorFactory
DetectorFactory.seed = 0

In [10]:
# Dschinghis Khan - Moskau
detect("Moskau — Tor zur Vergangenheit, Spiegel der Zarenzeit, Rot wie das Blut")

'de'

In [11]:
detect_langs("Moskau — Tor zur Vergangenheit, Spiegel der Zarenzeit, Rot wie das Blut")

[de:0.9999953675874701]

Часто бывает так, что на коротких текстах библиотека ошибается и выдает какие-то другие языки, чаще всего родственные или со схожим алфавитом.

In [12]:
detect_langs("Привет!")

[mk:0.8192481473701985, bg:0.18075185259138762]

In [13]:
detect_langs("Привет, ты как?")

[ru:0.9999985230201999]

In [14]:
# Ricchi E Poveri - Voulez Vous Danser

detect_langs("""
Questa musica è un'isola in mezzo al mare
basta chiudere gli occhi e saprai dovè
devi solo sapertele conquistare
voulez-vous voulez-vous voulez-vous danser?""")

[it:0.999994096312886]

Бывает внезапное

In [48]:
detect_langs("Voulez-vous, voulez-vous, voulez-vous danser?")

[cs:0.8571396370596909, fr:0.14285596647041326]

In [16]:
detect_langs("Voulez-vous danser?")

[fr:0.5714290893675289, nl:0.42857062095631704]

Можно сделать свою модель, например, по википедии посчитав распределение букв в разных языках и выдавая ближайший вектор распредлеения

## Спеллчекер / автокоррект

Автоматическое исправление опечаток - это большая задача. Обычно этим занимаются компании, работающие с текстовым вводом:

- редакторы документов (Word, Google Docs)
- различные исправляющие сервисы (Grammarly)
- клавиатуры для мобильных устройств (Google, Yandex, любые другие)

In [17]:
from autocorrect import Speller

In [18]:
spell = Speller(lang='en')

In [19]:
spell("I'm not sleapy and tehre is no place I'm giong to.")

"I'm not sleepy and there is no place I'm going to."

In [20]:
%timeit spell("There is no comin to consiousnes without pain.")

99.2 ms ± 12.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Можно ускорить работу до скорости меньше миллисекунды.

In [21]:
spell = Speller(fast=True)

In [22]:
%timeit spell("There is no comin to consiousnes without pain.")

237 µs ± 6.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


## Продвинутые семантические модели

Кроме Word2Vec и FastText есть и другие модели. Например, ELMO и BERT. Это контекстуализированные модели, которые выдают словам вектора в зависимости от контекста, то есть у одного слова может быть много векторов.

In [27]:
from allennlp.modules.elmo import batch_to_ids, Elmo
import warnings
warnings.filterwarnings('ignore')

from nltk.tokenize import wordpunct_tokenize
from nltk import sent_tokenize
from sklearn.metrics.pairwise import cosine_similarity

Загружаем модель, она хранится в виде двух файлов.

In [28]:
options_file = f'./195/options.json'
weight_file = f'./195/model.hdf5'
elmo = Elmo(options_file, weight_file, 1)

Готовим текст: разделяем на предложения, убираем пунтктуацию и делим на токены

In [29]:
text = "Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т.д. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов."
sentences = [[w for w in wordpunct_tokenize(t) if w.isalpha()] for t in sent_tokenize(text)]

In [30]:
[len(i) for i in sentences]

[17, 10]

Преобразуем символы в численные ID, получаем результат из модели

In [31]:
character_ids = batch_to_ids(sentences)
embeddings = elmo(character_ids)['elmo_representations'][0]

Размер: число предложений * максимальное число слов * длину вектора

In [32]:
embeddings.shape

torch.Size([2, 17, 1024])

Достаем в виде numpy array

In [33]:
embeddings = embeddings.detach().numpy()

In [34]:
for idxs, sentence in enumerate(sentences):
    for idxw, word in enumerate(sentence):
        print(idxs, idxw, word, embeddings[idxs][idxw][:2])

0 0 Качество [-0.5750413  -0.61228836]
0 1 понимания [0.4107303 0.37982  ]
0 2 зависит [-0.         0.6076344]
0 3 от [-0. -0.]
0 4 множества [-0.5212345  0.       ]
0 5 факторов [-0.       2.53252]
0 6 от [-0.68817264  0.5368072 ]
0 7 языка [0.15810597 0.        ]
0 8 от [-0.5423489   0.39302012]
0 9 национальной [0. 0.]
0 10 культуры [0.        2.6981413]
0 11 от [-0.  0.]
0 12 самого [-0.03170997  0.        ]
0 13 собеседника [0.        2.0284185]
0 14 и [0.13750097 1.2196429 ]
0 15 т [0.9135562 0.       ]
0 16 д [0.5173399 0.       ]
1 0 Вот [ 0. -0.]
1 1 некоторые [-0.         2.0123093]
1 2 примеры [-0. -0.]
1 3 сложностей [-1.0001913 -0.       ]
1 4 с [-0.          0.41697437]
1 5 которыми [0. 0.]
1 6 сталкиваются [-0.3549805  1.514188 ]
1 7 системы [-0.  0.]
1 8 понимания [-0.4442916   0.31523082]
1 9 текстов [-0.  0.]


In [35]:
def get_elmo(text):
    text = [[w for w in wordpunct_tokenize(text) if w.isalpha()]]
    character_ids = batch_to_ids(text)
    embeddings = elmo(character_ids)['elmo_representations'][0]
    embeddings = embeddings.detach().numpy()[0]
    return embeddings.mean(axis=0)

Посчитаем сходство предложений с помощью попарного сходства усредненных векторов предложений.

In [38]:
sentences = [
    "Модель уверенно шла по подиуму.",
    "Модель очень долго обучалась, но показала хорошее качество.",
    "Модель очень медленно обучалась и продемонстрировала отличное качество."
]

vectors = [get_elmo(s) for s in sentences]

cosine_similarity(vectors)

array([[1.0000002 , 0.38279152, 0.38063884],
       [0.38279152, 1.0000001 , 0.70891595],
       [0.38063884, 0.70891595, 0.9999996 ]], dtype=float32)

Повторим для FastText, НЕ контекстуализированной модели

In [39]:
from gensim.models import FastText, KeyedVectors
import numpy as np

In [40]:
model = KeyedVectors.load("./181/model.model")

In [41]:
def get_fasttext(text):
    text = [w for w in wordpunct_tokenize(text) if w.isalpha()]
    vectors = [model.get_vector(w) for w in text]
    return np.mean(vectors, axis=0)

In [42]:
vectors = [get_fasttext(s) for s in sentences]

cosine_similarity(vectors)

array([[1.0000001 , 0.5750117 , 0.5881903 ],
       [0.5750117 , 0.99999994, 0.8338799 ],
       [0.5881903 , 0.8338799 , 0.9999998 ]], dtype=float32)

Результат примерно такой же.

BERT - тоже контекстуализированная модель

In [43]:
from bert_embedding import BertEmbedding

In [44]:
sentences = [
    "The model walked confidently on the catwalk.",
    "The model was trained for a very long time, but showed good quality.",
    "The model was trained very slowly and showed excellent quality."
]

In [45]:
bert_embedding = BertEmbedding(model='bert_12_768_12', dataset_name='book_corpus_wiki_en_cased')

In [46]:
result = bert_embedding(sentences)

In [47]:
cosine_similarity([np.array(i[1]).mean(axis=0) for i in result])

array([[1.0000002 , 0.81107104, 0.83175623],
       [0.81107104, 0.99999976, 0.9435316 ],
       [0.83175623, 0.9435316 , 1.0000005 ]], dtype=float32)

Результат схожий.

Не всегда нужно использовать очень сложные модели, часто можно обойтись чем-то попроще.