![](Pictures/NLP.png)

# Анализ текстовых данных

Natural Language Processing https://habr.com/ru/company/Voximplant/blog/446738/

Natural Language Processing (далее – NLP) – обработка естественного языка – подраздел информатики и AI, посвященный тому, как компьютеры анализируют естественные (человеческие) языки. NLP позволяет применять алгоритмы машинного обучения для текста и речи.

Например, мы можем использовать NLP, чтобы создавать системы вроде распознавания речи, обобщения документов, машинного перевода, выявления спама, распознавания именованных сущностей, ответов на вопросы, автокомплита, предиктивного ввода текста и т.д.

Сегодня у многих из нас есть смартфоны с распознаванием речи – в них используется NLP для того, чтобы понимать нашу речь. Также многие люди используют ноутбуки со встроенным в ОС распознаванием речи.

### Какие задачи можно решать, обрабатывая текст?

1. синтаксические задачи
  * разметка по частям речи 
  * деление слов в тексте на морфемы (суффикс, приставка и пр.)
  * стемминг, лемматизация 
  * деление на предложения (инициалы и сокращения) и слова (китайский язык)
  * поиск имен и названий в тексте - сущностей (named entity recognition)
  
2. задачи на понимание текста, в которых есть "учитель"
  * предсказание следующего символа
  * информационный поиск
  * анализ тональности
  * выделение отношений и фактов
  * ответы на вопросы
  
3. понимание и порождение текста 
  * порождение текста
  * машинный перевод
  * диалоговые модели (чат-бот)
  
  
  * распознавание речи (помощник)
  * чат-бот (замена техподдержки в решении большинства вопросов)
  * поиск точного ответа на вопрос в базе документов (например, база стандартов)
  * оценка мнения в социальных сетях о продукте


_ NLTK (Natural Language Toolkit) – ведущая платформа для создания NLP-программ на Python. У нее есть легкие в использовании интерфейсы для многих языковых корпусов, а также библиотеки для обработки текстов для классификации, токенизации, стемминга, разметки, фильтрации и семантических рассуждений. _


In [None]:
import nltk
#nltk.download()  # download lots of data at first time

In [None]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


# От текста к простым моделям

Подготовка текста к обработке. Подход Bag-of-words model (мешок слов). 

* Разбиваем текст на слова (токены) 
* Избавляемся от грамматических форм
* Убираем стоп-слова (местоимения, предлоги и т.п.)
* Множество слов = множество признаков. Переводим признаки в числа (например, частота слова)

Применение стандартных методов к модели. 

## Разбиение на токены
**Def.**  
разбиение последовательности символов на части (токены), возможно, исключая из рассмотрения некоторые символы  
Наивный подход: разделить строку пробелами и выкинуть знаки препинания  


*Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.*  


**Проблемы:**  
* my.email@mail.ru, 127.0.0.1
* С++, C#
* York University vs New York University
* Зависимость от языка (“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

In [10]:
text="""
Backgammon is one of the oldest known board games. 
Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. 
It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice."""

In [11]:
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()


Backgammon is one of the oldest known board games.

Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East.

It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.



In [12]:
#Токенизация по словам
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.']

['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.']

['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']



In [13]:
#Стопслова 
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [14]:
#Убираем стоп-слова
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


In [None]:
#Наборы из стоп слов не только на английском
from nltk.corpus import stopwords
print (' '.join(stopwords.words('russian')[:20]))
print (' '.join(stopwords.words('english')[:20]))

In [15]:
#Что делать со знаками препинания?
sentence = "The development of snowboarding was inspired by skateboarding, sledding, surfing and skiing."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['The', 'development', 'snowboarding', 'inspired', 'skateboarding', ',', 'sledding', ',', 'surfing', 'skiing', '.']


In [16]:
#Использование регулярных выражений 
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('\w+|[^\w\s]+')

for t in tokenizer.tokenize(sentence ): 
    print(t)

The
development
of
snowboarding
was
inspired
by
skateboarding
,
sledding
,
surfing
and
skiing
.


In [17]:
import re
pattern = r"[^\w]"
print(re.sub(pattern, " ", sentence))

The development of snowboarding was inspired by skateboarding  sledding  surfing and skiing 


__Регулярное выражение__ (регулярка, regexp, regex) – это последовательность символов, которая определяет шаблон поиска. Например:

    . – любой символ, кроме перевода строки;
    \w – одно слово;
    \d – одна цифра;
    \s – один пробел;
    \W – одно НЕслово;
    \D – одна НЕцифра;
    \S – один НЕпробел;
    [abc] – находит любой из указанных символов match any of a, b, or c;
    [^abc] – находит любой символ, кроме указанных;
    [a-g] – находит символ в промежутке от a до g.


## Нормализация

Приведение токенов к единому виду для того, чтобы избавиться от поверхностной разницы в написании  

Подходы  
* сформулировать набор правил, по которым преобразуется токен  
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
* явно хранить связи между токенами (WordNet – Princeton)  
машина → автомобиль, Windows 6→ window

In [18]:
s = 'Нью-Йорк'
s1 = s.lower()
print(s1)

нью-йорк


In [19]:
import re
s2 = re.sub("\W", "", s1)
print(s2)

ньюйорк


In [20]:
s3 = re.sub("й", u"и", s2)
print(s3)

ньюиорк


## Стемминг и Лемматизация

Приведение грамматических форм слова и однокоренных слов к единой основе (lemma):

* Stemming – с помощью простых эвристических правил
  * Porter (Cambridge – 1980)
        5 этапов, на каждом применяется набор правил, таких как
            sses → ss (caresses → caress)
            ies → i (ponies → poni)

  * Lovins (1968)
  * Paice (1990)
  * другие
* Lemmatization – с использованием словарей и морфологического анализа


## Стемминг

In [21]:
from nltk.stem.snowball import PorterStemmer
s = PorterStemmer()
print (s.stem('Tokenization'))
print (s.stem('stemming'))

token
stem


In [22]:
from nltk.stem.snowball import RussianStemmer
r = RussianStemmer()
print(r.stem('Авиация'))
print(r.stem('национальный'))

авиац
национальн


## Лемматизация 
(обычно лучше работает для сложных языков, в том числе для русского)

In [24]:
import pymorphy2

import pymorphy2
morph = pymorphy2.MorphAnalyzer()
for i in morph.parse(u'ключ'):
    print("Metadata: {}".format(i)) 
    print("Word: {} | Normal form: {}".format(i.word, i.normal_form))
    print('\n')

Metadata: Parse(word='ключ', tag=OpencorporaTag('NOUN,inan,masc sing,nomn'), normal_form='ключ', score=0.5, methods_stack=((<DictionaryAnalyzer>, 'ключ', 134, 0),))
Word: ключ | Normal form: ключ


Metadata: Parse(word='ключ', tag=OpencorporaTag('NOUN,inan,masc sing,accs'), normal_form='ключ', score=0.5, methods_stack=((<DictionaryAnalyzer>, 'ключ', 134, 3),))
Word: ключ | Normal form: ключ




## Представление документов - Bag of Words

**Boolean Model.** Присутствие или отсутствие слова в документе  
**Bag of Words.** Порядок токенов не важен  

*Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?*

In [25]:
#Перевод текста в матрицу, свойства - различные слова, значение их частота в тексте 
from sklearn.feature_extraction import DictVectorizer

In [26]:
dvectorizer = DictVectorizer(sparse=False)
text_dict = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]
X = dvectorizer.fit_transform(text_dict)
X

array([[2., 0., 1.],
       [0., 1., 3.]])

In [27]:
dvectorizer.inverse_transform(X)

[{'bar': 2.0, 'foo': 1.0}, {'baz': 1.0, 'foo': 3.0}]

In [28]:
dvectorizer.transform({'foo': 4, 'unseen_feature': 3})

array([[0., 0., 4.]])

In [32]:
dvectorizer.feature_names_

['bar', 'baz', 'foo']

In [33]:
import pandas as pd
df=pd.DataFrame(X,columns=dvectorizer.feature_names_)
df

Unnamed: 0,bar,baz,foo
0,2.0,0.0,1.0
1,0.0,1.0,3.0


In [30]:
#ПОлучение словарей из текстов (ручной подход, см далее библиотечную функцию)
from collections import Counter

docs = [
    "Thank you, Mr President.",
    "Madam President, I agree and recognise Turkey's European prospects, but if these prospects are to have an auspicious outcome, Turkey needs to:",
    "Madam President, firstly, I would like to express my sincerest thanks to the High Representative for including this important issue in the agenda at such an early stage.",
]

tokenizer = RegexpTokenizer('\w+|[^\w\s]+')
stopwords_eng = stopwords.words()

document_bags = list()

for d in docs:
    bag = Counter()
    text = d.lower()
    for t in tokenizer.tokenize(text):     
        if t in stopwords_eng:
            continue
        bag[t] += 1
    document_bags.append(bag)
    
document_bags

[Counter({',': 1, '.': 1, 'mr': 1, 'president': 1, 'thank': 1}),
 Counter({"'": 1,
          ',': 3,
          ':': 1,
          'agree': 1,
          'auspicious': 1,
          'european': 1,
          'madam': 1,
          'needs': 1,
          'outcome': 1,
          'president': 1,
          'prospects': 2,
          'recognise': 1,
          'turkey': 2}),
 Counter({',': 2,
          '.': 1,
          'agenda': 1,
          'early': 1,
          'express': 1,
          'firstly': 1,
          'high': 1,
          'important': 1,
          'including': 1,
          'issue': 1,
          'like': 1,
          'madam': 1,
          'president': 1,
          'representative': 1,
          'sincerest': 1,
          'stage': 1,
          'thanks': 1,
          'would': 1})]

In [31]:
#Как выглядят данные в таблице?
import pandas as pd

In [34]:
pd.DataFrame(dvectorizer.fit_transform(document_bags), columns=dvectorizer.feature_names_)

Unnamed: 0,',",",.,:,agenda,agree,auspicious,early,european,express,...,president,prospects,recognise,representative,sincerest,stage,thank,thanks,turkey,would
0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
1,1.0,3.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,...,1.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0
2,0.0,2.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,...,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0


In [32]:
dvectorizer.feature_names_

["'",
 ',',
 '.',
 ':',
 'agenda',
 'agree',
 'auspicious',
 'early',
 'european',
 'express',
 'firstly',
 'high',
 'important',
 'including',
 'issue',
 'like',
 'madam',
 'mr',
 'needs',
 'outcome',
 'president',
 'prospects',
 'recognise',
 'representative',
 'sincerest',
 'stage',
 'thank',
 'thanks',
 'turkey',
 'would']

In [35]:
#Получение словаря - библиотечная функция
from sklearn.feature_extraction.text import CountVectorizer
sklearn_vectorizer = CountVectorizer(stop_words='english')
sklearn_vectorizer.fit_transform(docs)
#Представление в виде обычной матрицы (а не разреженной)
#sklearn_vectorizer.fit_transform(docs).todense()

<3x25 sparse matrix of type '<class 'numpy.int64'>'
	with 28 stored elements in Compressed Sparse Row format>

In [36]:
sklearn_vectorizer.vocabulary_

{'agenda': 0,
 'agree': 1,
 'auspicious': 2,
 'early': 3,
 'european': 4,
 'express': 5,
 'firstly': 6,
 'high': 7,
 'important': 8,
 'including': 9,
 'issue': 10,
 'like': 11,
 'madam': 12,
 'mr': 13,
 'needs': 14,
 'outcome': 15,
 'president': 16,
 'prospects': 17,
 'recognise': 18,
 'representative': 19,
 'sincerest': 20,
 'stage': 21,
 'thank': 22,
 'thanks': 23,
 'turkey': 24}

Частота встречаемости слова в тексте не всегда дает хорошую характеристику важности слова для обучения. Учет важности слова в тексте. 

## TF-IDF

Количество вхождений слова $t$ в документе $d$
$$
TF_{t,d} = term\!\!-\!\!frequency(t, d)
$$
Количество документов из $N$ возможных, где встречается $t$
$$
DF_t = document\!\!-\!\!fequency(t)
$$
$$
IDF_t = inverse\!\!-\!\!document\!\!-\!\!frequency(t) = \log \frac{N}{DF_t}
$$
TF-IDF
$$
TF\!\!-\!\!IDF_{t,d} = TF_{t,d} \times IDF_t
$$

Оценивает важность слова в контексте документа, являющегося частью корпуса
`

In [38]:
#Напомним пример
docs

['Thank you, Mr President.',
 "Madam President, I agree and recognise Turkey's European prospects, but if these prospects are to have an auspicious outcome, Turkey needs to:",
 'Madam President, firstly, I would like to express my sincerest thanks to the High Representative for including this important issue in the agenda at such an early stage.']

In [37]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english', norm=None)
features = vectorizer.fit_transform(docs).todense()
features

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 1.69314718, 0.        ,
         0.        , 1.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 1.69314718, 0.        , 0.        ],
        [0.        , 1.69314718, 1.69314718, 0.        , 1.69314718,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 1.28768207, 0.        , 1.69314718,
         1.69314718, 1.        , 3.38629436, 1.69314718, 0.        ,
         0.        , 0.        , 0.        , 0.        , 3.38629436],
        [1.69314718, 0.        , 0.        , 1.69314718, 0.        ,
         1.69314718, 1.69314718, 1.69314718, 1.69314718, 1.69314718,
         1.69314718, 1.69314718, 1.28768207, 0.        , 0.        ,
         0.        , 1.        , 0.        , 0.        , 1.69314718,
         1.69314718, 1.69314718,

In [36]:
vectorizer.vocabulary_

{'thank': 22,
 'mr': 13,
 'president': 16,
 'madam': 12,
 'agree': 1,
 'recognise': 18,
 'turkey': 24,
 'european': 4,
 'prospects': 17,
 'auspicious': 2,
 'outcome': 15,
 'needs': 14,
 'firstly': 6,
 'like': 11,
 'express': 5,
 'sincerest': 20,
 'thanks': 23,
 'high': 7,
 'representative': 19,
 'including': 9,
 'important': 8,
 'issue': 10,
 'agenda': 0,
 'early': 3,
 'stage': 21}

In [52]:
df=pd.DataFrame(features, columns=vectorizer.get_feature_names())
df

Unnamed: 0,agenda,agree,auspicious,early,european,express,firstly,high,important,including,...,outcome,president,prospects,recognise,representative,sincerest,stage,thank,thanks,turkey
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.693147,0.0,0.0
1,0.0,1.693147,1.693147,0.0,1.693147,0.0,0.0,0.0,0.0,0.0,...,1.693147,1.0,3.386294,1.693147,0.0,0.0,0.0,0.0,0.0,3.386294
2,1.693147,0.0,0.0,1.693147,0.0,1.693147,1.693147,1.693147,1.693147,1.693147,...,0.0,1.0,0.0,0.0,1.693147,1.693147,1.693147,0.0,1.693147,0.0


Закончили обрабатывать текст. Теперь приступаем к построению простых моделей. 

In [None]:
"""
#Дополнительно  чтение из файла и составление мешка слов (по частоте)

#чтение из файла по строкам
with open("simple movie reviews.txt", "r") as file:
    documents = file.read().splitlines()
    
print(documents)

# Import the libraries we need
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# Step 2. Design the Vocabulary
# The default token pattern removes tokens of a single character. That's why we don't have the "I" and "s" tokens in the output
count_vectorizer = CountVectorizer()

# Step 3. Create the Bag-of-Words Model
bag_of_words = count_vectorizer.fit_transform(documents)

# Show the Bag-of-Words Model as a pandas DataFrame
feature_names = count_vectorizer.get_feature_names()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)

"""

"""
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(documents)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)
"""