___

<a href='http://www.pieriandata.com'><img src='../Pierian_Data_Logo.png'/></a>
___
<center><em>Авторские права принадлежат Pierian Data Inc.</em></center>
<center><em>Для дополнительной информации посетите наш сайт <a href='http://www.pieriandata.com'>www.pieriandata.com</a></em></center>

# Извлечение признаков из текста

Этот блокнот разделён на две части:
* Сначала мы выясним, что нам понадобится для построения инструментария NLP (Natural Language Processing), который превратит набор текста в числовой массив из *признаков*. Для этого мы вручную вычислим, как часто встречаются те или иные слова, и построим метрику TF-IDF.
* Далее мы выполним эти шаги с помощью scikit-learn.

# Часть 1: основные принципы извлечения признаков из текста


В этой части мы с помощью базовых операций Python построим очень простую систему NLP. Мы возьмём *набор документов* (*corpus of documents*) - это будет два текстовых файла. Далее создадим *словарь* (*vocabulary*) из всех слов обоих документов. И затем посмотрим на технику *Мешок слов* (*Bag of Words*) для извлечения признаков из каждого документа.<br>
<div class="alert alert-info" style="margin: 20px">В этом разделе мы только приводим иллюстрации основных принципов!
<br>Не обращайте внимание на то, как пишется код в Python - позднее мы применим для этой задачи Scikit-Learn.</div>

## Начнём с документов:
Для простоты изложения в наших текстовых файлах One.txt и Two.txt не будет каких-либо знаков пунктуации. Давайте откроем эти файлы и прочитаем данные. Обратите внимание, что если в будущем у Вас файлы будут большие, то их не следует выводить на экран полностью.


## Создаём словарь vocabulary (Мешок слов - "Bag of Words")

Для этого мы возьмём все слова из обоих документов, найдём уникальные слова, и пронумеруем их.

In [None]:
# Создаем мешок уникальных слов из файла 1
with open('One.txt') as mytext:
    bag_a = mytext.read().lower().split()
    unique_bag_a = set(bag_a)
    print(unique_bag_a)
    # a = mytext.readlines()

{'about', 'canine', 'furry', 'animals', 'a', 'dogs', 'are', 'is', 'pets', 'story', 'this', 'our'}


In [None]:
# Создаем мешок уникальных слов из файла 2
with open('Two.txt') as mytext:
    bag_b = mytext.read().lower().split()
    unique_bag_b = set(bag_b)
    print(unique_bag_b)

{'about', 'water', 'popular', 'catching', 'waves', 'a', 'sport', 'fun', 'surfing', 'is', 'story', 'this'}


In [None]:
# Объединяем
all_unique_wods = set()
all_unique_wods.update(unique_bag_a)
all_unique_wods.update(unique_bag_b)
print(all_unique_wods)


{'canine', 'animals', 'popular', 'catching', 'waves', 'dogs', 'is', 'pets', 'story', 'this', 'our', 'about', 'water', 'furry', 'a', 'are', 'fun', 'surfing', 'sport'}


In [None]:
# Нам надо пронумеровать слова. Для этого создаем словар
full_vocab = dict()
# print(type(full_vocab))    
i = 0
for word in all_unique_wods:
    full_vocab[word] = i
    i = i + 1
print(full_vocab)    

<class 'dict'>
{'canine': 0, 'animals': 1, 'popular': 2, 'catching': 3, 'waves': 4, 'dogs': 5, 'is': 6, 'pets': 7, 'story': 8, 'this': 9, 'our': 10, 'about': 11, 'water': 12, 'furry': 13, 'a': 14, 'are': 15, 'fun': 16, 'surfing': 17, 'sport': 18}


## Мешок слов - считаем, как часто встречаются отдельные слова

После того, как мы создали словарь из слов, давайте выполним *извлечение признаков* для каждого из двух исходных документов:

**Создаём пустые счётчики для каждого документа**

**Добавляем счётчики слов для каждого документа:**

In [None]:
# Для каждого документа создаём пустые счётчики для всех слов из словаря full_vocab:
one_freq = [0]*len(full_vocab)
# print(type(one_freq))
two_freq = [0]*len(full_vocab)
# Берём слова из файла, для каждого слова ищем соответствие в нашем словаре full_vocab:
with open('One.txt') as f:
    one_text = f.read().lower().split()

for word in one_text:
    word_ind = full_vocab[word]
    one_freq[word_ind]+=1
print(one_freq)
# В качестве индекса в full_vocab[word] у нас конкретное слово,
#  а в full_vocab[word] - цифра, соответствующая этому слову.
#  В one_freq[word_ind] мы переаем эту цифру в качестве 
# индекса (что по существу является позицией в списке (list))
# и на этой позиции увеличиваем знаачение на 1

<class 'list'>
[1, 1, 0, 0, 0, 2, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0]


In [31]:
# То же самое для второго документа:
with open('Two.txt') as f:
    two_text = f.read().lower().split()
    
for word in two_text:
    word_ind = full_vocab[word]
    two_freq[word_ind]+=1
print(two_freq)

[0, 0, 1, 1, 1, 0, 3, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 2, 1]


In [None]:
# В отличии от full_vocab, который является словарем, где данные 
# не упорядочены, dв списке они упорядочены.
all_words = ['']*len(full_vocab)
# print(type(full_vocab))
# print(type(all_words))

for word in full_vocab:
    word_ind = full_vocab[word]
    all_words[word_ind] = word
print(all_words)

<class 'dict'>
<class 'list'>
['canine', 'animals', 'popular', 'catching', 'waves', 'dogs', 'is', 'pets', 'story', 'this', 'our', 'about', 'water', 'furry', 'a', 'are', 'fun', 'surfing', 'sport']


In [38]:
import pandas as pd
bag_of_word = pd.DataFrame(data=[one_freq,two_freq],columns=all_words)
print(bag_of_word)

   canine  animals  popular  catching  waves  dogs  is  pets  story  this  \
0       1        1        0         0      0     2   1     1      1     1   
1       0        0        1         1      1     0   3     0      1     1   

   our  about  water  furry  a  are  fun  surfing  sport  
0    1      1      0      1  1    1    0        0      0  
1    0      1      1      0  1    0    1        2      1  


Некоторые слова есть в обоих документах, а некоторые слова есть только в `One.txt`, и некоторые другие слова есть только в `Two.txt`. Если мы применим эту логику для десятков тысяч документов, то наш словарь вполне сможет вырасти до десятков тысяч слов. При этом матрицы будут содержать очень много нулей - это будут **разреженные метрицы** (**sparse matrices**).


# Продолжение:

## Мешок слов и Tf-idf
В приведённом выше примере, каждый вектор можно рассматривать как мешок слов (*bag of words*). Сами по себе эти вектора не очень полезны, но мы также можем добавить к ним частоту слов (*term frequencies - TF*) - как часто то или иное слово встречается в документе. Простой способ сделать это - это посчитать, сколько раз встречается слово в документе, и разделить на общее количество слов в документе. Тогда можно сравнивать между большими и маленькими документами, сколько раз то или иное слово встречается в документе.

Однако, если какое-то слово встречается во многих документах, то такое слово не будет являться хорошим признаком для отделения документов друг от друга. Чтобы работать с такими словами, можно добавить метрику *inverse document frequency (IDF)*, которая вычисляется как общее количество документов, разделить на количество документов, в которых содержится рассматриваемое нами слово (слово, для которого вычисляется IDF). В практических задачах это значение приводится к логарифмической шкале, подробнее см. [здесь](https://ru.wikipedia.org/wiki/TF-IDF).

Соединяя метрики TF (Term Frequency) и IDF (Inverse Document Frequency), мы получаем метрику [**tf-idf**](https://ru.wikipedia.org/wiki/TF-IDF).

## Стоп-слова и морфология слов
Некоторые слова встречаются слишком часто, например слова "the" и "and" в английском языке. Эти слова можно просто исключить из рассмотрения. 

Кроме этого, одно и то же слово может встречаться в единственном и множественном числе, а также в различных падежах. Нам бы хотелось записать это слово один раз, а не записывать различные его вариации (например, записать только `cat` для обоих слов `cat` и `cats`). Это позволит нам уменьшить размер словаря и увеличить скорость работы модели.

С другой стороны, различные падежи слов - особенно в русском языке - несут дополнительную смысловую информацию. Эту информацию по-хорошему можно сохранять, то есть ссылаться на базовое слово в словаре, плюс сохранять дополнительные атрибуты этого слова в конкретном месте текста. В нашем блокноте мы ограничимся лишь базовым подсчётом частоты слов - как в отдельном документе, так и в целом наборе документов.

# Часть 2: извлечение признаков и текста в Scikit-Learn

Давайте применим sklearn для решения этих задач!

# Варианты извлечения признаков в Scikit-Learn

In [39]:
text = ['This is a line',
           "This is another line",
       "Completely different line"]

## CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [53]:
# CountVectorizer - подсчитывает сколько раз определенное слова встречается в документе
cv = CountVectorizer()

In [44]:
# здесь каждая строка ообрабатывается как отдельный документ
# fit - формирует словарь, transform - подсчитывает слова
sparse_mat = cv.fit_transform(text)

In [51]:
sparse_mat.todense()

matrix([[0, 0, 0, 1, 1, 1],
        [1, 0, 0, 1, 1, 1],
        [0, 1, 1, 0, 1, 0]], dtype=int64)

In [46]:
cv.vocabulary_

{'this': 5, 'is': 3, 'line': 4, 'another': 0, 'completely': 1, 'different': 2}

In [47]:
# About stop-word https://gist.github.com/sebleier/554280
cv = CountVectorizer(stop_words='english')

In [48]:
cv.fit_transform(text).todense()

matrix([[0, 0, 1],
        [0, 0, 1],
        [1, 1, 1]], dtype=int64)

In [49]:
cv.vocabulary_

{'line': 2, 'completely': 0, 'different': 1}

## TfidfTransformer

TfidfVectorizer применяется для текстовых документов, а TfidfTransformer применяется к матрице со счётчиками, которую возвращает CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
tfidf_transformer = TfidfTransformer()

In [57]:
cv = CountVectorizer()

In [58]:
counts = cv.fit_transform(text)

In [59]:
counts

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [60]:
tfidf = tfidf_transformer.fit_transform(counts)

In [61]:
tfidf.todense()

matrix([[0.        , 0.        , 0.        , 0.61980538, 0.48133417,
         0.61980538],
        [0.63174505, 0.        , 0.        , 0.4804584 , 0.37311881,
         0.4804584 ],
        [0.        , 0.65249088, 0.65249088, 0.        , 0.38537163,
         0.        ]])

## TfIdfVectorizer
Выполняем оба действия единым шагом!

In [None]:
# TfidfVectorizer - объединяет действия CountVectorizer и TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

In [64]:
tv = TfidfVectorizer()

In [None]:
tv_res = tv.fit_transform(text)

In [67]:
tv_res

<3x6 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [None]:
tv_res.todense()

matrix([[0.        , 0.        , 0.        , 0.61980538, 0.48133417,
         0.61980538],
        [0.63174505, 0.        , 0.        , 0.4804584 , 0.37311881,
         0.4804584 ],
        [0.        , 0.65249088, 0.65249088, 0.        , 0.38537163,
         0.        ]])

__________________________________________
Ниже не понятно, что это ...

In [212]:
from sklearn.pipeline import Pipeline

In [215]:
pipe = Pipeline([('cv',CountVectorizer()),('tfidf',TfidfTransformer())])

In [219]:
results = pipe.fit_transform(text)

In [220]:
results

<3x6 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [218]:
results.todense()

matrix([[0.        , 0.        , 0.        , 0.61980538, 0.48133417,
         0.61980538],
        [0.63174505, 0.        , 0.        , 0.4804584 , 0.37311881,
         0.4804584 ],
        [0.        , 0.65249088, 0.65249088, 0.        , 0.38537163,
         0.        ]])