In [1]:
import nltk

NLTK (Natural Language  - библиотека для работы с текстами на языке python. Книга по NLTK есть по ссылке http://www.nltk.org/book/

<h2>Токенизация</h2>
<strong>Токенизация</strong> - разбивка текста на <strong>токены</strong>. Токен чаще всего соответствует слову(но не всегда)
В nltk за токенизацию отвечает модуль nltk.tokenzie содержащий различные методы разбивки на токены.

Простая токенизация:

In [2]:
from nltk.tokenize import wordpunct_tokenize
for token in wordpunct_tokenize("мама мыла раму"):
    print(token)
print('--')
for token in wordpunct_tokenize("Ростов-на-дону"):
    print(token)

мама
мыла
раму
--
Ростов-на-дону


Токенизация по регулярному выражению:

In [3]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(ur"[^ ,\.\!\?\:]+")
for token in tokenizer.tokenize(u"Клара у карла украла кораллы, клара у карла украла кларнет"):
    print(token)

Клара
у
карла
украла
кораллы
клара
у
карла
украла
кларнет


<h2>Лемматизация и стемминг</h2> 
<strong>Лемматизация</strong> - приведение слова к "нормальной" форме("мыла" -> "мыть"). 
Не всегда однозначно: "Вина" -> "Вина" или "Вино"
Для большинства практических применений подходит <strong>"стемминг"</strong> - процесс нахождения основы слова и отброса окончания. В nltk находится nltk.stem
Стеммер русского языка находится в модуле <strong>nltk.stem.snowball</strong> и называется <strong>RussianStemmer</strong>

In [4]:
from nltk.stem.snowball import RussianStemmer
stemmer = RussianStemmer()
for token in tokenizer.tokenize(u"Мама мыла раму"):
    print (stemmer.stem(token))

мам
мыл
рам


<h2>Частотный анализ</h2>
<h3>Мешок слов</h3>
Компьютеру очень сложно работать с текстами - понимать смысл, взаимосвязи между словами

In [5]:
from collections import Counter
def get_bag_of_the_words(text):
    tokens = tokenizer.tokenize(text)
    tokens_stemmed = [stemmer.stem(token) for token in tokens]
    return Counter(tokens_stemmed)
freq = get_bag_of_the_words(u"карл у клары украл кораллы, клара у карла украла кларнет")
for token, freq in freq.most_common():
    print (token + "\t" + str(freq))

у	2
клар	2
карл	2
укра	2
коралл	1
кларнет	1


<h3>Задание</h3>
Рассчитайте "Мешок слов" для стихотворения "бородино" Лермонтова. Все слова необходимо токенизировать и лемматизировать. 

<h2>О чем текст?</h2>
<img src="https://i.gyazo.com/956df0997a8f6219df3615a330df2157.png" width='500'>

<h3>TfIdf (term frequency-inverted document frequency)</h3>
Так как при преобразовании "мешок слов" большой вес имеют предлоги,
союзы и другие слова несущие мало смысловой нагрузки - необходимо уменьшить их вес. 
Это делается при помощи домножения на специальный коэффицент <strong>IDF</strong>
(логарифм обратной частоты встречаемости)

https://ru.wikipedia.org/wiki/TF-IDF

In [6]:
import math
class TfIdfTransformer(object):
    def __init__(self, stemmer, tokenizer):
        self.stemmer = stemmer 
        self.tokenizer = tokenizer
        self.idf = {}
    def fit(self, texts):
        token_freq = Counter()
        for text in texts:
            doc_tokens = set([self.stemmer.stem(token) for token in self.tokenizer.tokenize(text)])
            for token in doc_tokens:
                token_freq[token] += 1
        self.idf = {}
        for token in token_freq:
            self.idf[token] = math.log(len(texts)/token_freq[token])
        
    def transform(self, text):
        text_tokens = [self.stemmer.stem(token) for token in self.tokenizer.tokenize(text)]
        doc_tokens = Counter(text_tokens)
        result = {}
        for token in doc_tokens:
            result[token] = self.idf.get(token, 0)  * doc_tokens[token]/len(text_tokens)
        return result

Пример:
обучим на сете твитов

In [11]:
import pymongo
mongo = pymongo.MongoClient('goto.reproducible.work')
db = mongo.twits
texts_positive = [doc['text'] for doc in db.posts.find({'positive': 1})[:1000]]
texts_negative = [doc['text'] for doc in db.posts.find({'positive': 0})[:1000]]
texts_all = texts_positive + texts_negative

tf_idf_transformer = TfIdfTransformer(stemmer, tokenizer)
tf_idf_transformer.fit(texts_all)

In [12]:
transformed = tf_idf_transformer.transform(u"Какое небо голубое!")
for token in transformed.keys():
    print (token + "\t" + str(transformed[token]))

как	0.69314718056
неб	2.30258509299
голуб	2.53363415318


<h3>Определение принадлежности текста к группе(классификация)</h3>
TfIdf можно использовать для определения наиболее характерных токенов в группе текстов. Для этого сначала необходимо найти "средние" значения tf-idf в группе, а затем посчитать насколько близки значения средние значения tf-idf в группе и у заданного текста. 
В качестве меры близости обычно используется <a href="https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C#.D0.9A.D0.BE.D1.81.D0.B8.D0.BD.D1.83.D1.81.D0.BD.D0.BE.D0.B5_.D1.81.D1.85.D0.BE.D0.B4.D1.81.D1.82.D0.B2.D0.BE">косинусная мера</a>: 


In [13]:
from collections import defaultdict

#функция нормировки. нужна для корректного подсчета косинусной меры
def norm(vec):
    s = 0.0
    for item in vec:
        s += vec[item] ** 2
    s = math.sqrt(s)
    result = {}
    for item in vec:
        result[item] = vec[item]/s
    return result

#функция для рассчета среднего значения tf-idf в группе текстов
def get_average_tf_idf(texts):
    result = defaultdict(lambda: 0)
    for text in texts:
        transformed = tf_idf_transformer.transform(text)
        for token in transformed:
            result[token] += transformed[token]
    return norm(result)


#функция для рассчета близости между двумя текстом и средним значением tf-idf для группы
def get_sim(text, tf_idf_group):
    tf_idf = norm(tf_idf_transformer.transform(text))
    result = 0
    for token in tf_idf:
        result += tf_idf[token] * tf_idf_group.get(token, 0)
    return result

In [14]:
average_tf_idf_positive = get_average_tf_idf(texts_positive)
average_tf_idf_negative = get_average_tf_idf(texts_negative)


In [15]:
text = u'я рад,ведь сегодня впереди вся ночь, идеальная ночка:)'
print ("positive", get_sim(text, average_tf_idf_positive))
print ("negative", get_sim(text, average_tf_idf_negative))

('positive', 0.08587693929834633)
('negative', 0.05415204617630549)
