<img src='otus.png'>

# Анализ текстовых данных


Николенко, Кадурин, Архангельская. **Глубокое обучение. Погружение в мир нейронных сетей**. Глава 7.


### Какие задачи можно решать, обрабатывая текст?
"Мама мыла раму, и теперь она блестит"  
"Мама мыла раму, и теперь она сильно устала"  

"Кубок не помещался в чемодан, потому что он был слишком велик. Что именно было слишком велико, чемодан или кубок?"

http://commonsensereasoning.org/winograd.html


1. синтаксические задачи
  * разметка по частям речи и по морфологическим признакам
  * деление слов в тексте на морфемы (суффикс, приставка и пр.)
  * стемминг, лемматизация (?)
  * деление на предложения (инициалы и сокращения) и слова (китайский язык)
  * поиск имен и названий в тексте - сущностей
  * разрешение смысла слов в заданном контексте (замок)
  * построить синтаксическое дерево
  * определение того, к каким другим объектам относится слово
2. задачи на понимание текста, в которых есть "учитель"
  * предсказание следующего символа
  * информационный поиск
  * анализ тональности
  * выделение отношений и фактов
  * ответы на вопросы
3. понимание и порождение текста (оценка качества?)
  * порождение текста
  * автоматическое реферирование
  * машинный перевод
  * диалоговые модели (чат-бот)
  
Косвенные задачи:
  * описание изображения
  * распознавание речи
  
**Задачи бизнеса**:
  * распознавание речи (помощник)
  * чат-бот (замена техподдержки в решении большинства вопросов)
  * поиск точного ответа на вопрос в базе документов (например, база стандартов)
  * оценка мнения в социальных сетях о продукте
  * ... (ваши варианты?)

In [1]:
import nltk
# nltk.download()  # download lots of data

# От текста к простым моделям

## Разбиение на токены
**Def.**  
разбиение последовательности символов на части (токены), возможно, исключая из рассмотрения некоторые символы  
Наивный подход: разделить строку пробелами и выкинуть знаки препинания  


*Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.*  


**Проблемы:**  
* my.email@mail.ru, 127.0.0.1
* С++, C#
* York University vs New York University
* Зависимость от языка (“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

http://www.nltk.org/

In [2]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('\w+|[^\w\s]+')
s = u'Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.'
for t in tokenizer.tokenize(s)[:7]: 
    print t + " ::",

Трисия :: любила :: Нью :: - :: Йорк :: , :: поскольку ::


In [40]:
from ftfy import fix_text
print(fix_text(u'\001\033[36;44mI&#x92;m blue, da ba dee da ba doo&#133;\033[0m', normalization='NFKC'))

I'm blue, da ba dee da ba doo...


## Стоп-слова
**Def.**  
Наиболее частые слова в языке, не содержащие никакой информации о содержании текста



In [4]:
from nltk.corpus import stopwords
print ' '.join(stopwords.words('russian')[:20])

и в во не что он на я с со как а то все она так его но да ты


Проблема: “To be or not to be"


## Нормализация
**Def.**  
Приведение токенов к единому виду для того, чтобы избавиться от поверхностной разницы в написании  

Подходы  
* сформулировать набор правил, по которым преобразуется токен  
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
* явно хранить связи между токенами (WordNet – Princeton)  
машина → автомобиль, Windows 6→ window

In [41]:
s = u'Нью-Йорк'
s1 = s.lower()
print s1

нью-йорк


In [42]:
import re
s2 = re.sub(ur"\W", "", s1, flags=re.U)
print s2

ньюйорк


In [43]:
s3 = re.sub(ur"й", u"и", s2, flags=re.U)
print s3

ньюиорк


## Стемминг и Лемматизация
**Def.**  
Приведение грамматических форм слова и однокоренных слов к единой основе (lemma):
* Stemming – с помощью простых эвристических правил
  * Porter (Cambridge – 1980)
        5 этапов, на каждом применяется набор правил, таких как
            sses → ss (caresses → caress)
            ies → i (ponies → poni)

  * Lovins (1968)
  * Paice (1990)
  * другие
* Lemmatization – с использованием словарей и морфологического анализа


## Стемминг

In [44]:
from nltk.stem.snowball import PorterStemmer
s = PorterStemmer()
print s.stem('Tokenization')
print s.stem('stemming')

from nltk.stem.snowball import RussianStemmer
r = RussianStemmer()
print r.stem(u'Авиация')
print r.stem(u'национальный')

Token
stem
авиац
национальн


**Наблюдение**  
для сложных языков лучше подходит лемматизация

## Лемматизация

In [50]:
import pymorphy2

import pymorphy2
morph = pymorphy2.MorphAnalyzer()
for i in morph.parse(u'замок'):
    print i
    print i.word, i.normal_form

Parse(word=u'\u0437\u0430\u043c\u043e\u043a', tag=OpencorporaTag('NOUN,inan,masc sing,nomn'), normal_form=u'\u0437\u0430\u043c\u043e\u043a', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, u'\u0437\u0430\u043c\u043e\u043a', 139, 0),))
замок замок
Parse(word=u'\u0437\u0430\u043c\u043e\u043a', tag=OpencorporaTag('NOUN,inan,masc sing,accs'), normal_form=u'\u0437\u0430\u043c\u043e\u043a', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, u'\u0437\u0430\u043c\u043e\u043a', 139, 3),))
замок замок
Parse(word=u'\u0437\u0430\u043c\u043e\u043a', tag=OpencorporaTag('VERB,perf,intr masc,sing,past,indc'), normal_form=u'\u0437\u0430\u043c\u043e\u043a\u043d\u0443\u0442\u044c', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, u'\u0437\u0430\u043c\u043e\u043a', 730, 1),))
замок замокнуть


## Представление документов
**Boolean Model.** Присутствие или отсутствие слова в документе  
**Bag of Words.** Порядок токенов не важен  

*Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?*

Координаты
* Мультиномиальные: количество токенов в документе
* Числовые: взвешенное количество токенов в документе

In [51]:
from sklearn.feature_extraction import DictVectorizer
# http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html

In [53]:
v = DictVectorizer(sparse=False)
D = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]
v.fit(D)
X = v.transform(D)
X

array([[ 2.,  0.,  1.],
       [ 0.,  1.,  3.]])

In [12]:
v.inverse_transform(X)

[{'bar': 2.0, 'foo': 1.0}, {'baz': 1.0, 'foo': 3.0}]

In [13]:
v.transform({'foo': 4, 'unseen_feature': 3})

array([[ 0.,  0.,  4.]])

In [65]:
from collections import Counter
from nltk.tokenize import RegexpTokenizer

docs = [
    "Thank 40 you, Mr President.",
    "Madam President, I agree and recognise Turkey's European prospects, but if these prospects are to have an auspicious outcome, Turkey needs to:",
    "Madam President, firstly, I would like to express my sincerest thanks to the High Representative for including this important issue in the agenda at such an early stage.",
]

tokenizer = RegexpTokenizer('\w+|[^\w\s]+')
stopwords_eng = stopwords.words()

document_bags = list()

for d in docs:
    bag = Counter()
    text = d.lower()

    for t in tokenizer.tokenize(text):     
        if t in stopwords_eng:
            continue
            
        bag[t] += 1
    document_bags.append(bag)
    
document_bags

[Counter({',': 1, '.': 1, '40': 1, 'mr': 1, 'president': 1, 'thank': 1}),
 Counter({"'": 1,
          ',': 3,
          ':': 1,
          'agree': 1,
          'auspicious': 1,
          'european': 1,
          'madam': 1,
          'needs': 1,
          'outcome': 1,
          'president': 1,
          'prospects': 2,
          'recognise': 1,
          'turkey': 2}),
 Counter({',': 2,
          '.': 1,
          'agenda': 1,
          'early': 1,
          'express': 1,
          'firstly': 1,
          'high': 1,
          'important': 1,
          'including': 1,
          'issue': 1,
          'like': 1,
          'madam': 1,
          'president': 1,
          'representative': 1,
          'sincerest': 1,
          'stage': 1,
          'thanks': 1,
          'would': 1})]

In [62]:
v = DictVectorizer(sparse=False)
X = v.fit_transform(document_bags)
X.shape

(3, 30)

In [61]:
v.feature_names_

["'",
 ',',
 '.',
 ':',
 'agenda',
 'agree',
 'auspicious',
 'early',
 'european',
 'express',
 'firstly',
 'high',
 'important',
 'including',
 'issue',
 'like',
 'madam',
 'mr',
 'needs',
 'outcome',
 'president',
 'prospects',
 'recognise',
 'representative',
 'sincerest',
 'stage',
 'thank',
 'thanks',
 'turkey',
 'would']

In [66]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer.fit_transform(docs).todense()

matrix([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
         1, 0, 0, 1, 1, 1, 2, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 2, 2, 0, 0],
        [0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1,
         1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 2, 0, 1, 2, 0, 1, 0]])

In [67]:
vectorizer.vocabulary_

{u'40': 0,
 u'agenda': 1,
 u'agree': 2,
 u'an': 3,
 u'and': 4,
 u'are': 5,
 u'at': 6,
 u'auspicious': 7,
 u'but': 8,
 u'early': 9,
 u'european': 10,
 u'express': 11,
 u'firstly': 12,
 u'for': 13,
 u'have': 14,
 u'high': 15,
 u'if': 16,
 u'important': 17,
 u'in': 18,
 u'including': 19,
 u'issue': 20,
 u'like': 21,
 u'madam': 22,
 u'mr': 23,
 u'my': 24,
 u'needs': 25,
 u'outcome': 26,
 u'president': 27,
 u'prospects': 28,
 u'recognise': 29,
 u'representative': 30,
 u'sincerest': 31,
 u'stage': 32,
 u'such': 33,
 u'thank': 34,
 u'thanks': 35,
 u'the': 36,
 u'these': 37,
 u'this': 38,
 u'to': 39,
 u'turkey': 40,
 u'would': 41,
 u'you': 42}

## TF-IDF

Количество вхождений слова $t$ в документе $d$
$$
TF_{t,d} = term\!\!-\!\!frequency(t, d)
$$
Количество документов из $N$ возможных, где встречается $t$
$$
DF_t = document\!\!-\!\!fequency(t)
$$
$$
IDF_t = inverse\!\!-\!\!document\!\!-\!\!frequency(t) = \log \frac{N}{DF_t}
$$
TF-IDF
$$
TF\!\!-\!\!IDF_{t,d} = TF_{t,d} \times IDF_t
$$

Оценивает важность слова в контексте документа, являющегося частью корпуса
`

In [68]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
features = vectorizer.fit_transform(docs).todense()
features

matrix([[ 0.47952794,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.        ,  0.47952794,  0.        ,
          0.        ,  0.        ,  0.28321692,  0.        ,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.47952794,
          0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.47952794],
        [ 0.        ,  0.        ,  0.20489728,  0.15582966,  0.20489728,
          0.20489728,  0.        ,  0.20489728,  0.20489728,  0.        ,
          0.20489728,  0.        ,  0.        ,  0.        ,  0.20489728,
          0.        ,  0.20489728,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  0.15582966,  0.        ,  0

In [69]:
vectorizer.vocabulary_

{u'40': 0,
 u'agenda': 1,
 u'agree': 2,
 u'an': 3,
 u'and': 4,
 u'are': 5,
 u'at': 6,
 u'auspicious': 7,
 u'but': 8,
 u'early': 9,
 u'european': 10,
 u'express': 11,
 u'firstly': 12,
 u'for': 13,
 u'have': 14,
 u'high': 15,
 u'if': 16,
 u'important': 17,
 u'in': 18,
 u'including': 19,
 u'issue': 20,
 u'like': 21,
 u'madam': 22,
 u'mr': 23,
 u'my': 24,
 u'needs': 25,
 u'outcome': 26,
 u'president': 27,
 u'prospects': 28,
 u'recognise': 29,
 u'representative': 30,
 u'sincerest': 31,
 u'stage': 32,
 u'such': 33,
 u'thank': 34,
 u'thanks': 35,
 u'the': 36,
 u'these': 37,
 u'this': 38,
 u'to': 39,
 u'turkey': 40,
 u'would': 41,
 u'you': 42}

In [70]:
vectorizer.stop_words_

set()

In [71]:
docs

['Thank 40 you, Mr President.',
 "Madam President, I agree and recognise Turkey's European prospects, but if these prospects are to have an auspicious outcome, Turkey needs to:",
 'Madam President, firstly, I would like to express my sincerest thanks to the High Representative for including this important issue in the agenda at such an early stage.']

In [74]:
features[:, 22]

matrix([[ 0.        ],
        [ 0.15582966],
        [ 0.14419209]])

In [24]:
import numpy as np
# https://radimrehurek.com/gensim/
import gensim
from gensim.models import TfidfModel

vectorizer = CountVectorizer()
x = vectorizer.fit_transform(docs).todense()

corpus = [list(filter(lambda x: x[1] != 0, enumerate(np.asarray(row)[0]))) for row in x]
tfidf = TfidfModel(corpus)
print tfidf[corpus[0]]

[(22, 0.57735026918962584), (33, 0.57735026918962584), (41, 0.57735026918962584)]


## Байесовский классификатор

Дано

$\mathbf{x} \in X$ - описание документа $d$ из коллекции $D$  
$C_k \in C, \; k = 1,\ldots,K$ - целевая переменная

Теорема Байеса
$$
P(C_k \mid \mathbf{x}) = \frac{p(\mathbf{x} \mid C_k) p(C_k)}{p(\mathbf{x})} \propto p(\mathbf{x} \mid C_k) p(C_k)
$$

Принцип Maximum A-Posteriori
$$
C_{MAP} = \arg \max_k p(C_k | \mathbf{x})
$$

Байесовский классификатор — широкий класс алгоритмов классификации, основанный на принципе максимума апостериорной вероятности.  
Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов.  
Объект относится к тому классу, для которого апостериорная вероятность максимальна.


## Naive Bayes

$x_j$ - слово на $j$-м месте в документе $\mathbf{x}$,  
$w^i \in V$ - слово из словаря $V$


Предположения
* conditional independence - слова внутри документа независимы
$$
p(x_i=w^s, x_j=w^r | C_k) = p(x_i=w^s | C_k) p(x_j=w^r | C_k)
$$
* postional independence - результат не зависит от позиции слова в документе
$$
P(x_i=w^s | C_k) = P(x_j=w^s | C_k) = P(x = w^s | C_k)
$$

Получаем
$$
p(\mathbf{x} | C_k) = p(x_1=w^{s_1}, \ldots, x_{|\mathbf{x}|}=w^{s_{|\mathbf{x}|}} | C_k) = \prod_{i=1}^{|\mathbf{x}|} p(x = w^{s_i} | C_k)
$$

**Почему NB хорошо работает?**  
Корректная оценка дает правильное предсказание, но правильное предсказание *не требует* корректной оценки


## Варианты NB

MAP
$$
C_{MAP} = \arg \max_k p(C_k) \prod_{i=1}^{|\mathbf{x}|} p(x = w^{s_i} | C_k)  = 
$$
$$
= \arg \max_k \left[ \log p(C_k) + \sum_{i=1}^{|\mathbf{x}|} \log p(x = w^{s_i} | C_k) \right]
$$
Априорные вероятности
$$
p(C_k) = N_{C_k}/{N}
$$
Likelihood $p(x = w^{s_i} | C_k)$
* BernoulliNB $p(x = w^{s_i} | C_k) = D_{w^{s_i}, C_k} / D_{C_k}$, $D$ - кол-во документов
* MultinomialNB $p(x = w^{s_i} | C_k) = T_{w^{s_i}, C_k} / T_{C_k}$, $T$ - кол-во токенов
* GaussianNB $p(x = w^{s_i} | C_k) = \mathcal{N}(\mu_k, \sigma_k^2)$, параметры из MLE


## Обучение NB

```
function nb_train(D,C):
	V = dictionary of tokens
	N = number of documents
	for Ck in C: # iterate over all classes
		N_Ck = number of documents in class Ck
		p(Ck) = N_Ck / N # Class prior
		D_Ck = Documents in class Ck		
		for w_i in V:			
			# multinomial, bernoulli, gaussian
			p(w_i|Ck) = count_likelihood(...)
	return V, p(Ck), p(w_i|Ck)
```

Алгоритмическая сложность: $O(|D| \langle |\mathbf{x}| \rangle + |C||V|)$

## Применение MultinomialNB


```
function nb_apply(d, C, V, p(Ck), p(w_i|Ck)):
	x = tokenize(d) # somehow	
	for Ck in C: # iterate over all classes
		score(Ck|x) = log p(Ck) # use class prior
		# use likelihoods
		for i in 1..|x|:		
			score(Ck|x) += log p(x_i|Ck)
	return arg max score(Ck|x)
```

Алгоритмическая сложность: $O(|C||\mathbf{x}|)$


## Сглаживание

Проблема: $p(свинки|мимими) = 0$

Решение:

$$ p(x=w_{s_i}|C_k) = \frac{ T_{w^{s_i}, C_k} + \alpha }{ T_{C_k} + \alpha|V|} $$


если $\alpha \geq 0$ - сглаживание Лапласа, если $0 \leq \alpha \leq 1$ - Лидстоуна



| Example No.| Color |Type| Origin|Stolen?|
|--|--|--|--|--|
|1| Red |Sports |Domestic |Yes|
|2| Red |Sports |Domestic |No|
|3| Red |Sports |Domestic |Yes|
|4| Yellow |Sports |Domestic |No|
|5| Yellow |Sports |Imported |Yes|
|6| Yellow |SUV |Imported| No|
|7| Yellow |SUV |Imported |Yes|
|8| Yellow |SUV |Domestic |No|
|9| Red |SUV |Imported |No|
|10| Red |Sports| Imported |Yes|

x = Red Domestic SUV   
y = ?

p(Ck):  
p(Yes) = 5 / 10  
p(No) = 5 / 10

p(Red|Yes) = 3 / 15  
P(Red|No) = 2 / 15  
p(Domestic|Yes) = 2 / 15  
p(Domestic|No) = 3 / 15  
p(SUV|Yes) = 1 / 15  
p(SUV|No) = 3 / 15  

p(Yes|x) = p(Yes) * p(Red|Yes) * p(Domestic|Yes) * p(SUV|Yes) = 5/10 * 3/15 * 2/15 * 1/15  
p(No|x) = p(No) * p(Red|No) * p(Domestic|No) * p(SUV|No) = 5/10 * 2/15 * 3/15 * 3/15  

No!

Проделать то же самое со сглаживанием и предсказать  Black Domestic SUV

**+** (Удивительно) неплохо работает  
**+** Стабилен при смещении выборки  
**+** Оптимальный по производительности  

**-** Наивные предположения  
**-** Требует отбора признаков  

# SMS Spam  detection

https://www.kaggle.com/uciml/sms-spam-collection-dataset/data

In [25]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import accuracy_score

In [26]:
import pandas as pd
from sklearn.model_selection import train_test_split
import time

In [27]:
df = pd.read_csv('spam.csv', usecols=[0, 1], encoding='latin-1')
df.head()

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [28]:
vectorizer = CountVectorizer()

y = pd.get_dummies(df['v1'])['spam']
X = vectorizer.fit_transform(df['v2'])

In [76]:
df['v1'].value_counts

<bound method Series.value_counts of 0        ham
1        ham
2       spam
3        ham
4        ham
5       spam
6        ham
7        ham
8       spam
9       spam
10       ham
11      spam
12      spam
13       ham
14       ham
15      spam
16       ham
17       ham
18       ham
19      spam
20       ham
21       ham
22       ham
23       ham
24       ham
25       ham
26       ham
27       ham
28       ham
29       ham
        ... 
5542     ham
5543     ham
5544     ham
5545     ham
5546     ham
5547    spam
5548     ham
5549     ham
5550     ham
5551     ham
5552     ham
5553     ham
5554     ham
5555     ham
5556     ham
5557     ham
5558     ham
5559     ham
5560     ham
5561     ham
5562     ham
5563     ham
5564     ham
5565     ham
5566    spam
5567    spam
5568     ham
5569     ham
5570     ham
5571     ham
Name: v1, Length: 5572, dtype: object>

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)


In [30]:
def randomized_cv(model, param_grid, x_train, y_train):
    grid_search = RandomizedSearchCV(model, param_grid, cv=5, scoring='accuracy', n_iter=10)
    t_start = time.time()
    grid_search.fit(x_train, y_train)
    t_end = time.time()
    print('model {} best accuracy score is {}'.format(model.__class__.__name__, grid_search.best_score_))
    print('time for training is {} seconds'.format(t_end - t_start))
    return grid_search.best_estimator_

In [31]:
param_grid = {'alpha':[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.5, 2, 5]}
model = MultinomialNB()
best_model = randomized_cv(model, param_grid, X_train, y_train)

  'setting alpha = %.1e' % _ALPHA_MIN)


model MultinomialNB best accuracy score is 0.981516206804
time for training is 0.304975986481 seconds


In [32]:
y_pred = best_model.predict(X_test)
print(accuracy_score(y_test, y_pred))

0.980967917346


In [33]:
best_model.predict(X_test[:10])

array([0, 0, 1, 0, 1, 0, 0, 0, 0, 0], dtype=uint8)

In [34]:
vectorizer.inverse_transform(X_test[:10])

[array([u'no', u'just', u'teaches', u'choose', u'funny', u'wife',
        u'tsunamis', u'nobody', u'fact', u'hw', u'natural', u'happens',
        u'volcanoes', u'erupt', u'arise', u'hurricanes', u'sway',
        u'aroundn', u'disasters'],
       dtype='<U34'),
 array([u'to', u'think', u'and', u'you', u'for', u'my', u'is', u'me',
        u'had', u'the', u'on', u'cost', u'if', u'are', u'do', u'of', u'her',
        u'joke', u'one', u'research', u'contact', u'school', u'sent',
        u'also', u'few', u'thinking', u'less', u'schools', u'ones',
        u'scores', u'sophas', u'secondary', u'application', u'applying',
        u'ogunrinde', u'expensive'],
       dtype='<U34'),
 array([u'to', u'you', u'call', u'150p', u'pobox', u'that', u'we', u'know',
        u'out', u'who', u'find', u'someone', u'fancies', u'09058097218',
        u'ls15hb'],
       dtype='<U34'),
 array([u'only', u'in', u'ok', u'to', u'text', u'it', u'and', u'you', u'me',
        u'as', u'your', u'the', u'soon', u'promise', u

# Word2Vec

https://code.google.com/archive/p/word2vec/#Pre-trained_word_and_phrase_vectors

In [77]:
from gensim.models import KeyedVectors
fn = "freebase-vectors-skipgram1000-en.bin.gz"
model = KeyedVectors.load_word2vec_format(fn)
model.most_similar('vacation')

IOError: [Errno 2] No such file or directory: 'freebase-vectors-skipgram1000-en.bin.gz'

https://dumps.wikimedia.org/

In [None]:
from gensim.corpora.wikicorpus import WikiCorpus
wiki = WikiCorpus('ruwiki-20171220-pages-articles-multistream.xml.bz2')

In [None]:
from gensim.models.phrases import Phraser, Phrases
bigram = Phrases(wiki.get_texts())
bigram_transformer = Phraser(bigram)


def text_generator_bigram():
    for text in wiki.get_texts():
        yield bigram_transformer[[word.decode('utf8') for word in text]]
        
        
def text_generator_trigram():
    for text in wiki.get_texts():
        yield trigram_transformer[bigram_transformer[[word.decode('utf8') for word in text]]]

In [None]:
from gensim.models.word2vec import Word2Vec
model = Word2Vec(size=100, window=7, min_count=10, workers=10)
model.build_vocab(text_generator_trigram())
model.train(text_generator_trigram())

fname = 'w2v_model_wiki'
model.save(fname)
model = Word2Vec.load(fname)
model.most_similar('токен')

Обработка текста для Java:  
https://stanfordnlp.github.io/CoreNLP/index.html  
https://opennlp.apache.org/docs/

# SpaCy



In [78]:
import spacy

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load('en')

# Process whole documents

text = '. '.join(df['v2'][:10])
doc = nlp(text)

# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)


(u'Free', u'PERSON')
(u'2', u'CARDINAL')
(u'FA Cup', u'EVENT')
(u'21st', u'ORDINAL')
(u'May 2005', u'DATE')
(u'87121', u'DATE')
(u'rate)T&C', u'ORG')
(u'08452810075over18', u'PERSON')
(u'Nah', u'PERSON')
(u"3 week's", u'DATE')
(u'Melle Melle', u'PERSON')
(u'Oru Minnaminunginte Nurungu Vettam', u'PERSON')
(u'9', u'CARDINAL')
(u'KL341', u'CARDINAL')
(u'Valid', u'FAC')
(u'12 hours', u'TIME')
(u'11 months', u'DATE')
(u'U R', u'ORG')
(u'Update', u'GPE')
(u'The Mobile Update Co FREE', u'ORG')
(u'08002986030', u'DATE')


In [37]:
text

u"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat.... Ok lar... Joking wif u oni.... Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's. U dun say so early hor... U c already then say.... Nah I don't think he goes to usf, he lives around here though. FreeMsg Hey there darling it's been 3 week's now and no word back! I'd like some fun you up for it still? Tb ok! XxX std chgs to send, \xe5\xa31.50 to rcv. Even my brother is not like to speak with me. They treat me like aids patent.. As per your request 'Melle Melle (Oru Minnaminunginte Nurungu Vettam)' has been set as your callertune for all Callers. Press *9 to copy your friends Callertune. WINNER!! As a valued network customer you have been selected to receivea \xe5\xa3900 prize reward! To claim call 09061701461. Claim code KL341. Valid 12 hours only.. Had your mobile 11 m

In [80]:
# Determine semantic similarities
doc1 = nlp(u'the fries were gross')
doc2 = nlp(u'worst potato ever')
doc1.similarity(doc2)


0.42931570970586602

In [39]:
# Determine semantic similarities
doc1 = nlp(u'men')
doc2 = nlp(u'women')
doc1.similarity(doc2)

0.86696608592805557

In [39]:
import spacy

from numpy import dot
from numpy.linalg import norm

parser = spacy.load('en')
nasa = parser.vocab[u'men']

# cosine similarity
cosine = lambda v1, v2: dot(v1, v2) / (norm(v1) * norm(v2))

# gather all known words, take only the lowercased versions
allWords = list({w for w in parser.vocab if w.has_vector and w.orth_.islower() and w.lower_ != "men"})
print(len(allWords))
# sort by similarity to NASA
allWords.sort(key=lambda w: cosine(w.vector, nasa.vector))
allWords.reverse()
print("Top 10 most similar words to men:")
for word in allWords[:10]:
    print(word.orth_)

0
Top 10 most similar words to men:


In [None]:
print parser.vocab[0].vector

In [38]:
m = spacy.load('en_vectors_web_lg')