In [1]:
# import nltk
# nltk.download()
from nltk.corpus import stopwords 
import numpy as np
import pandas as pd

stop = set(stopwords.words('russian'))
data = pd.read_csv("../data/train.csv",usecols=['title','description'])

In [2]:
data.head()

Unnamed: 0,title,description
0,Кокоби(кокон для сна),"Кокон для сна малыша,пользовались меньше месяц..."
1,Стойка для Одежды,"Стойка для одежды, под вешалки. С бутика."
2,Philips bluray,"В хорошем состоянии, домашний кинотеатр с blu ..."
3,Автокресло,Продам кресло от0-25кг
4,"ВАЗ 2110, 2003",Все вопросы по телефону.


## Word2Vec
Word2Vec is an efficient solution to these problems, which leverages the context of the target words. Essentially, we want to use the surrounding words to represent the target words with a Neural Network whose hidden layer encodes the word representation.

There are two types of Word2Vec, Skip-gram and Continuous Bag of Words (CBOW). I will briefly describe how these two methods work in the following paragraphs.

### Skip-gram
For skip-gram, the input is the target word, while the outputs are the words surrounding the target words. For instance, in the sentence “I have a cute dog”, the input would be “a”, whereas the output is “I”, “have”, “cute”, and “dog”, assuming the window size is 5. All the input and output data are of the same dimension and one-hot encoded. The network contains 1 hidden layer whose dimension is equal to the embedding size, which is smaller than the input/ output vector size. At the end of the output layer, a softmax activation function is applied so that each element of the output vector describes how likely a specific word will appear in the context. The graph below visualizes the network structure.
![image](https://cdn-images-1.medium.com/max/1600/1*TbjQNQLuyEW-cgsofyDioQ.png)
The word embedding for the target words can obtained by extracting the hidden layers after feeding the one-hot representation of that word into the network.

With skip-gram, the representation dimension decreases from the vocabulary size (V) to the length of the hidden layer (N). Furthermore, the vectors are more “meaningful” in terms of describing the relationship between words. The vectors obtained by subtracting two related words sometimes express a meaningful concept such as gender or verb tense, as shown in the following figure (dimensionality reduced).
![image](https://cdn-images-1.medium.com/max/1600/1*jpnKO5X0Ii8PVdQYFO2z1Q.png)

### CBOW
Continuous Bag of Words (CBOW) is very similar to skip-gram, except that it swaps the input and output. The idea is that given a context, we want to know which word is most likely to appear in it.
![image](https://cdn-images-1.medium.com/max/1600/1*UdLFo8hgsX0a1NKKuf_n9Q.png)
The biggest difference between Skip-gram and CBOW is that the way the word vectors are generated. For CBOW, all the examples with the target word as target are fed into the networks, and taking the average of the extracted hidden layer. For example, assume we only have two sentences, “He is a nice guy” and “She is a wise queen”. To compute the word representation for the word “a”, we need to feed in these two examples, “He is nice guy”, and “She is wise queen” into the Neural Network and take the average of the value in the hidden layer. Skip-gram only feed in the one and only one target word one-hot vector as input.

It is claimed that Skip-gram tends to do better in rare words. Nevertheless, the performance of Skip-gram and CBOW are generally similar.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import re

import pickle 
#import mglearn
import time


from nltk.tokenize import TweetTokenizer # doesn't split at apostrophes
import nltk
from nltk import Text
from nltk.tokenize import regexp_tokenize
from nltk.tokenize import word_tokenize  
from nltk.tokenize import sent_tokenize 
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
txt = data.description.values[:10]
txt

array(['Кокон для сна малыша,пользовались меньше месяца.цвет серый',
       'Стойка для одежды, под вешалки. С бутика.',
       'В хорошем состоянии, домашний кинотеатр с blu ray, USB. Если настроить, то работает смарт тв /\nТорг',
       'Продам кресло от0-25кг', 'Все вопросы по телефону.',
       'В хорошем состоянии',
       'Электро водонагреватель накопительный на 100 литров Термекс ID 100V, плоский, внутренний бак из нержавейки, 2 кВт, б/у 2 недели, на гарантии.',
       'Бойфренды в хорошем состоянии.', '54 раз мер очень удобное',
       'По стельке 15.5см мерить приокский район. Цвет темнее чем на фото'], dtype=object)

In [7]:
# Initialize a CountVectorizer object: count_vectorizer
count_vec = CountVectorizer(stop_words=stop, analyzer='word', encoding='KOI8-R',
                            ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None)

# Transforms the data into a bag of words
count_train = count_vec.fit(txt)
bag_of_words = count_vec.transform(txt)

# Print the first 10 features of the count_vec
print("Every feature:\n{}".format(count_vec.get_feature_names()))
print("\nEvery 3rd feature:\n{}".format(count_vec.get_feature_names()[::3]))

Every feature:
['100', '100v', '15', '25кг', '54', '5см', 'blu', 'id', 'ray', 'usb', 'бак', 'бойфренды', 'бутика', 'вешалки', 'внутренний', 'водонагреватель', 'вопросы', 'гарантии', 'домашний', 'квт', 'кинотеатр', 'кокон', 'кресло', 'литров', 'малыша', 'меньше', 'мер', 'мерить', 'месяца', 'накопительный', 'настроить', 'недели', 'нержавейки', 'одежды', 'от0', 'очень', 'плоский', 'пользовались', 'приокский', 'продам', 'работает', 'район', 'серый', 'смарт', 'сна', 'состоянии', 'стельке', 'стойка', 'тв', 'телефону', 'темнее', 'термекс', 'торг', 'удобное', 'фото', 'хорошем', 'цвет', 'электро']

Every 3rd feature:
['100', '25кг', 'blu', 'usb', 'бутика', 'водонагреватель', 'домашний', 'кокон', 'малыша', 'мерить', 'настроить', 'одежды', 'плоский', 'продам', 'серый', 'состоянии', 'тв', 'термекс', 'фото', 'электро']


In [8]:
print("Vocabulary size: {}".format(len(count_train.vocabulary_)))
print("Vocabulary content:\n {}".format(count_train.vocabulary_))

Vocabulary size: 58
Vocabulary content:
 {'кокон': 21, 'сна': 44, 'малыша': 24, 'пользовались': 37, 'меньше': 25, 'месяца': 28, 'цвет': 56, 'серый': 42, 'стойка': 47, 'одежды': 33, 'вешалки': 13, 'бутика': 12, 'хорошем': 55, 'состоянии': 45, 'домашний': 18, 'кинотеатр': 20, 'blu': 6, 'ray': 8, 'usb': 9, 'настроить': 30, 'работает': 40, 'смарт': 43, 'тв': 48, 'торг': 52, 'продам': 39, 'кресло': 22, 'от0': 34, '25кг': 3, 'вопросы': 16, 'телефону': 49, 'электро': 57, 'водонагреватель': 15, 'накопительный': 29, '100': 0, 'литров': 23, 'термекс': 51, 'id': 7, '100v': 1, 'плоский': 36, 'внутренний': 14, 'бак': 10, 'нержавейки': 32, 'квт': 19, 'недели': 31, 'гарантии': 17, 'бойфренды': 11, '54': 4, 'мер': 26, 'очень': 35, 'удобное': 53, 'стельке': 46, '15': 2, '5см': 5, 'мерить': 27, 'приокский': 38, 'район': 41, 'темнее': 50, 'фото': 54}


### N-grams
#### N=2

In [9]:
count_vec = CountVectorizer(stop_words=stopwords.words('russian'), analyzer='word', encoding='KOI8-R',
                            ngram_range=(1, 2), max_df=1.0, min_df=1, max_features=None)

count_train = count_vec.fit(txt)
bag_of_words = count_vec.transform(txt)

print(count_vec.get_feature_names())

['100', '100 литров', '100v', '100v плоский', '15', '15 5см', '25кг', '54', '54 мер', '5см', '5см мерить', 'blu', 'blu ray', 'id', 'id 100v', 'ray', 'ray usb', 'usb', 'usb настроить', 'бак', 'бак нержавейки', 'бойфренды', 'бойфренды хорошем', 'бутика', 'вешалки', 'вешалки бутика', 'внутренний', 'внутренний бак', 'водонагреватель', 'водонагреватель накопительный', 'вопросы', 'вопросы телефону', 'гарантии', 'домашний', 'домашний кинотеатр', 'квт', 'квт недели', 'кинотеатр', 'кинотеатр blu', 'кокон', 'кокон сна', 'кресло', 'кресло от0', 'литров', 'литров термекс', 'малыша', 'малыша пользовались', 'меньше', 'меньше месяца', 'мер', 'мер очень', 'мерить', 'мерить приокский', 'месяца', 'месяца цвет', 'накопительный', 'накопительный 100', 'настроить', 'настроить работает', 'недели', 'недели гарантии', 'нержавейки', 'нержавейки квт', 'одежды', 'одежды вешалки', 'от0', 'от0 25кг', 'очень', 'очень удобное', 'плоский', 'плоский внутренний', 'пользовались', 'пользовались меньше', 'приокский', 'прио

#### N=3

In [10]:
count_vec = CountVectorizer(stop_words=stopwords.words('russian'), analyzer='word', encoding='KOI8-R',
                            ngram_range=(1, 3), max_df=1.0, min_df=1, max_features=None)

count_train = count_vec.fit(txt)
bag_of_words = count_vec.transform(txt)

print(count_vec.get_feature_names())

['100', '100 литров', '100 литров термекс', '100v', '100v плоский', '100v плоский внутренний', '15', '15 5см', '15 5см мерить', '25кг', '54', '54 мер', '54 мер очень', '5см', '5см мерить', '5см мерить приокский', 'blu', 'blu ray', 'blu ray usb', 'id', 'id 100v', 'id 100v плоский', 'ray', 'ray usb', 'ray usb настроить', 'usb', 'usb настроить', 'usb настроить работает', 'бак', 'бак нержавейки', 'бак нержавейки квт', 'бойфренды', 'бойфренды хорошем', 'бойфренды хорошем состоянии', 'бутика', 'вешалки', 'вешалки бутика', 'внутренний', 'внутренний бак', 'внутренний бак нержавейки', 'водонагреватель', 'водонагреватель накопительный', 'водонагреватель накопительный 100', 'вопросы', 'вопросы телефону', 'гарантии', 'домашний', 'домашний кинотеатр', 'домашний кинотеатр blu', 'квт', 'квт недели', 'квт недели гарантии', 'кинотеатр', 'кинотеатр blu', 'кинотеатр blu ray', 'кокон', 'кокон сна', 'кокон сна малыша', 'кресло', 'кресло от0', 'кресло от0 25кг', 'литров', 'литров термекс', 'литров термекс i