In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline 
sns.set(style="ticks")
import re
import nltk
from nltk.corpus import stopwords
stopWords = stopwords.words("russian")
import dask.array as da

In [46]:
data = pd.read_csv('data/tags.csv')

In [47]:
data.head()

Unnamed: 0,name,tags
0,Благословение небожителей. Том 2,все в эт мир имет счет и удач и невезен бед пр...
1,Благословение небожителей. Том 1,в незапамятн врем си лянут быт наследн принц г...
2,Лето в пионерском галстуке,юр возвраща в пионерск лагер сво юност спуст д...
3,Электрошок. Внезапно,нов книг от автор культов цикл древн наслед и ...
4,Билли Саммерс,нов увлекательн рома от автор культов бестселл...


## Векторизация текста на основе модели "мешка слов"

Векторизация текста поддерживается библиотекой [scikit-learn](https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)

### Использование класса [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

Подсчитывает количество слов словаря, входящих в данный текст.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(encoding='utf-8',stop_words=stopWords)

In [48]:
cv.fit(data['tags'])
corpusVocab = cv.vocabulary_
print('Количество сформированных признаков - {}'.format(len(corpusVocab)))

Количество сформированных признаков - 40132


In [49]:
for i in list(corpusVocab)[1:10]:
    print('{}={}'.format(i, corpusVocab[i]))

мир=18083
имет=11807
счет=33625
удач=35436
невезен=19819
бед=1917
преследова=26493
си=31002
лян=16811


In [9]:
vectors = cv.fit_transform(data['tags'].values.astype('U'))

In [10]:
vectors

<9070x46222 sparse matrix of type '<class 'numpy.int64'>'
	with 602058 stored elements in Compressed Sparse Row format>

In [11]:
vectors.shape

(9070, 46222)

In [12]:
vectors.todense()

matrix([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [13]:
# Непустые значения нулевой строки
[i for i in vectors.todense()[0].getA1() if i>0][0:10]

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

In [14]:
cv.get_feature_names()[23567:23587]



['непродолжительный',
 'непрожитый',
 'непроизвольно',
 'непроизвольный',
 'непройти',
 'непролазный',
 'непроницаемый',
 'непростительный',
 'непросто',
 'непростой',
 'непротиворечивый',
 'непроходимый',
 'непроходить',
 'непрочность',
 'непрочный',
 'непрочь',
 'непрошенный',
 'непрошеный',
 'непрощённый',
 'нептун']

In [None]:
import nltk
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='russian')
tokenizer = nltk.tokenize.WhitespaceTokenizer()

def stemming(text):
   tokens = [stemmer.stem(w) for w in tokenizer.tokenize(text)]
   return " ".join(tokens)

stemming(text)

### CountVectorizer with spacy

In [2]:
import nltk
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='russian')
tokenizer = nltk.tokenize.WhitespaceTokenizer()

def stemming(text):
   tokens = [stemmer.stem(w) for w in tokenizer.tokenize(text)]
   return " ".join(tokens)

In [42]:
data = pd.read_csv('data/spacylem.csv')
data.head()

Unnamed: 0,name,tags
0,Благословение небожителей. Том 2,все в этот мир имет счет и удач и невезен бед ...
1,Благословение небожителей. Том 1,в незапамятн врем се лян был наследн принц гос...
2,Лето в пионерском галстуке,юр возвраща в пионерск лагер сво юност спуст д...
3,Электрошок. Внезапно,нов книг от автор культов цикл древн наслед и ...
4,Билли Саммерс,нов увлекательн рома от автор культов бестселл...


In [43]:
cv.fit(data['tags'])
corpusVocab = cv.vocabulary_
print('Количество сформированных признаков - {}'.format(len(corpusVocab)))

Количество сформированных признаков - 41854


In [44]:
for i in list(corpusVocab)[1:10]:
    print('{}={}'.format(i, corpusVocab[i]))

имет=12295
счет=35135
удач=37012
невезен=20527
бед=1955
преследова=27607
се=32005
лян=17409
одн=22613


In [18]:
vectors = cv.fit_transform(data['tags'].values.astype('U'))
# Непустые значения нулевой строки
[i for i in vectors.todense()[0].getA1() if i>0][0:10]

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

In [45]:
cv.get_feature_names()[29443:29463]



['развит',
 'развлека',
 'развлекательн',
 'развлекателямикубрин',
 'развлеч',
 'развлечен',
 'развод',
 'разводя',
 'разворачива',
 'разворачиваетсянаш',
 'разворовыва',
 'разворочен',
 'разворош',
 'развра',
 'разврат',
 'развратн',
 'развратник',
 'развраща',
 'развращен',
 'развяза']

### Использование класса [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

Вычисляет специфичность текста в корпусе текстов на основе метрики [TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF).

In [42]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfv = TfidfVectorizer(ngram_range=(1,3), stop_words=stopWords, lowercase = False)
tfidf_ngram_features = tfidfv.fit_transform(data['tags'].values.astype('U'))
tfidf_ngram_features

<9070x1047050 sparse matrix of type '<class 'numpy.float64'>'
	with 1916441 stored elements in Compressed Sparse Row format>

In [1]:
#tfidf_ngram_features.todense()

In [65]:
from sklearn.metrics.pairwise import cosine_similarity

In [66]:
similarity = cosine_similarity(vectors)

In [67]:
similarity

array([[1.        , 0.235725  , 0.14896906, ..., 0.        , 0.        ,
        0.        ],
       [0.235725  , 1.        , 0.13054598, ..., 0.        , 0.        ,
        0.        ],
       [0.14896906, 0.13054598, 1.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 1.        , 1.        ,
        1.        ],
       [0.        , 0.        , 0.        , ..., 1.        , 1.        ,
        1.        ],
       [0.        , 0.        , 0.        , ..., 1.        , 1.        ,
        1.        ]])

In [68]:
similarity[0]

array([1.        , 0.235725  , 0.14896906, ..., 0.        , 0.        ,
       0.        ])

In [69]:
type(similarity)

numpy.ndarray

In [70]:
list(zip(list(range(len(similarity[0].tolist()))),similarity[0].tolist()))

TypeError: 'Int64Index' object is not callable

In [72]:
a = [1,2,3,4,5,6,7,8,9]
a

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [73]:
enumerate(a)

<enumerate at 0x28462c00a40>

In [74]:
list(enumerate(a))

TypeError: 'Int64Index' object is not callable

In [None]:
list(enumerate(similarity[0]))

In [None]:
sorted(similarity[0],reverse=True)

In [None]:
opop = data[data['name'] == 'Благословение небожителей. Том 2 '].index[0]

In [None]:
def recommend(rusbook):
    rusbook_index = str(data[data['name'] == rusbook].index[0])
    distances = similarity[rusbook_index]
    rusbook_list = sorted(list(enumerate(distances)),reverse=True,key=lambda x:x[1])[1:6]
    
    for i in rusbook_list:
        print(data.iloc[i[0]].name)

In [None]:
recommend('Благословение небожителей. Том 2 ')

In [None]:
import pickle

In [None]:
pickle.dump(data.to_dict(),open('books_dict.pkl','wb'))

In [None]:
pickle.dump(similarity,open('similarity.pkl','wb'))