In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
nltk.download("stopwords")
#--------#

from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation

import os
import json
import pandas as pd
from tqdm import tqdm

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/satellite/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
corpus = [
    'Это первый документ.',
    'Здесь мы пишем слова в различных формах, чтоб глянуть, как пройдёт лемматизация.',
    'Третью строку не заказывали?',
    'Чтоб ещё написать-то?',
    ]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.shape)

['глянуть', 'документ', 'ещё', 'заказывали', 'здесь', 'как', 'лемматизация', 'мы', 'написать', 'не', 'первый', 'пишем', 'пройдёт', 'различных', 'слова', 'строку', 'то', 'третью', 'формах', 'чтоб', 'это']
(4, 21)


In [3]:
mystem = Mystem() 
russian_stopwords = stopwords.words("russian")

In [4]:
def preprocess_text(text):
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation]
    
    text = " ".join(tokens)
    
    return text

In [5]:
for text in corpus:
    print(preprocess_text(text))

это первый документ
писать слово различный форма глянуть проходить лемматизация
третий строка заказывать
написать


In [6]:
vectorizer.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 1),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': None,
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}

In [7]:
vectorizer = TfidfVectorizer(stop_words=russian_stopwords, preprocessor=preprocess_text)
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.shape)
print(X)

['глянуть', 'документ', 'заказывать', 'лемматизация', 'написать', 'первый', 'писать', 'проходить', 'различный', 'слово', 'строка', 'третий', 'форма', 'это']
(4, 14)
  (0, 1)	0.5773502691896257
  (0, 5)	0.5773502691896257
  (0, 13)	0.5773502691896257
  (1, 3)	0.3779644730092272
  (1, 7)	0.3779644730092272
  (1, 0)	0.3779644730092272
  (1, 12)	0.3779644730092272
  (1, 8)	0.3779644730092272
  (1, 9)	0.3779644730092272
  (1, 6)	0.3779644730092272
  (2, 2)	0.5773502691896257
  (2, 10)	0.5773502691896257
  (2, 11)	0.5773502691896257
  (3, 4)	1.0


In [8]:
df = pd.read_parquet('data/test.parquet')
df.head(2)

Unnamed: 0,question,_call_4_collaboration,_jobs,_random_b,_random_politics,_random_talks,article_essence,audio_and_speech,bayesian,big_data,...,sequences_series,theory_and_practice,tool_albumentations,tool_catalyst,tool_catboost,tool_dvc,trading,visualization,welcome,writing_n_presenting
0,Всем привет! Вопрос: имеет ли смысл при подгот...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,А кто нибудь работает в Нью Йорке? Зовёт на ин...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [9]:
%time
X = vectorizer.fit_transform(df.loc[:10000, 'question'])
print(vectorizer.get_feature_names())
print(X.shape)

ь', 'тьма', 'тьмущий', 'тьфу', 'тьюринг', 'тьюториал', 'тьюторило', 'тьісячи', 'тэг', 'тэггинг', 'тэгенить', 'тэгирование', 'тэгировать', 'тэкс', 'тэнзор', 'тюнивать', 'тюнинг', 'тюнить', 'тюня', 'тюрьма', 'тяга', 'тягать', 'тяжело', 'тяжелоатлетика', 'тяжеловато', 'тяжеловесный', 'тяжелый', 'тяжко', 'тякучка', 'тянуть', 'тянуться', 'убедительно', 'убеждать', 'убеждаться', 'убеждение', 'убер', 'убивать', 'убиваться', 'убийственный', 'убийство', 'убийца', 'убирание', 'убирать', 'убираться', 'убитый', 'убогий', 'убого', 'уборка', 'уборная', 'уборщица', 'убунт', 'убунта', 'убунтовской', 'убывать', 'убыток', 'уважаемый', 'уважать', 'уважение', 'уважительный', 'уважуха', 'уведомление', 'увезти', 'увеличение', 'увеличивать', 'увеличиваться', 'увеличивется', 'увенчиваться', 'уверенно', 'уверенность', 'уверенный', 'уверять', 'увидеть', 'увлекательно', 'увлекательный', 'увлекать', 'увлекаться', 'увлекающийся', 'увлечение', 'увлеченно', 'уводить', 'увольнение', 'увольнять', 'увольняться', 'увы',

In [28]:
def preprocess_text(texts):
    lol = lambda lst, sz: [lst[i:i+sz] for i in range(0, len(lst), sz)]
    txtpart = lol(texts, 1000)
    res = []
    for txtp in txtpart:
        alltexts = ' '.join([txt + ' br ' for txt in txtp])

        tokens = mystem.lemmatize(alltexts.lower())
        tokens = [token for token in tokens if token not in russian_stopwords\
                and token != " " \
                and token.strip() not in punctuation]
        doc = []
        for txt in tokens:
            if txt != '\n' and txt.strip() != '':
                if txt == 'br':
                    doc = " ".join(doc)
                    res.append(doc)
                    doc = []
                else:
                    doc.append(txt)
    
    return res

In [18]:
def check_time_vectorizing():
    vectorizer = TfidfVectorizer(stop_words=russian_stopwords, preprocessor=preprocess_text)
    X = vectorizer.fit_transform(df.loc[:10000, 'question'].to_list())
    print(X.shape)

In [19]:
%timeit check_time_vectorizing()

(10001, 28408)
(10001, 28408)
(10001, 28408)
(10001, 28408)
(10001, 28408)
(10001, 28408)
(10001, 28408)
(10001, 28408)
59.8 s ± 19.8 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [29]:
def check_time_vectorizing(text):
    text = preprocess_text(text)
    vectorizer = TfidfVectorizer(stop_words=russian_stopwords)
    X = vectorizer.fit_transform(text)
    print(X.shape)

In [30]:
%timeit check_time_vectorizing(df.loc[:10000, 'question'].to_list())

(10002, 28408)
(10002, 28408)
(10002, 28408)
(10002, 28408)
(10002, 28408)
(10002, 28408)
(10002, 28408)
(10002, 28408)
19.4 s ± 99.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [31]:
len(vectorizer.get_feature_names())

28408

In [41]:
import numpy as np
y = np.argmax(df.loc[:10000, :].drop('question', axis=1).to_numpy(), axis=1)

In [43]:
y

array([48, 12, 70, ..., 35, 37, 12])

In [42]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(random_state=0).fit(X, y)

array([48, 12, 70, ..., 35, 37, 12])

In [48]:
check_time_vectorizing(df.loc[10000:20000, 'question'].to_list())
preds = lr.predict_proba(X)

(10001, 28468)


In [49]:
preds

array([[0.00231701, 0.00266679, 0.00819422, ..., 0.00794933, 0.00224245,
        0.00042579],
       [0.00060736, 0.00074387, 0.00482288, ..., 0.00115837, 0.00071872,
        0.00010592],
       [0.00229474, 0.00385745, 0.01369155, ..., 0.00622464, 0.00204692,
        0.0004762 ],
       ...,
       [0.00188525, 0.00214512, 0.01350511, ..., 0.00541908, 0.00195341,
        0.00036443],
       [0.00221155, 0.00308732, 0.01567729, ..., 0.00536978, 0.0020273 ,
        0.00044428],
       [0.0023327 , 0.00744971, 0.01389734, ..., 0.0057328 , 0.00223082,
        0.0005098 ]])

In [50]:
from sklearn.metrics import roc_auc_score
roc_auc_score(df.loc[10000:20000, :].drop('question', axis=1).to_numpy(), preds, average='macro', multi_class='ovo')

0.49945329466706395