Возьмем популярный датасет 20 Newsgroups, встроенный в пакет sklearn. Датасет состоит из ~20К текстов, классифицированных на 20 категорий. Датасет разбит на train и test. Для загрузки используем модуль fetch_20newsgroups, в параметрах указать, что мета информацию о тексте загружать не нужно:

In [1]:
import numpy as np
from sklearn.datasets import fetch_20newsgroups

newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

Выведем список категорий текстов:

In [2]:
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

Атрибут target хранит номера категорий для текстов из обучающей выборки:

In [3]:
newsgroups_train.target[:100]

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4,  8, 19,  4, 14,  6,  0,  1,
        7, 12,  5,  0, 10,  6,  2,  4,  1, 12,  9, 15,  7,  6, 13, 12, 17,
       18, 10,  8, 11,  8, 16,  9,  4,  3,  9,  9,  4,  4,  8, 12, 14,  5,
       15,  2, 13, 17, 11,  7, 10,  2, 14, 12,  5,  4,  6,  7,  0, 11, 16,
        0,  6, 17,  7, 12,  7,  3, 12, 11,  7,  2,  2,  0, 16,  1,  2,  7,
        3,  2,  1, 10, 12, 12, 17, 12,  2,  8,  8, 18,  5,  0,  1])

Доступ к самим текстам через атрибут data. Выведем текст и категорию случайного примера из обучающего датасета:

In [4]:
n = 854
print('Topic = {0}\n'.format(newsgroups_train.target_names[newsgroups_train.target[n]]))
print(newsgroups_train.data[n])

Topic = rec.motorcycles

hey... I'm pretty new to the wonderful world of motorcycles... I just
bought
a used 81 Kaw KZ650 CSR from a friend.... I was just wondering what kind of

saddle bags I could get for it (since I know nothing about them)  are there
bags for the gas tank?  how much would some cost, and how much do they
hold?
thanks for your advice!!!  I may be new to riding, but I love it
already!!!!
:)




Представим текст как вектор индикаторов вхождений слов из некоторого словаря в текст. Это простейшая модель BOF.

Сформируем словарь на основе нашего набора текстов. Для этого используем модуль CountVectorizer:

In [44]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS

vectorizer = CountVectorizer(lowercase=True, stop_words=ENGLISH_STOP_WORDS,
                             analyzer='word', binary=True, max_df=0.1, min_df=0.00085)
vectorizer.fit(newsgroups_train.data)

CountVectorizer(analyzer='word', binary=True, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=0.1, max_features=None, min_df=0.00085,
        ngram_range=(1, 1), preprocessor=None,
        stop_words=frozenset({'third', 'beyond', 'seems', 'your', 'once', 'con', 'ourselves', 'no', 'too', 'otherwise', 'her', 'whereupon', 'a', 'might', 'detail', 'along', 'elsewhere', 'herself', 'becomes', 'formerly', 'every', 'of', 'have', 'twelve', 'often', 'co', 'whereafter', 'beside', 'besides', 'fift...'either', 'inc', 'less', 'also', 'amount', 'mine', 'see', 'onto', 'without', 'amoungst', 'thereby'}),
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [45]:
len(vectorizer.vocabulary_)

10421

Проиндексированные слова и их индексы

In [46]:
vectorizer.vocabulary_

{'wondering': 10254,
 'enlighten': 3609,
 'car': 1923,
 'saw': 8317,
 'day': 2890,
 'door': 3317,
 'sports': 8888,
 'looked': 5791,
 'late': 5563,
 '60s': 546,
 'early': 3429,
 '70s': 597,
 'called': 1877,
 'doors': 3318,
 'really': 7751,
 'small': 8733,
 'addition': 830,
 'bumper': 1808,
 'separate': 8480,
 'rest': 8030,
 'body': 1645,
 'model': 6227,
 'engine': 3593,
 'specs': 8851,
 'years': 10373,
 'production': 7423,
 'history': 4719,
 'info': 5048,
 'looking': 5792,
 'mail': 5889,
 'fair': 3891,
 'number': 6572,
 'brave': 1727,
 'souls': 8806,
 'upgraded': 9843,
 'si': 8618,
 'clock': 2204,
 'oscillator': 6773,
 'shared': 8545,
 'experiences': 3796,
 'poll': 7197,
 'send': 8461,
 'brief': 1748,
 'message': 6093,
 'detailing': 3085,
 'procedure': 7404,
 'speed': 8857,
 'cpu': 2711,
 'rated': 7705,
 'add': 827,
 'cards': 1930,
 'adapters': 824,
 'heat': 4647,
 'hour': 4792,
 'usage': 9861,
 'floppy': 4083,
 'disk': 3229,
 'functionality': 4236,
 '800': 624,
 'floppies': 4082,
 'esp

Индекс, например, для слова car:

In [47]:
vectorizer.vocabulary_.get('car')

1923

А теперь преобразуем строку в вектор:

In [48]:
text = 'I was wondering if anyone out there could enlighten me on this car I saw'
x = vectorizer.transform([text])

Какой тип имеет объект, на который указывает x?

In [49]:
type(x)

scipy.sparse.csr.csr_matrix

Разреженная матрица!

# Отступление про разреженные матрицы

Список ненулевых элементов матрицы:

In [50]:
x.data

array([1, 1, 1, 1], dtype=int64)

Индексы строк и столбцов для ненулевых элементов:

In [51]:
x.nonzero()

(array([0, 0, 0, 0], dtype=int32),
 array([ 1923,  3609,  8317, 10254], dtype=int32))

Преобразование к объекту ndarray (именно после приведения к такому виду разреженные матрицы можно подставлять в функции, например, библиотеки Numpy):

In [52]:
x.toarray()

array([[0, 0, 0, ..., 0, 0, 0]], dtype=int64)

Вернемся к словарю. Раскодируем вектор x в список слов:

In [53]:
vectorizer.inverse_transform(x)

[array(['car', 'enlighten', 'saw', 'wondering'], dtype='<U79')]

Пропало слово I. Но дело в том, что по умолчанию CountVectorizer отбрасывает последовательности, короче 2 символов. На это указывает параметр token_pattern='(?u)\\b\\w\\w+\\b'.

Переведем весь набор текстов обучающего датасета в набор векторов, получим матрицу X_train:

In [54]:
X_train = vectorizer.fit_transform(newsgroups_train.data)
X_train.shape

(11314, 10421)

О пользе разреженных матриц. Отношение числа ненулевых элементов ко всем элементам матрицы X_train:

In [55]:
X_train.nnz / np.prod(X_train.shape)

0.004732195804636132

Задача: запустить модель LDA и Gibbs Sampling с числов тегов 20. Вывести топ-10 слов по каждому тегу. Соотнести полученные теги с тегами из датасета, сделать выводы.



In [56]:
print(X_train)

  (0, 5889)	1
  (0, 5792)	1
  (0, 5048)	1
  (0, 4719)	1
  (0, 7423)	1
  (0, 10373)	1
  (0, 8851)	1
  (0, 3593)	1
  (0, 6227)	1
  (0, 1645)	1
  (0, 8030)	1
  (0, 8480)	1
  (0, 1808)	1
  (0, 830)	1
  (0, 8733)	1
  (0, 7751)	1
  (0, 3318)	1
  (0, 1877)	1
  (0, 597)	1
  (0, 3429)	1
  (0, 546)	1
  (0, 5563)	1
  (0, 5791)	1
  (0, 8888)	1
  (0, 3317)	1
  :	:
  (11313, 1982)	1
  (11313, 6183)	1
  (11313, 8898)	1
  (11313, 9297)	1
  (11313, 7169)	1
  (11313, 6190)	1
  (11313, 1397)	1
  (11313, 6920)	1
  (11313, 9010)	1
  (11313, 8630)	1
  (11313, 1627)	1
  (11313, 9574)	1
  (11313, 10179)	1
  (11313, 8492)	1
  (11313, 8504)	1
  (11313, 4759)	1
  (11313, 1875)	1
  (11313, 9703)	1
  (11313, 363)	1
  (11313, 4507)	1
  (11313, 4669)	1
  (11313, 101)	1
  (11313, 5756)	1
  (11313, 6572)	1
  (11313, 3593)	1


In [57]:
X_train.data

array([1, 1, 1, ..., 1, 1, 1], dtype=int64)

In [58]:
X_train.nonzero()[1]

array([5889, 5792, 5048, ..., 5756, 6572, 3593], dtype=int32)

In [62]:
from tqdm import tqdm

def LDA(n, X_train, alpha, beta):
    Nkw = np.zeros((n, X_train.shape[1]))
    Ndk = np.zeros((X_train.shape[0], n))
    Nk = np.zeros(n)
    
    doc = X_train.nonzero()[0]
    word = X_train.nonzero()[1]
    z = np.random.choice(n, len(word))
    
    for i in range(len(word)):
        Nkw[z[i]][word[i]]+=1
        Ndk[doc[i]][z[i]]+=1
        Nk[z[i]]+=1
    
    for it in tqdm(range(100)):
        for i in range(len(word)):
            Nkw[z[i]][word[i]]-=1
            Ndk[doc[i]][z[i]]-=1
            Nk[z[i]]-=1
            
            p = (Ndk[doc[i], :] + alpha)*(Nkw[:, word[i]] + beta[word[i]])/(Nk + beta.sum())
            p /= p.sum()
            z[i] = np.random.choice(np.arange(n), p = p)
            
            Nkw[z[i]][word[i]]+=1
            Ndk[doc[i]][z[i]]+=1
            Nk[z[i]]+=1
            
    return z, Nkw, Ndk, Nk

In [63]:
n = 20
z, Nkw, Ndk, Nk = LDA(n, X_train, 2*np.ones(n), 2*np.ones(len(X_train.nonzero()[1])))

100%|█████████████████████████████████████| 100/100 [8:02:48<00:00, 288.73s/it]


In [64]:
N = np.argsort(Nkw)[:, -10:]
N = N[:, ::-1]
top = np.zeros((n,X_train.shape[1]))
for k in range(n):
    for i in N[k]:
        top[k][i]=1
    print('Topic {}:\t{}'.format(k+1, '\t'.join(vectorizer.inverse_transform(top)[k])))

Topic 1:	80ns	birthday	curve	got	michael	omitted	postage	real	shadow	wiretaps
Topic 2:	ds	listing	minded	nt	recommendations	roms	sticks	tempest	thread	try
Topic 3:	gee	installing	signal	staying	steep	stuff	unsupported	vhf	weekend	xterm
Topic 4:	did	edu	going	point	problem	really	sure	using	work	years
Topic 5:	486	advice	amateur	inherently	lyme	northeast	rob	rubber	sedan	yep
Topic 6:	ground	inexpensive	isn	lights	modem	nickname	oops	precisely	routine	unless
Topic 7:	advanced	baud	c7	expensive	granted	lpt1	nhl	proves	terminals	worked
Topic 8:	astros	cassette	grasp	holes	inform	morals	paranoia	thank	tom	tube
Topic 9:	1280x1024	april	cabling	commercially	epson	game	hear	hey	popping	resolve
Topic 10:	advertising	anonymous	bmp	candidate	distributors	openwindows	owner	pcb	requesting	thier
Topic 11:	ain	berkeley	cbc	chastity	error	headache	loser	lot	obey	shipping
Topic 12:	400	aspect	buyer	correct	happen	load	macs	rude	sweet	trust
Topic 13:	approaching	disk	extras	hardly	hi	lite	positioning	pr