## CountVectorizer
 

https://scikit-learn.ru/6-2-feature-extraction/

CountVectorizer реализует как токенизацию, так и подсчет вхождений в одном классе

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
 
corpus = [
     'This is the first document.',
     'This document is the second document.',
     'And this is the third one.',
     'Is this the first document?',]

Давайте использовать его для токенизации и подсчета вхождений слов в минималистичном корпусе текстовых документов.  
Каждому члену, найденному анализатором во время подбора, присваивается уникальный целочисленный индекс, соответствующий столбцу в результирующей матрице.


In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]




Конфигурация по умолчанию токенизирует строку, извлекая слова не менее чем из 2 букв. Конкретную функцию, выполняющую этот шаг, можно запросить явно:

In [None]:
analyze = vectorizer.build_analyzer()
analyze("This is a text document to analyze.") == (
     ['this', 'is', 'text', 'document', 'to', 'analyze'])

True

Обратите внимание, что в предыдущем корпусе первый и последний документы содержат одни и те же слова, поэтому они закодированы в равных векторах. В частности, мы теряем информацию о том, что последний документ является вопросительной формой. Чтобы сохранить некоторую локальную информацию о порядке, мы можем извлечь биграмма или триграммы слов в дополнение к 1 грамму (отдельные слова):

In [None]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(1, 3))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())
print(X2.toarray())

['and', 'and this', 'and this is', 'document', 'document is', 'document is the', 'first', 'first document', 'is', 'is the', 'is the first', 'is the second', 'is the third', 'is this', 'is this the', 'one', 'second', 'second document', 'the', 'the first', 'the first document', 'the second', 'the second document', 'the third', 'the third one', 'third', 'third one', 'this', 'this document', 'this document is', 'this is', 'this is the', 'this the', 'this the first']
[[0 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 1 1 0 0]
 [0 0 0 2 1 1 0 0 1 1 0 1 0 0 0 0 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0 0 0 0]
 [1 1 1 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 0 0 1 1 1 1 1 0 0 1 1 0 0]
 [0 0 0 1 0 0 1 1 1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1]]


## TFIDF

В большом текстовом корпусе некоторые слова будут присутствовать очень часто (например, «the», «a», «is» на английском языке), следовательно, несут очень мало значимой информации о фактическом содержании документа. Если бы мы передавали данные прямого подсчета непосредственно классификатору, эти очень частые термины затеняли бы частоты более редких, но более интересных терминов.

Чтобы повторно взвесить функции счетчика в значения с плавающей запятой, подходящие для использования классификатором, очень часто используется преобразование tf – idf.

Tf означает частоту термина, а tf – idf означает частоту термина, умноженную на обратную частоту документа:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X)

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
  (0, 1)	0.46979138557992045
  (0, 2)	0.5802858236844359
  (0, 6)	0.38408524091481483
  (0, 3)	0.38408524091481483
  (0, 8)	0.38408524091481483
  (1, 5)	0.5386476208856763
  (1, 1)	0.6876235979836938
  (1, 6)	0.281088674033753
  (1, 3)	0.281088674033753
  (1, 8)	0.281088674033753
  (2, 4)	0.511848512707169
  (2, 7)	0.511848512707169
  (2, 0)	0.511848512707169
  (2, 6)	0.267103787642168
  (2, 3)	0.267103787642168
  (2, 8)	0.267103787642168
  (3, 1)	0.46979138557992045
  (3, 2)	0.5802858236844359
  (3, 6)	0.38408524091481483
  (3, 3)	0.38408524091481483
  (3, 8)	0.38408524091481483


##word2vec

В реальных приложениях модели Word2Vec создаются с использованием миллиардов документов. Например, модель Google Word2Vec обучается с использованием 3 миллионов слов и фраз.


In [None]:
import bs4 as bs 
import urllib.request 
import re 
import nltk 
scrapped_data = urllib.request.urlopen('https://en.wikipedia.org/wiki/Artificial_intelligence') 
article = scrapped_data .read() 
parsed_article = bs.BeautifulSoup(article,'lxml') 
paragraphs = parsed_article.find_all('p') 
article_text = "" 
for p in paragraphs: 
  article_text += p.text


Во-первых, нам нужно преобразовать нашу статью в предложения. Мы используем утилиту nltk.sent_tokenize для преобразования нашей статьи в предложения. Для преобразования предложений в слова мы используем утилиту nltk.word_tokenize. На последнем этапе предварительной обработки мы удаляем из текста все стоп-слова. После того, как скрипт завершит свое выполнение, объект all_words содержит список всех слов в статье. Мы будем использовать этот список для создания нашей модели Word2Vec с библиотекой Gensim.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
# Cleaing the text 
processed_article = article_text.lower() 
processed_article = re.sub('[^a-zA-Z]', ' ', processed_article ) 
processed_article = re.sub(r'\s+', ' ', processed_article) 
# Preparing the dataset 
all_sentences = nltk.sent_tokenize(processed_article) 
all_words = [nltk.word_tokenize(sent) for sent in all_sentences] 
# Removing Stop Words 
from nltk.corpus import stopwords 
for i in range(len(all_words)): 
  all_words[i] = [w for w in all_words[i] 
                  if w not in stopwords.words('english')]

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Значение 2 для min_count указывает на включение в модель Word2Vec только тех слов, которые встречаются в корпусе как минимум дважды.

In [None]:
from gensim.models import Word2Vec 
word2vec = Word2Vec(all_words, min_count=2)




In [None]:
vocabulary = word2vec.wv.vocab 
print(vocabulary)


{'learn': <gensim.models.keyedvectors.Vocab object at 0x7f7250008fd0>, 'artificial': <gensim.models.keyedvectors.Vocab object at 0x7f7250008fa0>, 'intelligence': <gensim.models.keyedvectors.Vocab object at 0x7f7250008e20>, 'ai': <gensim.models.keyedvectors.Vocab object at 0x7f7250008dc0>, 'inferring': <gensim.models.keyedvectors.Vocab object at 0x7f7250008c40>, 'information': <gensim.models.keyedvectors.Vocab object at 0x7f7250008f70>, 'demonstrated': <gensim.models.keyedvectors.Vocab object at 0x7f7250008eb0>, 'machines': <gensim.models.keyedvectors.Vocab object at 0x7f7250008e80>, 'displayed': <gensim.models.keyedvectors.Vocab object at 0x7f7250008f40>, 'non': <gensim.models.keyedvectors.Vocab object at 0x7f71bd8aca90>, 'human': <gensim.models.keyedvectors.Vocab object at 0x7f71bd8acfa0>, 'humans': <gensim.models.keyedvectors.Vocab object at 0x7f71bd8acdf0>, 'example': <gensim.models.keyedvectors.Vocab object at 0x7f71bd8acd30>, 'tasks': <gensim.models.keyedvectors.Vocab object at 0x

In [None]:
v1 = word2vec.wv['artificial']
v1

array([ 3.4576233e-03, -2.9213584e-03, -2.8441811e-03,  2.7932650e-03,
       -2.2882086e-03, -4.9225381e-03, -4.4014775e-03,  1.9234666e-03,
        3.3788753e-03,  3.6559019e-03,  8.3137414e-04, -3.8688912e-03,
       -1.2071126e-03, -5.7564862e-04,  5.0938147e-04, -2.3184405e-03,
       -2.9482518e-03,  3.6955699e-03,  4.3797851e-04,  2.8089946e-03,
        4.1906987e-03,  3.8557518e-03,  1.6571580e-04,  3.3931187e-04,
        5.1907212e-03, -2.6482265e-03, -2.8120165e-04, -3.5819365e-03,
       -7.6153653e-04, -5.1545119e-04,  1.0670833e-03,  1.2005665e-03,
       -1.3836627e-04, -1.4212739e-03,  4.0710825e-03,  3.0420779e-03,
       -2.5556441e-03, -3.8781476e-03,  3.2029455e-03,  2.7088166e-04,
        1.4988349e-03,  1.2020231e-03, -1.3693254e-03,  1.5373323e-03,
       -3.8213553e-03,  1.1792502e-03, -6.1572632e-03, -5.5813123e-03,
       -3.9734208e-04,  3.1914978e-04,  4.2147441e-03, -4.1157985e-03,
        9.1989950e-06,  1.6717413e-03,  1.8834491e-03,  2.4613159e-04,
      

In [None]:
sim_words = word2vec.wv.most_similar('artificial')
sim_words

[('risk', 0.38662290573120117),
 ('layers', 0.36993369460105896),
 ('example', 0.3541564643383026),
 ('number', 0.3439671993255615),
 ('question', 0.3405749201774597),
 ('however', 0.3374004364013672),
 ('world', 0.3336423933506012),
 ('neurons', 0.3263618052005768),
 ('fiction', 0.3261420726776123),
 ('human', 0.32249772548675537)]

## Распознание спама


In [None]:
#Загружаем данные и разархивируем

In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip

--2023-02-10 14:47:20--  https://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 203415 (199K) [application/x-httpd-php]
Saving to: ‘smsspamcollection.zip.1’


2023-02-10 14:47:20 (972 KB/s) - ‘smsspamcollection.zip.1’ saved [203415/203415]



In [None]:
!unzip smsspamcollection.zip

Archive:  smsspamcollection.zip
replace SMSSpamCollection? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

Пакет torch содержит структуры данных для многомерных тензоров и определяет математические операции над этими тензорами. Кроме того, он предоставляет множество утилит для эффективной сериализации тензоров и произвольных типов, а также другие полезные утилиты.

In [None]:
import torch
import pandas as pd
import numpy as np

In [None]:
df = pd.read_table('SMSSpamCollection',sep='\t',header=None, names=['label','sms_message'])

In [None]:
#Данные 

In [None]:
df.head()

Unnamed: 0,label,sms_message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


### Наивный Байесовский классификатор

In [None]:
#заменяем целевую переменную

In [None]:
df['label'] = df.label.map({'ham':0,'spam':1})
df.head()

Unnamed: 0,label,sms_message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


In [None]:
#Делим на трейновую и тестовую выборку
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df['sms_message'], df['label'], random_state=1)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
#Считаем количество слов в предложениях
#получим матрицу размером (количество предложений Х размер словаря)

count_vector = CountVectorizer()
training_data = count_vector.fit_transform(X_train).toarray().astype('float')
testing_data = count_vector.transform(X_test).toarray().astype('float')

# переводим в тензоры
train_tensor = torch.tensor(training_data)
test_tensor = torch.tensor(testing_data)

In [None]:
# размер трейновой выборки
training_data.shape

(4179, 7456)

In [None]:
# всего слов в предложениях
train_tensor.sum()

tensor(59839., dtype=torch.float64)

In [None]:
# тензор с предложениями класса spam
spam_train_tensor = train_tensor[(y_train == 1).values]

# тензор с предложениями класса not_spam
not_spam_train_tensor = train_tensor[(y_train == 0).values]
spam_train_tensor.shape, not_spam_train_tensor.shape

(torch.Size([562, 7456]), torch.Size([3617, 7456]))

In [None]:

#Вероятность слова при условии что предложение спам
p_w_spam = (spam_train_tensor.sum(axis=0)) / (spam_train_tensor.sum())

#Вероятность слова при условии что предложение не спам
p_w_not_spam = (not_spam_train_tensor.sum(axis=0)) / (not_spam_train_tensor.sum())

p_w_spam, p_w_not_spam


(tensor([0.0004, 0.0018, 0.0002,  ..., 0.0000, 0.0000, 0.0000],
        dtype=torch.float64),
 tensor([0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.1413e-05, 2.1413e-05,
         2.1413e-05], dtype=torch.float64))

In [None]:
# вероятность, что любое сообщение спам
p_spam = (y_train == 1).values.sum() / len(y_train)

# вероятность, что любое сообщение не спам
p_not_spam = (y_train == 0).values.sum() / len(y_train)

In [None]:
#проверим на одном семпле
test_sample = test_tensor[0]

In [None]:
# посчитает значение за спам 
# пляски с прибавлением числа e и вычитания единицы используются для того,
# что бы небыло минус бесконечности после взятия логарифма и суммировались неотрицательные значения
np.log(p_spam+2.71828182846)-1 + (((test_sample*p_w_spam)+2.71828182846).log()-1).sum()

tensor(0.0535, dtype=torch.float64)

In [None]:
#посчитаем значение против спама
np.log(p_not_spam+2.71828182846)-1 + (((test_sample*p_w_not_spam)+2.71828182846).log()-1).sum()

tensor(0.2841, dtype=torch.float64)

In [None]:
# видно что значение против спама больше, чем значение за спам 
# соответственно значение не спам

In [None]:
#посчитаем для всей тестовой выборки

#размер тестовой выборки
test_tensor.shape

torch.Size([1393, 7456])

In [None]:
#посчитаем предсказания как сравнение величинв за спам и против спама
y_pred = (np.log(p_spam+2.71828182846)-1 + (((test_tensor*p_w_spam)+2.71828182846).log()-1).sum(dim=1)) >= \
 np.log(p_not_spam+2.71828182846)-1 + (((test_tensor*p_w_not_spam)+2.71828182846).log()-1).sum()

In [None]:
# предсказанные значения
y_pred.int()

tensor([0, 0, 0,  ..., 0, 0, 0], dtype=torch.int32)

In [None]:
#истиные значение
y_test.to_numpy()

array([0, 0, 0, ..., 0, 1, 0])

In [None]:
#сравним реальные метки с предсказанными
test = (y_pred == torch.tensor(y_test.to_numpy()))

In [None]:
#посчитаем точность модели как отношение количество совпадений к размеру выборки  
test.sum().item()/test.shape[0]

0.8671931083991385

In [None]:
from sklearn.naive_bayes import MultinomialNB

# обучить классификатор
classifier = MultinomialNB()
classifier.fit(train_tensor, y_train)
predicted = classifier.predict(test_tensor) 

In [None]:
predicted.shape

(1393,)

In [None]:
y_test.shape

(1393,)

Как мы видим, количество ошибок довольно сбалансировано между законным и спамом: 5 легитимных сообщения классифицируются как спам, а 11 спам-сообщений классифицируются как легитимные. В целом, это очень хорошие результаты для нашего простого классификатора.

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
 
print(confusion_matrix(y_test, predicted)) 

[[1203    5]
 [  11  174]]


In [None]:
accuracy_score(y_test, predicted)

0.9885139985642498