## Повторение: NumPy

NumPy - это библиотека для работы с матрицами. Мы довольно часто будем сталкиваться с ней во время работы с scikit-learn, поэтому давайте вспомним некоторые базовые вещи.

In [None]:
import numpy as np

Создадим массив и узнаем его размерность при помощи метода shape:

In [None]:
arr = np.array([1, 2, 3])

In [None]:
arr.shape

(3,)

In [None]:
arr.T

array([1, 2, 3])

Можно менять размерность при помощи добавления квадратных скобок:

In [None]:
np.array([[1, 2, 3]]).shape

(1, 3)

In [None]:
np.array([[[1, 2, 3]]]).shape

(1, 1, 3)

In [None]:
arr_2d = np.array([[1, 2, 3]])

print("Размер вдоль каждой оси:", arr_2d.shape)
print("Размерность:", arr_2d.ndim)
print("Количество элементов:", arr_2d.size)
print("Тип данных элементов:", arr_2d.dtype)

Размер вдоль каждой оси: (1, 3)
Размерность: 2
Количество элементов: 3
Тип данных элементов: int64


Большинство объектов sklearn работают с двумерными массивами. Изменить размерность массива можно с помощью функции reshape:

In [None]:
arr

array([1, 2, 3])

In [None]:
np.reshape(arr, (1, 3))

array([[1, 2, 3]])

Если подавать в классификаторы и другие объекты классов sklearn одномерные массивы, можно столкнуться с ошибкой, которая говорит следующее: Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample. Посмотрим, в чем разница:

In [None]:
single_feature = np.array([1, 2, 3]).reshape(-1, 1)

In [None]:
single_feature

array([[1],
       [2],
       [3]])

In [None]:
single_feature.T.T

array([[1],
       [2],
       [3]])

In [None]:
single_feature.shape

(3, 1)

In [None]:
single_sample = np.array([1, 2, 3]).reshape(1, -1)

In [None]:
? np.reshape

In [None]:
single_sample

array([[1, 2, 3]])

In [None]:
single_sample.shape

(1, 3)

Numpy поддерживает все матричные операции: сложение, умножение, транспонирование и т.п.

In [None]:
arr_a = np.array([[1, 2, 3]])
arr_b = np.array([[4, 5, 6]])

In [None]:
np.add(arr_a, arr_b)

array([[5, 7, 9]])

In [None]:
arr_a + 1

array([[2, 3, 4]])

In [None]:
arr_a * 2

array([[2, 4, 6]])

In [None]:
arr_a.T

array([[1],
       [2],
       [3]])

In [None]:
np.dot(arr_a, arr_b.T)

array([[32]])

Также с массивами можно делать некоторые вещи из тех, что можно делать со списками: сортировать, разворачивать и т.п.

In [None]:
arr_c = np.array([[1, 2, 3], [4, 5, 6]])
arr_d = np.array([0, 3, 2, 1, 4, 0])

In [None]:
np.sort(arr_d)

array([0, 0, 1, 2, 3, 4])

In [None]:
np.argsort(arr_d)

array([0, 5, 3, 2, 1, 4])

In [None]:
arr_c[::-1]

array([[4, 5, 6],
       [1, 2, 3]])

In [None]:
arr_c[:, ::-1]

array([[3, 2, 1],
       [6, 5, 4]])

Наконец, массивы можно объединять различными способами:

In [None]:
arr_a

array([[1, 2, 3]])

In [None]:
arr_b

array([[4, 5, 6]])

In [None]:
np.hstack([arr_a, arr_b])

array([[1, 2, 3, 4, 5, 6]])

In [None]:
np.vstack([arr_a, arr_b])

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
np.dstack([arr_a, arr_b])

array([[[1, 4],
        [2, 5],
        [3, 6]]])

In [None]:
np.concatenate([arr_a, arr_b], axis=0)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
np.concatenate([arr_a, arr_b], axis=1)

array([[1, 2, 3, 4, 5, 6]])

In [None]:
np.stack([arr_a, arr_b])

array([[[1, 2, 3]],

       [[4, 5, 6]]])

# Повторение: векторайзеры

Вспомним, что **векторайзеры** превращают тексты в вектора слов. Рассмотрим небольшой игрушечный пример, чтобы понять, как именно это происходит.

In [None]:
corpus = ['Бегемот шел по улице',
          'Бегемот - черный кот',
          'Черный кот шел по улице']

**CountVectorizer** - это простой векторайзер, который превращает коллекцию текстов в разреженную матрицу размера N*M, где N - количество текстов в коллекции, а M - количество уникальных слов (а разреженная матрица - это такая матрица, где много нулей). Числа в этой матрице соответствуют количеству раз, когда определенное слово встретилось в определенном документе.

Давайте сделаем матрицу N*M вручную:



In [None]:
import re

In [None]:
unique_words = set()

for doc in corpus:
  tokens = re.findall("\\w+", doc.lower())
  for token in tokens:
    unique_words.add(token)

In [None]:
unique_words = list(unique_words)

In [None]:
len(unique_words)

6

In [None]:
unique_words

['кот', 'черный', 'бегемот', 'шел', 'улице', 'по']

In [None]:
def get_vector(doc, unique_words):

  tokens = re.findall('\w+', doc.lower())
  vec = []
  for word in unique_words:
    if word in tokens:
      c = tokens.count(word)
      vec.append(c)
    else:
      vec.append(0)

  return vec

  tokens = re.findall('\w+', doc.lower())


In [None]:
get_vector(corpus[2], unique_words)

[1, 1, 0, 1, 1, 1]

Теперь сделаем то же самое при помощи встроенного в sklearn класса CountVectorizer:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count = CountVectorizer()

In [None]:
# это игрушечный пример, в виде исключения вызовем fit_transform на всём корпусе :)
count_matrix = count.fit_transform(corpus)

In [None]:
count_matrix

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 12 stored elements and shape (3, 6)>

Матрица признаков - это разреженная матрица. Превратим ее в плотную, чтобы посмотреть, что внутри (с большими матрицами признаков в реальных задачах так делать не стоит):

In [None]:
count_matrix.todense()

matrix([[1, 0, 1, 1, 0, 1],
        [1, 1, 0, 0, 1, 0],
        [0, 1, 1, 1, 1, 1]])

Мы видим вполне стандартную матрицу встречаемости слов размера 3*6: 3 документа на 6 уникальных слов. Но как узнать, в какой колонке какое слово? Для этого у векторайзеров есть метод get_feature_names_out():

In [None]:
count.get_feature_names_out()

array(['бегемот', 'кот', 'по', 'улице', 'черный', 'шел'], dtype=object)

Действительно, если мы посмотрим на первую колонку, то увидим, что она соответствует встречаемости слова "Бегемот" в нашем корпусе: оно встретилось в первом и втором документе по одному разу, а в третьем - ни разу.

**TfIdfVectorizer** тоже превращает корпус в разреженную матрицу размера N*M. Каждому документу соответствует один ряд матрицы, где в колонках соответствующих слов стоят числа, соответствующие TF-IDF этих слов.

Вспомним формулу TF-IDF:

Считаем, что t - слово, d - документ, D - коллекция документов. Тогда:

${TF}(t,d) = \frac{f_{t,d}}{{\sum_{t' \in d}{f_{t',d}}}}$, где f - частота слова, т.е., частота слова в документе по отношению к количеству слов в документе.

${IDF}(t, D) =  \log \frac{|D|}{|\{\,d_i \in D \mid t \in d_{i}\, \}|}$, т.е., логарифм отношения числа документов в коллекции к количеству документов, в которых встречается t.

Таким образом,

$\operatorname{TF-IDF}(t,d,D) = \operatorname{TF}(t,d) \times \operatorname{IDF}(t, D)$

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

In [None]:
tfidf_matrix

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 12 stored elements and shape (3, 6)>

In [None]:
tfidf_matrix.todense()

matrix([[0.5       , 0.        , 0.5       , 0.5       , 0.        ,
         0.5       ],
        [0.57735027, 0.57735027, 0.        , 0.        , 0.57735027,
         0.        ],
        [0.        , 0.4472136 , 0.4472136 , 0.4472136 , 0.4472136 ,
         0.4472136 ]])

Можно видеть, что колонки такие же и расположены в том же порядке:

In [None]:
tfidf_vectorizer.get_feature_names_out()

array(['бегемот', 'кот', 'по', 'улице', 'черный', 'шел'], dtype=object)

Мы можем посмотреть значения IDF всех слов в словаре в параметре idf_. Но почему значения такие странные, если IDF слова "Бегемот", например, log(3/2) ~= 0.4?

In [None]:
tfidf_vectorizer.idf_

array([1.28768207, 1.28768207, 1.28768207, 1.28768207, 1.28768207,
       1.28768207])

Всё потому, что, согласно документации, для вычисления IDF в sklearn используется формула $log\frac{1+n}{1+df(t)} + 1$ (что написано в документации: https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting).

In [None]:
np.log((3+1)/(2+1)) + 1

np.float64(1.2876820724517808)

Давайте вычислим вектор второго документа в нашей коллекции. Логично, что у всех трёх слов будут одинаковые значения TF-IDF.

In [None]:
vector_2nd_doc = []

vocab = tfidf_vectorizer.get_feature_names_out()
current_doc = re.findall('\w+', corpus[1].lower())
docs_in_collection = len(corpus)

for word in vocab:

  if word in current_doc:
    words_in_doc = len(current_doc)
    current_word_count = current_doc.count(word)
    tf = current_word_count/words_in_doc

    docs_containing_word = len([d for d in corpus if word in d.lower()])
    idf = np.log((docs_in_collection + 1)/(docs_containing_word + 1)) + 1

    tfidf = tf * idf
    vector_2nd_doc.append(tfidf.item())

  else:
    vector_2nd_doc.append(0)

  current_doc = re.findall('\w+', corpus[1].lower())


In [None]:
vector_2nd_doc

[0.42922735748392693, 0.42922735748392693, 0, 0, 0.42922735748392693, 0]

Это всё равно не те цифры, что в матрице. Дело в том, что в это векторайзере для каждого вектора дополнительно применяется нормализация (что тоже указано в [документации](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting)). Применим ее и для нашего вектора.

In [None]:
from sklearn.preprocessing import normalize

In [None]:
# преобразим список в массив, чтобы с ним было удобнее работать
vector_2nd_doc = np.array(vector_2nd_doc)

In [None]:
# эта функция работает только с двумерными массивами
# так что мы преобразим наш массив формы (3,) в (1, 3) при помощи метода reshape
normalize(vector_2nd_doc.reshape(1, -1), norm="l2")

array([[0.57735027, 0.57735027, 0.        , 0.        , 0.57735027,
        0.        ]])

Таким образом, мы получили числа, похожие на те, что есть в нашей матрице.