# linear algebra with numpy

Это инструменты `numpy` Для линейной алгебры.

In [1]:
import numpy as np

## Вектора

In [48]:
a = np.arange(4) + 1
a

array([1, 2, 3, 4])

In [46]:
b = np.repeat(10, 4)

In [47]:
b

array([10, 10, 10, 10])

In [51]:
a * b

array([10, 20, 30, 40])

In [50]:
a.dot(b)

100

## Матрицы

Создать матрицу можно так:

In [2]:
m = np.matrix([[1, 2], [3, 4]])

In [3]:
m

matrix([[1, 2],
        [3, 4]])

Или так:

In [22]:
arr = np.arange(10)
arr = arr.reshape(2, 5)
mat = np.matrix(arr)

In [23]:
mat

matrix([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

Тут у нас получилась прямоугольная матрица. С ней можно делать почти всё, что с квадратной.

### Умножение на число

In [26]:
m * 3

matrix([[ 3,  6],
        [ 9, 12]])

In [27]:
mat * 3

matrix([[ 0,  3,  6,  9, 12],
        [15, 18, 21, 24, 27]])

### Транспонирование

In [30]:
m

matrix([[1, 2],
        [3, 4]])

In [20]:
m.T

matrix([[1, 3],
        [2, 4]])

In [31]:
mat

matrix([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

In [29]:
mat.T

matrix([[0, 5],
        [1, 6],
        [2, 7],
        [3, 8],
        [4, 9]])

### Сложение матриц

In [32]:
m2 = np.matrix([[10, 10], [10, 10]])
m2

matrix([[10, 10],
        [10, 10]])

In [33]:
m + m2

matrix([[11, 12],
        [13, 14]])

### Матричное умножение

In [36]:
m * m2

matrix([[30, 30],
        [70, 70]])

Заметьте, что это отличается от умножения векторов!

In [40]:
a = np.array([1, 2, 3, 4])
b = np.array([10, 10, 10, 10])
a * b

array([10, 20, 30, 40])

Перемножение матриц разных размерностей:

In [37]:
m * mat

matrix([[10, 13, 16, 19, 22],
        [20, 27, 34, 41, 48]])

In [41]:
mat.T * mat

matrix([[25, 30, 35, 40, 45],
        [30, 37, 44, 51, 58],
        [35, 44, 53, 62, 71],
        [40, 51, 62, 73, 84],
        [45, 58, 71, 84, 97]])

In [42]:
mat * mat.T

matrix([[ 30,  80],
        [ 80, 255]])

А вот так не работает. Понимаете, почему?

In [38]:
mat * m

ValueError: shapes (2,5) and (2,2) not aligned: 5 (dim 1) != 2 (dim 0)

### Обратная матрица

In [53]:
inv_m = m ** -1

In [54]:
inv_m

matrix([[-2. ,  1. ],
        [ 1.5, -0.5]])

In [55]:
inv_m * m

matrix([[1.00000000e+00, 0.00000000e+00],
        [1.11022302e-16, 1.00000000e+00]])

Если мы не артефакты приближения, это была бы единичная матрица.

In [58]:
np.round(inv_m * m)

matrix([[1., 0.],
        [0., 1.]])

А вот от прямоугольной матрицы взять обратную нельзя.

In [59]:
mat ** -1

ValueError: input must be a square array

# Классификация текстов

Сегодня мы будем делать бинарную классификацию текстов, используя kNN или наивный Байесовский классификатор и мешок слов.

### Задача

Мы будем учить классификатор отличать тексты из учебников программирования от библейских текстов. 

### Данные

Скачайте данные по [ссылке](https://drive.google.com/file/d/10vgOvk10yMelNlFAOdGt3YZG0icqp2TI/view?usp=sharing).

In [11]:
import pandas as pd

Загрузим данные в датасет:

In [12]:
df = pd.read_csv('bible_vs_coding.csv')

In [15]:
# посмотрим на них
df.head(10)

Unnamed: 0,labels,sentences
0,testament,И к кому из святых обратишься ты?
1,testament,"И Зелфа, служанка Лиина, [зачала и] родила Иак..."
2,testament,"И когда умрет какой-либо скот, который употреб..."
3,coding,"(Не забывайте, что два сигнала,\nSIGKILL и SI..."
4,testament,"В седьмой день встали рано, при появлении зари..."
5,testament,"И воспылал гнев Господа на Израиля, и водил Он..."
6,testament,"И сошел на него Дух Господень, и веревки, бывш..."
7,testament,2\n\nИ пришел Ангел Господень из Галгала в Бох...
8,coding,Инварианты циклов\nДля всех трех вариантов лин...
9,coding,Поскольку выполняемые операции выполняются от\...


### Векторизация

In [60]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [67]:
vec = CountVectorizer()

In [68]:
bag_of_words = vec.fit_transform(df.sentences)

In [69]:
bag_of_words

<24902x44976 sparse matrix of type '<class 'numpy.int64'>'
	with 387538 stored elements in Compressed Sparse Row format>

### Обучение

In [70]:
from sklearn.model_selection import train_test_split

In [71]:
X_train, X_test, y_train, y_test = train_test_split(bag_of_words, df.labels)

In [61]:
from sklearn.naive_bayes import MultinomialNB

In [72]:
nb = MultinomialNB()

In [74]:
clf = nb.fit(X_train, y_train)

### Оценка

In [76]:
from sklearn.metrics import classification_report

In [78]:
print(classification_report(y_test, clf.predict(X_test)))

             precision    recall  f1-score   support

     coding       1.00      0.95      0.97      2909
  testament       0.96      1.00      0.98      3317

avg / total       0.98      0.98      0.98      6226



## Домашнее задание (маленькое)

Повторить обучение классификатора на семинаре для другой задачи: определение спама. 

#### 1. Данные
Скачайте и загрузите в датафрейм данные про определение спама ([ссылка](https://raw.githubusercontent.com/mohitgupta-omg/Kaggle-SMS-Spam-Collection-Dataset-/master/spam.csv)).

#### 2. Мешок слов 
Получите вектора из текстов с помощью векторизатора.

#### 3. train_test_split

Разделите выборку на train и test.