# linear algebra with numpy

Это инструменты `numpy` Для линейной алгебры.

In [1]:
import numpy as np

## Матрицы

Создать матрицу можно так:

In [2]:
m = np.matrix([[1, 2], [3, 4]])

In [3]:
m

matrix([[1, 2],
        [3, 4]])

Или так:

In [22]:
arr = np.arange(10)
arr = arr.reshape(2, 5)
mat = np.matrix(arr)

In [23]:
mat

matrix([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

Тут у нас получилась прямоугольная матрица. С ней можно делать почти всё, что с квадратной.

### Умножение на число

In [26]:
m * 3

matrix([[ 3,  6],
        [ 9, 12]])

In [27]:
mat * 3

matrix([[ 0,  3,  6,  9, 12],
        [15, 18, 21, 24, 27]])

### Транспонирование

In [30]:
m

matrix([[1, 2],
        [3, 4]])

In [20]:
m.T

matrix([[1, 3],
        [2, 4]])

In [31]:
mat

matrix([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

In [29]:
mat.T

matrix([[0, 5],
        [1, 6],
        [2, 7],
        [3, 8],
        [4, 9]])

### Сложение матриц

In [32]:
m2 = np.matrix([[10, 10], [10, 10]])
m2

matrix([[10, 10],
        [10, 10]])

In [33]:
m + m2

matrix([[11, 12],
        [13, 14]])

### Матричное умножение

In [36]:
m * m2

matrix([[30, 30],
        [70, 70]])

Заметьте, что это отличается от умножения векторов!

In [40]:
a = np.array([1, 2, 3, 4])
b = np.array([10, 10, 10, 10])
a * b

array([10, 20, 30, 40])

Перемножение матриц разных размерностей:

In [37]:
m * mat

matrix([[10, 13, 16, 19, 22],
        [20, 27, 34, 41, 48]])

In [41]:
mat.T * mat

matrix([[25, 30, 35, 40, 45],
        [30, 37, 44, 51, 58],
        [35, 44, 53, 62, 71],
        [40, 51, 62, 73, 84],
        [45, 58, 71, 84, 97]])

In [42]:
mat * mat.T

matrix([[ 30,  80],
        [ 80, 255]])

А вот так не работает. Понимаете, почему?

In [38]:
mat * m

ValueError: shapes (2,5) and (2,2) not aligned: 5 (dim 1) != 2 (dim 0)

### Обратная матрица

In [53]:
inv_m = m ** -1

In [54]:
inv_m

matrix([[-2. ,  1. ],
        [ 1.5, -0.5]])

In [55]:
inv_m * m

matrix([[1.00000000e+00, 0.00000000e+00],
        [1.11022302e-16, 1.00000000e+00]])

Если мы не артефакты приближения, это была бы единичная матрица.

In [58]:
np.round(inv_m * m)

matrix([[1., 0.],
        [0., 1.]])

А вот от прямоугольной матрицы взять обратную нельзя.

In [59]:
mat ** -1

ValueError: input must be a square array

# Классификация текстов

Сегодня мы будем делать бинарную классификацию текстов, используя логистичексую регрессию и мешок слов.

### Задача

Мы будем учить классификатор отличать тексты из учебников программирования от библейских текстов. 

### Данные

Скачайте данные по [ссылке](https://drive.google.com/file/d/10vgOvk10yMelNlFAOdGt3YZG0icqp2TI/view?usp=sharing).

In [1]:
import pandas as pd

Загрузим данные в датасет:

In [2]:
df = pd.read_csv('bible_vs_coding.csv')

In [3]:
# посмотрим на них
df.head(10)

Unnamed: 0,labels,sentences
0,testament,И к кому из святых обратишься ты?
1,testament,"И Зелфа, служанка Лиина, [зачала и] родила Иак..."
2,testament,"И когда умрет какой-либо скот, который употреб..."
3,coding,"(Не забывайте, что два сигнала,\nSIGKILL и SI..."
4,testament,"В седьмой день встали рано, при появлении зари..."
5,testament,"И воспылал гнев Господа на Израиля, и водил Он..."
6,testament,"И сошел на него Дух Господень, и веревки, бывш..."
7,testament,2\n\nИ пришел Ангел Господень из Галгала в Бох...
8,coding,Инварианты циклов\nДля всех трех вариантов лин...
9,coding,Поскольку выполняемые операции выполняются от\...


In [4]:
print(df.sentences.iloc[2])

И когда умрет какой-либо скот, который употребляется вами в пищу, то прикоснувшийся к трупу его нечист будет до вечера;

и тот, кто будет есть мертвечину его, должен омыть одежды свои и нечист будет до вечера; и тот, кто понесет труп его, должен омыть одежды свои и нечист будет до вечера.


### Векторизация

In [5]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [6]:
toy_vectorizer = CountVectorizer()

In [7]:
toy_vectorizer.fit(['мягкие, мягкие коты', 'коты бегают', 'бегают'])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [None]:
toy_vectors = toy_vectorizer.transform(['мягкие, мягкие коты', 'коты бегают', 'бегают'])

In [8]:
toy_vectors.todense()

NameError: name 'toy_vectors' is not defined

In [None]:
test_vectors = toy_vectorizer.transform(['коты мурлыкают', 'коты мягкие', 'бегают'])
test_vectors.todense()

In [116]:
df.sentences[12]

'И сказал Бог Аврааму: Сару, жену твою, не называй Сарою, но да будет имя ей: Сарра;\n\nЯ благословлю ее и дам тебе от нее сына; благословлю ее, и произойдут от нее народы, и цари народов произойдут от нее.'

In [11]:
vec = CountVectorizer()

In [12]:
bag_of_words = vec.fit_transform(df.sentences)

In [13]:
bag_of_words

<24902x44976 sparse matrix of type '<class 'numpy.int64'>'
	with 387538 stored elements in Compressed Sparse Row format>

In [120]:
print(df.sentences[3])

(Не забывайте, что два сигнала,
SIGKILL и  SIGSTOP, не могут игнорироваться.)


In [118]:
df.labels[3]

'coding'

In [123]:
d = bag_of_words[3]
d = d.todense()

### Обучение

In [17]:
from sklearn.model_selection import train_test_split

In [18]:
X_train, X_test, y_train, y_test = train_test_split(bag_of_words, df.labels)

In [19]:
from sklearn.linear_model import LogisticRegression

In [20]:
lr = LogisticRegression()

In [21]:
clf = lr.fit(X_train, y_train)



In [22]:
my_text = vec.transform(['Господь, директория каталог сортировка', 'мама мыла рама'])
my_text

<2x44976 sparse matrix of type '<class 'numpy.int64'>'
	with 4 stored elements in Compressed Sparse Row format>

In [23]:
clf.predict(my_text)

array(['testament', 'coding'], dtype=object)

In [24]:
clf.predict_proba(my_text)

array([[0.46049889, 0.53950111],
       [0.75099303, 0.24900697]])

### Оценка

In [25]:
from sklearn.metrics import classification_report

In [26]:
predicted_labels = clf.predict(X_test)

In [27]:
predicted_labels

array(['testament', 'testament', 'testament', ..., 'coding', 'coding',
       'testament'], dtype=object)

In [28]:
print(classification_report(y_test, predicted_labels))

              precision    recall  f1-score   support

      coding       0.97      0.99      0.98      2882
   testament       0.99      0.98      0.98      3344

    accuracy                           0.98      6226
   macro avg       0.98      0.98      0.98      6226
weighted avg       0.98      0.98      0.98      6226



## Самостоятельная работа / домашнее задание (маленькое)

Повторить обучение классификатора на семинаре для другой задачи: определение спама. 

#### 1. Данные
Скачайте и загрузите в датафрейм данные про определение спама ([ссылка](https://raw.githubusercontent.com/mohitgupta-omg/Kaggle-SMS-Spam-Collection-Dataset-/master/spam.csv)).

In [160]:
!wget https://raw.githubusercontent.com/mohitgupta-omg/Kaggle-SMS-Spam-Collection-Dataset-/master/spam.csv

--2019-03-25 22:48:50--  https://raw.githubusercontent.com/mohitgupta-omg/Kaggle-SMS-Spam-Collection-Dataset-/master/spam.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.244.133
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.244.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 503663 (492K) [text/plain]
Saving to: ‘spam.csv’


2019-03-25 22:48:52 (920 KB/s) - ‘spam.csv’ saved [503663/503663]



In [163]:
spam = pd.read_csv('spam.csv', encoding='cp1251')

In [164]:
spam.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


#### 2. Мешок слов 
Получите вектора из текстов с помощью векторизатора.

#### 3. train_test_split

Разделите выборку на train и test.

#### 4. Обучение

#### 5. Оценка