# План:
1. Python
2. Numpy
3. Pandas
4. Regexp + regexp with dataframes
5. <b>Texts</b>
6. Matplotlib, Seaborn
7. Classification, clustering, binary, multiclass, multilabel
8. Metrics
9. Feature extraction
10. Pyspark/sql

### TEXTS

Рассмотрим:

* предобработку текста
* представление текста
* понятие эмбеддинга
* текстовую классификацию

<img width="400px" src="https://media.giphy.com/media/nopqz91prOyvS/giphy.gif" />

# 1. Предобработка текста

Текст на естественном языке, который нужно обрабатывать в задачах машинного обучения, сильно зависит от источника. Пример:

Википедия
> Литературный язык — обработанная часть общенародного языка, обладающая в большей или меньшей степени письменно закреплёнными нормами; язык всех проявлений культуры, выражающихся в словесной форме.

Твиттер
> Если у вас в компании есть люди, которые целый день сидят в чатиках и смотрят видосики, то, скорее всего, это ДАТАСАЕНТИСТЫ и у них ОБУЧАЕТСЯ

Ответы@Mail.ru
> как пишется "Вообщем лето было отличное" раздельно или слитно слово ВОобщем?? ?

В связи с этим, возникает задача предобработки (или нормализации) текста, то есть приведения к некоторому единому виду.

### 1.1 Приведение текста к нижнему регистру.

In [3]:
text = 'купил таблетки от тупости, но не смог открыть банку,ЧТО ДЕЛАТЬ???'

In [4]:
text = text.lower()
text

'купил таблетки от тупости, но не смог открыть банку,что делать???'

### 1.2 Удаление неинформативных символов.

Такими символами могут быть символы пунктуации, спец-символы, повторяющиеся символы, цифры.
Удалите символы пунктуации и лишние пробелы из предыдущего текста в нижнем регистре.

In [5]:
import re

In [6]:
pattern = r'(\?|,)'
text = ' '.join(re.sub(pattern, ' ', text).split())

### 1.3 Разбиение текста на смысловые единицы (токенизация).

In [7]:
text = 'Купите кружку-термос "Hello Kitty" на 0.5л (64см³) за 300 рублей. До 01.01.2020.'

Самый простой подход к токенизации - это разбиение по текста по пробельным символам. 

**Quiz: Какая у этого подхода есть проблема?**

- Объем словаря будет большим. В текстах могут встретится как слова **кружка**, **термос** по отдельности так и через тире **кружка-термос** - и при использовании простых способов векторизации текстов это будут 3 разных смысловых единицы, хотя логично было бы оставить 2.

- Если перед нами стоит задача, в которой необходимо учитывать пунктуацию, то нам придется придумывать способ оторвать точки, кавычки, скобки от слов
    
- Если пробелы пропущены, то два слова могут остаться склееными через запятую\точку\дефис

Другие способы?

В библиотеке для морфологического анализа для русского языка [`pymorphy2`](https://pymorphy2.readthedocs.io/en/latest/) есть простая вспомогательная функция для токенизации.

In [8]:
from pymorphy2.tokenizers import simple_word_tokenize

##your code

In [9]:
simple_word_tokenize(text)

['Купите',
 'кружку-термос',
 '"',
 'Hello',
 'Kitty',
 '"',
 'на',
 '0',
 '.',
 '5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01',
 '.',
 '01',
 '.',
 '2020',
 '.']

Более сложной метод токенизации представлен в [`nltk`](https://www.nltk.org/): библиотеке для общего NLP.

In [10]:
from nltk import sent_tokenize, word_tokenize, wordpunct_tokenize

**Сравните и напишите в комментарии чем отличаются эти три метода**

In [11]:
sent_tokenize(text)

['Купите кружку-термос "Hello Kitty" на 0.5л (64см³) за 300 рублей.',
 'До 01.01.2020.']

In [12]:
word_tokenize(text)

['Купите',
 'кружку-термос',
 '``',
 'Hello',
 'Kitty',
 "''",
 'на',
 '0.5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01.01.2020',
 '.']

In [13]:
wordpunct_tokenize(text)

['Купите',
 'кружку',
 '-',
 'термос',
 '"',
 'Hello',
 'Kitty',
 '"',
 'на',
 '0',
 '.',
 '5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01',
 '.',
 '01',
 '.',
 '2020',
 '.']

In [14]:
# sent_tokenize
# возращает токены по предложениям, разделенные по точке

# word_tokenize
# возвращает токены в виде слов разделленных по пробелу

# wordpunct_tokenize
# возвращает токены в виде слов разделенных по пробелу точке пунктиру (специальному символу)

Для русского языка также есть новая специализированная библиотека [`razdel`](https://github.com/natasha/razdel).

**Напишите функцию, которая принимает на вход текст и возвращает список токенов из метода tokenize библиотеки razdel**

In [25]:
from razdel import tokenize


def tokenize_with_razdel(text):
    tokens = list(tokenize(text))
    tokens = [_.text for _ in tokens]
    return tokens
tokenize_with_razdel(text)

## Но я не понял как это работает!

##your code

['югославской',
 'историографии',
 'также',
 'известна',
 'как',
 '«',
 'Седьмое',
 'вражеское',
 'наступление',
 '»',
 'или',
 'Десант',
 'на',
 'Дрвар',
 '(',
 'сербохорв',
 '.',
 'Десант',
 'на',
 'Дрвар',
 '/',
 'Desant',
 'na',
 'Drvar',
 ')',
 '—',
 'комбинированная',
 'воздушно-десантная',
 'и',
 'сухопутная',
 'наступательная',
 'операция',
 'войск',
 '2-й',
 'танковой',
 'армии',
 'вермахта',
 'во',
 'время',
 'Второй',
 'мировой',
 'войны',
 '.',
 'Проводилась',
 'в',
 'Западной',
 'Боснии',
 'в',
 'районе',
 'Бугойно',
 '—',
 'Яйце',
 '—',
 'Баня-Лука',
 '—',
 'Приедор',
 '—',
 'Бихач',
 '—',
 'Книн',
 'в',
 'период',
 'с',
 '25',
 'мая',
 'по',
 '6',
 'июня',
 '1944',
 'года',
 'с',
 'целью',
 'уничтожения',
 'Верховного',
 'штаба',
 'НОАЮ',
 'в',
 'городе',
 'Дрвар',
 ',',
 'а',
 'также',
 'находившихся',
 'при',
 'нём',
 'учреждений',
 'народно-освободительного',
 'движения',
 'Югославии',
 'и',
 'союзных',
 'военных',
 'миссий',
 '.',
 'В',
 'операции',
 'участвовали',
 

### 1.4 Приведение слов к нормальной форме (стемминг, лемматизация)

**Стемминг - это нормализация слова путём отбрасывания окончания по правилам языка.**

Такая нормализация хорошо подходит для языков с небольшим разнообразием словоформ, например, для английского. В библиотеке nltk есть несколько реализаций стеммеров:
 - Porter stemmer
 - Snowball stemmer - только его можно использовать для русского языка (но лучше не надо)
 - Lancaster stemmer

In [16]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer(language='english').stem('running')

'run'

Для русского языка этот подход не очень подходит, поскольку в русском есть падежные формы, время у глаголов и т.д.

In [17]:
SnowballStemmer(language='russian').stem('бежать')

'бежа'

**Лемматизация - приведение слов к начальной морфологической форме (с помощью словаря и грамматики языка).**

Две самые часто используемые библиотеки для лемматизации русских слов:
- [pymorphy2](https://pymorphy2.readthedocs.io/en/latest/)
- [mystem3](https://tech.yandex.ru/mystem/)

Самый простой подход к лемматизации - словарный. Здесь не учитывается контекст слова, поэтому для омонимов такой подход работает не всегда. Такой подход применяет библиотека pymorphy2

In [18]:
from pymorphy2 import MorphAnalyzer

pymorphy = MorphAnalyzer()

**Напишите функцию принимающую на вход список токенов и возвращаюшую список лемматизированных с помощью pymorphy токенов**

протестируйте на примере 'на заводе стали увидел виды стали'

In [25]:
def lemmatize_with_pymorphy(tokens):
    for i in range(len(tokens)):
        tokens[i] = pymorphy.parse(tokens[i])[0].normal_form
    return(tokens) ##your code


##your code

In [26]:
text = 'на заводе стали увидел виды стали'
lemmatize_with_pymorphy(tokenize_with_razdel(text))

['на', 'завод', 'стать', 'увидеть', 'вид', 'стать']

Библиотека от Яндекса `mystem3` обходит это ограничение и рассматривает контекст слова, используя статистику и правила. + Имеет свой токенизатор

**Напишите функцию принимающую на вход строку и возвращаюшую список лемматизированных токенов с помощью pymystem**

In [27]:
text

'на заводе стали увидел виды стали'

In [37]:
from pymystem3 import Mystem

mystem = Mystem()


# def lemmatize_with_mystem(text):
    ##your code
    
##your code
mystem.lemmatize(text)

Еще более крутая и более **медленная** библиотека `RNNMorph` базирующаяся на рекурентных сетях

In [31]:
text

'на заводе стали увидел виды стали'

In [None]:
from rnnmorph.predictor import RNNMorphPredictor
predictor = RNNMorphPredictor(language="ru")

# def lemmatize_with_rnnmorph(tokens):
    #you know what to do
pre


# 2. Представление текста

### 2.1 One-Hot Encoding
<img src="gifs/one_hot.png" width="500">

При таком способе представления текстов, составляется словарь всех слов со всех документов - столбцы нашей матрицы, строки это документы. 

Если слово есть в документе на пересечении столбца и строки ставится 1, иначе 0. 

Матрица сформированная таким образом получается разреженной, т.е. если у нас очень много уникальных слов, доля единиц в строке будет маленькой.

Ранее мы уже получали one-hot вектора с помощью pandas\numpy. 
Сначала нам нужно каждому слову поставить в соответствие номер, а затем перевести их в бинарные вектора. 

В этот раз используем библиотеку scikit-learn:

In [58]:
import numpy as np

In [69]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

words = ['What', 'the', 'hell', 'What']

**Получите one-hot вектора используя LabelEncoder и OneHotEncoder**

In [60]:
le = LabelEncoder()
le.fit(words)
le.transform(words)

array([0, 2, 1], dtype=int64)

In [61]:
mas = np.array(words)

In [70]:
ohe = OneHotEncoder()
value = ohe.fit_transform(np.array(words).reshape(-1,1))
print(value)
# ohe.transform(words)

  (0, 0)	1.0
  (1, 2)	1.0
  (2, 1)	1.0
  (3, 0)	1.0


In [72]:
value.toarray()

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])

**Что будет, если мы сложим все one-hot вектора слов в тексте?**

In [71]:
value.sum(axis=0)

matrix([[2., 1., 1.]])

### 2.2 Bag-of-words

В прошлом методе, если слово употребляется в тексте на пересечении столбца-слова и строки-документа ставились 1, но теперь мы бы хотели так же знать сколько раз слово встретилось в данном документе.

Для того чтобы посчитать количество слов в тексте, используем метод CountVectorizer из sklearn

In [34]:
corpus = [
    'Кот пьет молоко',
    'Кто пьет молоко?',
    'Молоко выпивается котом',
]

**Обучите CountVectorizer на примерах, выведите вектора для трех предложений и список слов-столбцов матрицы**

In [35]:
from sklearn.feature_extraction.text import CountVectorizer

##your code

In [42]:
cv = CountVectorizer()
X = cv.fit_transform(corpus)
print(cv.get_feature_names())
print(X.toarray())

['выпивается', 'кот', 'котом', 'кто', 'молоко', 'пьет']
[[0 1 0 0 1 1]
 [0 0 0 1 1 1]
 [1 0 1 0 1 0]]


### 2.3 TF-IDF

**Term Frequency**  $tf(w,d)$ - сколько раз слово $w$ встретилось в документе $d$

**Document Frequency** $df(w)$ - сколько документов содержат слово $w$

**Inverse Document Frequency** $idf(w) = log_2(N/df(w))$  — обратная документная частотность. 

**TF-IDF**=$tf(w,d)*idf(w)$

В гите есть презентация, с которой возможно, станет понятнее **`векторайзеры и метрики.pptx`**

**Обучите TfidfVectorizer на примерах из предыдущего задания, выведите вектора для трех предложений и список слов-столбцов матрицы**

In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

##your code

In [45]:
corpus

['Кот пьет молоко', 'Кто пьет молоко?', 'Молоко выпивается котом']

In [47]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

In [48]:
vectorizer.get_feature_names()

['выпивается', 'кот', 'котом', 'кто', 'молоко', 'пьет']

In [49]:
X.toarray()

array([[0.        , 0.72033345, 0.        , 0.        , 0.42544054,
        0.54783215],
       [0.        , 0.        , 0.        , 0.72033345, 0.42544054,
        0.54783215],
       [0.65249088, 0.        , 0.65249088, 0.        , 0.38537163,
        0.        ]])

# Классификация

Мы попробуем применить описание методы предобработки и представления текста на примере анализа тональности текста. В качестве данных будем использовать небольшой датасет твитов. Всего в данных 2 класса: позитив и негатив.

### 3.1 Загрузка данных и получение тренировочной и тестовой выборки

In [12]:
import pandas as pd

train = pd.read_csv('../../data/train.csv')
train.shape

(6929, 2)

In [13]:
train.head()

Unnamed: 0,label,text
0,positive,эти розы для прекрасной мамочки)))=_=]]
1,negative,"И да, у меня в этом году серьезные проблемы со..."
2,positive,"♥Обожаю людей, которые заставляют меня смеятьс..."
3,negative,Вчера нашла в почтовом ящике пустую упаковку и...
4,positive,очень долгожданный и хороший день был)


**Разбейте выборку на две тренировочную и валидационную с помощью функции train_test_split из sklearn**

In [14]:
from sklearn.model_selection import train_test_split

In [19]:
X_train, X_test, y_train, y_test = train_test_split(train['text'], train['label'], stratify=train['label'])

**Проверьте что доли классов на train и на test совпадают**

In [109]:
train['label'].nunique()

2

In [112]:
len(y_train[y_train == 'positive'])/len(y_train)

0.6689761354888376

In [113]:
len(y_test[y_test == 'positive'])/len(y_test)

0.6687824581650318

In [114]:
len(y_test[y_test != 'positive'])/len(y_test)

0.33121754183496827

In [115]:
len(y_train[y_train != 'positive'])/len(y_train)

0.33102386451116245

### 3.2 Оценка качества

Наша выборка не сбалансирована (доля одно из класса значительно ниже доли другого), поэтому стандартные метрики качества для классификаторов вроде accuracy или roc auc нам не подходят

Нам нужна Точность (Precision) и Полнота (Recall)!

**Про эти метрики можно подробно почитать в презентации  `векторайзеры и метрики.pptx`**

Для подсчета метрик будем использовать говоторые функции из sklearn.metrics

### 3.3 Построение модели

Напишем функцию для оценки векторизатора. В качестве модели будем использовать линейный SVM, он хорошо работает на задачах классификации текстов, когда для векторизации используются методы дающие разреженные матрицы.  

**Реализуйте функцию следуя инструкциям в комментариях**

In [49]:
text = 'я не понял как это задание делать, поэтому что получиться то получиться, я не виноват.'

In [116]:
from pymorphy2 import MorphAnalyzer
from pymorphy2.tokenizers import simple_word_tokenize

In [54]:
pymorph = MorphAnalyzer()
corpus = simple_word_tokenize(text)
for i in range(len(corpus)):
    corpus[i] = pymorph.parse(corpus[i])[0].normal_form

In [131]:
np.array(X_train)

array(['А это саундтрек к одному классному фильму. :)',
       'Это был самый лучший отряд!:) Спасибо вам, ребята!:)',
       'Президент чувашии под неее классно двигается))))))))))', ...,
       'Мне одному хотелось в момент объявления названия лучшего фильма выбросить ноутбук в окно?',
       'от длительного сидения дома я начала испытывать серьёзные сложности с устным выражением своих мыслей.....',
       'брат почитай эт писец))) я под столом'], dtype=object)

In [117]:
cv = CountVectorizer()

In [120]:
X = cv.fit_transform(X_train)

In [124]:
X.toarray()

(5196, 18149)

In [3]:
from sklearn.svm import LinearSVC

In [25]:
X_train, X_test, y_train, y_test = train_test_split(train['text'], train['label'], stratify=train['label'])

In [26]:
%matplotlib inline

import tqdm
import numpy as np
from sklearn.svm import LinearSVC
from sklearn.metrics import classification_report

def evaluate_vectorizer(vectorizer):
    #обучение выбранного векторайзера и получение веторов текстов (fit_transform)  
    global X_train, X_test, y_test, y_train
    Xtr = vectorizer.fit_transform(np.array(X_train))
    X_train = Xtr.toarray()
    #иницилизация классификатора и тренировка модели
    clf = LinearSVC()
    clf.fit(X_train, y_train)
    
    #получение векторов текстов для теста
    Xte = vectorizer.transform(np.array(X_test))
    X_test = Xte.toarray()
                                   
    #получение предсказания
    print(X_train.shape)
    print(X_test.shape)
    y_pred = clf.predict(X_test)
    #вывод метрик классификации с помощью функции classification_report - выводит precision и recall для каждого класса
    print(classification_report(y_test, y_pred))
    #возвращаем предсказанные классы для теста
    return y_pred

In [27]:
cv = CountVectorizer()
evaluate_vectorizer(cv)

(5196, 18177)
(1733, 18177)
              precision    recall  f1-score   support

    negative       0.76      0.56      0.65       574
    positive       0.81      0.91      0.86      1159

    accuracy                           0.80      1733
   macro avg       0.79      0.74      0.75      1733
weighted avg       0.79      0.80      0.79      1733



array(['negative', 'positive', 'negative', ..., 'positive', 'negative',
       'positive'], dtype=object)

### 3.4 Сравнение способов представления текста

* необработанный текст + используйте CountVectorizer
* переведите в lower и используйте CountVectorizer
* lower + lemmatization + CountVectorizer
* lower + stemming (SnowballStemer) + CountVectorizer
Выберите лучший из двух последних ->
* lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)
* lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel) + передайте список стоп слов (data/stopwords-ru.txt)
* lower + lemmatization\stemming + TfidfVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)
* lower + lemmatization\stemming + TfidfVectorizer (используйте ngrams(2, 2)) + передавайте в векторайзер свой токенизатор (например из razdel)

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
from pymorphy2 import MorphAnalyzer
from pymorphy2.tokenizers import simple_word_tokenize

In [4]:
text = "югославской историографии также известна как «Седьмое вражеское наступление» или Десант на Дрвар (сербохорв. Десант на Дрвар / Desant na Drvar) — комбинированная воздушно-десантная и сухопутная наступательная операция войск 2-й танковой армии вермахта во время Второй мировой войны. Проводилась в Западной Боснии в районе Бугойно — Яйце — Баня-Лука — Приедор — Бихач — Книн в период с 25 мая по 6 июня 1944 года с целью уничтожения Верховного штаба НОАЮ в городе Дрвар, а также находившихся при нём учреждений народно-освободительного движения Югославии и союзных военных миссий. В операции участвовали 500-й парашютно-десантный батальон СС, а также части 15-го горнопехотного армейского корпуса и 5-го горнопехотного корпуса СС."

### необработанный текст + используйте CountVectorizer

In [30]:
cv = CountVectorizer()
X = cv.fit_transform([text])
# cv.get_feature_names()


In [103]:
cv.transform([text.split(), text.split()]).toarray()

array([[1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2],
       [1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2]], dtype=int64)

In [36]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 2, 1, 2, 1, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

# переведите в lower и используйте CountVectorizer

In [37]:
cv = CountVectorizer()
X = cv.fit_transform([text.lower()])
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [38]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 2, 1, 2, 1, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

# lower + lemmatization + CountVectorizer

In [39]:
corpus = simple_word_tokenize(text.lower())
pymorph = MorphAnalyzer()

In [40]:
for i in range(len(corpus)):
    corpus[i] = pymorph.parse(corpus[i])[0].normal_form

In [42]:
new_text = ' '.join(corpus)

In [43]:
cv = CountVectorizer()
X = cv.fit_transform([new_text])

In [44]:
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейский',
 'армия',
 'баня',
 'батальон',
 'бихач',
 'босния',
 'бугойный',
 'вермахт',
 'верховный',
 'военный',
 'воздушно',
 'война',
 'войско',
 'вражеский',
 'время',
 'го',
 'год',
 'горнопехотный',
 'город',
 'два',
 'движение',
 'десант',
 'десантный',
 'дрвар',
 'западный',
 'известный',
 'или',
 'историография',
 'июнь',
 'как',
 'книна',
 'комбинированный',
 'корпус',
 'лука',
 'май',
 'мировой',
 'миссия',
 'на',
 'народно',
 'наступательный',
 'наступление',
 'находиться',
 'ноать',
 'он',
 'операция',
 'освободительный',
 'парашютно',
 'период',
 'по',
 'при',
 'приедора',
 'проводиться',
 'район',
 'семь',
 'сербохорв',
 'союзный',
 'сс',
 'сухопутный',
 'также',
 'танковый',
 'ть',
 'уничтожение',
 'участвовать',
 'учреждение',
 'цель',
 'часть',
 'штаб',
 'югославия',
 'югославский',
 'яйцо']

In [45]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
        2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 3,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

In [46]:
cv = CountVectorizer()
X = cv.fit_transform(corpus)
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейский',
 'армия',
 'баня',
 'батальон',
 'бихач',
 'босния',
 'бугойный',
 'вермахт',
 'верховный',
 'военный',
 'воздушно',
 'война',
 'войско',
 'вражеский',
 'время',
 'го',
 'год',
 'горнопехотный',
 'город',
 'два',
 'движение',
 'десант',
 'десантный',
 'дрвар',
 'западный',
 'известный',
 'или',
 'историография',
 'июнь',
 'как',
 'книна',
 'комбинированный',
 'корпус',
 'лука',
 'май',
 'мировой',
 'миссия',
 'на',
 'народно',
 'наступательный',
 'наступление',
 'находиться',
 'ноать',
 'он',
 'операция',
 'освободительный',
 'парашютно',
 'период',
 'по',
 'при',
 'приедора',
 'проводиться',
 'район',
 'семь',
 'сербохорв',
 'союзный',
 'сс',
 'сухопутный',
 'также',
 'танковый',
 'ть',
 'уничтожение',
 'участвовать',
 'учреждение',
 'цель',
 'часть',
 'штаб',
 'югославия',
 'югославский',
 'яйцо']

In [47]:
X.toarray()

array([[0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

# lower + stemming (SnowballStemer) + CountVectorizer Выберите лучший из двух последних ->

In [5]:
from nltk.stem.snowball import SnowballStemmer
SnowballStemmer(language='russian').stem('бежать')

'бежа'

In [6]:
from nltk.stem.snowball import SnowballStemmer

In [3]:
SnowballStemmer(language='russian').stem('пить')

'пит'

In [7]:
corpus = simple_word_tokenize(text.lower())

In [8]:
for i in range(len(corpus)):
    corpus[i] = SnowballStemmer(language='russian').stem(corpus[i])

In [9]:
corpus

['югославск',
 'историограф',
 'такж',
 'известн',
 'как',
 '«',
 'седьм',
 'вражеск',
 'наступлен',
 '»',
 'ил',
 'десант',
 'на',
 'дрвар',
 '(',
 'сербохорв',
 '.',
 'десант',
 'на',
 'дрвар',
 '/',
 'desant',
 'na',
 'drvar',
 ')',
 '—',
 'комбинирова',
 'воздушно-десантн',
 'и',
 'сухопутн',
 'наступательн',
 'операц',
 'войск',
 '2-й',
 'танков',
 'арм',
 'вермахт',
 'во',
 'врем',
 'втор',
 'миров',
 'войн',
 '.',
 'провод',
 'в',
 'западн',
 'босн',
 'в',
 'район',
 'бугойн',
 '—',
 'яйц',
 '—',
 'баня-лук',
 '—',
 'приедор',
 '—',
 'бихач',
 '—',
 'книн',
 'в',
 'период',
 'с',
 '25',
 'ма',
 'по',
 '6',
 'июн',
 '1944',
 'год',
 'с',
 'цел',
 'уничтожен',
 'верховн',
 'штаб',
 'ноа',
 'в',
 'город',
 'дрвар',
 ',',
 'а',
 'такж',
 'наход',
 'при',
 'нем',
 'учрежден',
 'народно-освободительн',
 'движен',
 'югослав',
 'и',
 'союзн',
 'воен',
 'мисс',
 '.',
 'в',
 'операц',
 'участвова',
 '500-й',
 'парашютно-десантн',
 'батальон',
 'сс',
 ',',
 'а',
 'такж',
 'част',
 '15-го',

In [11]:
cv = CountVectorizer()
X = cv.fit_transform(corpus)
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'арм',
 'армейск',
 'баня',
 'батальон',
 'бихач',
 'босн',
 'бугойн',
 'вермахт',
 'верховн',
 'во',
 'воен',
 'воздушно',
 'войн',
 'войск',
 'вражеск',
 'врем',
 'втор',
 'го',
 'год',
 'горнопехотн',
 'город',
 'движен',
 'десант',
 'десантн',
 'дрвар',
 'западн',
 'известн',
 'ил',
 'историограф',
 'июн',
 'как',
 'книн',
 'комбинирова',
 'корпус',
 'лук',
 'ма',
 'миров',
 'мисс',
 'на',
 'народно',
 'наступательн',
 'наступлен',
 'наход',
 'нем',
 'ноа',
 'операц',
 'освободительн',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'провод',
 'район',
 'седьм',
 'сербохорв',
 'союзн',
 'сс',
 'сухопутн',
 'такж',
 'танков',
 'уничтожен',
 'участвова',
 'учрежден',
 'цел',
 'част',
 'штаб',
 'югослав',
 'югославск',
 'яйц']

In [12]:
X.toarray()

array([[0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [13]:
# мне кажется что дучше работает леммитизация чем стемминг

# lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)

In [47]:
# corpus = simple_word_tokenize(text.lower())

# pymorph = MorphAnalyzer()

# for i in range(len(corpus)):
#     corpus[i] = pymorph.parse(corpus[i])[0].normal_form

# cv = CountVectorizer()
# X = cv.fit_transform(corpus)
# cv.get_feature_names()

# X.toarray().sha

# new_text = ' '.join

In [55]:
new_text = tokenize_with_razdel(text)
new_text

['югославской',
 'историографии',
 'также',
 'известна',
 'как',
 '«',
 'Седьмое',
 'вражеское',
 'наступление',
 '»',
 'или',
 'Десант',
 'на',
 'Дрвар',
 '(',
 'сербохорв',
 '.',
 'Десант',
 'на',
 'Дрвар',
 '/',
 'Desant',
 'na',
 'Drvar',
 ')',
 '—',
 'комбинированная',
 'воздушно-десантная',
 'и',
 'сухопутная',
 'наступательная',
 'операция',
 'войск',
 '2-й',
 'танковой',
 'армии',
 'вермахта',
 'во',
 'время',
 'Второй',
 'мировой',
 'войны',
 '.',
 'Проводилась',
 'в',
 'Западной',
 'Боснии',
 'в',
 'районе',
 'Бугойно',
 '—',
 'Яйце',
 '—',
 'Баня-Лука',
 '—',
 'Приедор',
 '—',
 'Бихач',
 '—',
 'Книн',
 'в',
 'период',
 'с',
 '25',
 'мая',
 'по',
 '6',
 'июня',
 '1944',
 'года',
 'с',
 'целью',
 'уничтожения',
 'Верховного',
 'штаба',
 'НОАЮ',
 'в',
 'городе',
 'Дрвар',
 ',',
 'а',
 'также',
 'находившихся',
 'при',
 'нём',
 'учреждений',
 'народно-освободительного',
 'движения',
 'Югославии',
 'и',
 'союзных',
 'военных',
 'миссий',
 '.',
 'В',
 'операции',
 'участвовали',
 

In [58]:
cv = CountVectorizer()
X = cv.fit_transform(new_text)
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [59]:
X.toarray()

array([[0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

# lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel) + передайте список стоп слов (data/stopwords-ru.txt)

In [2]:
stop_word = '''c
а
алло
без
белый
близко
более
больше
большой
будем
будет
будете
будешь
будто
буду
будут
будь
бы
бывает
бывь
был
была
были
было
быть
в
важная
важное
важные
важный
вам
вами
вас
ваш
ваша
ваше
ваши
вверх
вдали
вдруг
ведь
везде
вернуться
весь
вечер
взгляд
взять
вид
видел
видеть
вместе
вне
вниз
внизу
во
вода
война
вокруг
вон
вообще
вопрос
восемнадцатый
восемнадцать
восемь
восьмой
вот
впрочем
времени
время
все
все еще
всегда
всего
всем
всеми
всему
всех
всею
всю
всюду
вся
всё
второй
вы
выйти
г
где
главный
глаз
говорил
говорит
говорить
год
года
году
голова
голос
город
да
давать
давно
даже
далекий
далеко
дальше
даром
дать
два
двадцатый
двадцать
две
двенадцатый
двенадцать
дверь
двух
девятнадцатый
девятнадцать
девятый
девять
действительно
дел
делал
делать
делаю
дело
день
деньги
десятый
десять
для
до
довольно
долго
должен
должно
должный
дом
дорога
друг
другая
другие
других
друго
другое
другой
думать
душа
е
его
ее
ей
ему
если
есть
еще
ещё
ею
её
ж
ждать
же
жена
женщина
жизнь
жить
за
занят
занята
занято
заняты
затем
зато
зачем
здесь
земля
знать
значит
значить
и
иди
идти
из
или
им
имеет
имел
именно
иметь
ими
имя
иногда
их
к
каждая
каждое
каждые
каждый
кажется
казаться
как
какая
какой
кем
книга
когда
кого
ком
комната
кому
конец
конечно
которая
которого
которой
которые
который
которых
кроме
кругом
кто
куда
лежать
лет
ли
лицо
лишь
лучше
любить
люди
м
маленький
мало
мать
машина
между
меля
менее
меньше
меня
место
миллионов
мимо
минута
мир
мира
мне
много
многочисленная
многочисленное
многочисленные
многочисленный
мной
мною
мог
могу
могут
мож
может
может быть
можно
можхо
мои
мой
мор
москва
мочь
моя
моё
мы
на
наверху
над
надо
назад
наиболее
найти
наконец
нам
нами
народ
нас
начала
начать
наш
наша
наше
наши
не
него
недавно
недалеко
нее
ней
некоторый
нельзя
нем
немного
нему
непрерывно
нередко
несколько
нет
нею
неё
ни
нибудь
ниже
низко
никакой
никогда
никто
никуда
ним
ними
них
ничего
ничто
но
новый
нога
ночь
ну
нужно
нужный
нх
о
об
оба
обычно
один
одиннадцатый
одиннадцать
однажды
однако
одного
одной
оказаться
окно
около
он
она
они
оно
опять
особенно
остаться
от
ответить
отец
откуда
отовсюду
отсюда
очень
первый
перед
писать
плечо
по
под
подойди
подумать
пожалуйста
позже
пойти
пока
пол
получить
помнить
понимать
понять
пор
пора
после
последний
посмотреть
посреди
потом
потому
почему
почти
правда
прекрасно
при
про
просто
против
процентов
путь
пятнадцатый
пятнадцать
пятый
пять
работа
работать
раз
разве
рано
раньше
ребенок
решить
россия
рука
русский
ряд
рядом
с
с кем
сам
сама
сами
самим
самими
самих
само
самого
самой
самом
самому
саму
самый
свет
свое
своего
своей
свои
своих
свой
свою
сделать
сеаой
себе
себя
сегодня
седьмой
сейчас
семнадцатый
семнадцать
семь
сидеть
сила
сих
сказал
сказала
сказать
сколько
слишком
слово
случай
смотреть
сначала
снова
со
собой
собою
советский
совсем
спасибо
спросить
сразу
стал
старый
стать
стол
сторона
стоять
страна
суть
считать
т
та
так
такая
также
таки
такие
такое
такой
там
твои
твой
твоя
твоё
те
тебе
тебя
тем
теми
теперь
тех
то
тобой
тобою
товарищ
тогда
того
тоже
только
том
тому
тот
тою
третий
три
тринадцатый
тринадцать
ту
туда
тут
ты
тысяч
у
увидеть
уж
уже
улица
уметь
утро
хороший
хорошо
хотел бы
хотеть
хоть
хотя
хочешь
час
часто
часть
чаще
чего
человек
чем
чему
через
четвертый
четыре
четырнадцатый
четырнадцать
что
чтоб
чтобы
чуть
шестнадцатый
шестнадцать
шестой
шесть
эта
эти
этим
этими
этих
это
этого
этой
этом
этому
этот
эту
я
являюсь'''

In [8]:
cv = CountVectorizer()
X = cv.fit_transform([text])
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [10]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 2, 1, 2, 1, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

In [12]:
X_new = cv.transform([stop_word])

In [13]:
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [14]:
X_new.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

# lower + lemmatization\stemming + TfidfVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)

In [18]:
from pymorphy2.tokenizers import simple_word_tokenize
from pymorphy2 import MorphAnalyzer

In [20]:
new_text = simple_word_tokenize(text)

In [21]:
pymorph = MorphAnalyzer()

In [22]:
for i in range(len(new_text)):
    new_text[i] = pymorph.parse(new_text[i])[0].normal_form

In [23]:
new_text = ' '.join(new_text)

In [37]:
new_text1 = tokenize_with_razdel(text.lower())
new_text1

['югославской',
 'историографии',
 'также',
 'известна',
 'как',
 '«',
 'седьмое',
 'вражеское',
 'наступление',
 '»',
 'или',
 'десант',
 'на',
 'дрвар',
 '(',
 'сербохорв',
 '.',
 'десант',
 'на',
 'дрвар',
 '/',
 'desant',
 'na',
 'drvar',
 ')',
 '—',
 'комбинированная',
 'воздушно-десантная',
 'и',
 'сухопутная',
 'наступательная',
 'операция',
 'войск',
 '2-й',
 'танковой',
 'армии',
 'вермахта',
 'во',
 'время',
 'второй',
 'мировой',
 'войны',
 '.',
 'проводилась',
 'в',
 'западной',
 'боснии',
 'в',
 'районе',
 'бугойно',
 '—',
 'яйце',
 '—',
 'баня-лука',
 '—',
 'приедор',
 '—',
 'бихач',
 '—',
 'книн',
 'в',
 'период',
 'с',
 '25',
 'мая',
 'по',
 '6',
 'июня',
 '1944',
 'года',
 'с',
 'целью',
 'уничтожения',
 'верховного',
 'штаба',
 'ноаю',
 'в',
 'городе',
 'дрвар',
 ',',
 'а',
 'также',
 'находившихся',
 'при',
 'нём',
 'учреждений',
 'народно-освободительного',
 'движения',
 'югославии',
 'и',
 'союзных',
 'военных',
 'миссий',
 '.',
 'в',
 'операции',
 'участвовали',
 

In [38]:
tfidf = TfidfVectorizer()

In [39]:
X = tfidf.fit_transform(new_text1)

In [40]:
tfidf.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [41]:
X.toarray()

array([[0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

# lower + lemmatization\stemming + TfidfVectorizer (используйте ngrams(2, 2)) + передавайте в векторайзер свой токенизатор (например из razdel)

In [42]:
tfidf = TfidfVectorizer(ngram_range=(2,2))

In [46]:
text.lower()

'югославской историографии также известна как «седьмое вражеское наступление» или десант на дрвар (сербохорв. десант на дрвар / desant na drvar) — комбинированная воздушно-десантная и сухопутная наступательная операция войск 2-й танковой армии вермахта во время второй мировой войны. проводилась в западной боснии в районе бугойно — яйце — баня-лука — приедор — бихач — книн в период с 25 мая по 6 июня 1944 года с целью уничтожения верховного штаба ноаю в городе дрвар, а также находившихся при нём учреждений народно-освободительного движения югославии и союзных военных миссий. в операции участвовали 500-й парашютно-десантный батальон сс, а также части 15-го горнопехотного армейского корпуса и 5-го горнопехотного корпуса сс.'

In [47]:
new_text = tokenize_with_razdel(text.lower())

In [48]:
X = tfidf.fit_transform(new_text)

In [49]:
tfidf.get_feature_names()

['15 го',
 'баня лука',
 'воздушно десантная',
 'народно освободительного',
 'парашютно десантный']

In [50]:
X.toarray()

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0.