# Что такое нейронные сети?


![title](img/nss.jpg)

### Для чего нужны нейронные сети?

* Классификация — распределение данных по параметрам. Например, на вход дается набор людей и нужно решить, кому из них давать кредит, а кому нет. Эту работу может сделать нейронная сеть, анализируя такую информацию как: возраст, платежеспособность, кредитная история и тд.

![title](img/class.png)

* Предсказание — возможность предсказывать следующий шаг. Например, рост или падение акций, основываясь на ситуации на фондовом рынке.

![title](img/regression.png)

* Распознавание — в настоящее время, самое широкое применение нейронных сетей. Используется в Google, когда вы ищете фото или в камерах телефонов, когда оно определяет положение вашего лица и выделяет его и многое другое.

![title](img/face.jpg)

### Как устроены нейросети

![title](img/ex.png)


### Что такое синапс?

![title](img/sin.png)

![title](img/ex2.png)

#### Функции активации
![title](img/fa.png)

### Что такое тренировочный сет?

![title](img/batch.png)


### Что такое итерация

Прохождение одного батча по графу нейронной сети

### Что такое эпоха

Прохождение всех батчей тренировочных данных по графу сети ровно один раз

Количество пройденных раз = количество эпох


### Как сделать чтобы НС давала правильные ответы?

Нужно ее обучать!

![title](img/train.png)


### Ошибка/потери (loss)

Разница между выходом нейронной сети и правильным ответом

![title](img/error.png)

### Метод обратного распространения (Backpropagation)

![title](img/gif.gif)

### Скорость обучения или Learning rate

![title](img/lyz.gif)

### Что еще нужно учитывать?


* Количество скрытых слоев
* Количество нейронов в каждом слое
* Сходимость
* Переобучение (dropout)

![title](img/conv.png)

## Сеть прямого распространения  для классификации текстов


![title](img/mlp.png)

## Давайте попробуем что-то сделать сами!

In [None]:
import keras
from keras.layers import Dense, Dropout
from keras.models import Sequential
from keras import optimizers
import numpy as np
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
X_train = np.array([
        [1.0, 1.0, 1.0, 0.0, 1.0, 0.0],
        [1.0, 0.0, 1.0, 0.0, 0.0, 1.0],
        [0.0, 1.0, 1.0, 1.0, 0.0, 0.0],
        [0.0, 0.0, 0.0, 1.0, 1.0, 1.0],
        [0.0, 0.0, 1.0, 1.0, 1.0, 1.0],
        [0.0, 0.0, 0.0, 1.0, 1.0, 1.0],
        [0.0, 1.0, 0.0, 1.0, 1.0, 1.0],
        [1.0, 1.0, 1.0, 0.0, 0.0, 0.0]])

y_train_array = [1, 1, 1, 0, 0, 0, 0, 1]
y_train = keras.utils.to_categorical(np.array(y_train_array), num_classes=2)
print(y_train)

In [None]:
# parameters

batch_size=2
nb_epoch=10

In [None]:
model = Sequential()
model.add(Dense(128, input_dim=6, activation = 'relu'))
model.add(Dropout(0.1))
model.add(Dense(2, activation = 'softmax'))
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=nb_epoch, batch_size=batch_size, validation_split=0.0)

In [None]:
y_pred = model.predict_classes(X_train)
print(classification_report(y_train_array, y_pred))
labels = [1,0]
sns.heatmap(data=confusion_matrix(y_train_array, y_pred, labels = labels), annot=True, fmt="d", cbar=False, xticklabels=labels, yticklabels=labels)
plt.title("Confusion matrix")
plt.show()

In [None]:
X_test = np.array([
        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
        [1.0, 1.0, 1.0, 0.0, 0.0, 1.0],
        [1.0, 0.0, 1.0, 0.0, 1.0, 0.0],
        [0.0, 0.0, 0.0, 1.0, 0.0, 1.0],
        [0.0, 1.0, 1.0, 1.0, 0.0, 1.0],
        [0.0, 0.0, 0.0, 1.0, 0.0, 1.0]])

y_test_array = [1, 1, 1, 0, 0, 0]
y_test = keras.utils.to_categorical(np.array(y_test_array), num_classes=2)

y_result = model.predict_classes(X_test)
print(classification_report(y_test_array, y_result))
labels = [1,0]
sns.heatmap(data=confusion_matrix(y_test_array, y_result, labels = labels), annot=True, fmt="d", cbar=False, xticklabels=labels, yticklabels=labels)
plt.title("Confusion matrix")
plt.show()

### Какие еще нейросети бывают?


### Сверточные нейронные сети

![title](img/cnn6.png)


![title](img/convol.png)


![title](img/cnn1.png)


![title](img/cnn2.png)


![title](img/cnn3.png)


![title](img/cnn4.png)

### Рекуррентные нейронные сети


![title](img/RNN-rolled.png)


![title](img/RNN-unrolled.png)


![title](img/LSTM.png)

### Seq2seq-архитектура

![title](img/seq2seq.png)

![](img/encoder.png)

![](img/seq2seq2.png)

### Механизм внимания

![](img/decoder.png)

### Попробуем сделать свой seq2seq

In [1]:
from keras.models import Model
from keras.layers import Input, LSTM, Dense, Embedding
from keras.preprocessing.sequence import pad_sequences
import re
import helper
import numpy as np

Using TensorFlow backend.


In [2]:
with open("conversations.txt", "r", encoding="utf-8") as f:
    sentences_list = f.readlines()
sentences = [re.sub("^- ", "", i) for i in sentences_list if i != ""]
dataset, id2word, word2id, MAX_LEN = helper.prepare_for_dataset(sentences)

HIDDEN_SIZE = 256
DECODER_SIZE = 256
EMBEDDING_SIZE = 100
VOCABULARY_SIZE = len(id2word)
WORD_DIM = 300
EPOCHS = 5
BATCH_SIZE = 4

In [3]:
def decode(num):
    result = [0] * VOCABULARY_SIZE
    result[num] = 1
    return result

In [4]:
# SEQ2SEQ model

# Define an input sequence and process it.
encoder_inputs = Input(shape=(MAX_LEN,))
embeddings = Embedding(input_dim=VOCABULARY_SIZE, output_dim=EMBEDDING_SIZE)(encoder_inputs)
encoder_outputs, state_h, state_c = LSTM(HIDDEN_SIZE, return_state=True)(embeddings)
encoder_states = [state_h, state_c]

# Set up the decoder, using `encoder_states` as initial state.
decoder_inputs = Input(shape=(MAX_LEN,))
decoder_embeddings_inputs = Embedding(VOCABULARY_SIZE, EMBEDDING_SIZE)(decoder_inputs)
decoder_lstm = LSTM(DECODER_SIZE, return_sequences=True, return_state=True)
decoder_output, _, _ = decoder_lstm(decoder_embeddings_inputs, initial_state=encoder_states)
decoder_dense = Dense(VOCABULARY_SIZE, activation='softmax')
output = decoder_dense(decoder_output)

# Define the model that will turn
# `encoder_input_data` & `decoder_input_data` into `decoder_target_data`
model = Model([encoder_inputs, decoder_inputs], output)

# Compile & run training
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
# Note that `decoder_target_data` needs to be one-hot encoded,
# rather than sequences of integers like `decoder_input_data`!
print(model.summary())

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 13)           0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            (None, 13)           0                                            
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, 13, 100)      17800       input_1[0][0]                    
__________________________________________________________________________________________________
embedding_2 (Embedding)         (None, 13, 100)      17800       input_2[0][0]                    
__________________________________________________________________________________________________
lstm_1 (LS

In [5]:
encoder_input_data = pad_sequences([i[0] for i in dataset], maxlen=MAX_LEN, padding="post")
decoder_target_data = pad_sequences([[decode(ind) for ind in i[1]] for i in dataset], maxlen=MAX_LEN, padding="post")
decoder_input_data = pad_sequences([[0]+i[1][:-1] for i in dataset], maxlen=MAX_LEN, padding="post")

In [63]:
model.fit([encoder_input_data, decoder_input_data], decoder_target_data,
          batch_size=BATCH_SIZE,
          epochs=50,
          validation_split=0.2)

Train on 56 samples, validate on 15 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x2600896e048>

In [7]:
# INFERENCE
encoder_model = Model(encoder_inputs, encoder_states)

decoder_state_input_h = Input(shape=(HIDDEN_SIZE,))
decoder_state_input_c = Input(shape=(HIDDEN_SIZE,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]
decoder_lstm_outputs, state_h, state_c = decoder_lstm(decoder_embeddings_inputs, initial_state=decoder_states_inputs)
decoder_states = [state_h, state_c]
decoder_outputs = decoder_dense(decoder_lstm_outputs)

decoder_model = Model(
    [decoder_inputs] + decoder_states_inputs,
    [decoder_outputs] + decoder_states)

In [59]:
test_input = pad_sequences([dataset[0][0]], maxlen=MAX_LEN, padding="post")
test_input

array([[141, 104, 117, 104, 102,  36,  33,  24,  95,   0,   0,   0,   0]])

In [64]:
def predict(x_input):
        x_pad = pad_sequences([x_input], maxlen=MAX_LEN, padding="post")
        target_seq = np.zeros((1, MAX_LEN), dtype='int32')
        last_output = None
        for i in range(MAX_LEN):
            output = model.predict_on_batch([x_pad, target_seq])
            sampled_index = np.argmax(output[0, i, :])
            target_seq[0, i] = sampled_index
            last_output = output
        return last_output

In [68]:
predicted = predict(dataset[0][0])
answer = [id2word[str(np.argmax(predicted[i][j]))] for i in range(len(predicted)) for j in range(len(predicted[i]))]
result_text = " ".join(answer).capitalize()
print([id2word[str(i)] for i in dataset[0][0]])
result_text

['что', ',', 'мансур', ',', 'не', 'жарко', 'теперь', 'тебе', '?']


'Спрашиваю не жарко ему ? . . . выпил выпил сто сто ?'

In [77]:
predicted = predict(dataset[3][0])
answer = [id2word[str(np.argmax(predicted[i][j]))] for i in range(len(predicted)) for j in range(len(predicted[i]))]
result_text = " ".join(answer).capitalize()
print(" ".join([id2word[str(i)] for i in dataset[3][0]]))
result_text

тысяча тридцать четвертый .


'В , наша ты принимай тяжелораненого ! ! ? ! ? ! .'

In [74]:
dataset[0]

([141, 104, 117, 104, 102, 36, 33, 24, 95], [92, 104, 102, 36, 76, 33, 95])