## Семинар 10: "Чат-боты"

ФИО:

In [95]:
import numpy as np
import re
from torch import nn
from torch.autograd import Variable
import matplotlib.pyplot as plt
import torch
%matplotlib inline

Этот семинар посвящен чат-ботам. Вам предстоит реализовать модель Seq2Seq, обученную на субтитрах какого-нибудь фильма.

При реализации задания вы можете пользоваться кодом из этого примера: <a href=https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb>реализация машинного перевода на PyTorch</a>

### Часть 1: подготовка данных

Скачайте субтитры вашего любимого фильма с сайта https://www.opensubtitles.org/en и поместите их в папку с ноутбуком, назвав файл subtitles.srt

### Чтение данных

In [43]:
def clean_line(line):
    line = line.strip().decode('utf-8')
    if '-->' in line or line.isalnum():
        line = u''
    line = re.sub('<[^>]*>', '', line, flags=re.U)
    words = re.findall(r'\w*', line, flags=re.U)
    words = filter(lambda x: x.isalnum(), words)
    clean = u' '.join(words)
    if clean.isalnum():
        clean = u''
    clean = clean.lower()
    clean = re.sub(r"([.!?])", r" \1", clean, flags=re.U)
    clean = re.sub(r"[^a-zA-Z.!?]+", r" ", clean, flags=re.U)
    return clean

In [44]:
lines = open('subtitles.srt').readlines()
lines = map(clean_line, lines)
lines = filter(len, lines)

In [45]:
for i in range(10):
    print lines[i]

theme music playing
bb chirping
this will begin to make things right
i ve traveled too far and seen too much
to ignore the despair in the galaxy
without the jedi there can be
no balance in the force
well because of you
now we have a chance
the general s been after this


### Построение словаря

In [74]:
SOS_token = 0
EOS_token = 1

class Lang:
    def __init__(self):
        self.word2index = {}
        self.word2count = {}
        self.index2word = {0: "SOS", 1: "EOS"}
        self.n_words = 2 # Count SOS and EOS

    def addSentence(self, sentence):
        for word in sentence.split(' '):
            self.addWord(word)

    def addWord(self, word):
        if word not in self.word2index:
            self.word2index[word] = self.n_words
            self.index2word[self.n_words] = word
            self.word2count[word] = 1
            self.n_words += 1
        else:
            self.word2count[word] += 1

In [75]:
vocab = Lang()
for line in lines:
    vocab.addSentence(line)

In [92]:
def indexesFromSentence(vocab, sentence):
    return [vocab.word2index[word] for word in sentence.split(' ')]

def variableFromSentence(vocab, sentence):
    indexes = indexesFromSentence(vocab, sentence)
    indexes.append(EOS_token)
    return Variable(torch.LongTensor(indexes).view(-1, 1))

def variablesFromPair(pair):
    input_variable = variableFromSentence(vocab, pair[0])
    target_variable = variableFromSentence(vocab, pair[1])
    return (input_variable, target_variable)

In [93]:
pairs = zip(lines[:-1], lines[1:])

In [96]:
tensors = map(variablesFromPair, pairs)

### Часть 2: определение модели

<i> 2.1 Реализуйте encoder </i>

<i> 2.2 Реализуйте decoder </i>

<i> 2.3 Реализуйте forward </i>

<i> 2.4 Реализуйте evaluate (на каждой итерации выбирайте наиболее вероятное слово)</i>

### Часть 3: обучение модели

<i> 3.1 Обучите модель при помощи SGD </i>

### Часть 4: оценивание модели

<i> 4.1 Продемонстрируйте ответы модели на различные предложения </i>

#### Feedback (опционально)

Здесь вы можете оставить список опечаток из лекции или семинара:

Здесь вы можете оставить комментарии по лекции или семинару: