# cornell_movie_corpus

In [1]:
dataset_path = "./datasets/cornell_movie_corpus/cornell_movie_corpus.txt"
part_dataset = "./datasets/cornell_movie_corpus/cornell_movie_corpus_part.txt"
dataset_size = 10000
with open(dataset_path, 'r') as original_dataset:
    with open(part_dataset, 'w') as temp_dataset:
        part_dataset_str = "".join([next(original_dataset) for _ in range(dataset_size)])
        temp_dataset.write(part_dataset_str)

In [34]:
test_data = [
 "1_Привет, как дела?",
 "2_Привет, норм а у тебя?",
 "1_Сижу смотрю мемы вк",
 "2_Видел новый мем с собакой-кусакой?",
 "1_Нет, покажи"
]
for i in range(1, len(test_data), 1):
    input_data = test_data[:i]
    labels = test_data[i]
    print(f"Label: '{labels}' | Input data: {input_data}") 
    
for i in range(1, len(test_data) // 2 + 1):
    input_data = test_data[:i*2]
    print(f"Dialog: {input_data}") 
print("---")
test_data_2 = test_data[:]
test_data_2.pop(0)
for i in range(1, len(test_data_2) // 2 +1):
    input_data = test_data_2[:i*2]
    print(f"Dialog: {input_data}")

Label: '2_Привет, норм а у тебя?' | Input data: ['1_Привет, как дела?']
Label: '1_Сижу смотрю мемы вк' | Input data: ['1_Привет, как дела?', '2_Привет, норм а у тебя?']
Label: '2_Видел новый мем с собакой-кусакой?' | Input data: ['1_Привет, как дела?', '2_Привет, норм а у тебя?', '1_Сижу смотрю мемы вк']
Label: '1_Нет, покажи' | Input data: ['1_Привет, как дела?', '2_Привет, норм а у тебя?', '1_Сижу смотрю мемы вк', '2_Видел новый мем с собакой-кусакой?']
Dialog: ['1_Привет, как дела?', '2_Привет, норм а у тебя?']
Dialog: ['1_Привет, как дела?', '2_Привет, норм а у тебя?', '1_Сижу смотрю мемы вк', '2_Видел новый мем с собакой-кусакой?']
---
Dialog: ['2_Привет, норм а у тебя?', '1_Сижу смотрю мемы вк']
Dialog: ['2_Привет, норм а у тебя?', '1_Сижу смотрю мемы вк', '2_Видел новый мем с собакой-кусакой?', '1_Нет, покажи']


In [1]:
from dimweb_persona_bot.dataloaders.datasets import BaseInitialDatasetV1, BaseDialogSampleV1
from typing import List
import pandas as pd

class RUCornellMovieCorpusV1(BaseInitialDatasetV1):
    def _create_initial_dataset(self, initial_dataset) -> List[BaseDialogSampleV1]:
        dataset = []
        temp_dialog = []
        for dialog_id, dialog in enumerate(initial_dataset.split('\n\n\n\n')):
            dialog = dialog.split('\n')
            
            for i in range(1, len(dialog) // 2 + 1):
                context = dialog[:i*2]
                sample = BaseDialogSampleV1(
                    context=context,
                    knowledge="",
                    sample_id=f"{dialog_id}_0_{i}",
                    dataset_source="RUCornellMovieCorpusV1"
                )
                dataset.append(sample)

            dialog.pop(0)
            for i in range(1, len(dialog) // 2 +1):
                context = dialog[:i*2]
                sample = BaseDialogSampleV1(
                    context=context,
                    knowledge="",
                    sample_id=f"{dialog_id}_1_{i}",
                    dataset_source="RUCornellMovieCorpusV1"
                )
                dataset.append(sample)
            
        return dataset

    def _read_dataset(self, input_path: str) -> str:
        # small dataset
        return open(input_path).read()
    

dataset = RUCornellMovieCorpusV1(
    input_dataset_path='./datasets/cornell_movie_corpus/cornell_movie_corpus.txt'
)

dataset[0]

{'context': ['- Ты приглашаешь меня на свидание. Это так мило. Напомни, как тебя зовут?',
  '- Забудь об этом.'],
 'knowledge': '',
 'sample_id': '0_0_1',
 'dataset_source': 'RUCornellMovieCorpusV1'}

In [2]:
dataset[3]

{'context': ['- Вот так.', '- Куда?'],
 'knowledge': '',
 'sample_id': '3_0_1',
 'dataset_source': 'RUCornellMovieCorpusV1'}

In [3]:
dataset.to_pandas()

Unnamed: 0,context,knowledge,sample_id,dataset_source
0,[- Ты приглашаешь меня на свидание. Это так ми...,,0_0_1,RUCornellMovieCorpusV1
1,"[- Боже, если бы только мы могли найти Кэт пар...",,1_0_1,RUCornellMovieCorpusV1
2,"[- Как продвигается наш маленький план ""Найди ...",,2_0_1,RUCornellMovieCorpusV1
3,"[- Вот так., - Куда?]",,3_0_1,RUCornellMovieCorpusV1
4,"[- У тебя что-то на уме?, - Я рассчитывал, что...",,4_0_1,RUCornellMovieCorpusV1
...,...,...,...,...
110425,[- Это контрабанда. Не спрашивай. Но я хотел т...,,51101_0_1,RUCornellMovieCorpusV1
110426,"[- Ты уходишь от нас?, - О нет. Мы всегда буде...",,51102_0_1,RUCornellMovieCorpusV1
110427,"[- Совет кардиналов! Я так нервничаю! Что, есл...",,51103_0_1,RUCornellMovieCorpusV1
110428,"[- Совет кардиналов! Я так нервничаю! Что, есл...",,51103_0_2,RUCornellMovieCorpusV1
