### explore data

In [7]:
import json

# read the json file 
with open('./datasets/persona_chat.json') as f:
    data = json.load(f)
    print(data.keys())
    for key in data.keys():
        print(key, len(data[key]))
        print(data[key][0].keys())

dict_keys(['train', 'valid'])
train 17878
dict_keys(['personality', 'utterances'])
valid 1000
dict_keys(['personality', 'utterances'])


In [17]:
data['train'][12]['personality']

['i watch basketball .',
 'i go to a local college .',
 'i work at a smoothie shop .',
 'i listen to classic rock .']

In [1]:
from dimweb_persona_bot.datasets_transformers.persona_chat_dataset_transformer import persona_chat_dataset_tranformer_v1

persona_chat_dataset_tranformer_v1(
    initial_dataset_path="./datasets/persona_chat/persona_chat.json",
    output_folder="./datasets/persona_chat",
)

Dataset lengths: train 17878, valid 500, test 500
Datasets saved.


In [27]:
# четный ответ в history содержит персону
data['train'][12]['utterances'][-1]['history']

['hey how are you today ?',
 'great ! just go off work at the smoothie shop . you ?',
 'i have been eating tacos and getting ready to move to school .',
 'are you going to college ? i go to a local one .',
 'yes , i am going to university of michigan . what year are you ?',
 'first yr ! do you have any hobbies ?',
 'i love doing anything outdoors . especially in summer . you ?',
 'i love watching college basketball and rocking out to classic rock .',
 'fun . have you decided on your major for school ?',
 'not yet . have you decided ?',
 "pre med . i'd love to be a doctor"]

### default dataset

In [32]:
from dimweb_persona_bot.dataloaders.persona_chat_dataloaders import PersonaChatDatasetV1
dataset = PersonaChatDatasetV1(
    input_dataset_path="./datasets/persona_chat/train.json",
)
dataset[12]

{'persona': ['my mom is my best friend .',
  'i have four sisters .',
  'i believe that mermaids are real .',
  'i love iced tea .'],
 'history': ['hi , how are you doing today ?',
  'i am spending time with my 4 sisters what are you up to',
  'wow , four sisters . just watching game of thrones .',
  'that is a good show i watch that while drinking iced tea',
  'i agree . what do you do for a living ?',
  "i'm a researcher i'm researching the fact that mermaids are real",
  "interesting . i'm a website designer . pretty much spend all my time on the computer .",
  "that's cool my mom does the same thing",
  "that's awesome . i have always had a love for technology .",
  'tell me more about yourself',
  'i really enjoy free diving , how about you , have any hobbies ?']}

### Causal datasets

In [4]:
from dimweb_persona_bot.dataloaders.persona_chat_dataloaders import PersonaChatDatasetV1
from dimweb_persona_bot.dataloaders.causal_samplers import CausalTrainPersonaSampleV1, CausalValidPersonaSampleV1
from dimweb_persona_bot.dataloaders.lighting import LightningDataModuleV1
from dimweb_persona_bot.hyperparameters.causal_modeling_hyperparameters import (
    PersonaChatHyperparametersV1,
)

from transformers import AutoTokenizer

hyperparameters = PersonaChatHyperparametersV1()
tokenizer = AutoTokenizer.from_pretrained(hyperparameters.model_name)

lighting_data = LightningDataModuleV1(
	train_path_dataset="./datasets/persona_chat/train.json",
	valid_path_dataset="./datasets/persona_chat/valid.json",
	hyperparameters=hyperparameters,
	tokenizer=tokenizer,
	base_train_dataset_class=PersonaChatDatasetV1,
	base_valid_dataset_class=PersonaChatDatasetV1,
	base_train_sample_class=CausalTrainPersonaSampleV1,
	base_valid_sample_class=CausalValidPersonaSampleV1,
)
lighting_data.setup()
next(iter(lighting_data.train_dataloader()))

{'input_ids': tensor([[50256, 15332,   287,  ...,  -100,  -100,  -100],
         [50256,  1820,  4004,  ...,  -100,  -100,  -100],
         [50256,    72,   588,  ...,  -100,  -100,  -100],
         ...,
         [50256,    72,  1842,  ...,  -100,  -100,  -100],
         [50256,    72,  1842,  ...,  -100,  -100,  -100],
         [50256,    72,   588,  ...,  -100,  -100,  -100]]),
 'labels': tensor([[50256, 15332,   287,  ...,  -100,  -100,  -100],
         [50256,  1820,  4004,  ...,  -100,  -100,  -100],
         [50256,    72,   588,  ...,  -100,  -100,  -100],
         ...,
         [50256,    72,  1842,  ...,  -100,  -100,  -100],
         [50256,    72,  1842,  ...,  -100,  -100,  -100],
         [50256,    72,   588,  ...,  -100,  -100,  -100]]),
 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
         [1, 1, 1,  ..., 0, 0, 0],
         [1, 1, 1,  ..., 0, 0, 0],
         ...,
         [1, 1, 1,  ..., 0, 0, 0],
         [1, 1, 1,  ..., 0, 0, 0],
         [1, 1, 1,  ..., 0, 0,

In [2]:
from dimweb_persona_bot.dataloaders.persona_chat_dataloaders import PersonaChatDatasetV1


train_dataset = PersonaChatDatasetV1(
    input_dataset_path="./datasets/persona_chat/train.json",
)

In [6]:
train_dataset[96]

{'persona': ['i like to snowboard .',
  'my favorite food is popcorn .',
  'i like to ride horses .',
  'i live in rural wisconsin .'],
 'history': ['i am frank . nice to meet you . what is your name ?',
  'my name is gary . great to meet you too .',
  'i work as a general manager at a grocery store . what about you ?',
  "i'm an insurance salesman"],
 'sample_id': '15_2'}

In [7]:
valid_dataset = PersonaChatDatasetV1(
    input_dataset_path="./datasets/persona_chat/valid.json",
)

In [8]:
valid_dataset[0]

{'persona': ['i read twenty books a year .',
  "i'm a stunt double as my second job .",
  'i only eat kosher .',
  'i was raised in a single parent household .'],
 'history': ['hello what are doing today ?',
  'i am good , i just got off work and tired , i have two jobs .'],
 'sample_id': '0_1'}

In [12]:
valid_dataset[2]['history']

['hello what are doing today ?',
 'i am good , i just got off work and tired , i have two jobs .',
 'i just got done watching a horror movie',
 "i rather read , i've read about 20 books this year .",
 'wow ! i do love a good horror movie . loving this cooler weather',
 'but a good movie is always good .']

In [17]:
valid_dataset[2]['history'][-2:]

['wow ! i do love a good horror movie . loving this cooler weather',
 'but a good movie is always good .']

## ru persona chat

In [4]:
import pandas as pd

dataset = pd.read_csv("./datasets/ru_persona_chat/profiles.tsv", delimiter="\t")
dataset.head()

Unnamed: 0,characteristic_1,characteristic_2,characteristic_3,characteristic_4,characteristic_5
У меня любимая работа.,Я уважаю людей.,У меня есть животное.,У меня хороший друг.,Я люблю кофе.,
Я работаю учителем,У меня есть собака,Я люблю петь,Я живу сама,Я люблю цветы,
Я купила дом,Я бегаю по утрам,Я работаю на работе,Я поеду в отпуск,Я люблю арбуз,
я врач и женат,у меня трое детей,не люблю свою работу,нравиться ездить на велосипеде,люблю пиво,
Я школьница.,Я ещё учусь.,Но я мечтаю работать.,Я обожаю родителей.,И не люблю учиться.,


In [5]:
dataset = pd.read_csv("./datasets/ru_persona_chat/dialogues.tsv", delimiter="\t")
dataset.head()

Unnamed: 0,persona_1_profile,persona_2_profile,dialogue
0,<span class=participant_1>У меня любимая работ...,<span class=participant_2>Ищу принца.<br />Вед...,<span class=participant_2>Пользователь 2: Прив...
1,<span class=participant_1>Я работаю учителем<b...,<span class=participant_2>Я бизнесмен<br />У м...,<span class=participant_1>Пользователь 1: Прив...
2,<span class=participant_1>Я купила дом<br />Я ...,<span class=participant_2>Я пою в караоке<br /...,<span class=participant_1>Пользователь 1: Прив...
3,<span class=participant_1>я врач и женат<br />...,<span class=participant_2>Я мальчик<br />Я учу...,<span class=participant_2>Пользователь 2: Здра...
4,<span class=participant_1>Я школьница.<br />Я ...,<span class=participant_2>Я простоват.<br />Лю...,<span class=participant_1>Пользователь 1: Прив...


In [6]:
dataset.iloc[4]['persona_1_profile']

'<span class=participant_1>Я школьница.<br />Я ещё учусь.<br />Но я мечтаю работать.<br />Я обожаю родителей.<br />И не люблю учиться.<br /></span>'

In [7]:
dataset.iloc[4]['persona_2_profile']

'<span class=participant_2>Я простоват.<br />Люди избегают меня.<br />Я быстро бегаю.<br />Мои увлечения неординарны.<br />Я работаю по призванию.<br /></span>'

In [8]:
dataset.iloc[4]['dialogue']


'<span class=participant_1>Пользователь 1: Привет!</span><br /><span class=participant_2>Пользователь 2: Привет!</span><br /><span class=participant_2>Пользователь 2: Как твои дела?</span><br /><span class=participant_1>Пользователь 1: Нормально, готовлюсь ко сну. Завтра снова в школу<br />. Не люблю учиться.</span><br /><span class=participant_1>Пользователь 1: А твои как?</span><br /><span class=participant_2>Пользователь 2: Всё хорошо,спать не хочется,думаю фильм посмотреть</span><br /><span class=participant_1>Пользователь 1: Какой фильм?</span><br /><span class=participant_2>Пользователь 2: Ещё не решила, может быть детектив какой нибудь. А<br />как в школе у тебя?</span><br /><span class=participant_1>Пользователь 1: Хорошо, ещё учусь, но скоро закончу. Уже мечтаю работать<br />, а не сидеть за учебниками. А ты работаешь или учишься<br />ещё?</span><br /><span class=participant_2>Пользователь 2: А я работаю, мне нравится моя работа, кем планируешь<br />работать?</span><br /><span

In [9]:
dialogue = dataset.iloc[4]['dialogue']

In [10]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(dialogue)
print(soup.prettify())

<span class="participant_1">
 Пользователь 1: Привет!
</span>
<br/>
<span class="participant_2">
 Пользователь 2: Привет!
</span>
<br/>
<span class="participant_2">
 Пользователь 2: Как твои дела?
</span>
<br/>
<span class="participant_1">
 Пользователь 1: Нормально, готовлюсь ко сну. Завтра снова в школу
 <br/>
 . Не люблю учиться.
</span>
<br/>
<span class="participant_1">
 Пользователь 1: А твои как?
</span>
<br/>
<span class="participant_2">
 Пользователь 2: Всё хорошо,спать не хочется,думаю фильм посмотреть
</span>
<br/>
<span class="participant_1">
 Пользователь 1: Какой фильм?
</span>
<br/>
<span class="participant_2">
 Пользователь 2: Ещё не решила, может быть детектив какой нибудь. А
 <br/>
 как в школе у тебя?
</span>
<br/>
<span class="participant_1">
 Пользователь 1: Хорошо, ещё учусь, но скоро закончу. Уже мечтаю работать
 <br/>
 , а не сидеть за учебниками. А ты работаешь или учишься
 <br/>
 ещё?
</span>
<br/>
<span class="participant_2">
 Пользователь 2: А я работаю, мне

In [74]:
profile = dataset.iloc[0]['persona_2_profile']
soup2 = BeautifulSoup(profile)
[item + "." for item in soup2.text.split(".") if item]

['Ищу принца.',
 'Веду активный образ жизни.',
 'Люблю читать классику.',
 'Выращиваю фиалки.',
 'Люблю общение.']

In [22]:
len(soup.find_all('span'))

11

In [17]:
soup.find_all('span')[0].text

'Пользователь 2: Привет) расскажи о себе'

In [21]:
soup.find_all('span')[0].get('class')

['participant_2']

In [21]:
"".join([str(item) for item in soup.find_all('span')[3].contents])

'Пользователь 1: Нормально, готовлюсь ко сну. Завтра снова в школу<br/>. Не люблю учиться.'

In [11]:
from typing import TypedDict

class Replica(TypedDict):
    text: str
    persona_class: str

dialogue = []
replicas = soup.find_all('span')
current_class = replicas[0].get('class')[0]

def simple_filter(text: str) -> str:
    text = text.replace("Пользователь 1:", "")
    text = text.replace("Пользователь 2:", "")
    return text

current_text = ""
for replica in replicas:
    if replica.get('class')[0] == current_class:
        current_text += simple_filter(replica.text)
    else:
        replica_obj = Replica(text=current_text, persona_class=current_class)
        dialogue.append(replica_obj)
        current_class = replica.get('class')[0]
        current_text = simple_filter(replica.text)
        

for item in dialogue:
    print(item['persona_class'], item['text'])

participant_1  Привет!
participant_2  Привет! Как твои дела?
participant_1  Нормально, готовлюсь ко сну. Завтра снова в школу. Не люблю учиться. А твои как?
participant_2  Всё хорошо,спать не хочется,думаю фильм посмотреть
participant_1  Какой фильм?
participant_2  Ещё не решила, может быть детектив какой нибудь. Акак в школе у тебя?
participant_1  Хорошо, ещё учусь, но скоро закончу. Уже мечтаю работать, а не сидеть за учебниками. А ты работаешь или учишьсяещё?
participant_2  А я работаю, мне нравится моя работа, кем планируешьработать?
participant_1  Хочу быть психологом. А кем ты работаешь?
participant_2  Не поверишь....я психолог
participant_1  Круто! И как тебе?
participant_2  Мне нравится,я люблю свою работу.
participant_1  Это классно. Хочу также. А ты одна живешь?
participant_2  Нет,я живу с мамой,а ты?
participant_1  Я тоже с родителями живу, обожаю их. Но иногда хочетсяпожить одной.
participant_2  Мне тоже, я люблю быть дома одна, мне эио часто удаётся, мы с мамой работаем в 

In [31]:
len(dialogue)

7

In [40]:
dialogue_samples = []

dialogue_len = len(dialogue) // 2 
for i in range(dialogue_len):
	sample = dialogue[:i*2]

In [38]:
[1, 2, 3, 4, 5][:4]

[1, 2, 3, 4]

In [58]:
pd.DataFrame(dialogue).to_dict('r')

  pd.DataFrame(dialogue).to_dict('r')


[{'text': ' Привет) расскажи о себе', 'persona_class': 'participant_2'},
 {'text': ' Привет) под вкусный кофеек настроение поболтать появилось)',
  'persona_class': 'participant_1'},
 {'text': ' Что читаешь? Мне нравится классика Я тоже люблю пообщаться',
  'persona_class': 'participant_2'},
 {'text': ' Люблю животных, просто обожаю, как и свою работу) Я фантастику люблю',
  'persona_class': 'participant_1'},
 {'text': ' А я выращиваю фиалки И веду здоровый и активный образ жизни!',
  'persona_class': 'participant_2'},
 {'text': ' Ух ты, интересно.', 'persona_class': 'participant_1'},
 {'text': ' Ты случайно не принц на белом коне? Я его очень жду..',
  'persona_class': 'participant_2'}]

In [2]:
from dimweb_persona_bot.dataloaders.ru_persona_chat_dataloaders import RUPersonaChatDatasetV1
from dimweb_persona_bot.datasets_transformers.ru_persona_chat_dataset_transformer import ru_persona_chat_dataset_tranformer_v1

# ru_persona_chat_dataset_tranformer_v1(
# 	initial_dataset_path="./datasets/ru_persona_chat/dialogues.tsv",
# 	output_folder="./datasets/ru_persona_chat",
# )

train_dataset = RUPersonaChatDatasetV1(
    input_dataset_path="./datasets/ru_persona_chat/valid.csv",
)
train_dataset[140]

{'persona': ['Я юрист.',
  'Не замужем.',
  'Люблю танцевать, петь.',
  'Мое хобби кулинария.',
  'Я люблю лето, море, солнце и песок.'],
 'history': ['Привет.',
  'привет!',
  'Как тебя зовут? И чем ты занимаешься?',
  'анна я юрист. я люблю тонцевать и петь. а ты чем любишь заниматься ?',
  'Я Ольга! Домохозяйка и косметолог по совместительству 😄 Печь пироги и всё такое) Ты от куда? Любишь животных?',
  'брянск. а ты? моё хобби кулинория. да конешно. мы даже с мужам развелись из за кошки ) терерь я не замужем)'],
 'sample_id': '23_3'}

In [4]:
train_dataset[160]

{'persona': ['Я женат.',
  'Я работаю в автосалоне.',
  'У меня есть большой дом.',
  'Я мечтаю о детях.',
  'У меня есть своя ферма.'],
 'history': ['Привет!', 'Привет.'],
 'sample_id': '27_1'}

In [4]:
from bs4 import BeautifulSoup
import re
persona = '<span class="participant_1">хочу кошку<br/>мечтаю прыгнуть с парашютом<br/>научил разговаривать попугая<br/>люблю природу<br/>обожаю баню<br/></span> '
persona = '<span class="participant_2">Я переводчик.<br/>Я разведен.<br/>У меня карие глаза.<br/>Я играю на баяне.<br/>У меня есть дача.<br/></span> '
# persona = persona.replace("<br/>", ". ")

# soup = BeautifulSoup(
# 	persona,
# 	features="html.parser",
# )
# soup.text
re.sub(r"<span.*\">|</span>", "", persona)

'Я переводчик.<br/>Я разведен.<br/>У меня карие глаза.<br/>Я играю на баяне.<br/>У меня есть дача.<br/> '

In [2]:
train_dataset[54]

{'persona': ['<span class="participant_1">хочу кошку<br/>мечтаю прыгнуть с парашютом<br/>научил разговаривать попугая<br/>люблю природу<br/>обожаю баню<br/></span> '],
 'history': ['Привет.',
  'Привет.',
  'Как тебя зовут? Чем занимаешься по жизни?',
  'Мария. Живу в деревне, держу попугая и хочу кошку.',
  'Как здорово, я безумно люблю животных. У меня есть собаки и попугаи.',
  'Какие собаки и сколько?',
  'Я люблю и котиков,но пока не завела. Три собаки,два лабрадора и чау-чау. Люблю пушистиков)',
  'Я люблю природу и животных.',
  'Я тоже.',
  'Лабрадоры очень добрые собаки.'],
 'sample_id': '10_5'}

In [15]:
from transformers import AutoTokenizer

# tokenizer = AutoTokenizer.from_pretrained("facebook/bart-base")
tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-50", )

len(tokenizer.encode(' '.join(train_dataset[14]['persona'])))

34

In [13]:
train_dataset[67]

{'persona': ['<span class="participant_2">Я переводчик.<br/>Я разведен.<br/>У меня карие глаза.<br/>Я играю на баяне.<br/>У меня есть дача.<br/></span> '],
 'history': ['Привет.', 'Привет ты кто?'],
 'sample_id': '12_1'}

In [4]:
from dimweb_persona_bot.utils import TextEvaluator

t_eval = TextEvaluator()

t_eval.evaluate(
	[""],
	[""],
)

EOFError: No valid references for a sentence!