In [5]:
# Загрузка файла
file_path = '/content/Viking.txt'

# Чтение файла
with open(file_path, 'r', encoding='utf-8') as file:
    content = file.readlines()

content[:20]

['"x"\n',
 '"\n',
 '\t\t\t\t\t\t\n',
 '\t\t\t\t\t\t\t\n',
 '\t\t\t\t\t\t\t\n',
 '\t\t\t\t\t\t\t\n',
 '\t\t\t\t\t\t\t(adsbygoogle = window.adsbygoogle || []).push({});\n',
 '\t\t\t\t\t\t\t\n',
 '\t\t\t\t\t\t\t(Rain patters)\n',
 '(Loud thunderclap)\n',
 '(Heartbeat pulses loudly)\n',
 '(Men scream in agony)\n',
 '(Inhales deeply)\n',
 'Latvian warrior: (Attack yell)\n',
 '(Fighting grunts)\n',
 'Agghhh!\n',
 'Ungh!\n',
 'Ohhh!\n',
 'Agghhh!\n',
 'Agh! Ugh!\n']

In [6]:
# Анализ данных
import re

dialogues = []

dialogue_pattern = re.compile(r'([A-Za-z\s]+):\s(.+)')

for line in content:
    line = line.strip()

    match = dialogue_pattern.match(line)
    if match:
        character = match.group(1).strip()
        dialogue = match.group(2).strip()

        dialogues.append({'character': character, 'dialogue': dialogue})

dialogues[:10]

[{'character': 'Latvian warrior', 'dialogue': '(Attack yell)'},
 {'character': 'Scandinavian warrior', 'dialogue': 'Ragnar!'},
 {'character': 'Voice', 'dialogue': 'Odin!'},
 {'character': 'Rollo', 'dialogue': 'Ragnar!'},
 {'character': 'Lagertha', 'dialogue': 'What are you two doing?'},
 {'character': 'Lagertha',
  'dialogue': "Don't sleep with lots of women in Kattegat."},
 {'character': 'Ragnar', 'dialogue': '(To Bjorn)'},
 {'character': 'Bjorn', 'dialogue': 'Frodi! Come on, boy.'},
 {'character': 'Bjorn', 'dialogue': 'What will happen at the thing?'},
 {'character': 'Ragnar',
  'dialogue': "The Earl will deal with some criminal offences and then, we'll discuss the summer raids."}]

In [7]:
# Подсчет количества реплик с описаниями действий или звуков в скобках
count_dialogues_with_parentheses = sum(1 for d in dialogues if '(' in d['dialogue'] or ')' in d['dialogue'])

# Вывод информации о количестве таких реплик
count_dialogues_with_parentheses, len(dialogues), count_dialogues_with_parentheses / len(dialogues)

(291, 3043, 0.09562931317778509)

In [8]:
# Функция для очистки диалога от содержимого в скобках и нежелательных символов
def clean_dialogue_advanced(dialogue):
    # Удаление содержимого в скобках
    dialogue = re.sub(r'\(.*?\)', '', dialogue)
    # Удаление специальных символов, кроме знаков пунктуации
    dialogue = re.sub(r'[^a-zA-Zа-яА-ЯёЁ0-9 .,!?\'\"]', ' ', dialogue)
    # Удаление лишних пробелов
    dialogue = re.sub(r'\s+', ' ', dialogue).strip()
    return dialogue

# Применение обновленной функции очистки ко всем репликам
for d in dialogues:
    d['dialogue'] = clean_dialogue_advanced(d['dialogue'])

# Удаление реплик, которые стали пустыми после очистки
dialogues_cleaned_advanced = [d for d in dialogues if d['dialogue']]

In [9]:
# Подсчет количества реплик с описаниями действий или звуков в скобках
count_dialogues_with_parentheses = sum(1 for d in dialogues if '(' in d['dialogue'] or ')' in d['dialogue'])

# Вывод информации о количестве таких реплик
count_dialogues_with_parentheses, len(dialogues), count_dialogues_with_parentheses / len(dialogues)

(0, 3043, 0.0)

In [11]:
# Выведем первые 10 очищенных реплик для проверки
dialogues[:10]

[{'character': 'Latvian warrior', 'dialogue': ''},
 {'character': 'Scandinavian warrior', 'dialogue': 'Ragnar!'},
 {'character': 'Voice', 'dialogue': 'Odin!'},
 {'character': 'Rollo', 'dialogue': 'Ragnar!'},
 {'character': 'Lagertha', 'dialogue': 'What are you two doing?'},
 {'character': 'Lagertha',
  'dialogue': "Don't sleep with lots of women in Kattegat."},
 {'character': 'Ragnar', 'dialogue': ''},
 {'character': 'Bjorn', 'dialogue': 'Frodi! Come on, boy.'},
 {'character': 'Bjorn', 'dialogue': 'What will happen at the thing?'},
 {'character': 'Ragnar',
  'dialogue': "The Earl will deal with some criminal offences and then, we'll discuss the summer raids."}]

In [13]:
# Удаление реплик, которые стали пустыми после очистки
dialogues_cleaned = [d for d in dialogues if d['dialogue']]

# Вывод количества реплик до и после очистки
len(dialogues), len(dialogues_cleaned)

(3043, 2834)

In [14]:
from collections import defaultdict
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [15]:
# Инициализация словаря для хранения реплик по персонажам
dialogues_by_character = defaultdict(list)

# Сбор реплик по персонажам
for dialogue in dialogues_cleaned_advanced:
    dialogues_by_character[dialogue['character']].append(dialogue['dialogue'])

# Инициализация словаря для хранения частотных распределений слов по персонажам
word_freq_by_character = {}

# Анализ частоты слов для каждого персонажа
for character, dialogues in dialogues_by_character.items():
    all_dialogues = ' '.join(dialogues)
    tokens = word_tokenize(all_dialogues)
    freq_dist = FreqDist(tokens)
    word_freq_by_character[character] = freq_dist

# Выведем частотные распределения для первого персонажа для примера
first_character = list(word_freq_by_character.keys())[0]
word_freq_by_character[first_character]

FreqDist({'Ragnar': 1, '!': 1})

In [16]:
word_freq_by_character

{'Scandinavian warrior': FreqDist({'Ragnar': 1, '!': 1}),
 'Voice': FreqDist({'Odin': 1, '!': 1}),
 'Rollo': FreqDist({'.': 76, '!': 43, ',': 30, 'you': 25, '?': 24, 'to': 22, 'I': 21, 'is': 14, 'the': 12, 'of': 10, ...}),
 'Lagertha': FreqDist({'.': 63, 'I': 28, '?': 27, ',': 27, '!': 23, 'you': 20, 'to': 19, 'is': 13, 'the': 13, 'do': 10, ...}),
 'Bjorn': FreqDist({'.': 64, '!': 46, '?': 38, ',': 30, 'you': 25, 'the': 20, 'to': 20, 'I': 19, 'is': 18, 'we': 13, ...}),
 'Ragnar': FreqDist({'.': 199, ',': 85, 'to': 73, 'I': 59, 'you': 58, 'the': 56, '?': 49, '!': 35, 'is': 27, 'a': 24, ...}),
 'Man': FreqDist({'!': 125, '.': 64, ',': 49, 'One': 24, 'two': 24, 'the': 16, 'Pull': 13, 'Heave': 13, 'you': 11, "'s": 10, ...}),
 'Svein': FreqDist({'.': 22, 'the': 10, '!': 10, 'you': 9, '?': 9, 'a': 7, ',': 7, 'to': 6, 'in': 6, 'is': 5, ...}),
 'Men': FreqDist({'!': 13, 'U': 8, '266A': 8, 'Pull': 3, '.': 2, '...': 2, 'Yeah': 2, 'Yes': 2, 'No': 2, 'There': 1, ...}),
 'Trygvasson': FreqDist({'I'

In [17]:
# Вывод топ-10 наиболее часто употребляемых слов для первых нескольких персонажей
top_words_by_character = {}

# Количество персонажей для демонстрации
num_characters_to_show = 3

for character, freq_dist in list(word_freq_by_character.items())[:num_characters_to_show]:
    top_words = freq_dist.most_common(10)
    top_words_by_character[character] = top_words

top_words_by_character

{'Scandinavian warrior': [('Ragnar', 1), ('!', 1)],
 'Voice': [('Odin', 1), ('!', 1)],
 'Rollo': [('.', 76),
  ('!', 43),
  (',', 30),
  ('you', 25),
  ('?', 24),
  ('to', 22),
  ('I', 21),
  ('is', 14),
  ('the', 12),
  ('of', 10)]}

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Подготовка списка всех реплик для векторизации
all_dialogues = [d['dialogue'] for d in dialogues_cleaned_advanced]

# Инициализация векторизатора TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Векторизация реплик
tfidf_matrix = tfidf_vectorizer.fit_transform(all_dialogues)

# Функция для нахождения наиболее подходящего ответа
def find_most_suitable_response(input_message):
    input_message_tfidf = tfidf_vectorizer.transform([input_message])
    cosine_similarities = cosine_similarity(input_message_tfidf, tfidf_matrix)
    most_similar_dialogue_idx = np.argmax(cosine_similarities)
    most_suitable_response = all_dialogues[most_similar_dialogue_idx]
    return most_suitable_response

# Тест функции с примером входящего сообщения
test_input_message = "What will happen now?"
find_most_suitable_response(test_input_message)

'What will happen to him?'

In [20]:
# Тест функции с примером входящего сообщения
test_input_message = "Hi"
find_most_suitable_response(test_input_message)

'Hi yah! Hi yah!'

In [21]:
import joblib

# Сохранение модели TF-IDF векторизатора
joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.joblib')

# Сохранение матрицы TF-IDF векторов
joblib.dump(tfidf_matrix, 'tfidf_matrix.joblib')

# Сохранение списка all_dialogues
joblib.dump(all_dialogues, 'all_dialogues.joblib')

['tfidf_matrix.joblib']