# NLP-исследование романа «Улисс» Джеймса Джойса

Этот Jupyter-ноутбук представляет собой исследовательскую среду для применения различных техник обработки естественного языка (NLP) к тексту романа Джеймса Джойса «Улисс». Мы рассмотрим семь ключевых аналитических подходов, описанных в README проекта.

## 1. Настройка и импорт

Сначала мы импортируем все необходимые функции из нашего модуля `analysis_functions.py` и другие библиотеки.

In [None]:
import sys
import os
import matplotlib.pyplot as plt

# Добавляем путь к папке app, чтобы импортировать analysis_functions
sys.path.append(os.path.abspath('../app'))

from analysis_functions import (
    segment_text_by_character, analyze_sentiment_over_time,
    extract_literary_entities, simple_allusion_detection,
    analyze_joyce_style, generate_joyce_style_text,
    segment_dialogue, classify_character_speech,
    extract_locations_ner, geocode_locations, create_dublin_map,
    analyze_ngrams, analyze_phonetic_patterns, identify_musical_phrases,
    visualize_thought_transitions
)

# Пример текста для анализа
sample_text = """Stately, plump Buck Mulligan came from the stairhead, bearing a bowl of lather on which a mirror and a razor lay crossed. A yellow dressinggown, ungirdled, was sustained gently behind him on the mild morning air. He held the bowl aloft and intoned:
—Introibo ad altare Dei.
Stephen: I am not a jesuit.
Buck Mulligan: The aunt thinks you killed your mother. That's why she won't let me have anything to do with you."""

## 2. Анализ потока сознания

In [None]:
character_names = ["Stephen", "Buck Mulligan"]
segments = segment_text_by_character(sample_text, character_names)

for char, segs in segments.items():
    print(f"--- {char} ---")
    for s in segs:
        print(f"> {s}")
    print()

In [None]:
sentiment = analyze_sentiment_over_time(segments)
print("Анализ тональности:")
for char, scores in sentiment.items():
    print(f"{char}: {scores}")

## 3. Обнаружение аллюзий и отсылок

In [None]:
entities = extract_literary_entities(sample_text)
print("Именованные сущности:", entities)

allusion_keywords = {
    "Библия": ["God", "Lord", "altare", "Dei"],
    "Шекспир (Гамлет)": ["Hamlet", "father", "ghost"],
}
allusions = simple_allusion_detection(sample_text, allusion_keywords)
print("\nОбнаруженные аллюзии:", allusions)

## 4. Анализ стиля Джойса

In [None]:
style = analyze_joyce_style("The snotgreen sea, the scrotumtightening sea.")
print("Лексические инновации:", style)

generated_text = generate_joyce_style_text("rainy Dublin afternoon")
print("\nСгенерированный текст:", generated_text)

## 5. Гео-литературная реконструкция

In [None]:
location_text = "He saw the mailboat sailing for Holyhead. He walked near the Martello tower in Sandycove."
locations = extract_locations_ner(location_text)
print("Извлеченные локации:", locations)

if locations:
    geocoded = geocode_locations(locations)
    print("\nГеокодированные локации:", geocoded)
    if geocoded:
        dublin_map = create_dublin_map(geocoded)
        dublin_map.save("../data/dublin_map.html")
        print("\nКарта сохранена в data/dublin_map.html")
        # Для отображения в ноутбуке:
        from IPython.display import IFrame
        IFrame(src='../data/dublin_map.html', width=700, height=500)

## 6. Язык как музыка

In [None]:
music_text = "Stately, plump Buck Mulligan came from the stairhead, bearing a bowl of lather. A mirror and a razor lay crossed."
bigrams = analyze_ngrams(music_text, n=2)
print("Топ-5 биграмм:", bigrams.most_common(5))

phonetics = analyze_phonetic_patterns(music_text)
print("\nАллитерация:", phonetics)

rhythm = identify_musical_phrases(music_text)
print("\nРитмический анализ:")
print(f"  Длины предложений: {rhythm['sentence_lengths']}")
print(f"  Средняя длина: {rhythm['avg_sentence_length']:.2f}")

plt.figure(figsize=(10, 4))
plt.plot(rhythm['sentence_lengths'], marker='o')
plt.title("Ритм предложений (длина в словах)")
plt.xlabel("Номер предложения")
plt.ylabel("Количество слов")
plt.grid(True)
plt.show()