### Домашнее задание 2. Часть 1.

In [14]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.stem import WordNetLemmatizer
from collections import Counter
import time
import pandas as pd
import os
import re
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from textblob import TextBlob
import warnings
warnings.filterwarnings('ignore')

# Загружаем необходимые ресурсы NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/artembritsyn/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/artembritsyn/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/artembritsyn/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/artembritsyn/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [15]:
# Функция для чтения текстовых файлов
def read_lyrics(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

# Функция для предобработки текста
def preprocess_text(text):
    # Приведение к нижнему регистру
    text = text.lower()
    # Удаление специальных символов
    text = re.sub(r'[^\w\s]', '', text)
    # Токенизация
    tokens = word_tokenize(text)
    # Удаление стоп-слов
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]
    # Лемматизация
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    return tokens

# Функция для подсчета основных статистик
def compute_statistics(tokens, sentences):
    total_words = len(tokens)
    unique_words = len(set(tokens))
    word_diversity = unique_words / total_words if total_words > 0 else 0
    avg_word_length = sum(len(word) for word in tokens) / total_words if total_words > 0 else 0
    return {
        'total_words': total_words,
        'unique_words': unique_words,
        'word_diversity': word_diversity,
        'avg_word_length': avg_word_length,
        'sentence_count': len(sentences)
    }

# Функция для создания облака слов
def create_wordcloud(tokens, title):
    word_counts = Counter(tokens)
    wordcloud = WordCloud(width=800, height=400, background_color='white', max_words=100).generate_from_frequencies(word_counts)
    
    plt.figure(figsize=(10, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.title(f'Word Cloud - {title}')
    plt.axis('off')
    plt.tight_layout()
    return plt

# Функция для анализа эмоциональной окраски
def sentiment_analysis(text):
    blob = TextBlob(text)
    return blob.sentiment.polarity, blob.sentiment.subjectivity

# Функция для визуализации частотности слов
def plot_word_frequency(tokens, title, top_n=20):
    word_counts = Counter(tokens)
    top_words = dict(word_counts.most_common(top_n))
    
    plt.figure(figsize=(12, 6))
    plt.bar(top_words.keys(), top_words.values())
    plt.title(f'Top {top_n} Words - {title}')
    plt.xticks(rotation=45, ha='right')
    plt.ylabel('Frequency')
    plt.tight_layout()
    return plt

# Функция для сравнения текстов
def compare_texts(texts, titles):
    # TF-IDF для сравнения
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
    cosine_sim = cosine_similarity(tfidf_matrix)
    
    # Визуализация матрицы сходства
    plt.figure(figsize=(8, 6))
    sns.heatmap(cosine_sim, annot=True, cmap='Blues', xticklabels=titles, yticklabels=titles)
    plt.title('Cosine Similarity Between Songs')
    plt.tight_layout()
    return plt, cosine_sim

# Функция для анализа n-грамм
def analyze_ngrams(text, title, n=2, top_n=10):
    tokens = word_tokenize(text.lower())
    ngrams = list(zip(*[tokens[i:] for i in range(n)]))
    ngram_counts = Counter(ngrams)
    
    # Преобразование кортежей в строки для удобства отображения
    top_ngrams = {' '.join(ngram): count for ngram, count in ngram_counts.most_common(top_n)}
    
    plt.figure(figsize=(12, 6))
    plt.bar(top_ngrams.keys(), top_ngrams.values())
    plt.title(f'Top {top_n} {n}-grams - {title}')
    plt.xticks(rotation=45, ha='right')
    plt.ylabel('Frequency')
    plt.tight_layout()
    return plt

# Основная функция для EDA
def perform_eda(file_paths, titles):
    all_lyrics = []
    all_preprocessed = []
    all_statistics = []
    all_sentiments = []
    
    # Чтение и обработка каждой песни
    for file_path, title in zip(file_paths, titles):
        lyrics = read_lyrics(file_path)
        all_lyrics.append(lyrics)
        
        # Предобработка
        tokens = preprocess_text(lyrics)
        all_preprocessed.append(tokens)
        
        # Разбиение на предложения
        sentences = sent_tokenize(lyrics)
        
        # Подсчет статистик
        stats = compute_statistics(tokens, sentences)
        all_statistics.append(stats)
        
        # Анализ тональности
        polarity, subjectivity = sentiment_analysis(lyrics)
        all_sentiments.append((polarity, subjectivity))
        
        print(f"=== {title} ===")
        print(f"Total words: {stats['total_words']}")
        print(f"Unique words: {stats['unique_words']}")
        print(f"Word diversity (unique/total): {stats['word_diversity']:.2f}")
        print(f"Average word length: {stats['avg_word_length']:.2f} characters")
        print(f"Sentence count: {stats['sentence_count']}")
        print(f"Sentiment polarity: {polarity:.2f} (-1: negative, 1: positive)")
        print(f"Sentiment subjectivity: {subjectivity:.2f} (0: objective, 1: subjective)")
        print("\n")
        
        # Создание облаков слов
        wc_plot = create_wordcloud(tokens, title)
        wc_plot.savefig(f"wordcloud_{title.replace(' ', '_')}.png")
        plt.close()
        
        # Визуализация частотности слов
        freq_plot = plot_word_frequency(tokens, title)
        freq_plot.savefig(f"frequency_{title.replace(' ', '_')}.png")
        plt.close()
        
        # Анализ биграмм
        ngram_plot = analyze_ngrams(lyrics, title, n=2)
        ngram_plot.savefig(f"bigrams_{title.replace(' ', '_')}.png")
        plt.close()
    
    # Сравнение текстов
    joined_preprocessed = [' '.join(tokens) for tokens in all_preprocessed]
    sim_plot, similarity_matrix = compare_texts(joined_preprocessed, titles)
    sim_plot.savefig("songs_similarity.png")
    plt.close()
    
    # Сравнительные диаграммы для статистик
    stats_df = pd.DataFrame(all_statistics, index=titles)
    
    # Гистограмма для основных статистик
    plt.figure(figsize=(14, 8))
    
    plt.subplot(2, 2, 1)
    sns.barplot(x=stats_df.index, y=stats_df['total_words'])
    plt.title('Total Words')
    plt.xticks(rotation=45, ha='right')
    
    plt.subplot(2, 2, 2)
    sns.barplot(x=stats_df.index, y=stats_df['unique_words'])
    plt.title('Unique Words')
    plt.xticks(rotation=45, ha='right')
    
    plt.subplot(2, 2, 3)
    sns.barplot(x=stats_df.index, y=stats_df['word_diversity'])
    plt.title('Word Diversity (Unique/Total)')
    plt.xticks(rotation=45, ha='right')
    
    plt.subplot(2, 2, 4)
    sns.barplot(x=stats_df.index, y=stats_df['avg_word_length'])
    plt.title('Average Word Length (characters)')
    plt.xticks(rotation=45, ha='right')
    
    plt.tight_layout()
    plt.savefig("comparative_statistics.png")
    plt.close()
    
    # Диаграмма тональности
    sentiment_df = pd.DataFrame(all_sentiments, index=titles, columns=['Polarity', 'Subjectivity'])
    
    plt.figure(figsize=(10, 6))
    sentiment_df.plot(kind='bar', figsize=(10, 6))
    plt.title('Sentiment Analysis')
    plt.ylabel('Score')
    plt.xlabel('Song')
    plt.xticks(rotation=45, ha='right')
    plt.legend(loc='best')
    plt.tight_layout()
    plt.savefig("sentiment_analysis.png")
    plt.close()
    
    print("EDA complete! Images saved to current directory.")
    return stats_df, sentiment_df, similarity_matrix

# Основной код
file_paths = ["lyrics_1.txt", "lyrics_2.txt", "lyrics_3.txt"]
titles = ["Enter Sandman - Metallica", "Down in a Hole - Alice In Chains", "Message in a Bottle - The Police"]

# Выполнение EDA
stats_df, sentiment_df, similarity_matrix = perform_eda(file_paths, titles)

# Вывод дополнительной информации
print("\nСравнительная статистика песен:")
print(stats_df)

print("\nАнализ тональности песен:")
print(sentiment_df)

print("\nМатрица сходства песен:")
print(pd.DataFrame(similarity_matrix, index=titles, columns=titles))

=== Enter Sandman - Metallica ===
Total words: 154
Unique words: 82
Word diversity (unique/total): 0.53
Average word length: 4.80 characters
Sentence count: 2
Sentiment polarity: 0.12 (-1: negative, 1: positive)
Sentiment subjectivity: 0.54 (0: objective, 1: subjective)


=== Down in a Hole - Alice In Chains ===
Total words: 114
Unique words: 60
Word diversity (unique/total): 0.53
Average word length: 4.51 characters
Sentence count: 1
Sentiment polarity: -0.02 (-1: negative, 1: positive)
Sentiment subjectivity: 0.47 (0: objective, 1: subjective)


=== Message in a Bottle - The Police ===
Total words: 149
Unique words: 56
Word diversity (unique/total): 0.38
Average word length: 4.77 characters
Sentence count: 12
Sentiment polarity: 0.28 (-1: negative, 1: positive)
Sentiment subjectivity: 0.66 (0: objective, 1: subjective)


EDA complete! Images saved to current directory.

Сравнительная статистика песен:
                                  total_words  unique_words  word_diversity  \
Ente

<Figure size 1000x600 with 0 Axes>

- 1.Рассчитайте метрики TF-IDF для любых 3 песен на одном языке, которые вы сами
выберите. Не забудьте, что нужно привести слова к начальной форме, убрать
стоп-слова.

In [4]:
def preprocess_text(text):
    # Токенизация
    tokens = word_tokenize(text.lower())

    # Удаление стоп-слов и пунктуации
    stop_words = set(stopwords.words('english'))
    tokens = [token for token in tokens if token.isalnum() and token not in stop_words]

    # Лемматизация
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token) for token in tokens]

    return ' '.join(tokens)

# Читаем тексты песен
with open('lyrics_1.txt', 'r') as f:
    song1 = f.read()
with open('lyrics_2.txt', 'r') as f:
    song2 = f.read()
with open('lyrics_3.txt', 'r') as f:
    song3 = f.read()

# Предобработка текстов
songs = [song1, song2, song3]
processed_songs = [preprocess_text(song) for song in songs]

# 1. TF-IDF анализ
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(processed_songs)
feature_names = tfidf.get_feature_names_out()


 - 2. Сравните его с другим методам векторизации текста, например, с Count Vectorizer,
Word2Vec или Doc2Vec. Необходимо сделать вывод приносит ли TF-IDF улучшения по
сравнению с альтернативными подходами, с точки зрения вычислительной
эффективности и масштабируемости алгоритма при обработке больших объемов
данных разных данных.

In [5]:
# 2. Count Vectorizer для сравнения
count_vec = CountVectorizer()
count_matrix = count_vec.fit_transform(processed_songs)

# Анализ времени выполнения
start_time = time.time()
tfidf.fit_transform(processed_songs)
tfidf_time = time.time() - start_time

start_time = time.time()
count_vec.fit_transform(processed_songs)
count_time = time.time() - start_time


print(f"\nВремя выполнения TF-IDF: {tfidf_time:.4f} секунд")
print(f"Время выполнения Count Vectorizer: {count_time:.4f} секунд")


Время выполнения TF-IDF: 0.0070 секунд
Время выполнения Count Vectorizer: 0.0018 секунд


* TF-IDF более эффективен для определения важности слов, так как учитывает контекст всего корпуса текстов
* Count Vectorizer проще и быстрее, но дает менее информативные результаты

С точки зрения масштабируемости:
TF-IDF требует больше вычислительных ресурсов, а
Count Vectorizer более эффективен при обработке больших объемов данных, однако оба метода хорошо работают с разреженными матрицами

- 3. Сделайте исследование по полученнм преобразованным данным.
Какие слова/слово сочения чаще всего встречаются, а какие реже.

In [6]:
# 3. Анализ частоты слов
def get_top_words(matrix, feature_names, n=10):
    sums = matrix.sum(axis=0).A1
    top_indices = sums.argsort()[-n:][::-1]
    return [(feature_names[i], sums[i]) for i in top_indices]

# Получаем топ слова для каждого метода
tfidf_top = get_top_words(tfidf_matrix, feature_names)
count_top = get_top_words(count_matrix, count_vec.get_feature_names_out())

# Выводим результаты
print("=== TF-IDF Топ 10 слов ===")
for word, score in tfidf_top:
    print(f"{word}: {score:.4f}")

print("\n=== Count Vectorizer Топ 10 слов ===")
for word, count in count_top:
    print(f"{word}: {int(count)}")

=== TF-IDF Топ 10 слов ===
hole: 0.5767
land: 0.4471
bottle: 0.4267
yeah: 0.4166
message: 0.3879
hope: 0.3879
someone: 0.3491
take: 0.3478
get: 0.3033
soul: 0.2827

=== Count Vectorizer Топ 10 слов ===
yeah: 13
bottle: 11
hole: 10
hope: 10
message: 10
get: 10
someone: 9
oh: 9
land: 9
soul: 7
