<a href="https://colab.research.google.com/github/Vakhranev/Heritage/blob/main/%D0%92%D0%BE%D1%81%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%20t-score.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
import json

def calculate_t_score(bigram_freq_file, unigram_freq_file, output_json):
    # Загрузка данных
    with open(bigram_freq_file, 'r', encoding='utf-8') as f:
        bigram_dict = json.load(f)

    with open(unigram_freq_file, 'r', encoding='utf-8') as f:
        unigram_dict = json.load(f)

    # Проверка на повторы в списке униграмм
    unigram_keys = list(unigram_dict.keys())
    if len(unigram_keys) != len(set(unigram_keys)):
        print("Предупреждение: В списке униграмм есть дубликаты!")

    # Рассчет общего количества токенов
    total_tokens = sum(unigram_dict.values())  # Общее количество токенов
    print(f"Общее количество токенов: {total_tokens}")

    # Вывод 50 самых частотных униграмм
    top_50_unigrams = sorted(unigram_dict.items(), key=lambda x: x[1], reverse=True)[:50]
    print("Топ-50 униграмм:")
    for unigram, freq in top_50_unigrams:
        print(f"{unigram}: {freq}")

    # Рассчет t-score для биграмм
    t_scores = {}

    for bigram, bigram_freq in bigram_dict.items():
        word1, word2 = bigram.split()
        freq_word1 = unigram_dict.get(word1, 1)  # Если нет в списке, считаем как 1
        freq_word2 = unigram_dict.get(word2, 1)

        expected_freq = (freq_word1 * freq_word2) / total_tokens
        t_score = (bigram_freq - expected_freq) / (bigram_freq ** 0.5)
        t_scores[bigram] = t_score

    # Вывод t-score для "и в" и "в деревне"
    for bigram in ["и в", "в деревне"]:
        if bigram in t_scores:
            print(f"t-score для '{bigram}': {t_scores[bigram]}")
        else:
            print(f"Биграмма '{bigram}' не найдена в данных.")

    # Вывод топ-50 t-score для биграмм, у которых первое слово "при"
    pri_bigrams = {bigram: score for bigram, score in t_scores.items() if bigram.startswith("при ")}
    top_50_pri_bigrams = sorted(pri_bigrams.items(), key=lambda x: x[1], reverse=True)[:50]
    print("Топ-50 t-score для биграмм, начинающихся с 'при':")
    for bigram, score in top_50_pri_bigrams:
        print(f"{bigram}: {score}")

    # Сохранение в JSON
    with open(output_json, 'w', encoding='utf-8') as f:
        json.dump(t_scores, f, ensure_ascii=False, indent=4)

    # Создание копии t_scores.json с модифицированными значениями
    t_scores_positive = {bigram: abs(score) for bigram, score in t_scores.items()}
    with open('t_scores_positive.json', 'w', encoding='utf-8') as f:
        json.dump(t_scores_positive, f, ensure_ascii=False, indent=4)

# Пример вызова
calculate_t_score('cococo_bigram_freq_fixed.json', 'cococo_unigram_freq_fixed.json', 't_scores.json')

Общее количество токенов: 29790131
Топ-50 униграмм:
в: 1224325
и: 962983
на: 507431
с: 358135
не: 350004
что: 266917
по: 206856
а: 168273
к: 155076
как: 149436
он: 149427
из: 148286
его: 128144
для: 117252
но: 115027
от: 112349
года: 108049
это: 107227
за: 104958
я: 101330
о: 98956
у: 86487
все: 85983
был: 85035
до: 77106
году: 77021
было: 71736
так: 67808
же: 66830
то: 59455
или: 57054
их: 56206
только: 54178
ее: 54129
при: 53682
они: 53397
после: 52555
она: 52318
еще: 51243
также: 50834
время: 50321
уже: 48639
были: 48265
мы: 45826
во: 44146
была: 44067
когда: 42130
если: 40893
чтобы: 40117
бы: 38624
t-score для 'и в': -95.84785984910653
t-score для 'в деревне': 32.67192897302199
Топ-50 t-score для биграмм, начинающихся с 'при':
при этом: 108.85076250818757
при помощи: 41.75712964744347
при поддержке: 23.53376187201727
при условии: 21.333303822379342
при котором: 19.665811374310163
при температуре: 19.095349977205892
при необходимости: 18.81471245283762
при нем: 18.640016733065398
пр