<a href="https://colab.research.google.com/github/trilgar/ANS2023/blob/master/ASN_lab8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Мовою Python самостійно розробити програмний модуль підрахунку ваги слів.

In [1]:
def calculate_word_weight(word):
    """
    Функція, яка розраховує вагу слова.
    """
    weights = {
        'а': 1, 'б': 3, 'в': 3, 'г': 2, 'ґ': 5,
        'д': 2, 'е': 1, 'є': 4, 'ж': 4, 'з': 2,
        'и': 1, 'і': 1, 'ї': 6, 'й': 5, 'к': 2,
        'л': 3, 'м': 3, 'н': 1, 'о': 1, 'п': 2,
        'р': 2, 'с': 2, 'т': 1, 'у': 3, 'ф': 5,
        'х': 5, 'ц': 5, 'ч': 6, 'ш': 6, 'щ': 7,
        'ь': 3, 'ю': 7, 'я': 5
    }

    word = word.lower()
    weight = 0
    for letter in word:
        weight += weights.get(letter, 0)
    return weight

In [2]:
word = 'Привіт'
weight = calculate_word_weight(word)
print(f'Вага слова "{word}": {weight}')

Вага слова "Привіт": 10


## Ознайомитись з іншими методами розрахунку ваги слів, зокрема методом TF-IDF

Метод TF-IDF (term frequency-inverse document frequency) - це метод визначення ваги слова, який використовується в обробці природньої мови для оцінки важливості слова в документі або корпусі документів.

TF-IDF складається з двох частин: TF (частота терміну) та IDF (зворотна частота документа). TF визначає, як часто зустрічається слово в документі, а IDF визначає, наскільки унікальним є це слово в корпусі документів.

Загальна формула для розрахунку TF-IDF ваги слова в документі:

$(tf-idf)(w, d, D) = tf(w, d) * idf(w, D)$
де:

w - слово, для якого визначається вага;  
d - документ, у якому воно зустрічається;  
D - корпус документів;  
tf(w, d) - частота терміну (кількість разів, які слово w зустрічається в документі d);  
idf(w, D) - зворотна частота документа (логарифм ділення загальної кількості документів у корпусі на кількість документів, у яких зустрічається слово w).  

In [4]:
import math
from collections import Counter

def calculate_tf(word, document):
    """
    Функція, яка розраховує частоту терміну (TF).
    """
    words_count = len(document)
    word_count = document.count(word)
    return word_count / words_count

def calculate_idf(word, documents):
    """
    Функція, яка розраховує зворотну частоту документа (IDF).
    """
    documents_count = len(documents)
    word_occurrences = sum(1 for doc in documents if word in doc)
    return math.log(documents_count / word_occurrences)

def calculate_tf_idf(word, document, documents):
    """
    Функція, яка розраховує вагу слова за допомогою методу TF-IDF.
    """
    tf = calculate_tf(word, document)
    idf = calculate_idf(word, documents)
    return tf * idf

In [7]:
# Список документів
docs = [
    'Це перший документ.',
    'Це другий документ.',
    'Це третій документ.',
    'Це четвертий документ.',
    'Це п\'ятий документ.'
]

word = 'третій'
weight = calculate_tf_idf(word, docs[2], docs)
print(f'Вага слова "{word}": {weight}')

word = 'документ'
weight = calculate_tf_idf(word, docs[1], docs)
print(f'Вага слова "{word}": {weight}')

Вага слова "третій": 0.08470725854916317
Вага слова "документ": 0.0


## Дисперсійний метод і метод горизонтальної видимості (HVG).

Дисперсійний метод та метод горизонтальної видимості (HVG) - це інші методи для визначення ваги слів у тексті.

Дисперсійний метод використовує відстань між використаними словами в тексті для визначення їх ваги. Слова, які використовуються в тій же послідовності, мають меншу вагу, ніж ті, що використовуються випадково. За допомогою дисперсійного методу можна відфільтрувати зайві слова, які можуть зменшувати точність аналізу тексту.

Метод горизонтальної видимості (HVG) використовується для визначення ваги слів на основі того, як часто слова з'являються в тексті, а також на основі того, наскільки відмінними вони є від інших слів в тексті. Ідея полягає в тому, що якщо слово зустрічається дуже часто, то воно не має великої інформаційної цінності, але якщо воно зустрічається рідко, то воно може мати більшу вагу.

In [18]:
def dispersion_method(text):
    words = text.lower().split()
    word_counts = Counter(words)
    total_words = len(words)
    
    # визначення відстані між словами
    distances = []
    for i in range(total_words-1):
        for j in range(i+1, total_words):
            if words[i] != words[j]:
                distance = abs(i - j)
                distances.append(distance)
    
    # визначення ваги слова
    weights = {}
    for word, count in word_counts.items():
        freq = count / total_words
        dispersion = sum([abs(i - j) for i in range(total_words-1) for j in range(i+1, total_words) if words[i]==word and words[j]==word]) / count
        weight = freq * math.log10(dispersion + 1)
        weights[word] = weight
    
    return weights

In [21]:
def hvg_method(text):
    words = text.lower().split()
    word_counts = Counter(words)
    total_words = len(words)
    
    # визначення кількості входжень слова в текст
    freqs = {}
    for word, count in word_counts.items():
        freq = count / total_words
        freqs[word] = freq
    
    # визначення ваги слова
    weights = {}
    for word, count in word_counts.items():
        freq = freqs[word]
        summ = sum([1 for w in word_counts.keys() if w != word and w in word])
        distinctiveness = 1 / summ if summ !=0 else 0
        weight = freq * math.log10(distinctiveness + 1)
        weights[word] = weight
    
    return weights

In [22]:
text = "This is a test text. It contains some words that will be used to demonstrate the dispersion method and the HVG method."

# Використання дисперсійного методу
weights_dispersion = dispersion_method(text)
print("Ваги слів за допомогою дисперсійного методу:")
for word, weight in weights_dispersion.items():
    print(f"{word}: {weight:.2f}")

text = "This is a test text. It contains some words that will be used to demonstrate the dispersion method and the HVG method."
# Використання методу горизонтальної видимості (HVG)
weights_hvg = hvg_method(text)
print("\nВаги слів за допомогою методу горизонтальної видимості (HVG):")
for word, weight in weights_hvg.items():
    print(f"{word}: {weight:.2f}")


['this', 'is', 'a', 'test', 'text.', 'it', 'contains', 'some', 'words', 'that', 'will', 'be', 'used', 'to', 'demonstrate', 'the', 'dispersion', 'method', 'and', 'the', 'hvg', 'method.']
Ваги слів за допомогою дисперсійного методу:
this: 0.00
is: 0.00
a: 0.00
test: 0.00
text.: 0.00
it: 0.00
contains: 0.00
some: 0.00
words: 0.00
that: 0.00
will: 0.00
be: 0.00
used: 0.00
to: 0.00
demonstrate: 0.00
the: 0.04
dispersion: 0.00
method: 0.00
and: 0.00
hvg: 0.00
method.: 0.00

Ваги слів за допомогою методу горизонтальної видимості (HVG):
this: 0.01
is: 0.00
a: 0.00
test: 0.00
text.: 0.00
it: 0.00
contains: 0.01
some: 0.00
words: 0.00
that: 0.01
will: 0.00
be: 0.00
used: 0.00
to: 0.00
demonstrate: 0.01
the: 0.00
dispersion: 0.01
method: 0.00
and: 0.01
hvg: 0.00
method.: 0.01


## Матриця суміжності

In [23]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# список документів
documents = [
    "Це перший документ",
    "Це другий документ",
    "Це третій документ",
    "Це четвертий документ"
]

# створюємо об'єкт CountVectorizer
vectorizer = CountVectorizer()

# навчаємо CountVectorizer нашій колекції документів
X = vectorizer.fit_transform(documents)

# створюємо матрицю суміжності
adjacency_matrix = (X.T * X).toarray()

# виводимо матрицю суміжності
print(adjacency_matrix)

[[4 1 1 1 4 1]
 [1 1 0 0 1 0]
 [1 0 1 0 1 0]
 [1 0 0 1 1 0]
 [4 1 1 1 4 1]
 [1 0 0 0 1 1]]
