In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import string
from collections import Counter
import math

In [2]:
texts = [
    "С учением Маркса происходит теперь то, что не раз бывало в истории с учениями революционных мыслителей и вождей угнетенных классов в их борьбе за освобождение.",
    "Угнетающие классы при жизни великих революционеров платили им постоянными преследованиями, встречали их учение самой дикой злобой, самой бешеной ненавистью, самым бесшабашным походом лжи и клеветы.",
    "После их смерти делаются попытки превратить их в безвредные иконы, так сказать, канонизировать их, предоставить известную славу их имени для 'утешения' угнетенных классов и для одурачения их,",
    "выхолащивая содержание революционного учения, притупляя его революционное острие, опошляя его. На такой 'обработке' марксизма сходятся сейчас буржуазия и оппортунисты внутри рабочего движения.",
    "Забывают, оттирают, искажают революционную сторону учения, его революционную душу. Выдвигают на первый план, прославляют то, что приемлемо или что кажется приемлемым для буржуазии.",
    "Все социал-шовинисты нынче 'марксисты', не шутите! И все чаще немецкие буржуазные ученые, вчерашние специалисты по истреблению марксизма, говорят о 'национально-немецком' Марксе,",
    "который будто бы воспитал так великолепно организованные для ведения грабительской войны союзы рабочих!"
]

In [3]:
def preprocess_texts(texts: list[str]) -> list[list[str]]:
    lemmatizer = WordNetLemmatizer()
    stop_words = set(stopwords.words("english"))

    processed_texts = []
    for text in texts:
        tokens = word_tokenize(text.lower())
        tokens = [word for word in tokens if word.isalpha()]
        tokens = [word for word in tokens if word not in stop_words]
        tokens = [lemmatizer.lemmatize(word) for word in tokens]
        processed_texts.append(tokens)

    return processed_texts

In [4]:
def build_bow(texts: list[list[str]]) -> list[dict[str, int]]:
    bow_vectors = []
    for tokens in texts:
        word_counts = Counter(tokens)
        bow_vectors.append(word_counts)
    return bow_vectors

In [5]:
def compute_tf(text: list[str]) -> dict[str, float]:
    term_counts = Counter(text)
    total_terms = len(text)
    return {word: count / total_terms for word, count in term_counts.items()}

def compute_idf(texts: list[list[str]]) -> dict[str, float]:
    num_docs = len(texts)
    idf_values = {}
    all_words = set(word for text in texts for word in text)

    for word in all_words:
        containing_docs = sum(1 for text in texts if word in text)
        idf_values[word] = math.log(num_docs / (1 + containing_docs))

    return idf_values

def compute_tfidf(texts: list[list[str]]) -> list[dict[str, float]]:
    idf_values = compute_idf(texts)
    tfidf_vectors = []

    for text in texts:
        tf_values = compute_tf(text)
        tfidf_vector = {word: tf_values[word] * idf_values[word] for word in text}
        tfidf_vectors.append(tfidf_vector)

    return tfidf_vectors

In [10]:
preprocessed_texts = preprocess_texts(texts)
print("Preprocessed:", preprocessed_texts)

bow_vectors = build_bow(preprocessed_texts)
print("BoW:", bow_vectors)

tfidf_vectors = compute_tfidf(preprocessed_texts)
print("TF-IDF:", tfidf_vectors)

Preprocessed: [['с', 'учением', 'маркса', 'происходит', 'теперь', 'то', 'что', 'не', 'раз', 'бывало', 'в', 'истории', 'с', 'учениями', 'революционных', 'мыслителей', 'и', 'вождей', 'угнетенных', 'классов', 'в', 'их', 'борьбе', 'за', 'освобождение'], ['угнетающие', 'классы', 'при', 'жизни', 'великих', 'революционеров', 'платили', 'им', 'постоянными', 'преследованиями', 'встречали', 'их', 'учение', 'самой', 'дикой', 'злобой', 'самой', 'бешеной', 'ненавистью', 'самым', 'бесшабашным', 'походом', 'лжи', 'и', 'клеветы'], ['после', 'их', 'смерти', 'делаются', 'попытки', 'превратить', 'их', 'в', 'безвредные', 'иконы', 'так', 'сказать', 'канонизировать', 'их', 'предоставить', 'известную', 'славу', 'их', 'имени', 'для', 'угнетенных', 'классов', 'и', 'для', 'одурачения', 'их'], ['выхолащивая', 'содержание', 'революционного', 'учения', 'притупляя', 'его', 'революционное', 'острие', 'опошляя', 'его', 'на', 'такой', 'марксизма', 'сходятся', 'сейчас', 'буржуазия', 'и', 'оппортунисты', 'внутри', 'рабо

In [9]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True