In [12]:
import re
import csv
import nltk
from collections import Counter
from nltk.corpus import stopwords

nltk.download('stopwords')

def read_tsv_file(file_path):
    text_data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        reader = csv.reader(f, delimiter='\t')
        for row in reader:
            if len(row) >= 3: 
                text_data.append(row[2])  
    return ' '.join(text_data)  

def clean_text(text):
    text = re.sub(r'[^a-zA-Zа-яА-ЯёЁ\s]', '', text)  # Оставляем только буквы и пробелы
    return text.lower() 

def get_words_from_text(text, stop_words):
    words = [word for word in text.split() if word and word not in stop_words]
    return words

def create_word_dictionary(files, stop_words):
    word_count = Counter()
    
    for file_path in files:
        text = read_tsv_file(file_path)
        clean = clean_text(text)
        words = get_words_from_text(clean, stop_words)
        word_count.update(words)
    
    return word_count

def save_vocabulary_to_file(vocabulary, filename):
    with open(filename, 'w', encoding='utf-8') as f:
        for word in vocabulary:
            f.write(f"{word}\n")  # Запись слова с новой строки

# Список файлов
files =  ["dataset/test/test.tsv", "dataset/train/train.tsv", "dataset/val/val.tsv"]

stop_words = set(stopwords.words('russian'))

word_dict = create_word_dictionary(files, stop_words)

unique_words = set(word_dict.keys())

save_vocabulary_to_file(unique_words, 'vocabulary.vocab')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\atlak\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [13]:
from collections import Counter
import pandas as pd

# Сопоставление категорий с их ID
category_to_id = {
    "science/technology": 0,
    "travel": 1,
    "politics": 2,
    "sports": 3,
    "health": 4,
    "entertainment": 5,
    "geography": 6
}

# Загружаем словарь из файла .vocab
vocab_file = 'vocabulary.vocab'

# Читаем слова и создаем словарь {слово: индекс}
word_to_index = {}
with open(vocab_file, 'r', encoding='utf-8') as f:
    for idx, word in enumerate(f):
        word_to_index[word.strip()] = idx

# Функция для векторизации текста на основе словаря
def vectorize_text(text, word_to_index):
    words = text.split()  # Простая токенизация
    word_counts = Counter(words)  # Подсчет количества каждого слова в тексте
    vector = []
    
    # Преобразуем каждое слово в индекс:количество
    for word, count in word_counts.items():
        if word in word_to_index:
            index = word_to_index[word]
            vector.append(f"{index}:{count}")
    
    return " ".join(vector)

# Файлы для векторизации и их обработка по отдельности
file_paths = ["dataset/test/test.tsv", "dataset/train/train.tsv", "dataset/val/val.tsv"]

for file_path in file_paths:
    # Чтение файла
    data = pd.read_csv(file_path, sep='\t')
    
    # Список для хранения векторов
    vectors = []
    
    # Преобразуем каждый текст в вектор
    for _, row in data.iterrows():
        category = row['category']
        category_id = category_to_id.get(category)  # Получаем ID категории
        text = row['text']
        vector = vectorize_text(text, word_to_index)
        vectors.append(f"{category_id} {vector}")
    
    # Сохраняем в .feat файл с именем, соответствующим исходному файлу
    feat_file = file_path.replace('.tsv', '.feat')
    
    with open(feat_file, 'w', encoding='utf-8') as f:
        for vector in vectors:
            f.write(f"{vector}\n")

    print(f"Вектора сохранены в файл: {feat_file}")


Вектора сохранены в файл: dataset/test/test.feat
Вектора сохранены в файл: dataset/train/train.feat
Вектора сохранены в файл: dataset/val/val.feat
