In [None]:
import re
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize

nltk.download('punkt')

def clean_and_tokenize(text):
    # Приведение к нижнему регистру
    text = text.lower()
    
    # Удаление ссылок (http, https и www)
    text = re.sub(r'http\S+|www\S+', '', text)
    
    # Удаление упоминаний @username
    text = re.sub(r'@\w+', '', text)
    
    # Удаление эмодзи и нестандартных символов (оставляем буквы, цифры, пробелы)
    text = re.sub(r'[^\w\sа-яё]', '', text, flags=re.UNICODE)
    
    # Замена нескольких пробелов на один
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Токенизация
    tokens = word_tokenize(text)
    
    return tokens

def process_file(input_path, output_path):
    # Читаем строки из текстового файла
    with open(input_path, 'r', encoding='utf-8') as f:
        texts = f.readlines()
        
    # Очищаем и токенизируем
    processed_texts = [clean_and_tokenize(text) for text in texts]
    
    # Формируем DataFrame: каждый токенизированный текст объединим в строку через пробел
    df = pd.DataFrame({
        'processed_text': [' '.join(tokens) for tokens in processed_texts]
    })
    
    # Сохраняем в CSV
    df.to_csv(output_path, index=False, encoding='utf-8')

# Пути к файлам
input_file = 'data/tweets.txt'
output_file = 'data/dataset_processed.csv'

process_file(input_file, output_file)
