In [None]:
import pandas as pd
import re
import os

def clean_text(text):
    """
    Функция для очистки текста от эмодзи, лишних символов и мусора
    """
    if not isinstance(text, str):
        return text
    
    # Удаляем эмодзи и специальные символы
    text = re.sub(r'[^\w\s.,!?;:"\'«»()\-–—@#%&*/+]', '', text)
    
    # Удаляем лишние пробелы и переносы строк
    text = ' '.join(text.split())
    
    # Удаляем URL-адреса
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    
    # Удаляем теги пользователей (@username)
    text = re.sub(r'@\w+', '', text)
    
    # Удаляем HTML-теги
    text = re.sub(r'<.*?>', '', text)
    
    # Удаляем технические строки (например, timestamps)
    text = re.sub(r'\d{1,2}:\d{2}\s?(?:[APap][mM])?', '', text)
    
    return text.strip()

def clean_dataset(input_file, output_file):
    """
    Основная функция для очистки датасета
    """
    # Проверяем существование файла
    if not os.path.exists(input_file):
        print(f"Ошибка: Файл {input_file} не найден!")
        print("Пожалуйста, укажите правильный путь к файлу.")
        return
    
    try:
        # Загружаем данные с указанием кодировки
        df = pd.read_csv(input_file, encoding='utf-8')
        
        # Применяем функцию очистки к каждому столбцу с текстом
        for col in df.columns:
            if df[col].dtype == object:
                df[col] = df[col].apply(clean_text)
        
        # Удаляем полностью пустые строки
        df.dropna(how='all', inplace=True)
        
        # Удаляем дубликаты
        df.drop_duplicates(inplace=True)
        
        # Сохраняем очищенный датасет
        df.to_csv(output_file, index=False, encoding='utf-8')
        
        print(f"Очищенный датасет успешно сохранен в {output_file}")
        print(f"Очищено строк: {len(df)}")
        
    except Exception as e:
        print(f"Произошла ошибка при обработке файла: {str(e)}")

# Использование
if __name__ == "__main__":
    # Укажите полный путь к файлу, если он не в той же папке
    input_csv = "2.csv"  # Или "полный/путь/к/2.csv"
    output_csv = "cleaned_2.csv"
    
    clean_dataset(input_csv, output_csv)
