In [54]:
import pandas as pd
import re
from sklearn.model_selection import train_test_split
import os

# Функция для удаления метаданных и очистки текста
def clean_text_advanced(text):
    # Удалить технические заголовки
    text = re.sub(r'(?i)(message-id|date|from|to|subject|mime-version|content-type|content-transfer-encoding|x-[\w\-]+):.*?(?=\n|$)', '', text)

    # Удалить все email-адреса
    text = re.sub(r'\S+@\S+', '', text)

    # Удалить URL
    text = re.sub(r'http\S+', '', text)

    # Удалить номера телефонов
    text = re.sub(r'\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{4}', '', text)

    # Удалить лишние пустые строки
    text = re.sub(r'\n+', '\n', text)

    # Оставить только тело письма — после двойного переноса строки
    split_parts = text.split('\n\n', 1)
    if len(split_parts) == 2:
        text = split_parts[1]
    
    # Финальная очистка
    text = re.sub(r'\s+', ' ', text)
    return text.strip().lower()
    
# Загружаем данные
df = pd.read_csv('email_dataset/raw_data/emails.csv')

# укажи своё название столбца, где находится исходный текст с метаданными
text_column = 'message'  # например

# Удаляем строки с пустым текстом
df = df.dropna(subset=[text_column])

# Применяем улучшенную функцию очистки
df['clean_content'] = df[text_column].apply(clean_text_advanced)

# Разделяем на наборы данных
train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)
validation_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)

# Сохраняем обработанные данные
for dataset, name in zip([train_df, validation_df, test_df], ['train', 'validation', 'test']):
    os.makedirs(f'email_dataset/{name}/', exist_ok=True)
    dataset.to_csv(f'email_dataset/{name}/{name}_emails.csv', index=False)

print("✅ Данные успешно обработаны и сохранены без метаданных!")


✅ Данные успешно обработаны и сохранены без метаданных!


In [60]:
pwd

'/Users/admin/matrixdna_assigment'

In [62]:
df = pd.read_csv('email_dataset/test/test_emails.csv')


In [63]:
df

Unnamed: 0,file,message,clean_content
0,shackleton-s/all_documents/11241.,Message-ID: <32750315.1075844755568.JavaMail.e...,"hi sara, i wanted to let you know that i made ..."
1,mann-k/all_documents/3501.,Message-ID: <2206475.1075845661857.JavaMail.ev...,good one. nothing worse than an aimless off site.
2,davis-d/discussion_threads/454.,Message-ID: <5155873.1075853960634.JavaMail.ev...,"cc: bcc: rosemary, after a discussion with sta..."
3,cuilla-m/deleted_items/556.,Message-ID: <1791927.1075863019811.JavaMail.ev...,to view & print you invitation please visit:
4,mann-k/all_documents/1127.,Message-ID: <15410161.1075845602858.JavaMail.e...,"this is an internal draft, which has not been ..."
...,...,...,...
77606,germany-c/inbox/228.,Message-ID: <6690272.1075852115668.JavaMail.ev...,what: workstation upgrade for security enhance...
77607,reitmeyer-j/sent_items/33.,Message-ID: <7953404.1075855171343.JavaMail.ev...,i agree that we should not move the business a...
77608,presto-k/deleted_items/555.,Message-ID: <32822028.1075852822485.JavaMail.e...,______________________________________________...
77609,dasovich-j/sent/11940.,Message-ID: <4910874.1075849611595.JavaMail.ev...,fyi. please keep confidential until further no...


In [80]:
df['message'][3]

'Message-ID: <1791927.1075863019811.JavaMail.evans@thyme>\nDate: Tue, 20 Nov 2001 14:51:48 -0800 (PST)\nFrom: party@kitkat.org\nTo: mcuilla@enron.com\nSubject: Your Kit Kat Invitation\nMime-Version: 1.0\nContent-Type: text/plain; charset=us-ascii\nContent-Transfer-Encoding: 7bit\nX-From: Kit Kat <Party@KitKat.org>\nX-To: <mcuilla@enron.com>\nX-cc: \nX-bcc: \nX-Folder: \\MCUILLA (Non-Privileged)\\Cuilla, Martin\\Deleted Items\nX-Origin: Cuilla-M\nX-FileName: MCUILLA (Non-Privileged).pst\n\nTo view & print you invitation please visit:\n\nhttp://www.kitkat.org/emailblast/KITKAT_BOAKA_INVITE.htm\n\n\n'

In [78]:
df['clean_content'][3]

'to view & print you invitation please visit:'