# Импорт библиотек

In [7]:
import pandas as pd
import re
import string

# Загружаем данные

In [8]:
data = pd.read_csv("./data/emails.csv", encoding="latin-1")

print("Первые строки датасета:")
print(data.head(), "\n")

print("ℹИнформация о датасете:")
print(data.info(), "\n")

print("Количество пропусков в данных:")
print(data.isnull().sum(), "\n")

Первые строки датасета:
                                                text  spam
0  Subject: naturally irresistible your corporate...     1
1  Subject: the stock trading gunslinger  fanny i...     1
2  Subject: unbelievable new homes made easy  im ...     1
3  Subject: 4 color printing special  request add...     1
4  Subject: do not have money , get software cds ...     1 

ℹИнформация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5728 entries, 0 to 5727
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    5728 non-null   object
 1   spam    5728 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 89.6+ KB
None 

Количество пропусков в данных:
text    0
spam    0
dtype: int64 



# Очистка текста

In [9]:
def clean_text(text):
    text = str(text).lower()  # приводим к строке и делаем нижний регистр
    text = re.sub(r"subject", " ", text)
    text = re.sub(r"http\S+", " ", text)  # удаляем ссылки
    text = re.sub(r"\d+", " ", text)      # удаляем числа
    text = text.translate(str.maketrans("", "", string.punctuation))  # убираем пунктуацию
    text = re.sub(r"\s+", " ", text).strip()  # убираем лишние пробелы
    return text

# очищаем и сохраняем только нужные колонки
data['clean_text'] = data['text'].apply(clean_text)

# оставляем только очищенный текст + метку
data = data[['clean_text', 'spam']]

# Проверим результат

In [10]:
print("Пример после очистки:")
print(data[['clean_text', 'spam']].head(), "\n")

print("Баланс классов:")
print(data['spam'].value_counts(), "\n")

Пример после очистки:
                                          clean_text  spam
0  naturally irresistible your corporate identity...     1
1  the stock trading gunslinger fanny is merrill ...     1
2  unbelievable new homes made easy im wanting to...     1
3  color printing special request additional info...     1
4  do not have money get software cds from here s...     1 

Баланс классов:
spam
0    4360
1    1368
Name: count, dtype: int64 



# Сохраняем очищенный датасет

In [11]:
data.to_csv("./data/emails_clean.csv", index=False, encoding="utf-8")
print("Датасет сохранён в 'emails_clean.csv'")

Датасет сохранён в 'emails_clean.csv'
