Trofimov_BBMO-01-24

In [2]:
import numpy as np  # Импорт библиотеки NumPy для работы с массивами и математическими операциями.
import pandas as pd  # Импорт библиотеки Pandas для работы с данными в формате таблиц (DataFrame).
import matplotlib as mpl  # Импорт библиотеки Matplotlib для визуализации данных.
import matplotlib.pyplot as plt  # Импорт модуля pyplot из Matplotlib для создания графиков.
import seaborn as sns  # Импорт библиотеки Seaborn для улучшенной визуализации данных.
import string  # Импорт модуля string для работы со строками.
from sklearn.feature_extraction.text import TfidfVectorizer  # Импорт TfidfVectorizer для преобразования текстовых данных в векторы.
from sklearn.model_selection import train_test_split  # Импорт функции для разделения данных на обучающую и тестовую выборки.
from sklearn.feature_extraction.text import CountVectorizer  # Импорт CountVectorizer для преобразования текстов в матрицы частот.
from sklearn import preprocessing  # Импорт модуля для предварительной обработки данных.
from nltk.stem import SnowballStemmer  # Импорт стеммера Snowball для обработки текстов.
from nltk.tokenize import RegexpTokenizer  # Импорт токенизатора для разбиения текста на токены.
from nltk.corpus import stopwords  # Импорт списка стоп-слов для фильтрации.
from nltk.stem.porter import *  # Импорт стеммера Портера для обработки текстов.
import nltk  # Импорт библиотеки Natural Language Toolkit (NLTK) для обработки естественного языка.
nltk.download('stopwords')  # Загрузка списка стоп-слов из NLTK.


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [4]:
df = pd.read_csv('spam.csv', encoding='ISO-8859-1')  # Загружает данные из CSV файла 'spam.csv' с указанной кодировкой.
le = preprocessing.LabelEncoder()  # Создает экземпляр LabelEncoder для преобразования категориальных меток в числовой формат.

In [5]:
data = df.to_numpy()  # Преобразует DataFrame df в массив NumPy.

In [6]:
X = data[:, 1]  # Извлекает все строки и второй столбец из массива данных, который содержит признаки (например, текст сообщений).
y = data[:, 0]  # Извлекает все строки и первый столбец из массива данных, который содержит метки (например, "spam" или "ham").

In [7]:
X.shape, y.shape  # Возвращает размеры массивов X и y.

((5572,), (5572,))

In [8]:
tokenizer = RegexpTokenizer('\w+')  # Создает токенизатор, который разделяет текст на слова, игнорируя знаки препинания.
sw = set(stopwords.words('english'))  # Загружает набор стоп-слов на английском языке и преобразует его в множество для быстрого поиска.
ps = PorterStemmer()  # Инициализирует стеммер Портера для приведения слов к их корневой форме.

In [9]:
#позволяет улучшить качество анализа и классификации текстов
def getStem(review):
    review = review.lower()  # Приводит текст отзыва к нижнему регистру.
    tokens = tokenizer.tokenize(review)  # Разбивает текст на токены (слова).
    removed_stopwords = [w for w in tokens if w not in sw]  # Удаляет стоп-слова из токенов.
    stemmed_words = [ps.stem(token) for token in removed_stopwords]  # Приводит оставшиеся слова к их корневой форме.
    clean_review = ' '.join(stemmed_words)  # Объединяет очищенные слова обратно в строку.
    return clean_review  # Возвращает очищенный и обработанный отзыв.

In [10]:
# Функция для получения очищенных документов
def getDoc(document):
    d = []  # Создаем пустой список для хранения очищенных документов
    for doc in document:  # Проходим по каждому документу в переданном списке
        d.append(getStem(doc))  # Очищаем документ с помощью функции getStem и добавляем его в список
    return d  # Возвращаем список очищенных документов

In [11]:
# Получаем очищенные документы, применяя функцию getDoc к массиву X
stemmed_doc = getDoc(X)

In [12]:
# Выводим первые 10 очищенных и стеммированных документов
stemmed_doc[:10]

['go jurong point crazi avail bugi n great world la e buffet cine got amor wat',
 'ok lar joke wif u oni',
 'free entri 2 wkli comp win fa cup final tkt 21st may 2005 text fa 87121 receiv entri question std txt rate c appli 08452810075over18',
 'u dun say earli hor u c alreadi say',
 'nah think goe usf live around though',
 'freemsg hey darl 3 week word back like fun still tb ok xxx std chg send ã â 1 50 rcv',
 'even brother like speak treat like aid patent',
 'per request mell mell oru minnaminungint nurungu vettam set callertun caller press 9 copi friend callertun',
 'winner valu network custom select receivea ã â 900 prize reward claim call 09061701461 claim code kl341 valid 12 hour',
 'mobil 11 month u r entitl updat latest colour mobil camera free call mobil updat co free 08002986030']

In [13]:
cv = CountVectorizer() # преобразует коллекцию текстовых документов в числовую матрицу, где строки представляют документы,
# а столбцы — уникальные слова (или токены) из этих документов. Каждый элемент матрицы указывает, сколько раз соответствующее слово встречается в документе.

In [14]:
# Создание словаря с помощью CountVectorizer
vc = cv.fit_transform(stemmed_doc)
#Создание словаря позволяет определить уникальные слова, которые будут использоваться для представления текстовых данных в числовом формате.

In [15]:
X = vc.todense() # преобразует разреженную матрицу, созданную с помощью CountVectorizer, в плотную матрицу

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # разделяем на обучающую и тестовую выборки, 33% данных будут отведены для тестирования, а оставшиеся 67% — для обучени
#random_state=42: Этот параметр устанавливает начальное значение генератора случайных чисел, что позволяет воспроизводить результаты

In [20]:
# Импортирование класса MultinomialNB из библиотеки sklearn
from sklearn.naive_bayes import MultinomialNB
# модель наивного байесовского классификатора, что позволит вам классифицировать новые документы на основе обученных данных.

In [21]:

# Создание экземпляра модели наивного байесовского классификатора
model = MultinomialNB()

# Обучение модели на обучающем наборе данных
model.fit(np.asarray(X_train), y_train)

# Оценка точности модели на тестовом наборе данных
model.score(np.asarray(X_test), y_test)

0.977705274605764

In [22]:
# приглашения и уведомления о различных мероприятиях в области технологий. Каждое сообщение адресовано конкретному получателю и содержит информацию о мероприятиях, таких как хакатоны и технические семинары
messages = [
    """
    Hi Kunal,
We invite you to participate in MishMash - India’s largest online diversity hackathon.
The hackathon is a Skillenza initiative and sponsored by Microsoft, Unity, Unilever, Gojek, Rocketium and Jharkhand Government.
We have a special theme for you - Deep Tech/Machine Learning - sponsored by Unilever, which will be perfect for you.
    """,
    """Join us today at 12:00 PM ET / 16:00 UTC for a Red Hat DevNation tech talk on AWS Lambda and serverless Java with Bill Burke.
Have you ever tried Java on AWS Lambda but found that the cold-start latency and memory usage were far too high?
In this session, we will show how we optimized Java for serverless applications by leveraging GraalVM with Quarkus to
provide both supersonic startup speed and a subatomic memory footprint.""",

    """We really appreciate your interest and wanted to let you know that we have received your application.
There is strong competition for jobs at Intel, and we receive many applications. As a result, it may take some time to get back to you.
Whether or not this position ends up being a fit, we will keep your information per data retention policies,
so we can contact you for other positions that align to your experience and skill set.
"""
]

In [23]:
#преобразовать обработанные документы в матрицу частот слов.
def prepare(messages):
    d = getDoc(messages)
    # dont do fit_transform!! it will create new vocab.
    return cv.transform(d)
messages = prepare(messages)

In [24]:
# В этом коде используется метод predict модели model,
# чтобы сделать предсказания на основе подготовленных сообщений, которые были переданы в функцию prepare. Это позволяет модели классифицировать каждое сообщение в соответствии с обученными категориями
y_pred = model.predict(messages)
y_pred


array(['ham', 'spam', 'ham'], dtype='<U4')