In [1]:
import re
from collections import Counter

# Функція для очищення та токенізації тексту
def preprocess_text(text):
    # Видалення знаків пунктуації
    text = re.sub(r'[^\w\s]', '', text)
    # Перетворення тексту в нижній регістр
    words = text.lower().split()
    # Видалення стоп-слів (приклад з базовим списком стоп-слів)
    stop_words = set(["а", "і", "та", "у", "що", "з", "на", "за"])
    words = [word for word in words if word not in stop_words]
    return words

# Обробка наданих текстів
text1 = "Python (найчастіше вживане прочитання — «Па́йтон», запозичено назву[8] з британського шоу Монті Пайтон) — інтерпретована об'єктно-орієнтована мова програмування високого рівня із суворою динамічною типізацією[9]. Розроблена в 1990 році Гвідо ван Россумом. Структури даних високого рівня разом із динамічною семантикою та динамічним зв'язуванням роблять її привабливою для швидкої розробки програм, а також як засіб поєднування наявних компонентів."
text2 = "Python підтримує модулі та пакети модулів, що сприяє модульності та повторному використанню коду. Інтерпретатор Python та стандартні бібліотеки доступні як у скомпільованій, так і у вихідній формі на всіх основних платформах. В мові програмування Python підтримується кілька парадигм програмування, зокрема: об'єктно-орієнтована, процедурна, аспектно-орієнтована та функціональна."

words1 = preprocess_text(text1)
words2 = preprocess_text(text2)

# Виведення оброблених слів
print("Text 1 words:", words1)
print("Text 2 words:", words2)

# Створення мішків слів і порівняння частот слів
word_counts1 = Counter(words1)
word_counts2 = Counter(words2)

print("\nWord frequencies in Text 1:", word_counts1)
print("Word frequencies in Text 2:", word_counts2)

# Порівняння схожості між двома текстами
common_words = set(word_counts1.keys()) & set(word_counts2.keys())
print("\nCommon words:", common_words)
similarity_index = len(common_words) / len(set(word_counts1.keys()) | set(word_counts2.keys()))
print("Similarity index:", similarity_index)


Text 1 words: ['python', 'найчастіше', 'вживане', 'прочитання', 'пайтон', 'запозичено', 'назву8', 'британського', 'шоу', 'монті', 'пайтон', 'інтерпретована', 'обєктноорієнтована', 'мова', 'програмування', 'високого', 'рівня', 'із', 'суворою', 'динамічною', 'типізацією9', 'розроблена', 'в', '1990', 'році', 'гвідо', 'ван', 'россумом', 'структури', 'даних', 'високого', 'рівня', 'разом', 'із', 'динамічною', 'семантикою', 'динамічним', 'звязуванням', 'роблять', 'її', 'привабливою', 'для', 'швидкої', 'розробки', 'програм', 'також', 'як', 'засіб', 'поєднування', 'наявних', 'компонентів']
Text 2 words: ['python', 'підтримує', 'модулі', 'пакети', 'модулів', 'сприяє', 'модульності', 'повторному', 'використанню', 'коду', 'інтерпретатор', 'python', 'стандартні', 'бібліотеки', 'доступні', 'як', 'скомпільованій', 'так', 'вихідній', 'формі', 'всіх', 'основних', 'платформах', 'в', 'мові', 'програмування', 'python', 'підтримується', 'кілька', 'парадигм', 'програмування', 'зокрема', 'обєктноорієнтована'

In [9]:
# Завантаження датасету spam
import pandas as pd

spam_data_path = 'spam.csv'
spam_data = pd.read_csv(spam_data_path, encoding='latin-1')  # Специфікація кодування, оскільки часто зустрічаються проблеми з кодуванням

# Показати перші кілька рядків та назви колонок
print(spam_data.head())
print(spam_data.columns)

spam_data = spam_data.iloc[:, :2]
spam_data.columns = ['Label', 'Message']  

print(spam_data.info())

     v1                                                 v2 Unnamed: 2  \
0   ham  Go until jurong point, crazy.. Available only ...        NaN   
1   ham                      Ok lar... Joking wif u oni...        NaN   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3   ham  U dun say so early hor... U c already then say...        NaN   
4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   

  Unnamed: 3 Unnamed: 4  
0        NaN        NaN  
1        NaN        NaN  
2        NaN        NaN  
3        NaN        NaN  
4        NaN        NaN  
Index(['v1', 'v2', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Label    5572 non-null   object
 1   Message  5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB
None


In [10]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score

# Векторизація тексту
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(spam_data['Message'])
y = spam_data['Label']

# Розділення датасету на тренувальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Навчання наївного Баєсового класифікатора
model = MultinomialNB()
model.fit(X_train, y_train)

# Оцінка моделі
predictions = model.predict(X_test)
print("Accuracy of the model:", accuracy_score(y_test, predictions))
print("\nClassification Report:\n", classification_report(y_test, predictions))


Accuracy of the model: 0.9763101220387652

Classification Report:
               precision    recall  f1-score   support

         ham       0.99      0.99      0.99      1202
        spam       0.91      0.92      0.91       191

    accuracy                           0.98      1393
   macro avg       0.95      0.95      0.95      1393
weighted avg       0.98      0.98      0.98      1393

