1.Завантажити текст з вікіпедії та провести його обробку згідно п.1-3.

In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet as wn
from nltk import pos_tag
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import re

# Завантаження необхідних компонентів NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

text = "Маши́нне навча́ння (МН, англ. machine learning, ML) — це галузь досліджень штучного інтелекту, зосереджена на розробці та вивченні статистичних алгоритмів."

# Токенізація
tokens = word_tokenize(text)

# Фільтрація стоп-слів
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

# Стемінг
stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(word) for word in filtered_tokens]

# Лематизація
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(word) for word in stemmed_tokens]

print("Токени:", tokens)
print("Фільтровані токени:", filtered_tokens)
print("Стемінг:", stemmed_tokens)
print("Лематизація:", lemmatized_tokens)

pos_tags = pos_tag(tokens)
print("Частини мови:", pos_tags)

# Видалення спеціальних символів і чисел
clean_text = re.sub(r'\W|\d', ' ', text)
clean_text = re.sub(r'\s+', ' ', clean_text).strip()
print("Очищений текст:", clean_text)


count_vectorizer = CountVectorizer()
count_vector = count_vectorizer.fit_transform([clean_text])
print("Мішок слів (CountVectorizer):", count_vector.toarray())


tfidf_vectorizer = TfidfVectorizer()
tfidf_vector = tfidf_vectorizer.fit_transform([clean_text])
print("TFIDF Вектор:", tfidf_vector.toarray())



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


Токени: ['Маши́нне', 'навча́ння', '(', 'МН', ',', 'англ', '.', 'machine', 'learning', ',', 'ML', ')', '—', 'це', 'галузь', 'досліджень', 'штучного', 'інтелекту', ',', 'зосереджена', 'на', 'розробці', 'та', 'вивченні', 'статистичних', 'алгоритмів', '.']
Фільтровані токени: ['Маши́нне', 'навча́ння', '(', 'МН', ',', 'англ', '.', 'machine', 'learning', ',', 'ML', ')', '—', 'це', 'галузь', 'досліджень', 'штучного', 'інтелекту', ',', 'зосереджена', 'на', 'розробці', 'та', 'вивченні', 'статистичних', 'алгоритмів', '.']
Стемінг: ['маши́нне', 'навча́ння', '(', 'мн', ',', 'англ', '.', 'machin', 'learn', ',', 'ml', ')', '—', 'це', 'галузь', 'досліджень', 'штучного', 'інтелекту', ',', 'зосереджена', 'на', 'розробці', 'та', 'вивченні', 'статистичних', 'алгоритмів', '.']
Лематизація: ['маши́нне', 'навча́ння', '(', 'мн', ',', 'англ', '.', 'machin', 'learn', ',', 'ml', ')', '—', 'це', 'галузь', 'досліджень', 'штучного', 'інтелекту', ',', 'зосереджена', 'на', 'розробці', 'та', 'вивченні', 'статистичних

2.Завантажити ще один текст з вікіпедії на схожу тематику. Побудувати мішки слів для обох текстів. Перевірити їх схожість.

In [2]:
import requests
from bs4 import BeautifulSoup
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re

nltk.download('punkt')
nltk.download('stopwords')

def fetch_text(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    paragraphs = soup.find_all('p')
    article_text = ' '.join([para.text for para in paragraphs])
    return article_text

def clean_text(text):
    text = text.lower()
    text = re.sub(r'\[.*?\]', '', text)  # Видалення посилань
    text = re.sub(r'\s+', ' ', text)  # Видалення зайвих пробілів
    text = re.sub(r'\W', ' ', text)  # Видалення несловесних символів
    tokens = word_tokenize(text)
    filtered_tokens = [word for word in tokens if word.isalpha() and word not in stopwords.words('english')]
    return filtered_tokens

# Приклад виклику функцій
url = 'https://uk.wikipedia.org/wiki/Штучний_інтелект'
text = fetch_text(url)
tokens = clean_text(text)
url_ml = 'https://uk.wikipedia.org/wiki/Машинне_навчання'
text_ml = fetch_text(url_ml)
tokens_ml = clean_text(text_ml)

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

# Об'єднання токенів у один рядок для векторизації
all_texts = [' '.join(tokens), ' '.join(tokens_ml)]
vectorized_texts = vectorizer.fit_transform(all_texts)
from sklearn.metrics.pairwise import cosine_similarity

similarity = cosine_similarity(vectorized_texts)
print(f"Косинусна схожість між текстом 'Штучний інтелект' і 'Машинне навчання': {similarity[0, 1]}")




[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Косинусна схожість між текстом 'Штучний інтелект' і 'Машинне навчання': 0.6372928979425373


3.Завантажити з Kaggle датасет для навчання моделі на виявлення спаму

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

# Завантаження та підготовка даних
data = pd.read_csv('spam.csv', encoding='latin-1')
data = data[['v1', 'v2']]
data.columns = ['label', 'message']
data['label'] = data['label'].map({'ham': 0, 'spam': 1})

# Попередня обробка тексту
nltk.download('punkt')
nltk.download('stopwords')
def clean_text(text):
    text = text.lower()
    text = re.sub(r'\[.*?\]', '', text)
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'\W', ' ', text)
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word.isalpha() and word not in stopwords.words('english')]
    return ' '.join(tokens)

data['message'] = data['message'].apply(clean_text)

# Векторизація тексту
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['message'])
y = data['label']

# Розділення даних на тренувальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Навчання моделі
model = LogisticRegression()
model.fit(X_train, y_train)

# Прогнозування та оцінка моделі
y_pred = model.predict(X_test)
print("Точність:", accuracy_score(y_test, y_pred))
print("Звіт про класифікацію:\n", classification_report(y_test, y_pred))


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Точність: 0.9802690582959641
Звіт про класифікацію:
               precision    recall  f1-score   support

           0       0.98      1.00      0.99       949
           1       0.99      0.87      0.93       166

    accuracy                           0.98      1115
   macro avg       0.99      0.94      0.96      1115
weighted avg       0.98      0.98      0.98      1115



4.Підготувати з власних електронних листів вибірку для визначення спамуз використанням моделі з п.4 даного завдання. Зробити висновок щодо ефективності побудованої моделі.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

# Переконайтеся, що ці ресурси NLTK завантажені
nltk.download('punkt')
nltk.download('stopwords')

def clean_text(text):
    text = text.lower()
    text = re.sub(r'\[.*?\]', '', text)  # Видалення тексту в дужках
    text = re.sub(r'\s+', ' ', text)  # Заміна кількох пробілів на один
    text = re.sub(r'\W', ' ', text)  # Видалення всіх небуквених символів
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word.isalpha() and word not in stopwords.words('english')]
    return ' '.join(tokens)

# Завантаження даних
data = pd.read_csv('email.csv')

vectorizer = TfidfVectorizer(max_features=1000)
X = vectorizer.fit_transform(data['Message'])
y = data['Category']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

predictions = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))
print("Classification Report:")
print(classification_report(y_test, predictions))
print("Confusion Matrix:")
print(confusion_matrix(y_test, predictions))



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Accuracy: 0.9829596412556054
Classification Report:
              precision    recall  f1-score   support

         ham       0.98      1.00      0.99       958
        spam       1.00      0.88      0.94       157

    accuracy                           0.98      1115
   macro avg       0.99      0.94      0.96      1115
weighted avg       0.98      0.98      0.98      1115

Confusion Matrix:
[[958   0]
 [ 19 138]]
