Лабораторна робота 11


Вступ до Natural Language Processing (NLP)


Мета: Познайомитися з основними поняттями, методами та підходами у сфері обробки природної мови (NLP).


 Провести порівняльний аналіз популярних алгоритмів та інструментів, а також підготувати презентацію на цю тему.

In [40]:
import nltk
import spacy
from nltk.stem import WordNetLemmatizer, PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from gensim.models import Word2Vec
import pandas as pd
from transformers import pipeline

# Завантажуємо модель spacy для української мови
nlp_uk = spacy.load("uk_core_news_sm")

# 1. Токенізація (спробуємо з spacy для української мови)
text = "Природна мова є складним і багатозначним явищем."
doc = nlp_uk(text)
tokens = [token.text for token in doc]
print("Токенізація:", tokens)

# 2. Лемматизація та стемінг
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

# Лемматизація
lemmas = [lemmatizer.lemmatize(token) for token in tokens]
# Стемінг
stems = [stemmer.stem(token) for token in tokens]

print("Лемми:", lemmas)
print("Стовбури:", stems)

# 3. Векторизація тексту
# Bag of Words (BOW)
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform([text]).toarray()
print("Bag of Words:", X_bow)

# TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform([text]).toarray()
print("TF-IDF:", X_tfidf)

# Word Embeddings (Word2Vec)
sentences = [tokens]
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
word_vector = w2v_model.wv['мова']
print("Word Embedding для 'мова':", word_vector)

# 4. Класифікація тексту
X = vectorizer_bow.fit_transform(["Тестовий текст для класифікації"])
y = [1]  # Приклад міток
nb_model = MultinomialNB()
nb_model.fit(X, y)
print("Класифікація тексту з наївним баєсовим класифікатором:", nb_model.predict(X))

# 5. Розпізнавання сутностей (NER)
doc = nlp_uk("Баришівка - місто в Україні.")
print("Розпізнавання сутностей:", [(ent.text, ent.label_) for ent in doc.ents])

# Порівняльний аналіз методів векторизації
vectorization_data = {
    "Method": ["Bag of Words", "TF-IDF", "Word2Vec"],
    "Advantages": ["Простота", "Знижує вплив частих слів", "Зберігає семантичні відношення"],
    "Disadvantages": ["Не враховує порядок слів", "Може не враховувати контекст", "Високі вимоги до ресурсів"],
    "Applications": ["Класифікація", "Аналіз тональності", "Нейронні мережі для NLP"],
    "Scalability": ["Низька", "Середня", "Висока"]
}
df_vectorization = pd.DataFrame(vectorization_data)
print("Порівняльна таблиця методів векторизації тексту:")
print(df_vectorization)

# Порівняльний аналіз інструментів NLP
nlp_tools_data = {
    "Tool": ["NLTK", "SpaCy", "Hugging Face Transformers", "Gensim"],
    "Main Features": ["Токенізація, стемінг, лемматизація", "NER, POS-тегінг", "Підтримка моделей трансформерів", "Word Embeddings"],
    "Languages Supported": ["Багато мов", "Англійська та інші", "Багато мов", "Багато мов"],
    "Ease of Use": ["Середня", "Висока", "Висока", "Середня"]
}
df_nlp_tools = pd.DataFrame(nlp_tools_data)
print("Порівняльна таблиця інструментів NLP:")
print(df_nlp_tools)

# Збереження результатів у .csv файли локально з правильним кодуванням
df_vectorization.to_csv("vectorization_comparison.csv", index=False, encoding='utf-8-sig')
df_nlp_tools.to_csv("nlp_tools_comparison.csv", index=False, encoding='utf-8-sig')


Токенізація: ['Природна', 'мова', 'є', 'складним', 'і', 'багатозначним', 'явищем', '.']
Лемми: ['Природна', 'мова', 'є', 'складним', 'і', 'багатозначним', 'явищем', '.']
Стовбури: ['природна', 'мова', 'є', 'складним', 'і', 'багатозначним', 'явищем', '.']
Bag of Words: [[1 1 1 1 1]]
TF-IDF: [[0.4472136 0.4472136 0.4472136 0.4472136 0.4472136]]
Word Embedding для 'мова': [ 8.13227147e-03 -4.45733406e-03 -1.06835726e-03  1.00636482e-03
 -1.91113955e-04  1.14817743e-03  6.11386076e-03 -2.02715401e-05
 -3.24596534e-03 -1.51072862e-03  5.89729892e-03  1.51410222e-03
 -7.24261976e-04  9.33324732e-03 -4.92128357e-03 -8.38409644e-04
  9.17541143e-03  6.74942741e-03  1.50285603e-03 -8.88256077e-03
  1.14874600e-03 -2.28825561e-03  9.36823711e-03  1.20992784e-03
  1.49006362e-03  2.40640994e-03 -1.83600665e-03 -4.99963388e-03
  2.32429506e-04 -2.01418041e-03  6.60093315e-03  8.94012302e-03
 -6.74754381e-04  2.97701475e-03 -6.10765442e-03  1.69932481e-03
 -6.92623248e-03 -8.69402662e-03 -5.9002027

In [35]:
import spacy
from spacy.cli import download

download('uk_core_news_sm')


[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('uk_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
