# Дослідження методів та інструментів NLP

# Мета
Познайомитися з основними поняттями, методами та підходами у сфері обробки природної мови (NLP). Провести порівняльний аналіз популярних алгоритмів та інструментів, а також підготувати презентацію на цю тему.


## Основні етапи NLP
1. **Токенізація**
2. **Лемматизація та стемінг**
3. **Векторизація тексту**
4. **Класифікація тексту**
5. **Розпізнавання сутностей (NER)**

## Порівняльний аналіз методів векторизації тексту

In [1]:
import pandas as pd

data = {
    'Метод': ['Bag of Words (BOW)', 'TF-IDF', 'Word Embeddings (Word2Vec, GloVe)'],
    'Переваги': [
        'Легко реалізувати, базова модель.',
        'Враховує важливість слів, зменшує вагу часто вживаних слів.',
        'Зберігають семантичні зв’язки між словами, низька розмірність векторів.'
    ],
    'Недоліки': [
        'Втрата семантики, велика розмірність словника.',
        'Не враховує семантику слів.',
        'Потрібно більше обчислювальних ресурсів для навчання.'
    ],
    'Складність реалізації': ['Низька', 'Низька', 'Висока'],
    'Застосування': [
        'Текстова класифікація, базовий аналіз тексту',
        'Аналіз тональності, пошукові системи',
        'Чат-боти, NER, переклади'
    ]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Метод,Переваги,Недоліки,Складність реалізації,Застосування
0,Bag of Words (BOW),"Легко реалізувати, базова модель.","Втрата семантики, велика розмірність словника.",Низька,"Текстова класифікація, базовий аналіз тексту"
1,TF-IDF,"Враховує важливість слів, зменшує вагу часто в...",Не враховує семантику слів.,Низька,"Аналіз тональності, пошукові системи"
2,"Word Embeddings (Word2Vec, GloVe)","Зберігають семантичні зв’язки між словами, низ...",Потрібно більше обчислювальних ресурсів для на...,Висока,"Чат-боти, NER, переклади"


## Огляд інструментів для NLP

In [2]:
tools_data = {
    'Інструмент': ['NLTK', 'SpaCy', 'Hugging Face Transformers', 'Gensim'],
    'Основні функції': [
        'Токенізація, лемматизація, NER, аналіз граматики.',
        'Токенізація, лемматизація, Word2Vec, NER.',
        'Робота з трансформерами (BERT, GPT).',
        'Word Embeddings, тематичне моделювання.'
    ],
    'Підтримка мов': ['Багатомовність', 'Англійська, інші мови', 'Багатомовність', 'Багатомовність'],
    'Простота використання': ['Висока', 'Висока', 'Середня', 'Середня']
}

tools_df = pd.DataFrame(tools_data)
tools_df

Unnamed: 0,Інструмент,Основні функції,Підтримка мов,Простота використання
0,NLTK,"Токенізація, лемматизація, NER, аналіз граматики.",Багатомовність,Висока
1,SpaCy,"Токенізація, лемматизація, Word2Vec, NER.","Англійська, інші мови",Висока
2,Hugging Face Transformers,"Робота з трансформерами (BERT, GPT).",Багатомовність,Середня
3,Gensim,"Word Embeddings, тематичне моделювання.",Багатомовність,Середня


## Приклади застосувань NLP

In [3]:
applications_data = {
    'Задача': ['Аналіз тональності', 'Чат-боти', 'Переклади', 'Рекомендаційні системи'],
    'Опис': [
        'Визначення позитивної/негативної тональності тексту.',
        'Автоматизація відповіді на питання.',
        'Автоматичний переклад текстів.',
        'Аналіз текстів відгуків для рекомендацій.'
    ],
    'Інструменти': ['NLTK, Hugging Face Transformers', 'SpaCy, Hugging Face, Word2Vec', 'Hugging Face Transformers (MarianMT, T5)', 'Gensim, Word2Vec']
}

applications_df = pd.DataFrame(applications_data)
applications_df

Unnamed: 0,Задача,Опис,Інструменти
0,Аналіз тональності,Визначення позитивної/негативної тональності т...,"NLTK, Hugging Face Transformers"
1,Чат-боти,Автоматизація відповіді на питання.,"SpaCy, Hugging Face, Word2Vec"
2,Переклади,Автоматичний переклад текстів.,"Hugging Face Transformers (MarianMT, T5)"
3,Рекомендаційні системи,Аналіз текстів відгуків для рекомендацій.,"Gensim, Word2Vec"


## Висновки
1. **Методи векторизації тексту:**
   - **BOW та TF-IDF** підходять для простих задач із невеликою кількістю текстових даних.
   - **Word Embeddings** (Word2Vec, GloVe) ефективніші для складних задач, де враховується семантика.
2. **Інструменти NLP:**
   - **NLTK та SpaCy** найкращі для базової обробки тексту.
   - **Hugging Face Transformers** чудово підходить для роботи з сучасними трансформерами.
   - **Gensim** корисний для тематичного моделювання та роботи з Word Embeddings.
3. **Застосування NLP:**
   - У бізнесі: чат-боти, аналіз тональності.
   - У науці: автоматичний аналіз текстів, машинний переклад.