# Обробка Природної Мови (Natural Language Processing, NLP)

Велика кількість даних у багатьох реальних наборах даних представлена у вигляді вільного тексту (free text) 
(коментарі користувачів, а також будь-які «неструктуровані» поля).

(Обчислювальна) обробка природної мови: ми пишемо комп'ютерні програми, які можуть 
розуміти природну мову.

Ця лекція: ми спробуємо отримати деяку значущу інформацію з неструктурованих текстових даних.

## Основи обробки тексту

Обробка тексту є важливим етапом підготовки текстових даних для завдань обробки природної мови (NLP). Вона передбачає перетворення необробленого тексту в структурований формат, який може ефективно використовуватися моделями машинного навчання.

**Очищення тексту**

- Переведення в нижній регістр: перетворює всі символи в тексті в нижній регістр для забезпечення однорідності.
- Видалення розділових знаків: видаляє розділові знаки, які не впливають на значення тексту.
- Видалення стоп-слів: видаляє часто вживані слова (наприклад, «і», «є», «в»), які не несуть значущого значення.
- Видалення спеціальних символів і цифр: видаляє спеціальні символи і цифри, які часто не мають значення для текстового аналізу.

In [1]:
import re
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# Download the necessary resources
nltk.download('stopwords')
nltk.download('punkt')

def clean_text(text):
    # Convert text to lowercase
    text = text.lower()

    # Remove punctuation
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Remove numbers
    text = re.sub(r'\d+', '', text)

    # Remove special characters
    text = re.sub(r'[^a-z\s]', '', text)

    # Remove stopwords
    stop_words = set(stopwords.words('english'))
    text = ' '.join(word for word in word_tokenize(text) if word not in stop_words)

    return text

sample_text = "Hello! This is an example text with numbers 123 and punctuation!!!"
cleaned_text = clean_text(sample_text)
print(cleaned_text)  # Output: hello example text numbers


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\vmelnyk2\AppData\Roaming\nltk_data...


hello example text numbers punctuation


[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\vmelnyk2\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


**Токенізація (tokenization)**

Токенізація — це процес розбиття тексту на менші одиниці, зазвичай слова або речення. Вона допомагає розбивати текстові дані на зручні для подальшої обробки частини.

- Токенізація слів: розбиває текст на окремі слова.
- Токенізація речень: розбиває текст на речення.

In [2]:
from nltk.tokenize import word_tokenize, sent_tokenize

def tokenize_text(text):
    
    # Word tokenization
    words = word_tokenize(text)

    # Sentence tokenization
    sentences = sent_tokenize(text)

    return words, sentences

sample_text = "Natural Language Processing (NLP) is exciting! It enables computers to understand human language."
words, sentences = tokenize_text(sample_text)
print("Words:", words)
print("Sentences:", sentences)

Words: ['Natural', 'Language', 'Processing', '(', 'NLP', ')', 'is', 'exciting', '!', 'It', 'enables', 'computers', 'to', 'understand', 'human', 'language', '.']
Sentences: ['Natural Language Processing (NLP) is exciting!', 'It enables computers to understand human language.']


**Стемінг та лематизація (Stemming and Lemmatization)**

- Стемінг: скорочує слова до їхньої базової або кореневої форми шляхом видалення суфіксів (наприклад, «running» стає «run»). Стемінг може призвести до появи слів, яких немає в словнику.

- Лематизація: скорочує слова до їхньої основи або форми, що є в словнику (лема), з урахуванням контексту (наприклад, «running» стає «run», але «better» стає «good»).

In [3]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tokenize import word_tokenize
import nltk

# Download the necessary resources
nltk.download('punkt')
nltk.download('wordnet')

def apply_stemming(text):
    stemmer = PorterStemmer()

    # Tokenize text into words
    words = word_tokenize(text)

    # Apply stemming
    stemmed_words = [stemmer.stem(word) for word in words]

    return stemmed_words

def apply_lemmatization(text):
    lemmatizer = WordNetLemmatizer()

    # Tokenize text into words
    words = word_tokenize(text)

    # Apply lemmatization
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

    return lemmatized_words

sample_text = "The children are playing with their toys."
stemmed_words = apply_stemming(sample_text)
lemmatized_words = apply_lemmatization(sample_text)
print("Stemmed Words:", stemmed_words)  # Output: ['the', 'children', 'are', 'play', 'with', 'their', 'toy']
print("Lemmatized Words:", lemmatized_words)  # Output: ['the', 'child', 'are', 'playing', 'with', 'their', 'toy']

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\vmelnyk2\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\vmelnyk2\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Stemmed Words: ['the', 'children', 'are', 'play', 'with', 'their', 'toy', '.']
Lemmatized Words: ['The', 'child', 'are', 'playing', 'with', 'their', 'toy', '.']


**Методи нормалізації**

Методи нормалізації стандартизують текстові дані, перетворюючи їх у єдиний формат. Це може включати:

- Обробка синонімів: перетворення синонімів у загальне представлення (наприклад, «автомобіль» і «машина» стають «автомобілем»).
- Обробка абревіатур: розширення абревіатур до повної форми (наприклад, «u» стає «you»).
- Виправлення орфографічних помилок: виправлення слів з орфографічними помилками.

In [5]:
from nltk.tokenize import word_tokenize
from autocorrect import Speller

# Download necessary resources
nltk.download('punkt')

def normalize_text(text):
    # Initialize spell checker
    spell = Speller(lang='en')

    # Define a dictionary for common abbreviations
    normalization_dict = {
        "u": "you",
        "ur": "your",
        "r": "are",
        "pls": "please",
        "pos": "please",
        "thx": "thanks"
    }

    # Tokenize text into words
    words = word_tokenize(text.lower())

    # Handle abbreviations, spelling corrections, and remove special characters
    normalized_words = [normalization_dict.get(word, spell(word)) for word in words]

    # Reconstruct the text
    normalized_text = ' '.join(normalized_words)

    # Clean special characters after spelling corrections
    normalized_text = normalized_text.replace('!', '').replace('.', '').strip()

    return normalized_text

sample_text = "U r the best! Pls help me with this assignment. Thx!"
normalized_text = normalize_text(sample_text)
print(normalized_text)

you are the best  please help me with this assignment  thanks


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\vmelnyk2\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
