<a href="https://colab.research.google.com/github/lonsst/ML_practice/blob/main/NLP_Tasks_1_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Файл для подготовки к экзамену по дисциплине "Обработка текстов на естественных языках"




## Задание 1. Сравнить качество методов векторизации CountVectorizer и TF-IDF на примере задачи классификации текстов. Сделать выводы.

### Импорты

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt

### CountVectorizer

In [None]:
newsgroups_train = fetch_20newsgroups(subset='train', categories=['alt.atheism', 'misc.forsale', 'soc.religion.christian', 'talk.politics.mideast'])

In [None]:
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [None]:
def preprocess_text(text):
    # Токенизация текста
    tokens = nltk.word_tokenize(text)

    # Приведение к нижнему регистру
    tokens = [token.lower() for token in tokens]

    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in stop_words]

    # Лемматизация
    tokens = [lemmatizer.lemmatize(token) for token in tokens]

    # Объединение токенов обратно в текст
    preprocessed_text = ' '.join(tokens)

    return preprocessed_text

preprocessed_data = [preprocess_text(text) for text in newsgroups_train.data]

In [None]:
# Создание экземпляра CountVectorizer
vectorizer = CountVectorizer()

# Преобразование предобработанных текстов в векторы признаков
X_train = vectorizer.fit_transform(preprocessed_data)
y_train = newsgroups_train.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.3, random_state=42)

# Создание и обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# Предсказание на тестовой выборке
preds_test = model.predict(X_test)

# Оценка качества модели на тестовой выборке
report_test = classification_report(y_test, preds_test, target_names=newsgroups_train.target_names)

# Вывод отчета о классификации на тестовой выборке
print(report_test)



                        precision    recall  f1-score   support

           alt.atheism       0.98      0.91      0.94       139
          misc.forsale       0.94      1.00      0.97       157
soc.religion.christian       0.93      0.97      0.95       188
 talk.politics.mideast       1.00      0.96      0.98       185

              accuracy                           0.96       669
             macro avg       0.96      0.96      0.96       669
          weighted avg       0.96      0.96      0.96       669



### Tfidf Vectorizer

In [None]:
newsgroups_train = fetch_20newsgroups(subset='train', categories=['alt.atheism', 'misc.forsale', 'soc.religion.christian', 'talk.politics.mideast'])

In [None]:
vectorizer = TfidfVectorizer()

# Преобразование предобработанных текстов в векторы признаков
X_train = vectorizer.fit_transform(preprocessed_data)
y_train = newsgroups_train.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.3, random_state=42)

In [None]:
# Создание и обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

In [None]:
preds_test = model.predict(X_test)

# Оценка качества модели на тестовой выборке
report_test = classification_report(y_test, preds_test, target_names=newsgroups_train.target_names)

# Вывод отчета о классификации на тестовой выборке
print(report_test)



                        precision    recall  f1-score   support

           alt.atheism       0.98      0.91      0.94       139
          misc.forsale       0.94      1.00      0.97       157
soc.religion.christian       0.93      0.97      0.95       188
 talk.politics.mideast       1.00      0.96      0.98       185

              accuracy                           0.96       669
             macro avg       0.96      0.96      0.96       669
          weighted avg       0.96      0.96      0.96       669



### Выводы


Судя по результатам обучения, оба метода векторизации показали себя крайне успешно, однако результат CountVectorizer незначительно лучше чем у Tfidf.
Это связанно с тем, что в случае с Tfidf, большой вес имеет метрика значимости конкретного слова в тексте, которая в небольшом датасете с малым количеством повторяющихся слов будет малоэффективна, но значительно улучшит результат в случае постоянного повторения слов, не имеющих принципиальной важности в больших датасетах.

## Задание 2. На примере задачи классификации текстов определить насколько предобработка текста (стемминг, лемматизация, стоп-слова и т.д.) влияет на качество обучения модели. Сделать выводы.

### Импорты

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tokenize import word_tokenize
import nltk

In [None]:
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### 1. Создание модели с данными без предобучения

In [None]:
newsgroups_train = fetch_20newsgroups(subset='train', categories=['alt.atheism', 'misc.forsale', 'soc.religion.christian', 'talk.politics.mideast'])

In [None]:
vectorizer = TfidfVectorizer()

# Преобразование предобработанных текстов в векторы признаков
X_train = vectorizer.fit_transform(newsgroups_train.data)
y_train = newsgroups_train.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

In [None]:
# Обучение модели без предобработки текста
model = LogisticRegression()
model.fit(X_train, y_train)

preds_test = model.predict(X_test)

# Оценка качества модели на тестовой выборке
report_test = classification_report(y_test, preds_test, target_names=newsgroups_train.target_names)

# Вывод отчета о классификации на тестовой выборке
print(report_test)



                        precision    recall  f1-score   support

           alt.atheism       0.98      0.91      0.94       139
          misc.forsale       0.94      1.00      0.97       157
soc.religion.christian       0.93      0.97      0.95       188
 talk.politics.mideast       1.00      0.96      0.98       185

              accuracy                           0.96       669
             macro avg       0.96      0.96      0.96       669
          weighted avg       0.96      0.96      0.96       669



### 2. Модель с предобработкой данных (приведение к нижнему регистру, удаление стоп-слов, лемматизация)

In [None]:
newsgroups_train = fetch_20newsgroups(subset='train', categories=['alt.atheism', 'misc.forsale', 'soc.religion.christian', 'talk.politics.mideast'])

In [None]:
def preprocess_text(text):
    # Токенизация текста
    tokens = nltk.word_tokenize(text)

    # Приведение к нижнему регистру
    tokens = [token.lower() for token in tokens]

    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in stop_words]

    # Лемматизация
    tokens = [lemmatizer.lemmatize(token) for token in tokens]

    # Объединение токенов обратно в текст
    preprocessed_text = ' '.join(tokens)

    return preprocessed_text

preprocessed_data = [preprocess_text(text) for text in newsgroups_train.data]

In [None]:
vectorizer = TfidfVectorizer()

# Преобразование предобработанных текстов в векторы признаков
X_train = vectorizer.fit_transform(preprocessed_data)
y_train = newsgroups_train.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

In [None]:
# Создание и обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

In [None]:
preds_test = model.predict(X_test)

# Оценка качества модели на тестовой выборке
report_test = classification_report(y_test, preds_test, target_names=newsgroups_train.target_names)

# Вывод отчета о классификации на тестовой выборке
print(report_test)

                        precision    recall  f1-score   support

           alt.atheism       0.98      0.91      0.94        89
          misc.forsale       0.95      1.00      0.97       106
soc.religion.christian       0.93      0.96      0.95       126
 talk.politics.mideast       1.00      0.97      0.98       125

              accuracy                           0.96       446
             macro avg       0.96      0.96      0.96       446
          weighted avg       0.96      0.96      0.96       446



### Выводы
Анализируя полученный результат, можно отметить что модель с предобработанными данными на данном небольшом датасете показала только небольшие приросты в метриках.