# Задание 2

Познакомимся с обработкой естественного языка (NLP).

Существует множество подходов к использованию искусственного интеллекта для NLP, один из них - TFIDF.

TFIDF - это способ кодирования текста, в котором определяется кол-во вхождений слова в документ, и на основе этих данных мы можем запустить классификатор.

### Импорты

In [1]:
! pip install scikit-learn pandas nltk



In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import nltk
nltk.download('stopwords')

## Загрузим данные из встроенного датасета scikit для примера

Мы хотим классифицировать тексты, как связанные с бейсболом или с космосом. Загрузим их из встроенных датасетов sklearn. Также можно подгрузить данные в pandas для csv

In [3]:
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(subset='all', categories=['rec.sport.baseball', 'sci.space'], shuffle=True, random_state=42)

In [4]:
newsgroups['data'][:10] # первые 10 текстов

['From: mss@netcom.com (Mark Singer)\nSubject: Re: Young Catchers\nArticle-I.D.: netcom.mssC52qMx.768\nOrganization: Netcom Online Communications Services (408-241-9760 login: guest)\nLines: 86\n\nIn article <7975@blue.cis.pitt.edu> genetic+@pitt.edu (David M. Tate) writes:\n>mss@netcom.com (Mark Singer) said:\n>>\n>>We know that very, very few players at this age make much of an impact\n>>in the bigs, especially when they haven\'t even played AAA ball.  \n>\n>Yes.  But this is *irrelevant*.  You\'re talking about averages, when we\n>have lots of information about THIS PLAYER IN PARTICULAR to base our\n>decisions on.\n\nDo you really have *that* much information on him?  Really?\n\n>Why isn\'t Lopez likely to hit that well?  He hit that well last year (after\n>adjusting his stats for park and league and such); he hit better (on an\n>absolute scale) than Olson or Berryhill did.  By a lot.\n\nI don\'t know.  You tell me.  What percentage of players reach or \nexceed their MLE\'s *in thei

In [5]:
newsgroups['target'][:10] # первые 10 номеров категорий (классов)

array([0, 0, 0, 0, 0, 1, 0, 1, 0, 1])

## Создадим векторизатор TFIDF

Сначала нам нужно будет прогонять все тексты на вход в нашу модель через него

In [6]:
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.7)
X = vectorizer.fit_transform(newsgroups['data'])

In [7]:
X.toarray() # выведем, во что превратились наши тексты

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.04968785, 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [8]:
y = newsgroups['target'] # целевой выход сети (0 или 1 для бейсбола или космоса)

## Обучим модель

### Разделим данные на тренировочные и контрольные 70%/30%

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Инициализируем и обучим модель

In [10]:
clf = SVC(kernel='linear')
clf.fit(X_train, y_train)

In [11]:
y_pred = clf.predict(X_test) # попробуем предсказать категорию для контрольных данных
y_pred

array([0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
       0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1,
       1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0,

In [12]:
accuracy = accuracy_score(y_test, y_pred) # вычислим точность между контрольными ответами и предсказаниями
report = classification_report(y_test, y_pred, target_names=newsgroups.target_names) # сформируем отчет

print(f'Accuracy: {accuracy:.4f}')
print('Classification Report:')
print(report)

Accuracy: 0.9966
Classification Report:
                    precision    recall  f1-score   support

rec.sport.baseball       0.99      1.00      1.00       286
         sci.space       1.00      0.99      1.00       309

          accuracy                           1.00       595
         macro avg       1.00      1.00      1.00       595
      weighted avg       1.00      1.00      1.00       595



Получили точность в 0.9966! Это очень хороший результат

# Задание

Создайте модель определения токсичности комментариев.

Как датасет, используйте файл `datasets/Dataset_labeled.csv`. Значение 1.0 означает, что комментарий токсичен, 0 - что нет.

Не забудьте провести первичный анализ на отсутсвующие значения, если такие существуют

Добейтесь максимальной точности и выведите метрики вашей модели на контрольных данных

**Дополнительные задачи (порядок не важен)**

* Создайте визуализацию процента токсичных и нетоксичных комментариев на датасете
* Создайте визуализацию SHAP вклада каждого слова в результат (ищите в Интернете)
* Преобразуйте датасет datasets/Dataset_2_labeled.csv в формат csv с помощью pandas, в котором 0 во второй колоке значит NORMAL, 1 значит не NORMAL. Сохраните код преобразования

Подсказка:
```
from nltk.corpus import stopwords
stop_words = stopwords.words('russian')
```