# Проект "Токсичные комментарии"

## Описание проекта

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Нужно обучить модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок. Построить модель со значением метрики качества F1 не меньше 0.75.

## План выполнения проекта

1. [**Загрузите и подготовьте данные.**](#step1) Данные находятся в файле <i>/datasets/toxic_comments.csv</i>.
1. [**Обучите разные модели.**](#step2)
1. [**Сделайте выводы.**](#step3)

## Описание данных

- `text` — текст комментария;
- `toxic` — является ли комментарий токсичным, <i>целевой признак</i>.

## <a name='step1'></a>Шаг 1. Загрузите и подготовьте данные

Для начала сделаем импорт всех необходимых библиотек.

In [1]:
import pandas as pd
import re
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer # лемматизатор английского, берущий по одному слову
nltk.download('stopwords')
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/andreykol/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/andreykol/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Теперь загрузим данные, записав их в переменную `comm`.

In [2]:
try:
    comm = pd.read_csv('/Users/andreykol/PycharmProjects/Yandex.Praktikum-projects/project_ML_for_Texts/toxic_comments.csv')
    #comm = pd.read_csv('/datasets/toxic.csv')
except:
    print('Ошибка при загрузке файла!')

Кратко просмотрим имеющиеся данные.

In [3]:
print(comm.info())
print(comm.columns)
print(comm.iloc[6, :])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB
None
Index(['text', 'toxic'], dtype='object')
text     COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK
toxic                                               1
Name: 6, dtype: object


Типы данных у нас в порядке, также мы вывели на экран один из оскорбительных комментариев, у него действительно в столбце `toxic` стоит значение `1`.

Далее проведем очистку и лемматизацию всех текстов.

In [4]:
corpus = comm['text'].values.astype('U') # создали корпус

In [5]:
lem = WordNetLemmatizer()
clean_corpus = [] # получим очищенный текст
for text in corpus:
    text = re.sub(r'[^A-Za-z ]', ' ', text)
    words = text.lower().split()
    new_words = []
    for word in words:
        new_words.append(lem.lemmatize(word)) # лемматизатор справляется плохо, но оставим его
    text = " ".join(new_words)
    clean_corpus.append(text)

Теперь сравним тексты до и после обработки.

In [6]:
print(corpus[35])
print()
print(clean_corpus[35])

"

Not at all, you are making a straw man argument here. I never claimed O'Donohue had that position, rather that practitioners and researchers in the field ignored the DSM position, which is exactly what the quote says and also something O'Donohue agrees with. 

Again, I was combating the notion that it was a ""absurd part"" to claim that pedophilia is a sexual orientation. Since many researchers hold this position, it would be unfair to call it absurd. The disorder part is divided in the field, some argue that it is not a disorder at all, some do. At the end of the day, it is a value judgment (as Cantor pointed out earlier in the thread), not a scientific judgement. If we choose to make this value judgment in the article, it should be stated clearly and not pretend to have a scientific basis.   "

not at all you are making a straw man argument here i never claimed o donohue had that position rather that practitioner and researcher in the field ignored the dsm position which is exactl

Странно, что такие слова как `divided` лемматизатор не обработал и не вернул форму `divide`. Итак, теперь сформируем данные для модели в будущем.

In [7]:
stop_words = set(stopwords.words('english'))
tfidf = TfidfVectorizer(stop_words=stop_words)

In [8]:
comm['text'] = pd.DataFrame(data=clean_corpus)
comm['toxic'].value_counts()

0    143346
1     16225
Name: toxic, dtype: int64

Мы наблюдаем дисбаланс классов, так что будем "взвешивать" классы при делении на выборки.

Итак, теперь пора разделить наши данные на обучающую, валидационную и тестовую выборку.

In [9]:
nottest, test = train_test_split(comm, test_size=0.1, random_state=420, shuffle=True, stratify=comm['toxic'])
train, valid = train_test_split(nottest, test_size=0.1111, random_state=420, shuffle=True, stratify=nottest['toxic'])
# разбили на 80-10-10 процентов

In [10]:
X_train = tfidf.fit_transform(train['text'])
y_train = train['toxic']
X_valid = tfidf.transform(valid['text'])
y_valid = valid['toxic']
X_test = tfidf.transform(test['text'])
y_test = test['toxic']

Итак, данные разделены, векторизованы и готовы применяться в различных моделях.

## <a name='step2'></a>Шаг 2. Обучите разные модели

Сначала обучим логистическую регрессию.

In [11]:
log_reg = LogisticRegression(class_weight='balanced')
log_reg.fit(X_train, y_train)
y_pred = log_reg.predict(X_valid)
print('Validation F1-score for logistic regression:', round(f1_score(y_valid, y_pred), 3))

Validation F1-score for logistic regression: 0.758


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Валидация показала, что метрика превысила 0.75. Теперь дадим пообучаться случайному лесу. Выберем определенные параметры для экономии времени.

In [12]:
myforest = RandomForestClassifier(n_estimators=100, max_depth=100, random_state=42)
myforest.fit(X_train, y_train)
y_pred = myforest.predict(X_valid)
print('Validation F1-score for random forest:', round(f1_score(y_valid, y_pred), 3))

Validation F1-score for random forest: 0.232


Модель обучалась несколько минут, но ее результаты крайне низкие. Мы не будем использовать случайный лес далее. После этого в проекте обучалась модель SVM, но была удалена из-за времени выполнения.

Теперь протестируем нашу лучшую модель (лог. регрессию) на новых данных.

In [13]:
X_nottest = tfidf.fit_transform(nottest['text']) # фиттим на большем количестве
y_nottest = nottest['toxic']
X_test = tfidf.transform(test['text'])
y_test = test['toxic']
log_reg.fit(X_nottest, y_nottest)
y_pred = log_reg.predict(X_test)
print('Test F1-score for logistic regression:', round(f1_score(y_test, y_pred), 3))

Test F1-score for logistic regression: 0.754


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Таким образом, на новых данных мы получили приемлемый результат.

## <a name='step3'></a>Шаг 3. Сделайте выводы

Итак, в этом проекте мы векторизовали наши сырые текстовые данные, перед этим лемматизировав и очистив их. Также мы проверили, какая из моделей лучше всего подходит для решения нашей задачи и, использовав ее, получили требуемый результат метрики F1.