Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

### Инструкция по выполнению проекта

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

### Описание данных

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

1 [Подготовка](#1)

- [Просмотр данных](#1.1)
- [Предварительная обработка](#1.2)
- [Токенизация. Обработка знаков препинания и строчных букв](#1.3)
- [Удаление стоп-слов](#1.4)
- [Лемматизация](#1.5)
- [Предобработка](#1.6)
- [TF-IDF для корпуса текстов](#1.7)

2 [Обучение](#2)

- [LogisticRegression](#2.1)
- [RandomForestClassifier](#2.2)
- [BERT](#2.3)

3 [Выводы](#3)

In [1]:
import numpy as np
import pandas as pd
import random
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer 
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score, make_scorer
from sklearn.linear_model import LogisticRegression

# 1. Подготовка<a id="1"></a>

## Просмотр данных<a id="1.1"></a>

In [2]:
try:
    df_tweets = pd.read_csv('/datasets/toxic_comments.csv')
except:
    df_tweets = pd.read_csv('toxic_comments.csv')

In [3]:
df_tweets.head(4)

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0


In [4]:
# Для скорости раскомментировать
# df_tweets = df_tweets.sample(500).reset_index(drop=True) 

In [5]:
X = df_tweets
y = df_tweets['toxic']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [6]:
print('train', X_train.shape, y_train.shape)
print('test', X_test.shape, y_test.shape)


train (127656, 2) (127656,)
test (31915, 2) (31915,)


## Предварительная обработка<a id="1.2"></a>

### Токенизация. Обработка знаков препинания и строчных букв<a id="1.3"></a>

In [7]:
from catboost.text_processing import Tokenizer

In [8]:
tokenizer = Tokenizer(
    lowercasing=True,
    separator_type='BySense',
    token_types=['Word', 'Number']
)

# def tokenize_catboost(texts):
#    return [tokenizer.tokenize(text) for text in texts]

#tokenized_catboost = tokenize_catboost(corpus_train)

###  Удаление стоп-слов<a id="1.4"></a>

In [10]:
# from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

#def filter_stop_words(tokens):
#    return list(filter(lambda x: x not in stop_words, tokens))

#def del_stop_words(tokenized_text):
#    return [filter_stop_words(tokens) for tokens in tokenized_text]
    
#tokenized_text_no_stop = del_stop_words(tokenized_catboost)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\python_dev\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Лемматизация<a id="1.5"></a>

In [12]:
#import nltk
#from nltk.stem import WordNetLemmatizer 
nltk.download('wordnet')

lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_tokens_nltk(tokens):
    return list(map(lambda t: lemmatizer.lemmatize(t), tokens))

#def lemmatize_apply(tokenized_no_stop):
#    return [lemmatize_tokens_nltk(tokens) for tokens in tokenized_no_stop]
#
#text_lemmatized_nltk = lemmatize_apply(tokenized_text_no_stop)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\python_dev\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### Предобработка<a id="1.6"></a>

In [13]:
def preprocess_data(X):
    X_preprocessed = X.copy()
    X_preprocessed['text'] = X['text'].apply(lambda x: ' '.join(lemmatize_tokens_nltk(tokenizer.tokenize(x))))
    return X_preprocessed

#X_lemm_train = preprocess_data(X_train)
#X_lemm_test = preprocess_data(X_test)

Wall time: 49.2 s


### TF-IDF для корпуса текстов<a id="1.7"></a>

In [48]:
%%time

def tf_idf(train, test):
    corpus_train = X_lemm_train['text'].values.astype('U')
    corpus_test = X_lemm_test['text'].values.astype('U')
    count_tf_idf = TfidfVectorizer(stop_words=stop_words)

    return count_tf_idf.fit_transform(corpus_train), count_tf_idf.transform(corpus_test)

    
tf_idf_train, tf_idf_test = tf_idf(preprocess_data(X_train), preprocess_data(X_test))

# 2. Обучение<a id="2"></a>

In [44]:
f1 = make_scorer(f1_score)

### LogisticRegression<a id="2.1"></a>

In [46]:
%%time

lr = LogisticRegression(C = 2.5, max_iter =200, random_state=42)
lr.fit(tf_idf_train, y_train)
lr_predict = lr.predict(tf_idf_test)

print('f1_score LogisticRegression:', f1_score(y_test, lr_predict))

f1_score LogisticRegression: 0.7661780479084733
Wall time: 6.84 s


### RandomForestClassifier<a id="2.2"></a>

In [47]:
%%time
forest_model = RandomForestClassifier(random_state=12345)
forest_model.fit(tf_idf_train, y_train)
forest_predict = forest_model.predict(tf_idf_test)
print('f1_score RandomForestClassifier:', f1_score(y_test, forest_predict))

f1_score RandomForestClassifier: 0.70218474511307
Wall time: 13min 22s


In [None]:
embeddings = []

for i in notebook.tqdm(range(padded.shape[0] // batch_size)):
    batch = torch.LongTensor(padded[batch_size*i:batch_size*(i+1)])
    attention_mask_batch = torch.LongTensor(attention_mask[batch_size*i:batch_size*(i+1)])

    with torch.no_grad():
        batch_embeddings = model(batch, attention_mask=attention_mask_batch)

    embeddings.append(batch_embeddings[0][:,0,:].numpy()) 

## BERT <a id="2.3"></a>

## Проверка на адекватность 

In [32]:
import random

In [39]:
share = y_test.mean()
predictions_random_mean = pd.Series(
    random.choices(
        [1, 0], 
        weights=[share, 1 - share], 
        k=len(y_test)), 
    index=y_test.index)
print('f1_score random_mean:', f1_score(y_test, predictions_random_mean))
#print(predictions_random_mean.mean())

f1_score random_mean: 0.09804520464263898


# 3. Выводы

результат подозрительный. смущает

# Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Данные загружены и подготовлены
- [ ]  Модели обучены
- [ ]  Значение метрики *F1* не меньше 0.75
- [ ]  Выводы написаны