In [25]:
import pandas as pd

from sklearn.model_selection import train_test_split

import nltk

import string

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

from nltk.stem import SnowballStemmer

nltk.download('punkt')

nltk.download('stopwords')

from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics import precision_score, recall_score, precision_recall_curve

import matplotlib.pyplot as plt

from sklearn.metrics import plot_precision_recall_curve

import numpy as np

from sklearn.model_selection import GridSearchCV

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Костя\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Костя\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [13]:
df = pd.read_csv('labeled.csv.zip', sep=',')

In [14]:
df.shape

(14412, 2)

In [15]:
df.head()

Unnamed: 0,comment,toxic
0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,"Хохлы, это отдушина затюканого россиянина, мол...",1.0
2,Собаке - собачья смерть\n,1.0
3,"Страницу обнови, дебил. Это тоже не оскорблени...",1.0
4,"тебя не убедил 6-страничный пдф в том, что Скр...",1.0


In [17]:
# Приведение колонки toxic к типу int
df.toxic = df.toxic.apply(int)

In [18]:
# Распределение класов 0 и 1
df.toxic.value_counts()

0    9586
1    4826
Name: toxic, dtype: int64

In [20]:
# Разбивание датасета на треин и тест
train_df, test_df = train_test_split(df, test_size=500)

In [28]:
snowball = SnowballStemmer(language='russian')
rus_stop_words = stopwords.words('russian')

def tokenize_sentence (sentence: str, remove_stop_words: bool = True):
    '''
    tokenize_sentence: разбивает предложения на токены (т.е. на отдельные слова в предложении)
    
    param:
    sentence - предложение
    remove_stop_words - True (без стоп слов), False (со стоп словами)
    '''
    # Токенизация предложения
    tokens = word_tokenize(sentence, language='russian')
    
    # Запись без знаков пунктуации
    tokens = [i for i in tokens if i not in string.punctuation]
    
    # Удаление стоп слов если флаг True
    if remove_stop_words:
        tokens = [i for i in tokens if i not in rus_stop_words]
    
    # Стемминг слов (приведение к корню слова)
    tokens = [snowball.stem(i) for i in tokens]
    
    return tokens
    

In [29]:
vectorizer = TfidfVectorizer(tokenizer=lambda x: tokenize_sentence(x))

In [30]:
features = vectorizer.fit_transform(train_df['comment'])

In [32]:
model = LogisticRegression(random_state=0)
model.fit(features, train_df['toxic'])

LogisticRegression(random_state=0)

In [62]:
model.predict(features[0])

array([0], dtype=int64)

In [37]:
model_pipeline = Pipeline([
    ('vectorizer', TfidfVectorizer(tokenizer=lambda x: tokenize_sentence(x))),
    ('model', LogisticRegression(random_state=0))
])

In [38]:
model_pipeline.fit(train_df['comment'], train_df['toxic'])

Pipeline(steps=[('vectorizer',
                 TfidfVectorizer(tokenizer=<function <lambda> at 0x0000029E97B090D0>)),
                ('model', LogisticRegression(random_state=0))])

In [45]:
model_pipeline.predict(['пример текста для проверки нейтрального коммента'])

array([0], dtype=int64)

In [58]:
model_pipeline.predict(['пример текста тупого'])

array([1], dtype=int64)

In [59]:
precision_score(y_true=test_df['toxic'], y_pred=model_pipeline.predict(test_df['comment']))

0.8608695652173913

In [60]:
recall_score(y_true=test_df['toxic'], y_pred=model_pipeline.predict(test_df['comment']))

0.673469387755102