In [1]:
import nltk
import pandas as pd
import numpy as np
import sklearn
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import pymorphy2
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import cross_val_score

Определим функцию предобработки текстовых данных. Она состоит из следующих шагов:
1. Приведение символов к нижнему регистру
2. Замена букв "ё" на "е" - были замечены одинаковые слова, написанные через разные буквы - особенность письменной речи
3. Были три варианта очистки текста от лишних символов: 
    1. Очистка всего, что не является кириллицей - для получения смысла только от слов
    2. Очистка всего, кроме кириллицы и знаков "" и -(дефис). Кавычки иногда служат средством выразительности, так что это мог бы быть один из признаков для отличия настоящих новостей. Если удаляются дефисы - происходит потеря смысла для некоторых слов и разделение их на части, что ведет к ухудшению обучения моделей
    3. Не очищать ничего вообще, потому что текст является осмысленным, и, например, числа могут оказаться важны (можно было еще предусмотреть одинаковую обработку числительных, написанных цифрами и буквами - имело бы смысл для большей выборки с часто встречающимися числовыми значениями)
В конечном итоге в ходе экспериментов было установлено, что лучший результат на тестовой выборке получается, если не очищать текст от знаков препинания, цифр и т.д
4. Разбиение текста на слова
5. Приведение слов в начальную форму
6. Удаление стоп-слов

In [2]:
morph = pymorphy2.MorphAnalyzer()
def text_preprocessing(text, id_):
    
    text = text.lower() #приведение к нижнему регистру
    text = text.replace('ё', 'е') #замена букв                                     
    if (id_ == 1):
        text = re.sub(r"[^А-Яа-яЁё]", " ", text) 
    elif (id_ == 2):
        text = re.sub(r"[^«»-А-Яа-яЁё]", " ", text)                                                                                # удаляем все некириллические символы
    else:
        text = text
    words = word_tokenize(text) #токенизация                                          
    words = [morph.parse(word)[0].normal_form for word in words] #лемматизация             
    words = [word for word in words if word not in stopwords.words("russian")] #удаление стоп-слов
    return words

In [3]:
#Выгрузка данных из датафреймов
train = pd.read_csv("../dataset/train.tsv",sep='\t', header = 0)
test = pd.read_csv("../dataset/test.tsv",sep='\t', header = 0)

In [4]:
#Предобработка текстовых данных датафреймов
preprocessed_train = train.copy(deep = True)
preprocessed_train.title = train.title.apply(text_preprocessing, args=(3,))
preprocessed_train.title = preprocessed_train.title.apply(lambda x: ' '.join(x))

preprocessed_test = test.copy(deep = True)
preprocessed_test.title = test.title.apply(text_preprocessing, args=(3,))
preprocessed_test.title = preprocessed_test.title.apply(lambda x: ' '.join(x))

In [5]:
#Создание и обучение векторизатора
count_vect = CountVectorizer()
counts = count_vect.fit(preprocessed_train.title)

In [6]:
#Векторизация тренировочной выборки
counts = count_vect.transform(preprocessed_train.title)
transformer = TfidfTransformer().fit(counts)
vectorized_title = transformer.transform(counts)

In [7]:
#Векторизация тестовой выборки
counts = count_vect.transform(preprocessed_test.title)
transformer = TfidfTransformer().fit(counts)
vectorized_title_test = transformer.transform(counts)

In [8]:
#Деление на обучающую и валидационную выборки
X_train, X_test, y_train, y_test = train_test_split(vectorized_title, preprocessed_train.is_fake, test_size=0.2)

In [9]:
#Создание создание выборок для кросс-валидации
X_for_cross = vectorized_title
y_for_cross = preprocessed_train.is_fake

In [10]:
#Создание и обучение модели с нилучшими параметрами
model = BernoulliNB(alpha = 0.62837837837).fit(X_train, y_train)
#Получение предсказания
y_pred = model.predict(X_test)
f1_score(y_pred, y_test)

0.8831646734130635

In [11]:
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.92      0.87      0.90       623
           1       0.86      0.91      0.88       529

    accuracy                           0.89      1152
   macro avg       0.89      0.89      0.89      1152
weighted avg       0.89      0.89      0.89      1152



In [12]:
cross_val_score(model, X_for_cross, y_for_cross, cv=5)

array([0.87152778, 0.86892361, 0.87586806, 0.86967854, 0.86272806])

In [13]:
prediction = pd.read_csv("../dataset/test.tsv",sep='\t', header = 0)

In [14]:
#Создание тестовых X и y
X_test = vectorized_title_test
y_pred = model.predict(X_test)

In [15]:
prediction.is_fake = y_pred

In [16]:
prediction

Unnamed: 0,title,is_fake
0,Роскомнадзор представил реестр сочетаний цвето...,1
1,Ночью под Минском на президентской горе Белара...,1
2,Бывший спичрайтер Юрия Лозы рассказал о трудно...,1
3,"Сельская церковь, собравшая рекордно низкое ко...",1
4,Акции Google рухнули после объявления о переза...,0
...,...,...
995,Прокуратура заподозрила Явлинского в авторитар...,1
996,В День Победы стратегические ракетоносцы Ту-16...,1
997,СК возбудил дело против авиакомпании «Победа» ...,1
998,Криптомонетный двор Туркменистана выпустил юби...,1


In [17]:
#Загрузка получившегося фрейма в файл
prediction.to_csv("../prediction.tsv", sep = "\t", index=False)