In [5]:
import pandas as pd
import numpy as np
import openpyxl

import seaborn as sns
import matplotlib.pyplot as plt

import re
import nltk
from nltk import sent_tokenize
from nltk import word_tokenize
from nltk.corpus import stopwords
import spacy
import pymorphy2
import collections
from collections import Counter

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier

from sklearn.model_selection import GridSearchCV

from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

In [6]:
df = pd.read_excel('news_final.xlsx', sheet_name='Sheet1', header=0, engine='openpyxl')
df

Unnamed: 0,Заголовок,Текст,Истинность
0,"Офицеры, не умеющие читать, получат в подарок ...",Фонд Тотальный диктант передал Министерству об...,0
1,Отреставрированный памятник Жукову вернули на ...,Отреставрированный памятник маршалу Советского...,1
2,"ВОЗ заверила, что получать посылки из Китая бе...",Всемирная организация здравоохранения ВОЗ сооб...,1
3,Композитор из Дагестана получил престижную муз...,Композитор Махачкалы Сулейман Магомедсулеймано...,0
4,В новом дополнении для Euro Truck Simulator 2 ...,Чешский разработчик видеоигр анонсировал допол...,0
...,...,...,...
11691,Феминистка Маршенкулова обратится в полицию из...,Феминистка медиаменеджер автор канала Женская ...,1
11692,Самовольно расчищавшего дорогу тракториста обв...,Прессслужба МВД городу Ижевск сообщила аресте ...,0
11693,Сеть пекарен «Буше» стала партнером АЗС «Газпр...,Петербургская сеть пекарен Буше договорилась п...,1
11694,Сергей Скрипаль попросил сотрудников ФБК верну...,Член палаты лордов Великобритании маркиз Солсб...,0


# Классификация с помощью машинного обучения

In [7]:
y = df['Истинность']

count_vectorizer = CountVectorizer(ngram_range=(1, 2))
tf_idf_transformer = TfidfTransformer(smooth_idf=False)

count_vectorizer.fit(df['Текст'].values)
count_vect = count_vectorizer.transform(df['Текст'].values)

tf_idf_transformer.fit(count_vect)
tf_idf = tf_idf_transformer.transform(count_vect)

X_train, X_test, y_train, y_test = train_test_split(tf_idf, y, random_state=0)

In [8]:
models = [MultinomialNB(), LogisticRegression(), RandomForestClassifier(), 
          DecisionTreeClassifier(), GradientBoostingClassifier(), AdaBoostClassifier()]

for model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    pr_sc = precision_score(y_test, y_pred)
    r_sc = recall_score(y_test, y_pred)
    f1_sc = f1_score(y_test, y_pred)
    print(str(model), 'Precision Score', pr_sc)
    print(str(model), 'Recall Score', r_sc)
    print(str(model), 'F1 Score', f1_sc)

MultinomialNB() Precision Score 0.9270898805782527
MultinomialNB() Recall Score 0.9899328859060402
MultinomialNB() F1 Score 0.9574813372281727
LogisticRegression() Precision Score 0.9935437589670014
LogisticRegression() Recall Score 0.9295302013422819
LogisticRegression() F1 Score 0.9604715672676838
RandomForestClassifier() Precision Score 0.9758551307847082
RandomForestClassifier() Recall Score 0.9765100671140939
RandomForestClassifier() F1 Score 0.9761824890976182
DecisionTreeClassifier() Precision Score 0.9220430107526881
DecisionTreeClassifier() Recall Score 0.9208053691275168
DecisionTreeClassifier() F1 Score 0.9214237743451982
GradientBoostingClassifier() Precision Score 0.9768451519536903
GradientBoostingClassifier() Recall Score 0.9060402684563759
GradientBoostingClassifier() F1 Score 0.9401114206128133
AdaBoostClassifier() Precision Score 0.9585062240663901
AdaBoostClassifier() Recall Score 0.9302013422818792
AdaBoostClassifier() F1 Score 0.944141689373297
