**Импорт библиотек**

In [10]:
import pandas as pd
import string
import pymorphy2

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from nltk.tokenize import TreebankWordTokenizer
from nltk.corpus import stopwords

**Задание основных объектов/переменных**

In [11]:
dirt_data = pd.read_csv('train.tsv', sep='\t', header=0) #Ввод данных для обучения
dirt_data_prediction = pd.read_csv('predictions.tsv', sep='\t', header=0) #ввод данных для обработки
stop = stopwords.words("russian") #стоп-слова для их исключения
morph = pymorphy2.MorphAnalyzer(lang='ru') #объект морфологического разбора для русских слов

**Основные функции**

In [12]:
def punctuation_remove(text):
    '''Функция принимает строку и возвращает строку. Убирает все знаки стандартные знаки пунктуации из нее'''
    chars = string.punctuation
    chars += '«»' #не входят в punctuation
    all_list = [char for char in text if char not in chars]
    clean_str = ''.join(all_list)
    return clean_str

def clean_data_frame(_data_frame):  
    """Функция принимает датафрейм(который обязательно включает в себя поле ['title']) в качестве аргумента и возвращает значение измененного датафрейма.
    Преобразует начальный список данных в преобразованный для анализа"""
    _data_frame['title'] = _data_frame['title'].apply(lambda x: x.lower())
    _data_frame['title'] = _data_frame['title'].apply(punctuation_remove)
    _data_frame['title'] = _data_frame['title'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))
    _data_frame['title'] = _data_frame['title'].apply(lambda x: TreebankWordTokenizer().tokenize(x))
    _data_frame['title'] = _data_frame['title'].apply(lambda x: [morph.parse(str(item))[0][2] for item in x])
    _data_frame['title'] = _data_frame['title'].apply(lambda x: ' '.join(x))
    return _data_frame


**Обучение модели**

In [13]:
pipe = Pipeline([('vect', CountVectorizer()),
                 ('tfidf', TfidfTransformer()),
                 ('model', LogisticRegression())])

clear_data = clean_data_frame(dirt_data)

model = pipe.fit(clear_data['title'], clear_data['is_fake'])

**Предсказание**

In [14]:
data_prediction = clean_data_frame(dirt_data_prediction)
result_prediction = model.predict(data_prediction['title'])

**Объединение данных**

In [15]:
dirt_data_prediction = pd.read_csv('predictions.tsv', sep='\t', header=0)
finish_data = pd.concat([dirt_data_prediction['title'], pd.DataFrame(result_prediction)], axis=1)
finish_data.rename(columns = {0: "is_fake"}, inplace = True)
finish_data

Unnamed: 0,title,is_fake
0,Роскомнадзор представил реестр сочетаний цвето...,1
1,Ночью под Минском на президентской горе Белара...,1
2,Бывший спичрайтер Юрия Лозы рассказал о трудно...,1
3,"Сельская церковь, собравшая рекордно низкое ко...",1
4,Акции Google рухнули после объявления о переза...,0
...,...,...
995,Прокуратура заподозрила Явлинского в авторитар...,1
996,В День Победы стратегические ракетоносцы Ту-16...,1
997,СК возбудил дело против авиакомпании «Победа» ...,1
998,Криптомонетный двор Туркменистана выпустил юби...,1


**Вывод результата в файл**

In [8]:
finish_data.to_csv('predictions.tsv',sep='\t', index=False)