# Аттестационное задание 6 по теме “Определение фальшивых новостей с использованием NLP” состоит из следующих задач: (разработано РУКОН)

## Определение требований и целей системы

Система, которую разрабатываем, предназначена для анализа текстов новостей и определения их достоверности. Это важная задача, учитывая растущую проблему фальшивых новостей в современном мире. Фальшивые новости могут искажать общественное мнение, влиять на политические процессы и вызывать социальные напряжения. Поэтому создание эффективной системы для борьбы с фальшивыми новостями является важной задачей.

Цель системы - обеспечить точное и быстрое определение достоверности новостей. Система должна быть способна обрабатывать большие объемы данных и работать в реальном времени. Она должна быть достаточно гибкой, чтобы справляться с различными типами новостей и источниками информации.

Система должна предназначена для использования в новостных агентствах, отделах СМИ государственных и муниципальных орнагизаций, социальных сетях и других платформах, где распространяются новости. Она должна быть простой в использовании и интеграции с существующими системами.

Основные требования к системе включают:
•	Точность определения достоверности новостей.
•	Способность обрабатывать большие объемы данных.
•	Быстродействие и способность работать в реальном времени.
•	Гибкость и способность адаптироваться к различным типам новостей и источникам информации.
•	Простоту использования и интеграции с существующими системами.

Основные риски и проблемы, связанные с использованием системы:

•	Ошибки в определении достоверности новостей. Отсутствкует алгоритм, который был бы 100% точным, поэтому всегда есть риск ошибки.

•	Проблемы с обработкой больших объемов данных. Это может потребовать больших вычислительных ресурсов и привести к замедлению работы системы.

•	Возможные нарушения конфиденциальности. Система должна обеспечивать защиту личной информации и соблюдать законы о защите данных.

•	Возможность манипуляции системой. Например, злоумышленники могут попытаться "обучить" систему неправильно определять достоверность новостей.

В качестве результата этой задачи мы представим документ с подробным описанием требований и целей системы, а также возможных рисков и проблем.

## Подготовка и обработка данных для обучения модели NLP



Подготовка данных - это критически важный этап в любом проекте машинного обучения. В контексте NLP и определения фальшивых новостей, это включает в себя сбор подходящего набора данных, очистку данных от шума и аномалий, применение техник предобработки данных, таких как токенизация и лемматизация, и разделение данных на обучающую, валидационную и тестовую выборки.

Сбор данных может включать в себя поиск существующих наборов данных о фальшивых новостях или сбор данных из различных источников, таких как новостные сайты и социальные сети. Важно убедиться, что данные представляют собой баланс между фальшивыми и реальными новостями и что они отражают разнообразие тем и стилей написания.

Очистка данных может включать в себя удаление дубликатов, исправление ошибок в тексте и удаление нерелевантных частей текста, таких как заголовки и метаданные. Это помогает убедиться, что модель обучается только на релевантных данных.

Предобработка данных включает в себя токенизацию, то есть разбиение текста на отдельные слова или токены, и лемматизацию, то есть приведение слов к их базовой форме. Это помогает уменьшить размерность данных и улучшить качество модели.

Разделение данных на обучающую, валидационную и тестовую выборки помогает убедиться, что модель обучается на одних данных, настраивается на других и тестируется на третьих, независимых данных. Это помогает предотвратить переобучение и дает более надежную оценку качества модели.

**Предобработка**

In [None]:
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.model_selection import train_test_split
from nltk.corpus import stopwords

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

# Загрузка данных
data = pd.read_csv('fakenews.csv')

# Удаление строк с неопределенными значениями
data = data.dropna()

# Очистка данных от шума и аномалий
stop_words = set(stopwords.words('english'))
data['text'] = data['text'].apply(lambda x: "".join([word for word in x.split() if word not in stop_words]))

# Предобработка данных
lemmatizer = WordNetLemmatizer()
data['text'] = data['text'].apply(lambda x: x.lower())
data['text'] = data['text'].apply(lambda x: word_tokenize(x))
data['text'] = data['text'].apply(lambda x: [lemmatizer.lemmatize(word) for word in x])
data['text'] = data['text'].apply(lambda x: ''.join(x))  # Объединение токенов обратно в строки

texts = data['text'].values
labels = data['label'].values

# Преобразование меток в числовой формат
label_map = {'FAKE': 0, 'REAL': 1}
labels = np.array([label_map[label] for label in labels])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## Разработка алгоритма для анализа текста новостей и определения их достоверности

Одной из ключевых задач в области обработки естественного языка (NLP) является анализ текста и определение его достоверности. В контексте новостей это особенно важно, поскольку распространение фальшивых новостей может иметь серьезные последствия, включая искажение общественного мнения и влияние на политические процессы.

Для решения этой задачи мы можем использовать комбинацию различных методов NLP и машинного обучения. Во-первых, нам нужно преобразовать текст новостей в числовой формат, который можно использовать для обучения модели. Это можно сделать с помощью методов векторизации текста, таких как TF-IDF, Word2Vec или Doc2Vec. Эти методы преобразуют текст в векторы, которые отражают важность слов в тексте и их контекст.

В нашем случае мы выбрали Word2Vec, поскольку он учитывает контекст слов в тексте и может дать более точные результаты, чем TF-IDF, который учитывает только важность слов. Word2Vec создает векторы слов, которые расположены близко друг к другу в векторном пространстве, если они часто встречаются вместе в тексте.

После векторизации текста мы можем использовать алгоритмы машинного обучения для классификации новостей на достоверные и фальшивые. Возможные варианты включают наивный байесовский классификатор, SVM, Random Forest и Gradient Boosting. Мы выбрали Random Forest, поскольку он обычно дает хорошие результаты в задачах классификации и может обрабатывать большие объемы данных.

Random Forest работает путем создания множества деревьев решений и объединения их прогнозов. Это делает его более устойчивым к переобучению, чем отдельные деревья решений.

Для оценки качества нашей модели мы используем кросс-валидацию. Это метод, при котором данные разделяются на несколько подмножеств, и модель обучается и тестируется несколько раз, каждый раз на разных подмножествах данных. Это дает более надежную оценку качества модели, чем простое разделение на обучающую и тестовую выборки.

Для реализации нашего алгоритма мы используем Python и несколько библиотек, включая pandas для обработки данных, gensim для векторизации текста, sklearn для машинного обучения и nltk для предварительной обработки текста.

В результате мы получаем алгоритм, который может анализировать текст новостей и определять их достоверность с высокой точностью. Этот алгоритм может быть использован в новостных агентствах, социальных сетях и других платформах для борьбы с распространением фальшивых новостей.

**Алгоритм:**

In [None]:
from gensim.models import Word2Vec
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer

from keras.preprocessing.sequence import pad_sequences

# # Не получается векторизация текста с помощью Word2Vec и правильная ли она
# w2v_model = Word2Vec(texts, vector_size=100, window=5, min_count=1, workers=4)

# # Получение векторов для каждого слова в предложении и их усреднение
# def get_sentence_vector(words_list, model):
#     vector_sum = sum(model.wv[word] for word in words_list if word in model.wv.key_to_index)
#     return vector_sum / len(words_list)

# X = pd.Series(texts).apply(lambda x: get_sentence_vector(x, w2v_model))

# Преобразование текстов в числовые векторы с помощью TF-IDF
vectorizer = TfidfVectorizer(max_features=3000)
X = vectorizer.fit_transform(texts)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Обучение модели Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

## Оценка качества и эффективности системы



После подготовки данных и обучения модели следующим шагом является оценка ее качества и эффективности. Это включает в себя тестирование модели на тестовой выборке и оценку ее по различным метрикам, таким как точность, полнота и F-мера.

Тестирование модели на тестовой выборке дает нам возможность увидеть, как модель работает на новых, ранее не виденных данных. Это важно, поскольку модель, которая хорошо работает на обучающих данных, может плохо работать на новых данных, если она переобучена.

Оценка модели по различным метрикам дает нам более полное представление о ее качестве. Например, точность показывает, как часто модель правильно определяет фальшивые новости, а полнота показывает, сколько из всех фальшивых новостей модель смогла обнаружить.

In [None]:
from sklearn.metrics import accuracy_score

y_pred = rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

Accuracy: 0.7730496453900709


In [None]:
from sklearn.metrics import recall_score

y_pred = rf_model.predict(X_test)
recall = recall_score(y_test, y_pred)
print('Recall:', recall)

Recall: 0.6753246753246753


In [None]:
from sklearn.metrics import f1_score

y_pred = rf_model.predict(X_test)
f1 = f1_score(y_test, y_pred)
print('F1-score:', f1)

F1-score: 0.7647058823529411


Модель Random Forest, обученная на векторах, полученных с помощью TfidfVectorizer, показала хорошие результаты в задаче классификации текстов на тональность.

Для улучшения модели можно попробовать следующие подходы:

- Использовать другой алгоритм векторизации текста, например, Doc2Vec или BERT.

- Использовать другой классификатор, например, SVM или XGBoost.

- Попробовать увеличить количество деревьев в модели Random Forest.

- Попробовать увеличить количество признаков в модели TfidfVectorizer.

- Попробовать увеличить количество слов в каждом предложении.

- Попробовать увеличить данные модели.

- Попробовать использовать другие методы для улучшения модели, например, методы регуляризации или методы выбора признаков.

- Попробовать использовать другие данные для обучения модели, например, данные из других источников или данные с другими метками тональности.


## Интеграция системы в существующие продукты или сервисы



После того, как модель была обучена и протестирована, следующим шагом является интеграция системы в существующие продукты или сервисы. Это может включать в себя интеграцию с новостными сайтами для автоматической проверки новостей на достоверность, интеграцию с социальными сетями для обнаружения и блокировки фальшивых новостей, или интеграцию с поисковыми системами для улучшения качества результатов поиска.

Интеграция системы может принести множество преимуществ, включая улучшение качества информации, уменьшение распространения фальшивых новостей и улучшение пользовательского опыта. Однако она также может представлять сложности, такие как необходимость адаптации системы к специфическим требованиям продукта или сервиса, обеспечение масштабируемости и производительности системы, и управление вопросами конфиденциальности и безопасности данных.