In [218]:
import random
import pandas as pd

# Шаблоны новостей с фразами
templates = {
    "экономика": [
        "Центральный банк объявил о {0} ключевой ставки, что может {1} на курс рубля.",
        "Уровень инфляции {0} до {1}, что вызывает {2} среди инвесторов.",
        "Экономика показала {0} на {1}% в первом квартале, благодаря {2}.",
        "Бюджетный дефицит {0} благодаря {1}, что {2}."
    ],
    "политика": [
        "США объявили о {0} санкциях против России, что {1} на курс рубля.",
        "Президент России подписал новое экономическое соглашение с {0}, что {1} на экономику.",
        "В стране прошли выборы, результаты которых могут {0} на курс валюты, вызывая {1}.",
        "Правительство объявило о новых мерах {0} экономики, что может {1} на курс рубля."
    ],
    "товары": [
        "Цены на нефть достигли {0} за последние два года, что {1} для энергетического сектора.",
        "Снижение цен на газ повлияло на {0} энергетических компаний, вызывая {1}.",
        "Экспорт нефти {0} на 5% в прошлом месяце, что {1} на экономику.",
        "Запасы золота в Центральном банке достигли {0} уровней, что может {1} на курс рубля."
    ],
    "события": [
        "Пандемия продолжает {0} на экономику, вызывая {1} среди населения.",
        "Сильное землетрясение нарушило {0} ключевых товаров, что {1} на экономику.",
        "Произошла авария на крупном нефтеперерабатывающем заводе, что {0} на производство нефти.",
        "В результате стихийного бедствия многие предприятия {0}, что {1} на экономику."
    ]
}

# Словарь для заполнения шаблонов
fillers = {
    "экономика": [
        ("повышении", "сильно повлиять", "позитивные ожидания"),
        ("снижении", "незначительно отразиться", "негативные ожидания"),
        ("осталась стабильной", "поддержать", "спокойствие"),
        ("повысился", "3%", "рост интереса"),
        ("снизился", "2%", "опасения"),
        ("сократился", "увеличение налоговых поступлений", "позитивно сказалось"),
        ("увеличился", "инвестиции в инфраструктуру", "поддержка бизнеса")
    ],
    "политика": [
        ("новых", "негативно отразиться", "беспокойство"),
        ("отмене", "позитивно сказаться", "оптимизм"),
        ("Китаем", "улучшение торговых отношений", "укрепление связей"),
        ("Европейским союзом", "расширение сотрудничества", "новые возможности"),
        ("повлиять", "беспокойство", "нервозность"),
        ("поддержки", "укрепить доверие", "уверенность"),
        ("стимулирования", "усилить рост", "позитивный эффект")
    ],
    "товары": [
        ("нового максимума", "позитивный сигнал", "рост"),
        ("снижения", "отрицательное воздействие", "падение"),
        ("доходы", "неуверенность", "нестабильность"),
        ("увеличился", "рост экономики", "позитивный эффект"),
        ("рекордных", "повлиять", "новые рекорды")
    ],
    "события": [
        ("оказывать давление", "неопределенность", "волнение"),
        ("поставки", "негативный эффект", "перебои"),
        ("остановлены", "снижение производства", "замедление"),
        ("прекратили работу", "серьезные последствия", "убытки")
    ]
}

#Ключевые слова для определения изменения курса
down_keywords = ["санкции", "кризис", "пандемия", "авария", "конфликт", "неуверенность", "негативный", "негативно"]
up_keywords = ["соглашение", "рост", "увеличение", "инвестиции", "сотрудничество", "позитивный", "позитивно"]

# Функция для генерации новости на основе темы
def generate_news(topic):
    template = random.choice(templates[topic])
    filler = random.choice(fillers[topic])
    news = template.format(*filler)
    return news

# Функция для определения изменения курса рубля
def determine_target(news):
    if any(keyword in news for keyword in down_keywords):
        return 0
    elif any(keyword in news for keyword in up_keywords):
        return 1
    else:
        return random.choice([1, 0])

# Генерация данных
def generate_news_data(num_samples):
    news_list = []
    targets = []

    for _ in range(num_samples):
        topic = random.choice(list(templates.keys()))
        news = generate_news(topic)
        target = determine_target(news)

        news_list.append(f"Новость про {topic}: {news}")
        targets.append(target)

    return pd.DataFrame({"news": news_list, "target": targets})


num_samples = 500
news_data = generate_news_data(num_samples)

news_data.head(10)

Unnamed: 0,news,target
0,"Новость про политика: В стране прошли выборы, ...",1
1,Новость про события: Произошла авария на крупн...,0
2,Новость про экономика: Бюджетный дефицит увели...,1
3,Новость про события: В результате стихийного б...,1
4,Новость про политика: Правительство объявило о...,1
5,Новость про экономика: Уровень инфляции снижен...,0
6,Новость про экономика: Уровень инфляции снижен...,0
7,Новость про события: Произошла авария на крупн...,0
8,Новость про экономика: Уровень инфляции повыси...,1
9,Новость про события: Пандемия продолжает оказы...,1


In [219]:
#Кол-во уникальных значений
news = news_data['news']

set_news = set(news)
print(len(set_news))

92


In [220]:
#Удаление дубликатов
news_data = news_data.drop_duplicates(subset=['news'])
news_data

Unnamed: 0,news,target
0,"Новость про политика: В стране прошли выборы, ...",1
1,Новость про события: Произошла авария на крупн...,0
2,Новость про экономика: Бюджетный дефицит увели...,1
3,Новость про события: В результате стихийного б...,1
4,Новость про политика: Правительство объявило о...,1
...,...,...
312,Новость про политика: Президент России подписа...,1
344,Новость про политика: США объявили о Европейск...,1
355,Новость про экономика: Бюджетный дефицит сокра...,1
359,Новость про политика: Правительство объявило о...,1


In [221]:
#Баланс классов
news_data['target'].value_counts()

target
1    58
0    34
Name: count, dtype: int64

In [222]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report


vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(news_data['news'])
print(X.shape)
y = news_data['target'].astype(int)

# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

(92, 164)


In [223]:
# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Предсказание на тестовом наборе
y_pred_test = model.predict(X_test)

# Оценка модели
accuracy_test = accuracy_score(y_test, y_pred_test)

In [224]:
# Предсказание на обучающем наборе
y_pred_train = model.predict(X_train)

# Оценка модели
accuracy_train = accuracy_score(y_train, y_pred_train)

In [225]:
print(f"Accuracy train: {accuracy_train}")
print(f"Accuracy test: {accuracy_test}")

Accuracy train: 0.7808219178082192
Accuracy test: 0.7368421052631579


In [226]:
data_sample = news_data.sample(10, random_state=7)
sample_X = vectorizer.transform(data_sample['news'])
sample_predict = model.predict(sample_X)
data_sample['predict'] = sample_predict

data_sample

Unnamed: 0,news,target,predict
21,Новость про экономика: Бюджетный дефицит сниже...,1,0
25,Новость про политика: Правительство объявило о...,1,1
203,Новость про политика: Президент России подписа...,1,1
92,Новость про экономика: Бюджетный дефицит повыш...,0,1
49,Новость про экономика: Уровень инфляции остала...,0,0
16,Новость про события: Сильное землетрясение нар...,0,0
180,Новость про экономика: Экономика показала сокр...,1,1
62,Новость про политика: Правительство объявило о...,1,1
122,Новость про экономика: Экономика показала повы...,1,1
104,Новость про экономика: Центральный банк объяви...,0,1
