# Очистка датасета

In [82]:
import os
import pandas as pd

In [83]:
DATASET_PATH = "../datasets"

news_path = os.path.join(DATASET_PATH, "neftegaz.ru_news_list.csv")
oil_price_path = os.path.join(DATASET_PATH, "brent_oil_historical_data.csv")

In [84]:
news_df = pd.read_csv(news_path, parse_dates=['datetime'])

# Преобразуем столбец к типу datetime
news_df['datetime'] = pd.to_datetime(news_df['datetime'], utc=True)
# Оставляем только дату
news_df['date'] = news_df['datetime'].dt.date

news_df

Unnamed: 0,link,datetime,headline,description,articleBody,date
0,https://neftegaz.ru/news/finance/831520-npz-da...,2024-04-27 13:08:01+00:00,PetroChina почти месяц не могла выгрузить парт...,"А. Данготе хотел больше прибыли, покупая нефть...",Китайская государственная энергетическая компа...,2024-04-27
1,https://neftegaz.ru/news/finance/831527-tseny-...,2024-04-27 09:01:23+00:00,Цены на нефть выросли по итогам предыдущей сес...,За минувшую неделю цена Brent увеличилась на 2...,Цены на нефть завершили неделю в плюсе.\n\n26 ...,2024-04-27
2,https://neftegaz.ru/news/transport-and-storage...,2024-04-26 13:31:27+00:00,Индия вновь принимает нефть из России на танке...,"Владимир Тихонов, принадлежащий Совкомфлоту, н...","Нефтеналивной танкер, который принадлежит нахо...",2024-04-26
3,https://neftegaz.ru/news/transport-and-storage...,2024-04-26 11:35:11+00:00,Чехия в 2025 г. будет получать нефть из 20 гос...,"С 2025 г. по трубопроводу TAL в Чехию, будет п...",Чехия в 2025 г. после расширения мощностей тра...,2024-04-26
4,https://neftegaz.ru/news/finance/831359-neft-d...,2024-04-26 09:01:07+00:00,Нефть дорожает и завершает неделю в плюсе,"За неделю Brent подорожала на 2,4%, WTI - на 0...",Цены на нефть растут.\n\n25 апреля 2024 г. сто...,2024-04-26
...,...,...,...,...,...,...
10023,https://neftegaz.ru/news/companies/217214-ukrn...,2016-08-30 14:29:15+00:00,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,2016-08-30
10024,https://neftegaz.ru/news/politics/217216-korab...,2016-08-30 13:58:24+00:00,Корабли Тихоокеанского флота провели артиллери...,Корабельная группа Тихоокеанского флота в сост...,Корабельная группа Тихоокеанского флота в сост...,2016-08-30
10025,https://neftegaz.ru/news/dobycha/217217-bp-ost...,2016-08-30 13:37:21+00:00,BP остановит работу добывающей платформы на бл...,BP в сентябре 2016 г остановит работу платформ...,BP в сентябре 2016 г остановит работу платформ...,2016-08-30
10026,https://neftegaz.ru/news/neftechim/217219-na-n...,2016-08-30 13:11:23+00:00,На НПЗ Petromidia после пожара решили провести...,Нефтеперерабатывающий завод Petromidia в Румын...,Нефтеперерабатывающий завод Petromidia в Румын...,2016-08-30


In [85]:
oil_price_df = pd.read_csv(oil_price_path, parse_dates=['Date'])
# Преобразуем столбец к типу datetime
oil_price_df['date'] = pd.to_datetime(oil_price_df['Date']).dt.date

oil_price_df

Unnamed: 0,Date,Close/Last,Open,High,Low,date
0,2024-04-30,87.86,88.32,88.71,87.47,2024-04-30
1,2024-04-29,88.40,89.25,89.30,88.10,2024-04-29
2,2024-04-26,89.50,89.21,89.83,88.80,2024-04-26
3,2024-04-25,89.01,88.11,89.26,87.29,2024-04-25
4,2024-04-24,88.02,88.46,88.80,87.65,2024-04-24
...,...,...,...,...,...,...
2527,2014-05-07,108.13,107.21,108.22,106.98,2014-05-07
2528,2014-05-06,107.06,107.56,108.20,106.98,2014-05-06
2529,2014-05-05,107.72,108.69,108.88,107.05,2014-05-05
2530,2014-05-02,108.59,107.68,108.93,107.68,2014-05-02


### Объединяем два файла

In [86]:
# Делаем merge двух DataFrame
df = news_df.merge(oil_price_df, on=['date'], how='left')

# Удаляем неиспользуемые колонки
df = df.drop(['link', 'Date', 'datetime'], axis=1)

# Переименовываем столбцы
df = df.rename(columns={'articleBody': 'article',
                        'Close/Last': 'close',
                        'Open': 'open',
                        'High': 'high',
                        'Low': 'low'})

# Перемещаем столбец 'column_to_move' в начало DataFrame
column_to_move = df.pop('date')
df.insert(0, 'date', column_to_move)

df

Unnamed: 0,date,headline,description,article,close,open,high,low
0,2024-04-27,PetroChina почти месяц не могла выгрузить парт...,"А. Данготе хотел больше прибыли, покупая нефть...",Китайская государственная энергетическая компа...,,,,
1,2024-04-27,Цены на нефть выросли по итогам предыдущей сес...,За минувшую неделю цена Brent увеличилась на 2...,Цены на нефть завершили неделю в плюсе.\n\n26 ...,,,,
2,2024-04-26,Индия вновь принимает нефть из России на танке...,"Владимир Тихонов, принадлежащий Совкомфлоту, н...","Нефтеналивной танкер, который принадлежит нахо...",89.50,89.21,89.83,88.80
3,2024-04-26,Чехия в 2025 г. будет получать нефть из 20 гос...,"С 2025 г. по трубопроводу TAL в Чехию, будет п...",Чехия в 2025 г. после расширения мощностей тра...,89.50,89.21,89.83,88.80
4,2024-04-26,Нефть дорожает и завершает неделю в плюсе,"За неделю Brent подорожала на 2,4%, WTI - на 0...",Цены на нефть растут.\n\n25 апреля 2024 г. сто...,89.50,89.21,89.83,88.80
...,...,...,...,...,...,...,...,...
10023,2016-08-30,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,46.89,49.30,49.76,48.26
10024,2016-08-30,Корабли Тихоокеанского флота провели артиллери...,Корабельная группа Тихоокеанского флота в сост...,Корабельная группа Тихоокеанского флота в сост...,46.89,49.30,49.76,48.26
10025,2016-08-30,BP остановит работу добывающей платформы на бл...,BP в сентябре 2016 г остановит работу платформ...,BP в сентябре 2016 г остановит работу платформ...,46.89,49.30,49.76,48.26
10026,2016-08-30,На НПЗ Petromidia после пожара решили провести...,Нефтеперерабатывающий завод Petromidia в Румын...,Нефтеперерабатывающий завод Petromidia в Румын...,46.89,49.30,49.76,48.26


### Заполняем новости неторговых дней котировками предыдущих дней

In [87]:
fill_df = df
cols = ['open','high','low','close']
fill_df[cols] = fill_df[cols].fillna(method='bfill')
fill_df

  fill_df[cols] = fill_df[cols].fillna(method='bfill')


Unnamed: 0,date,headline,description,article,close,open,high,low
0,2024-04-27,PetroChina почти месяц не могла выгрузить парт...,"А. Данготе хотел больше прибыли, покупая нефть...",Китайская государственная энергетическая компа...,89.50,89.21,89.83,88.80
1,2024-04-27,Цены на нефть выросли по итогам предыдущей сес...,За минувшую неделю цена Brent увеличилась на 2...,Цены на нефть завершили неделю в плюсе.\n\n26 ...,89.50,89.21,89.83,88.80
2,2024-04-26,Индия вновь принимает нефть из России на танке...,"Владимир Тихонов, принадлежащий Совкомфлоту, н...","Нефтеналивной танкер, который принадлежит нахо...",89.50,89.21,89.83,88.80
3,2024-04-26,Чехия в 2025 г. будет получать нефть из 20 гос...,"С 2025 г. по трубопроводу TAL в Чехию, будет п...",Чехия в 2025 г. после расширения мощностей тра...,89.50,89.21,89.83,88.80
4,2024-04-26,Нефть дорожает и завершает неделю в плюсе,"За неделю Brent подорожала на 2,4%, WTI - на 0...",Цены на нефть растут.\n\n25 апреля 2024 г. сто...,89.50,89.21,89.83,88.80
...,...,...,...,...,...,...,...,...
10023,2016-08-30,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,Укрнафта может приостановить добычу нефти и га...,46.89,49.30,49.76,48.26
10024,2016-08-30,Корабли Тихоокеанского флота провели артиллери...,Корабельная группа Тихоокеанского флота в сост...,Корабельная группа Тихоокеанского флота в сост...,46.89,49.30,49.76,48.26
10025,2016-08-30,BP остановит работу добывающей платформы на бл...,BP в сентябре 2016 г остановит работу платформ...,BP в сентябре 2016 г остановит работу платформ...,46.89,49.30,49.76,48.26
10026,2016-08-30,На НПЗ Petromidia после пожара решили провести...,Нефтеперерабатывающий завод Petromidia в Румын...,Нефтеперерабатывающий завод Petromidia в Румын...,46.89,49.30,49.76,48.26


In [88]:
fill_df.to_csv(os.path.join(DATASET_PATH, "neftegaz.ru_news_list_price.csv"), index=False)