In [1]:
from rss_parser import Parser
from requests import get
import pandas as pd
import os 
import json
import time
from datetime import datetime, timezone

# Конфигурационные настройки

In [2]:
# логирование
# PRJ_DIR = "" #'/home/fedorov/mypy/vk_prj/'
# if PRJ_DIR not in sys.path:
#     sys.path.insert(0, PRJ_DIR)
##########################################
# логирование
import logging
import logging.config
dictLogConfig = {
    "version":1,
    "handlers":{
        "StreamHandler":{
            "class":"logging.StreamHandler",
            "formatter":"myFormatter"
        },
        "GlobalfileHandler":{
            "class":"logging.handlers.RotatingFileHandler",
            "formatter":"myFormatter",
            "filename": "LOG_.LOG",
            "backupCount": 10
        },
        "fileHandlerDEBUG":{
            "class":"logging.FileHandler",
            "formatter":"myFormatter",
            "filename": "DEBUG.LOG"
        },
         "fileHandlerINFO":{
            "class":"logging.FileHandler",
            "formatter":"myFormatter",
            "filename": "LOG_.LOG"
        },
    },
    "loggers":{
        "DEBUG":{
            "handlers":["fileHandlerDEBUG", "StreamHandler"],
            "level":"DEBUG",
        },
        "INFO":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"INFO",
        },
        "WARNING":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"WARNING",
        },
        "ERROR":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"ERROR",
        },
        "CRITICAL":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"CRITICAL",
        }
    },
    "formatters":{
        "myFormatter":{
            "format":"%(asctime)s:%(name)s:%(levelname)s=>%(message)s<=%(filename)s->%(funcName)s[%(lineno)d]"
        }
    }
}
logging.config.dictConfig(dictLogConfig)


PROG_NAME = 'GET_RSS_DATA'
# logger = logging.getLogger("INFO."+PROG_NAME)
# logger = logging.getLogger("INFO."+PROG_NAME)
logger = logging.getLogger("DEBUG."+PROG_NAME)

In [42]:
# конфигурационные настройки
CONFIG_FILE_NAME = os.path.abspath(u'./config/rss_links.csv')
DATA_DIR_NAME = os.path.abspath(u'./data')

# Чтение конфига с адресами источников РСС

In [4]:
# читаем конфиг со ссылками на источники
def read_config(CONFIG_FILE_NAME):
    """читаем конфиг со ссылками на источники
        CONFIG_FILE_NAME - имя файла с конфигом (если не в локальной директории то с путём)
    """
    df_config = pd.read_csv(CONFIG_FILE_NAME, header=None  )
    rss_urls = list(df_config[0])
    logger.debug(f'Ссылки на источники прочитаны из {CONFIG_FILE_NAME}')
    return rss_urls


# rss_urls = read_config(CONFIG_FILE_NAME)
# rss_urls

# Подготовка первичного хранилища для данных из источников

In [39]:
def rssname_to_dirname(rss_url:str):
    """ из адреса ссылки на источник делает имя папки для хранения фидов из этого источника
        Результат: название папки с фидами источника
    """
    # rss_url = 'https://regnum.ru/rss'# 'https://ria.ru/export/rss2/archive/index.xml' #'https://lenta.ru/rss/' # rss_urls[0]
    rss_dirname = rss_url.replace(u'https://', "").replace(u"/","|") 
    # abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    return rss_dirname

    
# подготовить: проверить и если надо создать каталог под данные из источника
def rss_dir_prepare(rss_url):
    """ Проверить есть ли каталог для данного источника,
        Если нет, то создать каталог для сохранения сведений из источника .
        rss_url - ссылка на источник из конфиг-файла
    """
    # получаем имя папки с данными из ссылки на источник
    rss_dir_name = rssname_to_dirname(rss_url)# rss_url.replace(u'https://', "").replace(u"/","|")
    logger.debug(f'Проверяется папка rss_dir_name = {rss_dir_name}')
    
    # полный путь до папки с данными
    rss_full_dir_name = os.path.join(DATA_DIR_NAME , rss_dir_name ) 
    rss_abs_dir_name =  rss_full_dir_name #os.path.abspath(rss_full_dir_name)
    
    # если такой папки еще нет - то создаем
    if not os.path.exists(rss_abs_dir_name):
        os.mkdir(rss_abs_dir_name)
        logger.debug(f'Создна папка {rss_abs_dir_name}')
    
    return rss_abs_dir_name

    
# rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
# rss_dirname = rss_dir_prepare(rss_url)

# Получение данных из источника по ссылке 

In [6]:
# получение данных из источника по ссылке rss_url 
def get_rss(url : str):
    """ получение данных из источника по ссылке rss_url 
        Результат: словарь feed
    """
    # получаем данны из источника - всю порцию,которую он отдает. Настроек по выбору времени там нет!
    xml = get(url)
    parser = Parser(xml=xml.content  ) 
    feed = parser.parse()
    logger.debug(f'Данные из {url} получены. Кол-во записей: { len( feed.dict()["feed"]) }. Код Ок: {xml.ok}')
    return feed.dict()['feed']

# rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
# rss_feed = get_rss(rss_url)

# Сохранение полученных из истончика данных в файл

In [7]:

# преобразование даты из строки в datetime с timezone
def convert_to_tz_datetime(dt : str): 
    """ преобразование даты из строки в datetime с timezone
    """
    # формат даты #'Sat, 24 Dec 2022 09:10:22 +0300'   
    fmt = "%a, %d %b %Y %H:%M:%S %z" 
    # код таймзоны
    tz = datetime.strptime('+0300', '%z').tzinfo
    
    rez = datetime.now().astimezone(tz).strptime(dt, fmt)
    logger.debug(rez.strftime(fmt) )
    return rez


# сохранение полученного и распаршенного rss в файл
def save_rss_feed(feed_dict : dict, dir_to_save :str):
    """ сохранение полученного и распаршенного rss в файл
        вх: rss_feed - словарь с новостями
            dir_to_save - путь до директории сохранения
    """
    # формирование имени файла, в который записывается порция данных rss
    # текущий таймстамп - для уникального имени файла
    now_timestamp = int(datetime.now().timestamp())
    
    # #даты первой и последней новости в порции рсс
    # pub_date_to = convert_to_tz_datetime( rss_feed[0]['publish_date'] )
    # pub_date_from = convert_to_tz_datetime( rss_feed[-1]['publish_date'] )

    # #имя файла для сохранения порции рсс
    # fmt = "%Y-%m-%d_%H-%M-%S"
    # file_name_dic = {'to':pub_date_to.strftime(fmt), 'from': pub_date_from.strftime(fmt) }
    # file_name_str = json.dumps(file_name_dic).replace(": ",'|')
    # file_name_str
    
    # сохранение полученной порции rss в директорию источника

    # полное имя файла для записи
    abs_filename = os.path.join(dir_to_save, str(now_timestamp) + '.json')
    with open(abs_filename, mode="w") as fp:
        json.dump(feed_dict , fp )
        logger.debug(f'Rss_feed записан в файл {abs_filename}')
    
    return abs_filename

        
# rss_filename = save_rss_feed(rss_feed, rss_dirname)

# Тест 1: один источник

In [8]:
def get_one_rss_data():
    # читаем конфиг с адресами источников РСС
    rss_urls = read_config(CONFIG_FILE_NAME)

    # подготавливаем папки для хранения скачиваемых из РСС данных
    rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
    rss_dirname = rss_dir_prepare(rss_url)

    # получаем порцию данных по ссылке
    # rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
    rss_feed = get_rss(rss_url)

    # сохраняем данные в заранее подготовленной папке
    rss_filename = save_rss_feed(rss_feed, rss_dirname)

# Тест 2: циклический перебор всех источников RSS

In [50]:
def get_all_rss_data():
    """ Получение данных из всех источников """
    # читаем конфиг с адресами источников РСС
    rss_urls = read_config(CONFIG_FILE_NAME)

    for url in rss_urls:

        # подготавливаем папки для хранения скачиваемых из РСС данных
        dirname = rss_dir_prepare(url)

        # получаем порцию данных по ссылке
        feed = get_rss(url)

        # сохраняем данные в заранее подготовленной папке
        rez_filename = save_rss_feed(feed, dirname)


if "DEBUG" in logger.name:
    get_all_rss_data()

2022-12-27 10:32:16,652:DEBUG.GET_RSS_DATA:DEBUG=>Ссылки на источники прочитаны из /home/fedorov/mypy/dataeng/fin-prj-01/config/rss_links.csv<=3992747886.py->read_config[8]
2022-12-27 10:32:16,733:DEBUG.GET_RSS_DATA:DEBUG=>Проверяется папка rss_dir_name = lenta.ru|rss|<=1236541857.py->rss_dir_prepare[19]
2022-12-27 10:32:17,822:DEBUG.GET_RSS_DATA:DEBUG=>Данные из https://lenta.ru/rss/ получены. Кол-во записей: 200. Код Ок: True<=1369716965.py->get_rss[10]
2022-12-27 10:32:17,869:DEBUG.GET_RSS_DATA:DEBUG=>Rss_feed записан в файл /home/fedorov/mypy/dataeng/fin-prj-01/data/lenta.ru|rss|/1672126337.json<=767735444.py->save_rss_feed[41]
2022-12-27 10:32:17,870:DEBUG.GET_RSS_DATA:DEBUG=>Проверяется папка rss_dir_name = www.vedomosti.ru|rss|news<=1236541857.py->rss_dir_prepare[19]
2022-12-27 10:32:18,364:DEBUG.GET_RSS_DATA:DEBUG=>Данные из https://www.vedomosti.ru/rss/news получены. Кол-во записей: 200. Код Ок: True<=1369716965.py->get_rss[10]
2022-12-27 10:32:18,398:DEBUG.GET_RSS_DATA:DEBUG=

# Инициализирующая Загрузка данных из файлов в хранилище (БД)

## 1. Прочитать файл и сделать из него таблицу пандас

In [136]:
# прочитать из фид-файла и записать в пандас датафрейм
def feedfile_to_pandas(rss_url:str, rss_file_name:str):
    """ Читает json файл с сохраненным feed и преобразует его в таблицу пандас
        rss_url - название папки с файлами-фидами источника
        rss_file_name - имя файла с фидом
        Результат: таблица пандас
    """
    
    # формируем полное имя файла
    rss_dirname = rssname_to_dirname(rss_url) 
    rss_full_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    feed_filename = os.path.join(rss_full_dirname, rss_file_name)
    
    
    # открываем первый файл - это самый новый, т.к. сотритовка обратная
    feed=''
    with open(feed_filename, 'r') as fp:
        feed = json.load(fp)
        logger.debug(f'Прочитали содержимое файла {feed_filename}. Кол-во записей: {len(feed)}')

    # закидываем фид в пандас : колонки только те, которые нужны
    columns = ['title', 'link', 'publish_date', 'category', 'description' ] # 'description_links', 'description_images', 'enclosure', 'itunes'
    df = pd.json_normalize(feed)[columns]
    # добавляем признак источника
    df['source'] = rss_dirname
    
    logger.debug(f'Из файла {feed_filename} получили таблицу, кол-во строк {len(df)}.')
    return df

# тест feedfile_to_pandas
# rss_url = 'https://regnum.ru/rss'
# feed_filename = '1672120674.json'
# df1 = feedfile_to_pandas(rss_url, feed_filename)
# df1

## 1. Начальная инициализация: Объединить все файлы в папке источника рсс и записать в хранилище

In [131]:
s = df1.iloc[-1,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
s


'Mon, 26 Dec 2022 17:48:00 GMT Саакашвили выдвинул '

In [141]:
def join_all_feedfiles(rss_url: str):
    """ взять все файлы с фидами в папке рсс, объединить их, убрав повторения и приготовить к записи в хранилище (?БД)
    """
    # подготавливаем имя папки для чтения скачанных из РСС данных - отдельных файлов
    rss_dirname = rssname_to_dirname(rss_url) #rss_url.replace(u'https://', "").replace(u"/","|") # rss_dir_prepare(rss_url)
    abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    
    # получаем список сохраненных файлов
    list_dir = [ fn for fn in sorted( os.listdir(abs_rss_dirname), reverse=True) if '.json' in fn]
    logger.debug(f'Прочитали директорию {abs_rss_dirname}. Кол-во файлов: {len(list_dir)}. Список: {list_dir}')
    
    df_rez = pd.DataFrame()
    
    for rf in list_dir:
        # получаем датафрейм пандас для файла
        df = feedfile_to_pandas(rss_url, rf)
        
        #для отладки инфо: превая и последняя запись датафрефма
        str_fst = df.iloc[0,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
        str_lst = df.iloc[-1,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
        logger.debug(f'Таблица для файла:{rf}, строк:{len(df)}, нач.:{str_fst}, кон.:{str_lst}')
        # объединяем полученное с имеющимся 
        if df_rez.empty:
            df_rez = df
            logger.debug(f'Начальная инициализация пустой таблицы')
        df_rez = pd.concat([df_rez, df], ignore_index=True )
        
        
    
    
    logger.debug(f'Сформировали сводную таблицу для файлов в {abs_rss_dirname}. Кол-во строк: {len(df_rez)}')
    df_rez.drop_duplicates(ignore_index=True, inplace=True)
    logger.debug(f'После удаления дубликатов: кол-во строк: {len(df_rez)}')
    
    return df_rez


# тест
rss_url = 'https://regnum.ru/rss'#
df_rez = join_all_feedfiles(rss_url)
    
    

2022-12-27 12:18:31,559:DEBUG.GET_RSS_DATA:DEBUG=>Прочитали директорию /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss. Кол-во файлов: 6. Список: ['1672126340.json', '1672120674.json', '1672082928.json', '1672080992.json', '1672080888.json', '1672080854.json']<=939642958.py->join_all_feedfiles[10]
2022-12-27 12:18:31,568:DEBUG.GET_RSS_DATA:DEBUG=>Прочитали содержимое файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672126340.json. Кол-во записей: 100<=1367093449.py->feedfile_to_pandas[19]
2022-12-27 12:18:31,574:DEBUG.GET_RSS_DATA:DEBUG=>Из файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672126340.json получили таблицу, кол-во строк 100.<=1367093449.py->feedfile_to_pandas[27]
2022-12-27 12:18:31,577:DEBUG.GET_RSS_DATA:DEBUG=>Таблица для файла:1672126340.json, строк:100, нач.:Tue, 27 Dec 2022 07:26:00 GMT В Макеевке задержаны, кон.:Mon, 26 Dec 2022 14:14:00 GMT Жительницу Екатеринб<=939642958.py->join_all_feedfiles[21]
2022-12-27 12:18:31,578:DEBU

In [142]:
df_rez

Unnamed: 0,title,link,publish_date,category,description,source
0,В Макеевке задержаны подозреваемые в убийстве ...,https://regnum.ru/news/3765068.html,"Tue, 27 Dec 2022 07:26:00 GMT",Общество,\nПравоохранительные органы задержали подозрев...,regnum.ru|rss
1,В Хабаровском крае зарегистрировали два леталь...,https://regnum.ru/news/3765070.html,"Tue, 27 Dec 2022 07:27:00 GMT",В России,\nНа территории Хабаровского края медиками зар...,regnum.ru|rss
2,Глава Каталонии надеется на прогресс в вопросе...,https://regnum.ru/news/3765067.html,"Tue, 27 Dec 2022 07:25:00 GMT",Политика,\nГлава правительства Каталонии Пере Арагонес ...,regnum.ru|rss
3,Два человека погибли в результате ДТП в Липецк...,https://regnum.ru/news/3765069.html,"Tue, 27 Dec 2022 07:26:00 GMT",Происшествия,\nВ результате дорожно-транспортного происшест...,regnum.ru|rss
4,FT: республиканцы в Конгрессе не могут договор...,https://regnum.ru/news/3765065.html,"Tue, 27 Dec 2022 07:15:00 GMT",Политика,\nВ вопросе о продолжении предоставления помощ...,regnum.ru|rss
...,...,...,...,...,...,...
208,Глава правительства Мордовии ушел в отставку,https://regnum.ru/news/3764910.html,"Mon, 26 Dec 2022 14:18:00 GMT",Политика,\nПредседатель правительства республики Мордов...,regnum.ru|rss
209,Зимняя буря в США унесла жизни 50 человек,https://regnum.ru/news/3764906.html,"Mon, 26 Dec 2022 14:13:00 GMT",Происшествия,\nК утру понедельник как минимум 50 человек по...,regnum.ru|rss
210,"Киевские нацисты обстреляли Донецк, Гольмовски...",https://regnum.ru/news/3764900.html,"Mon, 26 Dec 2022 14:05:00 GMT",Политика,\nВооружённые формирования киевского режима об...,regnum.ru|rss
211,Дело о дискредитации ВС возбуждено против дире...,https://regnum.ru/news/3764880.html,"Mon, 26 Dec 2022 13:18:00 GMT",Общество,\nВ отношении директора музея истории Екатерин...,regnum.ru|rss


## 2. Взять самый свежий файл и следующий за ним файл и объединить, убрав повторения

In [None]:
def join_two_feeds(rss_url:str, rss_file_name1:str, rss_file_name2:str):
    """ Сливает два фида, представленных таблицами пандас, в один , удаляя повторения
    """
    
    df1 = feedfile_to_pandas(rss_url, rss_file_name1)
    df2 = feedfile_to_pandas(rss_url, rss_file_name2)
    df_rez = pd.concat([df1, df2] )#,ignore_index=True
    df_rez.drop_duplicates(inplace=True)
    
    return df_rez
    

In [51]:
# подготавливаем папки для хранения скачиваемых из РСС данных
rss_url = 'https://regnum.ru/rss'# 'https://ria.ru/export/rss2/archive/index.xml' #'https://lenta.ru/rss/' # rss_urls[0]
rss_dirname = rssname_to_dirname(rss_url) #rss_url.replace(u'https://', "").replace(u"/","|") # rss_dir_prepare(rss_url)
abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)

# получаем список сохраненных файлов
list_dir = [ fn for fn in sorted( os.listdir(abs_rss_dirname), reverse=True) if '.json' in fn]
logger.debug(f'Прочитали директорию {abs_rss_dirname}. Файлов: {len(list_dir)}. Список: {list_dir}')

#самый свежий файл
file0 = list_dir[0]
df0 = feedfile_to_pandas(rss_url, file0)
# открываем следующий файл - это файл чуть старее,чем первый
file1 = list_dir[1]
df1 = feedfile_to_pandas(rss_url, file1)

2022-12-27 10:34:49,462:DEBUG.GET_RSS_DATA:DEBUG=>Прочитали директорию /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss. Файлов: 6. Список: ['1672126340.json', '1672120674.json', '1672082928.json', '1672080992.json', '1672080888.json', '1672080854.json']<=2318389086.py-><module>[8]
2022-12-27 10:34:49,468:DEBUG.GET_RSS_DATA:DEBUG=>Прочитали содержимое файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672126340.json. Кол-во записей: 100<=2985732640.py->feedfile_to_pandas[19]
2022-12-27 10:34:49,568:DEBUG.GET_RSS_DATA:DEBUG=>Из файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672126340.json получили таблицу, кол-во строк 100.<=2985732640.py->feedfile_to_pandas[27]
2022-12-27 10:34:49,589:DEBUG.GET_RSS_DATA:DEBUG=>Прочитали содержимое файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672120674.json. Кол-во записей: 100<=2985732640.py->feedfile_to_pandas[19]
2022-12-27 10:34:49,593:DEBUG.GET_RSS_DATA:DEBUG=>Из файла /home/fedorov/mypy/data

In [82]:
df0.iloc[0:5,:]

Unnamed: 0,title,link,publish_date,category,description,source
0,В Макеевке задержаны подозреваемые в убийстве ...,https://regnum.ru/news/3765068.html,"Tue, 27 Dec 2022 07:26:00 GMT",Общество,\nПравоохранительные органы задержали подозрев...,regnum.ru|rss
1,В Хабаровском крае зарегистрировали два леталь...,https://regnum.ru/news/3765070.html,"Tue, 27 Dec 2022 07:27:00 GMT",В России,\nНа территории Хабаровского края медиками зар...,regnum.ru|rss
2,Глава Каталонии надеется на прогресс в вопросе...,https://regnum.ru/news/3765067.html,"Tue, 27 Dec 2022 07:25:00 GMT",Политика,\nГлава правительства Каталонии Пере Арагонес ...,regnum.ru|rss
3,Два человека погибли в результате ДТП в Липецк...,https://regnum.ru/news/3765069.html,"Tue, 27 Dec 2022 07:26:00 GMT",Происшествия,\nВ результате дорожно-транспортного происшест...,regnum.ru|rss
4,FT: республиканцы в Конгрессе не могут договор...,https://regnum.ru/news/3765065.html,"Tue, 27 Dec 2022 07:15:00 GMT",Политика,\nВ вопросе о продолжении предоставления помощ...,regnum.ru|rss


In [83]:
df1.iloc[0:5,:]

Unnamed: 0,title,link,publish_date,category,description,source
0,GT: РФ показывает силу для долгосрочного проти...,https://regnum.ru/news/3765043.html,"Tue, 27 Dec 2022 05:48:00 GMT",Политика,\nСилу для долгосрочного противостояния киевск...,regnum.ru|rss
1,Апелляционный суд увеличил штраф экс-гендирект...,https://regnum.ru/news/3765044.html,"Tue, 27 Dec 2022 05:50:02 GMT",Происшествия,\nРешение об увеличении размера штрафа экс-сов...,regnum.ru|rss
2,Лавров назвал целью НАТО уничтожение России «н...,https://regnum.ru/news/3765042.html,"Tue, 27 Dec 2022 05:46:00 GMT",Политика,\nПобеду над Россией на поле боя назвал целью ...,regnum.ru|rss
3,После атаки беспилотников КНДР глава Южной Кор...,https://regnum.ru/news/3765040.html,"Tue, 27 Dec 2022 05:35:00 GMT",Политика,\nПодготовка южнокорейской армии недостаточна:...,regnum.ru|rss
4,В Сети появились кадры уничтожения ТОС «Солнце...,https://regnum.ru/news/3765041.html,"Tue, 27 Dec 2022 05:35:00 GMT",Политика,\nВидеозапись уничтожения российской тяжёлой о...,regnum.ru|rss


In [78]:
dfx = df0.merge(df1, on=['title', 'link', 'publish_date', 'category', 'description', 'source' ], how='right', indicator= True ).dropna()
dfx[dfx._merge == 'right_only' ]

Unnamed: 0,title,link,publish_date,category,description,source,_merge
0,GT: РФ показывает силу для долгосрочного проти...,https://regnum.ru/news/3765043.html,"Tue, 27 Dec 2022 05:48:00 GMT",Политика,\nСилу для долгосрочного противостояния киевск...,regnum.ru|rss,right_only
1,Апелляционный суд увеличил штраф экс-гендирект...,https://regnum.ru/news/3765044.html,"Tue, 27 Dec 2022 05:50:02 GMT",Происшествия,\nРешение об увеличении размера штрафа экс-сов...,regnum.ru|rss,right_only
2,Лавров назвал целью НАТО уничтожение России «н...,https://regnum.ru/news/3765042.html,"Tue, 27 Dec 2022 05:46:00 GMT",Политика,\nПобеду над Россией на поле боя назвал целью ...,regnum.ru|rss,right_only
21,Женщина-офицер помогла уничтожить танки и брон...,https://regnum.ru/news/3765026.html,"Tue, 27 Dec 2022 04:01:00 GMT",В России,\nБлагодаря профессиональным действиям гвардии...,regnum.ru|rss,right_only
28,Супруга вернувшегося из американской тюрьмы Бу...,https://regnum.ru/news/3765027.html,"Tue, 27 Dec 2022 03:55:50 GMT",В России,\nРезультаты медицинского обследования Виктора...,regnum.ru|rss,right_only
30,Экс-премьер Италии Берлускони заявил о «слабой...,https://regnum.ru/news/3765025.html,"Tue, 27 Dec 2022 03:31:33 GMT",Политика,\nЗапуск переговоров о мире на Украине считает...,regnum.ru|rss,right_only
32,"Чиновника, обвиняемого в получении взяток при ...",https://regnum.ru/news/3765019.html,"Tue, 27 Dec 2022 03:13:43 GMT",В мире,\nБывший член организационного комитета Токийс...,regnum.ru|rss,right_only
73,Глава правительства Мордовии ушел в отставку,https://regnum.ru/news/3764910.html,"Mon, 26 Dec 2022 14:18:00 GMT",Политика,\nПредседатель правительства Республики Мордов...,regnum.ru|rss,right_only
74,AFP: во Франции двое главных обвиняемых по дел...,https://regnum.ru/news/3764916.html,"Mon, 26 Dec 2022 14:35:00 GMT",Происшествия,"\nДвое мужчин, приговоренных к 18 годам лишени...",regnum.ru|rss,right_only
75,FIFA не станет отстранять Россию от участия на...,https://regnum.ru/news/3764919.html,"Mon, 26 Dec 2022 14:46:00 GMT",Спорт,\nМеждународная федерация футбола (FIFA) не ст...,regnum.ru|rss,right_only


In [54]:
df_rez = pd.concat([df0, df1] )#,ignore_index=True
df_rez

Unnamed: 0,title,link,publish_date,category,description,source
0,В Макеевке задержаны подозреваемые в убийстве ...,https://regnum.ru/news/3765068.html,"Tue, 27 Dec 2022 07:26:00 GMT",Общество,\nПравоохранительные органы задержали подозрев...,regnum.ru|rss
1,В Хабаровском крае зарегистрировали два леталь...,https://regnum.ru/news/3765070.html,"Tue, 27 Dec 2022 07:27:00 GMT",В России,\nНа территории Хабаровского края медиками зар...,regnum.ru|rss
2,Глава Каталонии надеется на прогресс в вопросе...,https://regnum.ru/news/3765067.html,"Tue, 27 Dec 2022 07:25:00 GMT",Политика,\nГлава правительства Каталонии Пере Арагонес ...,regnum.ru|rss
3,Два человека погибли в результате ДТП в Липецк...,https://regnum.ru/news/3765069.html,"Tue, 27 Dec 2022 07:26:00 GMT",Происшествия,\nВ результате дорожно-транспортного происшест...,regnum.ru|rss
4,FT: республиканцы в Конгрессе не могут договор...,https://regnum.ru/news/3765065.html,"Tue, 27 Dec 2022 07:15:00 GMT",Политика,\nВ вопросе о продолжении предоставления помощ...,regnum.ru|rss
...,...,...,...,...,...,...
95,Украина с 1 января повысит тариф на прокачку р...,https://regnum.ru/news/3764964.html,"Mon, 26 Dec 2022 17:41:00 GMT",Экономика,\nУкраина поднимет цену на прокачку российской...,regnum.ru|rss
96,МИД Грузии отреагировал на обвинение в непредо...,https://regnum.ru/news/3764961.html,"Mon, 26 Dec 2022 17:46:00 GMT",Политика,\nМинистерство иностранных дел Грузии опроверг...,regnum.ru|rss
97,В результате снежной бури в США погибли 55 чел...,https://regnum.ru/news/3764966.html,"Mon, 26 Dec 2022 18:00:00 GMT",Происшествия,"\nСнежная буря, разыгравшаяся в 12 штатах США,...",regnum.ru|rss
98,В Росавиации опровергли сообщения об обысках у...,https://regnum.ru/news/3764931.html,"Mon, 26 Dec 2022 15:22:00 GMT",Общество,\nСотрудник управления цифровой трансформации ...,regnum.ru|rss


In [55]:
df_rez.drop_duplicates()

Unnamed: 0,title,link,publish_date,category,description,source
0,В Макеевке задержаны подозреваемые в убийстве ...,https://regnum.ru/news/3765068.html,"Tue, 27 Dec 2022 07:26:00 GMT",Общество,\nПравоохранительные органы задержали подозрев...,regnum.ru|rss
1,В Хабаровском крае зарегистрировали два леталь...,https://regnum.ru/news/3765070.html,"Tue, 27 Dec 2022 07:27:00 GMT",В России,\nНа территории Хабаровского края медиками зар...,regnum.ru|rss
2,Глава Каталонии надеется на прогресс в вопросе...,https://regnum.ru/news/3765067.html,"Tue, 27 Dec 2022 07:25:00 GMT",Политика,\nГлава правительства Каталонии Пере Арагонес ...,regnum.ru|rss
3,Два человека погибли в результате ДТП в Липецк...,https://regnum.ru/news/3765069.html,"Tue, 27 Dec 2022 07:26:00 GMT",Происшествия,\nВ результате дорожно-транспортного происшест...,regnum.ru|rss
4,FT: республиканцы в Конгрессе не могут договор...,https://regnum.ru/news/3765065.html,"Tue, 27 Dec 2022 07:15:00 GMT",Политика,\nВ вопросе о продолжении предоставления помощ...,regnum.ru|rss
...,...,...,...,...,...,...
95,Украина с 1 января повысит тариф на прокачку р...,https://regnum.ru/news/3764964.html,"Mon, 26 Dec 2022 17:41:00 GMT",Экономика,\nУкраина поднимет цену на прокачку российской...,regnum.ru|rss
96,МИД Грузии отреагировал на обвинение в непредо...,https://regnum.ru/news/3764961.html,"Mon, 26 Dec 2022 17:46:00 GMT",Политика,\nМинистерство иностранных дел Грузии опроверг...,regnum.ru|rss
97,В результате снежной бури в США погибли 55 чел...,https://regnum.ru/news/3764966.html,"Mon, 26 Dec 2022 18:00:00 GMT",Происшествия,"\nСнежная буря, разыгравшаяся в 12 штатах США,...",regnum.ru|rss
98,В Росавиации опровергли сообщения об обысках у...,https://regnum.ru/news/3764931.html,"Mon, 26 Dec 2022 15:22:00 GMT",Общество,\nСотрудник управления цифровой трансформации ...,regnum.ru|rss
