In [1]:
from rss_parser import Parser
from requests import get
import pandas as pd
import os 
import json
import time
from datetime import datetime, timezone

import sqlalchemy
from sqlalchemy import create_engine, MetaData,Table, Column, Numeric, Integer, VARCHAR, text
from sqlalchemy.engine import result

# Конфигурационные настройки

## Логирование

In [2]:
# логирование
# PRJ_DIR = "" #'/home/fedorov/mypy/vk_prj/'
# if PRJ_DIR not in sys.path:
#     sys.path.insert(0, PRJ_DIR)
##########################################
# логирование
# лучше бы использовать loguru
import logging
import logging.config

# название программы - для логов
PROG_NAME = 'MY_RSS_DATA'


dictLogConfig = {
    "version":1,
    "handlers":{
        "StreamHandler":{
            "class":"logging.StreamHandler",
            "formatter":"myFormatter"
        },
        "GlobalfileHandler":{
            "class":"logging.handlers.RotatingFileHandler",
            "formatter":"myFormatter",
            "filename": f"LOG_{PROG_NAME}.LOG",
            "backupCount": 10
        },
        "fileHandlerDEBUG":{
            "class":"logging.FileHandler",
            "formatter":"myFormatter",
            "filename": f"DEBUG_{PROG_NAME}.LOG"
        },
         "fileHandlerINFO":{
            "class":"logging.FileHandler",
            "formatter":"myFormatter",
            "filename": f"LOG_{PROG_NAME}.LOG"
        },
    },
    "loggers":{
        "DEBUG":{
            "handlers":["fileHandlerDEBUG", "StreamHandler"],
            "level":"DEBUG",
        },
        "INFO":{
            "handlers":["fileHandlerINFO"],
            "level":"INFO",
        },
        "WARNING":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"WARNING",
        },
        "ERROR":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"ERROR",
        },
        "CRITICAL":{
            "handlers":["fileHandlerINFO", "GlobalfileHandler"],
            "level":"CRITICAL",
        }
    },
    "formatters":{
        "myFormatter":{
            "format":"%(asctime)s:%(name)s:%(levelname)s=>%(message)s<=%(filename)s->%(funcName)s[%(lineno)d]"
        }
    }
}
logging.config.dictConfig(dictLogConfig)


# logger = logging.getLogger("INFO."+PROG_NAME)
logger = logging.getLogger("DEBUG."+PROG_NAME)

## Глобальные переменные

In [3]:
# конфигурационные настройки
CONFIG_FILE_NAME = os.path.abspath(u'./config/rss_links.csv')
DATA_DIR_NAME = os.path.abspath(u'./data')

PGS_LGIN = 'postgres'
PGS_PSWD = 'postgres'
PGS_DB = 'postgres'
PGS_ADDR = ' 192.168.144.9' #172.17.0.1
PGS_PORT = 5440

SQL_ENGINE = create_engine(f'postgresql://{PGS_LGIN}:{PGS_PSWD}@localhost:{PGS_PORT}/{PGS_DB}')

# Чтение конфига с адресами источников РСС

In [4]:
# читаем конфиг со ссылками на источники
def read_config(CONFIG_FILE_NAME):
    """читаем конфиг со ссылками на источники
        CONFIG_FILE_NAME - имя файла с конфигом (если не в локальной директории то с путём)
    """
    df_config = pd.read_csv(CONFIG_FILE_NAME, header=None  )
    rss_urls = list(df_config[0])
    logger.debug(f'Ссылки на источники прочитаны из {CONFIG_FILE_NAME}')
    return rss_urls


# Тест
# rss_urls = read_config(CONFIG_FILE_NAME)
# rss_urls

# Подготовка первичного хранилища для данных из источников

In [5]:
def rssname_to_dirname(rss_url:str):
    """ из адреса ссылки на источник делает имя папки для хранения фидов из этого источника
        Результат: название папки с фидами источника
    """
    # rss_url = 'https://regnum.ru/rss'# 'https://ria.ru/export/rss2/archive/index.xml' #'https://lenta.ru/rss/' # rss_urls[0]
    rss_dirname = rss_url.replace(u'https://', "").replace(u"/","|") 
    # abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    return rss_dirname

    
# подготовить: проверить и если надо создать каталог под данные из источника
def rss_dir_prepare(rss_url):
    """ Проверить есть ли каталог для данного источника,
        Если нет, то создать каталог для сохранения сведений из источника .
        rss_url - ссылка на источник из конфиг-файла
    """
    # получаем имя папки с данными из ссылки на источник
    rss_dir_name = rssname_to_dirname(rss_url)# rss_url.replace(u'https://', "").replace(u"/","|")
    logger.debug(f'Проверяется папка rss_dir_name = {rss_dir_name}')
    
    # полный путь до папки с данными
    rss_full_dir_name = os.path.join(DATA_DIR_NAME , rss_dir_name ) 
    rss_abs_dir_name =  rss_full_dir_name #os.path.abspath(rss_full_dir_name)
    
    # если такой папки еще нет - то создаем
    if not os.path.exists(rss_abs_dir_name):
        os.mkdir(rss_abs_dir_name)
        logger.debug(f'Создна папка {rss_abs_dir_name}')
    
    return rss_abs_dir_name

# Тест:    
# rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
# rss_dirname = rss_dir_prepare(rss_url)

# Получение данных из источника по ссылке 

In [6]:
# получение данных из источника по ссылке rss_url 
def get_rss(url : str):
    """ получение данных из источника по ссылке rss_url 
        Результат: словарь feed
    """
    # получаем данны из источника - всю порцию,которую он отдает. Настроек по выбору времени там нет!
    xml = get(url)
    parser = Parser(xml=xml.content  ) 
    feed = parser.parse()
    logger.debug(f'Данные из {url} получены. Кол-во записей: { len( feed.dict()["feed"]) }. Код Ок: {xml.ok}')
    return feed.dict()['feed']

# Тест:
# rss_url = 'https://lenta.ru/rss/' # rss_urls[0]
# rss_feed = get_rss(rss_url)

# Сохранение полученных из истончика данных RSS в файл

In [7]:

# преобразование даты из строки в datetime с timezone
def convert_to_tz_datetime(dt : str): 
    """ преобразование даты из строки в datetime с timezone
    """
    # формат даты #'Sat, 24 Dec 2022 09:10:22 +0300'   
    fmt = "%a, %d %b %Y %H:%M:%S %z" 
    # код таймзоны
    tz = datetime.strptime('+0300', '%z').tzinfo
    
    rez = datetime.now().astimezone(tz).strptime(dt, fmt)
    logger.debug(rez.strftime(fmt) )
    return rez


# сохранение полученного и распаршенного rss в файл
def save_rss_feed(feed_dict : dict, dir_to_save :str):
    """ сохранение полученного и распаршенного rss в файл
        вх: rss_feed - словарь с новостями
            dir_to_save - путь до директории сохранения
    """
    # формирование имени файла, в который записывается порция данных rss
    # текущий таймстамп - для уникального имени файла
    now_timestamp = int(datetime.now().timestamp())
    
    # #даты первой и последней новости в порции рсс
    # pub_date_to = convert_to_tz_datetime( rss_feed[0]['publish_date'] )
    # pub_date_from = convert_to_tz_datetime( rss_feed[-1]['publish_date'] )

    # #имя файла для сохранения порции рсс
    # fmt = "%Y-%m-%d_%H-%M-%S"
    # file_name_dic = {'to':pub_date_to.strftime(fmt), 'from': pub_date_from.strftime(fmt) }
    # file_name_str = json.dumps(file_name_dic).replace(": ",'|')
    # file_name_str
    
    # сохранение полученной порции rss в директорию источника

    # полное имя файла для записи
    abs_filename = os.path.join(dir_to_save, str(now_timestamp) + '.json')
    with open(abs_filename, mode="w") as fp:
        json.dump(feed_dict , fp )
        logger.debug(f'Rss_feed записан в файл {abs_filename}')
    
    return abs_filename

# Тест:    
# rss_filename = save_rss_feed(rss_feed, rss_dirname)

# ** Загрузка данных из всех источников RSS и запись их в файлы

In [75]:
def get_all_rss_data():
    """ Получение данных из всех источников и запись их в файлы"""
    logger.info('=== Начало загрузки данных ===')
    # читаем конфиг с адресами источников РСС
    rss_urls = read_config(CONFIG_FILE_NAME)

    for url in rss_urls:

        # подготавливаем папки для хранения скачиваемых из РСС данных
        dirname = rss_dir_prepare(url)

        # получаем порцию данных по ссылке
        feed = get_rss(url)

        # сохраняем данные в заранее подготовленной папке
        rez_filename = save_rss_feed(feed, dirname)
        
    logger.info(f'=== Данные загрузили. Кол-во источников {len(rss_urls)} ===')
        

# Тест:
if "DEBUG" in logger.name:
    get_all_rss_data()

2022-12-29 08:47:57,714:DEBUG.MY_RSS_DATA:INFO=>=== Начало загрузки данных ===<=1237923244.py->get_all_rss_data[3]
2022-12-29 08:48:01,521:DEBUG.MY_RSS_DATA:DEBUG=>Ссылки на источники прочитаны из /home/fedorov/mypy/dataeng/fin-prj-01/config/rss_links.csv<=2521811037.py->read_config[8]
2022-12-29 08:48:01,547:DEBUG.MY_RSS_DATA:DEBUG=>Проверяется папка rss_dir_name = lenta.ru|rss|<=3203678254.py->rss_dir_prepare[19]
2022-12-29 08:48:09,129:DEBUG.MY_RSS_DATA:DEBUG=>Данные из https://lenta.ru/rss/ получены. Кол-во записей: 200. Код Ок: True<=4013135282.py->get_rss[10]
2022-12-29 08:48:09,242:DEBUG.MY_RSS_DATA:DEBUG=>Rss_feed записан в файл /home/fedorov/mypy/dataeng/fin-prj-01/data/lenta.ru|rss|/1672292889.json<=3615031115.py->save_rss_feed[41]
2022-12-29 08:48:09,252:DEBUG.MY_RSS_DATA:DEBUG=>Проверяется папка rss_dir_name = www.vedomosti.ru|rss|news<=3203678254.py->rss_dir_prepare[19]
2022-12-29 08:48:10,124:DEBUG.MY_RSS_DATA:DEBUG=>Данные из https://www.vedomosti.ru/rss/news получены. К

# Инициализирующая Загрузка данных из файлов в хранилище (SQL БД)

## Прочитать файл feed и сделать из него таблицу пандас

In [19]:
# прочитать из фид-файла и записать в пандас датафрейм
def feedfile_to_pandas(rss_url:str, rss_file_name:str):
    """ Читает json файл с сохраненным feed и преобразует его в таблицу пандас
        rss_url - название папки с файлами-фидами источника
        rss_file_name - имя файла с фидом
        Результат: таблица пандас
    """
    
    # формируем полное имя файла
    rss_dirname = rssname_to_dirname(rss_url) 
    rss_full_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    feed_filename = os.path.join(rss_full_dirname, rss_file_name)
    
    
    # открываем первый файл - это самый новый, т.к. сотритовка обратная
    feed=''
    with open(feed_filename, 'r') as fp:
        feed = json.load(fp)
        logger.debug(f'Прочитали содержимое файла {feed_filename}. Кол-во записей: {len(feed)}')

    # закидываем фид в пандас : колонки только те, которые нужны
    columns = ['title', 'link', 'publish_date', 'category', 'description' ] # 'description_links', 'description_images', 'enclosure', 'itunes'
    df = pd.json_normalize(feed)[columns]
    # добавляем признак источника
    df['source'] = rss_dirname
    df['publish_date'] = pd.to_datetime(df['publish_date'])
    
    logger.debug(f'Из файла {feed_filename} получили таблицу, кол-во строк {len(df)}.')
    return df

# тест feedfile_to_pandas
# rss_url = 'https://regnum.ru/rss'
# feed_filename = '1672120674.json'
# df1 = feedfile_to_pandas(rss_url, feed_filename)
# df1

## ???(SQL) Начальная инициализация: Объединить все файлы из папки источника рсс в таблицы в БД

In [10]:
# df0.to_sql('regnum.ru|rss'+'0', SQL_ENGINE, if_exists='replace')
# df1.to_sql('regnum.ru|rss'+'1', SQL_ENGINE, if_exists='replace')
# SQL_ENGINE.table_names()
# sql =  text("""
# SELECT * from "regnum.ru|rss" LIMIT 5
           
#            """)
# # results = SQL_ENGINE.execute(sql)
# # # View the records
# # for record in results:
# #     print("\n", record)



In [11]:
# def join_all_feedfiles_to_SQL(rss_url: str):
#     """" Взять все файлы с фидами в папке рсс и объединить их, убрав повторения, записав в основное хранилище SQL
#         Результат: готовая начальная SQL-таблица
#     """
#     # подготавливаем имя папки для чтения скачанных из РСС данных - отдельных файлов
#     rss_dirname = rssname_to_dirname(rss_url) #rss_url.replace(u'https://', "").replace(u"/","|") # rss_dir_prepare(rss_url)
#     abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    
#     # получаем список сохраненных файлов
#     list_dir = [ fn for fn in sorted( os.listdir(abs_rss_dirname), reverse=True) if '.json' in fn]
#     logger.debug(f'Прочитали директорию {abs_rss_dirname}. Кол-во файлов: {len(list_dir)}. Список: {list_dir}')
    
    
#     #подготовка таблицы в БД
#     engine = 
    
#     for rf in list_dir:
#         # получаем датафрейм пандас для файла
#         df = feedfile_to_pandas(rss_url, rf)
        
#         #для отладки инфо: превая и последняя запись датафрефма
#         str_fst = df.iloc[0,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
#         str_lst = df.iloc[-1,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
#         logger.debug(f'Таблица для файла:{rf}, строк:{len(df)}, нач.:{str_fst}, кон.:{str_lst}')
#         # объединяем полученное с имеющимся 
#         # if df_rez.empty:
#         #     df_rez = df
#         #     logger.debug(f'Начальная инициализация пустой таблицы')
#         df_rez = pd.concat([df_rez, df], ignore_index=True )
        
#         df.to_sql(,SQL_ENGINE)
        
        
    
    
#     logger.debug(f'Сформировали сводную таблицу для файлов в {abs_rss_dirname}. Кол-во строк: {len(df_rez)}')
#     df_rez.drop_duplicates(ignore_index=True, inplace=True)
#     logger.debug(f'После удаления дубликатов: кол-во строк: {len(df_rez)}')
    
#     return df_rez

## 1. (Pandas) Начальная инициализация: Объединить все файлы из папки источника рсс и записать результат в хранилище

In [20]:
def join_all_feedfiles_pandas_sql(rss_url: str):
    """ взять все файлы с фидами в папке рсс, объединить их, убрав повторения и приготовить к записи в хранилище (?БД)
        Результат: таблица пандас с уникальными записями из всех файлов в папке источника
    """
    # подготавливаем имя папки для чтения скачанных из РСС данных - отдельных файлов
    rss_dirname = rssname_to_dirname(rss_url) #rss_url.replace(u'https://', "").replace(u"/","|") # rss_dir_prepare(rss_url)
    abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)
    
    # получаем список сохраненных файлов
    list_dir = [ fn for fn in sorted( os.listdir(abs_rss_dirname), reverse=True) if '.json' in fn]
    logger.debug(f'Прочитали директорию {abs_rss_dirname}. Кол-во файлов: {len(list_dir)}. Список: {list_dir}')
    
    df_rez = pd.DataFrame()
    
    for rf in list_dir:
        # получаем датафрейм пандас для файла
        df = feedfile_to_pandas(rss_url, rf)
        #дату из строки делаем датой
        # df['publish_date'] = pd.to_datetime(df['publish_date'])
        
        #для отладки инфо: превая и последняя запись датафрефма
        str_fst = df.iloc[0,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
        str_lst = df.iloc[-1,:][['publish_date', 'title']].to_string().replace('  ',"").replace('publish_date',"").replace('\ntitle',"")[:50]
        logger.debug(f'Таблица для файла:{rf}, строк:{len(df)}, нач.:{str_fst}, кон.:{str_lst}')
        # объединяем полученное с имеющимся 
        if df_rez.empty:
            df_rez = df
            logger.debug(f'Начальная инициализация пустой таблицы')
        df_rez = pd.concat([df_rez, df], ignore_index=True )
    
    logger.debug(f'Сформировали сводную таблицу для файлов в {abs_rss_dirname}. Кол-во строк: {len(df_rez)}')
    df_rez.drop_duplicates(ignore_index=True, inplace=True)
    logger.debug(f'После удаления дубликатов: кол-во строк: {len(df_rez)}')
    
    # добавляем результат в БД
    df_rez.to_sql(rss_dirname, SQL_ENGINE, if_exists='replace')
    logger.debug(f'Добавлено в БД в таблицу: {rss_dirname}')
    
    return df_rez

# # тест
# rss_url = 'https://regnum.ru/rss'#
# df_rez = join_all_feedfiles_pandas_sql(rss_url)
    
    

## Загрузка данных из всех файлов всех папок источников RSS в SQL через pandas

In [13]:
def load_all_feeddirs_to_sql():
    """ Загрузка всех данных из папок источников в SQL , через объединение их в pandas"""
    # читаем конфиг с адресами источников РСС
    rss_urls = read_config(CONFIG_FILE_NAME)

    for url in rss_urls:

        # группируем все в один датафрейм и записываем его в SQL
        join_all_feedfiles_pandas_sql(url)


if "DEBUG" in logger.name:
    # можно сначала загрузить свежую порцию фидов 
    # get_all_rss_data()
    # а потом закинуть все в БД
    load_all_feeddirs_to_sql()

2022-12-28 16:36:10,355:DEBUG.MY_RSS_DATA:DEBUG=>Ссылки на источники прочитаны из /home/fedorov/mypy/dataeng/fin-prj-01/config/rss_links.csv<=2521811037.py->read_config[8]
2022-12-28 16:36:10,357:DEBUG.MY_RSS_DATA:DEBUG=>Прочитали директорию /home/fedorov/mypy/dataeng/fin-prj-01/data/lenta.ru|rss|. Кол-во файлов: 21. Список: ['1672234565.json', '1672233321.json', '1672233308.json', '1672218907.json', '1672204509.json', '1672190134.json', '1672175708.json', '1672169407.json', '1672169124.json', '1672168439.json', '1672168284.json', '1672167685.json', '1672159532.json', '1672159374.json', '1672148150.json', '1672126337.json', '1672120671.json', '1672082924.json', '1672080989.json', '1672080885.json', '1672080849.json']<=1177758707.py->join_all_feedfiles_pandas_sql[11]
2022-12-28 16:36:10,364:DEBUG.MY_RSS_DATA:DEBUG=>Прочитали содержимое файла /home/fedorov/mypy/dataeng/fin-prj-01/data/lenta.ru|rss|/1672234565.json. Кол-во записей: 200<=1367093449.py->feedfile_to_pandas[19]
2022-12-28 16:

## 2. ? Тест: Взять самый свежий файл и следующий за ним файл и объединить, убрав повторения

In [14]:
# def join_two_feeds(rss_url:str, rss_file_name1:str, rss_file_name2:str):
#     """ Сливает два фида, представленных таблицами пандас, в один , удаляя повторения
#     """
    
#     df1 = feedfile_to_pandas(rss_url, rss_file_name1)
#     df2 = feedfile_to_pandas(rss_url, rss_file_name2)
#     df_rez = pd.concat([df1, df2] )#,ignore_index=True
#     df_rez.drop_duplicates(inplace=True)
    
#     return df_rez

In [21]:
# тест: работа с дубликатами - как попроще их убрать
def test_two_df_and_duplicates():
    """ тестирование работы с дубликатами при объединении двух порций данных"""
    rss_url = 'https://regnum.ru/rss'# 'https://ria.ru/export/rss2/archive/index.xml' #'https://lenta.ru/rss/' # rss_urls[0]
    rss_dirname = rssname_to_dirname(rss_url) #rss_url.replace(u'https://', "").replace(u"/","|") # rss_dir_prepare(rss_url)
    abs_rss_dirname = os.path.join(DATA_DIR_NAME, rss_dirname)

    # получаем список сохраненных файлов
    list_dir = [ fn for fn in sorted( os.listdir(abs_rss_dirname), reverse=True) if '.json' in fn]
    logger.debug(f'Прочитали директорию {abs_rss_dirname}. Файлов: {len(list_dir)}. Список: {list_dir}')

    #самый свежий файл
    file0 = list_dir[0]
    df0 = feedfile_to_pandas(rss_url, file0)
    # открываем следующий файл - это файл чуть старее,чем первый
    file1 = list_dir[1]
    df1 = feedfile_to_pandas(rss_url, file1)

    df0.iloc[0:5,:]

    df1.iloc[0:5,:]
    
    # dfx = df0.merge(df1, on=['title', 'link', 'publish_date', 'category', 'description', 'source' ], how='right', indicator= True ).dropna()
    # dfx[dfx._merge == 'right_only' ]

    # df_rez = pd.concat([df0, df1] )#,ignore_index=True
    # df_rez

    # df_rez.drop_duplicates()
    
    return df0, df1


df0, df1 = test_two_df_and_duplicates()

2022-12-28 16:44:48,381:DEBUG.MY_RSS_DATA:DEBUG=>Прочитали директорию /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss. Файлов: 20. Список: ['1672234568.json', '1672233324.json', '1672233311.json', '1672218910.json', '1672204512.json', '1672175711.json', '1672169410.json', '1672169127.json', '1672168442.json', '1672168288.json', '1672167687.json', '1672159535.json', '1672159377.json', '1672148236.json', '1672126340.json', '1672120674.json', '1672082928.json', '1672080992.json', '1672080888.json', '1672080854.json']<=1614431670.py->test_two_df_and_duplicates[10]
2022-12-28 16:44:48,391:DEBUG.MY_RSS_DATA:DEBUG=>Прочитали содержимое файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672234568.json. Кол-во записей: 100<=455974995.py->feedfile_to_pandas[19]
2022-12-28 16:44:48,415:DEBUG.MY_RSS_DATA:DEBUG=>Из файла /home/fedorov/mypy/dataeng/fin-prj-01/data/regnum.ru|rss/1672234568.json получили таблицу, кол-во строк 100.<=455974995.py->feedfile_to_pandas[28]
2022-12-28 

In [52]:
print(len(df0))
dff0=df0.set_index('link').sort_values('publish_date', ascending=False)#.iloc[5:15,:]
dff0

100


Unnamed: 0_level_0,title,publish_date,category,description,source
link,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
https://regnum.ru/news/3765555.html,Опрос: четверть жителей Австрии уверены в завт...,2022-12-28 13:30:23+00:00,В мире,\nЛишь четверть жителей Австрии уверены в завт...,regnum.ru|rss
https://regnum.ru/news/3765554.html,"Немецкий депутат обвинила тех, кто посылает на...",2022-12-28 13:26:00+00:00,В мире,"\nНакачивая Украину оружием, невозможно достиг...",regnum.ru|rss
https://regnum.ru/news/3765551.html,МИД России объявил персоной нон грата сотрудни...,2022-12-28 13:20:00+00:00,Политика,\nМИД России объявил 28 декабря сотрудника пос...,regnum.ru|rss
https://regnum.ru/news/3765544.html,Главный синоптик Петербурга: новогодняя ночь б...,2022-12-28 13:19:00+00:00,Общество,\nВ предстоящую новогоднюю ночь температура во...,regnum.ru|rss
https://regnum.ru/news/3765552.html,СЦКК: Киевские боевики обстреляли Петровский р...,2022-12-28 13:19:00+00:00,В России,\nВооруженные силы Украины 28 декабря обстреля...,regnum.ru|rss
...,...,...,...,...,...
https://regnum.ru/news/3765333.html,Власти штата Нью-Йорк в судебном порядке будут...,2022-12-28 00:03:00+00:00,Общество,\nГубернатор штата Нью-Йорк Кэти Хокул заявила...,regnum.ru|rss
https://regnum.ru/news/3765331.html,В пострадавшем от стихии американском Буффало ...,2022-12-27 23:29:00+00:00,В мире,\nМэр Буффало Байрон Браун резко осудил случаи...,regnum.ru|rss
https://regnum.ru/news/3765317.html,Власти Украины форсируют эвакуацию местных жит...,2022-12-27 21:11:00+00:00,В России,\nКиевский режим поможет эвакуироваться из Хер...,regnum.ru|rss
https://regnum.ru/news/3765277.html,Киевские боевики обстреляли четыре населенных ...,2022-12-27 16:11:00+00:00,В России,\nВооруженные силы Украины обстреляли четыре н...,regnum.ru|rss


In [53]:
print(len(df1))
dff1=df1.set_index('link').sort_values('publish_date', ascending=False)#.iloc[0:5,:]
dff1

100


Unnamed: 0_level_0,title,publish_date,category,description,source
link,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
https://regnum.ru/news/3765549.html,Михаил Мишустин поблагодарил парламент РФ за к...,2022-12-28 13:11:35+00:00,Политика,\nГлава правительства Российской Федерации Мих...,regnum.ru|rss
https://regnum.ru/news/3765548.html,Мишустин заявил о росте в ряде отраслей россий...,2022-12-28 13:11:00+00:00,Экономика,\nВ целом ряде отраслей российской экономики н...,regnum.ru|rss
https://regnum.ru/news/3765545.html,Расстрелявший людей в университете в Перми Бек...,2022-12-28 13:10:58+00:00,Общество,\nСуд в Перми признал виновным Тимура Бекмансу...,regnum.ru|rss
https://regnum.ru/news/3765547.html,На Украине заявляют о взрывах в Кривом Роге,2022-12-28 13:10:08+00:00,В мире,\nО взрывах в городе Кривой Рог Днепропетровск...,regnum.ru|rss
https://regnum.ru/news/3765546.html,Минкульт Украины не рекомендовал продлевать ар...,2022-12-28 13:07:00+00:00,Общество,\nВ минкульте Украины отказались продлевать ар...,regnum.ru|rss
...,...,...,...,...,...
https://regnum.ru/news/3765328.html,"На юге Испании полиция перехватила парусник, н...",2022-12-27 22:18:00+00:00,В мире,"\nБританский парусник, на борту которого наход...",regnum.ru|rss
https://regnum.ru/news/3765317.html,Власти Украины форсируют эвакуацию местных жит...,2022-12-27 21:11:00+00:00,В России,\nКиевский режим поможет эвакуироваться из Хер...,regnum.ru|rss
https://regnum.ru/news/3765277.html,Киевские боевики обстреляли четыре населенных ...,2022-12-27 16:11:00+00:00,В России,\nВооруженные силы Украины обстреляли четыре н...,regnum.ru|rss
https://regnum.ru/news/3764912.html,"Правозащитник из США Барака заявил, что Украин...",2022-12-26 14:29:00+00:00,Общество,"\nИз-за того, что Соединённые Штаты превратили...",regnum.ru|rss


In [74]:
# dff_rez= ""
dff_rez= pd.concat([dff0, dff1], verify_integrity=False)

print(len(dff_rez))
print( dff_rez.title.nunique() )
dff_rez.drop_duplicates()

# dff_rez = dff0.join(dff1, on=['title', 'publish_date', 'category', 'description', 'source'], lsuffix=".l")
# dff_rez.columns

200
107


Unnamed: 0_level_0,title,publish_date,category,description,source
link,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
https://regnum.ru/news/3765555.html,Опрос: четверть жителей Австрии уверены в завт...,2022-12-28 13:30:23+00:00,В мире,\nЛишь четверть жителей Австрии уверены в завт...,regnum.ru|rss
https://regnum.ru/news/3765554.html,"Немецкий депутат обвинила тех, кто посылает на...",2022-12-28 13:26:00+00:00,В мире,"\nНакачивая Украину оружием, невозможно достиг...",regnum.ru|rss
https://regnum.ru/news/3765551.html,МИД России объявил персоной нон грата сотрудни...,2022-12-28 13:20:00+00:00,Политика,\nМИД России объявил 28 декабря сотрудника пос...,regnum.ru|rss
https://regnum.ru/news/3765544.html,Главный синоптик Петербурга: новогодняя ночь б...,2022-12-28 13:19:00+00:00,Общество,\nВ предстоящую новогоднюю ночь температура во...,regnum.ru|rss
https://regnum.ru/news/3765552.html,СЦКК: Киевские боевики обстреляли Петровский р...,2022-12-28 13:19:00+00:00,В России,\nВооруженные силы Украины 28 декабря обстреля...,regnum.ru|rss
...,...,...,...,...,...
https://regnum.ru/news/3765465.html,Мантуров пообещал прокатить детей на танке и м...,2022-12-28 10:05:00+00:00,Политика,\nВо Всероссийской благотворительной акции «Ёл...,regnum.ru|rss
https://regnum.ru/news/3765463.html,Хуснуллин заявил о рекордном показателе ввода ...,2022-12-28 09:58:00+00:00,Общество,\nВ России строители достигли рекордных показа...,regnum.ru|rss
https://regnum.ru/news/3765398.html,МИД РФ: IT-структуры России успешно справляютс...,2022-12-28 07:27:00+00:00,Политика,\nЗаместитель главы Министерства иностранных д...,regnum.ru|rss
https://regnum.ru/news/3765328.html,"На юге Испании полиция перехватила парусник, н...",2022-12-27 22:18:00+00:00,В мире,"\nБританский парусник, на борту которого наход...",regnum.ru|rss


# Инкрементальная загрузка данных из RSS

In [16]:
""" Вариант1:
    Скачать порцию данных
    Преобразовать ее в пандас
    Получить самую свежую запись из БД
    Определить в таблице пандас записи более новые, чем самая свежая из БД
    Дописать полученные записи в БД
"""

' Вариант1:\n    Скачать порцию данных\n    Преобразовать ее в пандас\n    Получить самую свежую запись из БД\n    Определить в таблице пандас записи более новые, чем самая свежая из БД\n    Дописать полученные записи в БД\n'

# Группировка тематических рубрик

## Тематическое моделирование