<a href="https://colab.research.google.com/github/mukaseevru/sberbank_data_analysis_06_07_21/blob/master/hw6/parser.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Подключение библиотек

In [None]:
# Загрузка необходимых модулей
import numpy as np
import pandas as pd
import datetime as dt
import requests
import re
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry
from time import sleep
from bs4 import BeautifulSoup

# Настройки

In [None]:
# Таймаут в секундах, если ошибка соединения
timeout = 1
# Debug mode
debug = True
# Настройки по сайтам
sites = {}
# Включить рассылку
sites['send'] = True
# banki.ru
sites['banki'] = {}
sites['banki']['on'] = True
sites['banki']['first_page'] = 1
sites['banki']['last_page'] = 50
sites['banki']['send'] = True
# vtb.ru
sites['vtb'] = {}
sites['vtb']['on'] = True
sites['vtb']['first_page'] = 1
sites['vtb']['last_page'] = 10
sites['vtb']['send'] = True
# alfabank.ru
sites['alfa'] = {}
sites['alfa']['on'] = True
sites['alfa']['first_page'] = 2021
sites['alfa']['last_page'] = 2022
sites['alfa']['send'] = True

In [None]:
sites

{'alfa': {'first_page': 2021, 'last_page': 2022, 'on': True, 'send': True},
 'banki': {'first_page': 1, 'last_page': 50, 'on': True, 'send': True},
 'send': True,
 'vtb': {'first_page': 1, 'last_page': 10, 'on': True, 'send': True}}

# Определение функций

In [None]:
def load_page(url):
    '''
    Функция загрузки веб страницы
    '''
    count = 0
    while True:
        try:
            with requests.Session() as session:
                session.headers['Connection'] = 'keep-alive'
                session.headers['Cache-Control'] = 'max-age=0'
                session.headers['Upgrade-Insecure-Requests'] = '1'
                session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36 OPR/40.0.2308.81'
                session.headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
                session.headers['DNT'] = '1'
                session.headers['Accept-Encoding'] = 'gzip, deflate, lzma, sdch'
                session.headers['Accept-Language'] = 'ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4'
                retry = Retry(connect=3, backoff_factor=0.5)
                adapter = HTTPAdapter(max_retries=retry)
                session.mount('http://', adapter)
                session.mount('https://', adapter)
                session.proxies = {
                    # 'http': '185.198.189.21:8080',
                    # 'https': '185.198.189.21:8080'
                }
                response = session.get(url)
            if response.status_code != 200:
                # log.info("Ошибка, код ответа: %s", response.status)
                print('Ошибка, код ответа: %s', response.status_code)
                sleep(timeout)
                count += 1
                if count > 5:
                    return (-1)
                # Попробуем снова на следующей итерации цикла
                continue
            # Если дошли до сюда, значит ошибок не было
            return response
        except ConnectionError:
            # Выводим свое сообщение плюс стек трассы
            # log.exception("Ошибка ConnectionError")
            print('Ошибка ConnectionError')
            sleep(timeout)


def remove_emojis(text):
    '''
    Функция очистки текста от эмоджи
    '''
    emoj = re.compile("["
                      u"\U0001F600-\U0001F64F"  # emoticons
                      u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                      u"\U0001F680-\U0001F6FF"  # transport & map symbols
                      u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                      u"\U00002500-\U00002BEF"  # chinese char
                      u"\U00002702-\U000027B0"
                      u"\U00002702-\U000027B0"
                      u"\U000024C2-\U0001F251"
                      u"\U0001f926-\U0001f937"
                      u"\U00010000-\U0010ffff"
                      u"\u2640-\u2642"
                      u"\u2600-\u2B55"
                      u"\u200d"
                      u"\u23cf"
                      u"\u23e9"
                      u"\u231a"
                      u"\ufe0f"  # dingbats
                      u"\u3030"
                      "]+", re.UNICODE)
    return re.sub(emoj, ' ', text)


def clean_text(text):
    '''
    Функция очистки текста от спецсимволов
    '''
    if pd.isnull(text):
        return np.nan
    text = remove_emojis(text)
    text = text.replace('\n', ' ')\
        .replace('\r', ' ')\
        .replace('\t', ' ')\
        .replace('\u200b', ' ')\
        .replace('•', ' ')\
        .replace('<', ' ')\
        .replace('>', ' ')\
        .strip()
    while '  ' in text:
        text = text.replace('  ', ' ')
    return text

# banki.ru

## Загрузка имеющихся данных

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
os.getcwd()

'/content'

Чтобы каждый раз не выгружать все новости заново, загрузим уже скачанный ранее датасет

In [None]:
# скачать можно здесь: https://drive.google.com/file/d/1qRgl3SQ-DcFo7HK9WJgnQMq1npJDMOgN/view?usp=sharing
banki = pd.read_csv('drive/MyDrive/Colab Notebooks/sber/news/data/banki.csv',
                    dtype={'id': np.str,
                           'title': np.str,
                           'text': np.str,
                           'url': np.str,
                           'time': np.str,
                           'views': np.int64,
                           'comments': np.int64,
                           'source': np.str
                           })
banki.time = pd.to_datetime(banki.time, format='%Y-%m-%d %H:%M:%S')
banki.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113250 entries, 0 to 113249
Data columns (total 8 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   id        113250 non-null  object        
 1   title     113250 non-null  object        
 2   text      113172 non-null  object        
 3   url       113250 non-null  object        
 4   time      113250 non-null  datetime64[ns]
 5   views     113250 non-null  int64         
 6   comments  113250 non-null  int64         
 7   source    113211 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 6.9+ MB


In [None]:
banki.tail()

Unnamed: 0,id,title,text,url,time,views,comments,source
113245,10938680,В Центробанке назвали долю сотрудников на «уда...,В дистанционном режиме работает примерно полов...,https://www.banki.ru/news/lenta/?id=10938680,2020-12-15 21:49:00,2666,0,Banki.ru
113246,10938679,АКРА присвоило Росэксимбанку рейтинг «AА(RU)»,Аналитическое кредитное рейтинговое агентство ...,https://www.banki.ru/news/lenta/?id=10938679,2020-12-15 21:42:00,2736,0,Banki.ru
113247,10938678,Тулин: постоянные регуляторные послабления — э...,Банковский сектор будет выходить из режима рег...,https://www.banki.ru/news/lenta/?id=10938678,2020-12-15 21:34:00,2279,1,Banki.ru
113248,10938677,Росстат назвал величину сокращения промпроизво...,Промышленное производство в России в ноябре со...,https://www.banki.ru/news/lenta/?id=10938677,2020-12-15 21:18:00,1801,0,Banki.ru
113249,10938676,Банки заключили с застройщиками кредитные дого...,Российские банки заключили с застройщиками кре...,https://www.banki.ru/news/lenta/?id=10938676,2020-12-15 20:45:00,1868,0,Banki.ru


## Цикл парсинга

Создадим цикл, который будет заходить на сайт и скачивать информацию о новостях. Если новость новая, добавляем ее в датасет. Если новость уже есть в датасете, то обновим информацию о просмотрах

In [None]:
if sites['banki']['on']:
    for page in range(sites['banki']['first_page'], sites['banki']['last_page']):
        count_add_articles = 0
        count_upd_views = 0
        count_upd_comments = 0
        count_upd_source = 0
        url = 'https://www.banki.ru/news/lenta/page' + str(page)
        response = load_page(url)
        if response == -1:
            continue
        soup = BeautifulSoup(response.text, 'lxml')
        articles = soup.find_all(
            'ul', class_='text-list text-list--date text-list--date-inline')[0].find_all('li')
        for article in articles:
            # Кол-во просмотров
            views = 0
            # Кол-во комментариев
            comments = 0
            # Источник новости
            source = ''
            article_url = article.find('a', class_='text-list-link')
            if article_url.get('href')[0] == 'h':
                # print('Error url - {}'.format(article_url.get('href')))
                continue
            article_id = str(article_url.get('href').split('=')[1])
            article_info = article.find_all('span', class_='news__info')
            if len(article_info) > 1:
                source = clean_text(article_info[0].text)
                if article_info[1].text != '':
                    views = int(clean_text(
                        article_info[1].text.split('\n\t')[1]))
                if article_info[1].find('span', class_='link-with-icon__icon icon-font icon-bubble-16 icon-font--size_small'):
                    comments = int(clean_text(
                        article_info[1].text.split('\n\t')[3]))
            else:
                if article_info[0].text != '':
                    views = int(clean_text(
                        article_info[0].text.split('\n\t')[1]))
                if article_info[0].find('span', class_='link-with-icon__icon icon-font icon-bubble-16 icon-font--size_small'):
                    comments = int(clean_text(
                        article_info[0].text.split('\n\t')[3]))
            if banki[banki['id'] == article_id].shape[0] == 0:
                url = 'https://www.banki.ru' + article_url.get('href')
                response = load_page(url)
                if response == -1:
                    continue
                soup = BeautifulSoup(response.text, 'lxml')
                # Title
                title = soup.find('h1', class_='header-h0')
                # Text
                text = soup.find(
                    'article', class_='article-text plain-text markup-inside lenta')
                # Time
                time = soup.find('time')
                banki = banki.append({'id': str(article_id),
                                      'title': str(clean_text(title.text)),
                                      'text': str(clean_text(text.text)),
                                      'url': str(url),
                                      'time': pd.to_datetime(time.text, format='%d.%m.%Y %H:%M'),
                                      'views': int(views),
                                      'comments': int(comments),
                                      'source': str(source)}, ignore_index=True)
                count_add_articles += 1
            else:
                if banki.loc[banki['id'] == article_id, 'views'].values[0] != views:
                    banki.loc[banki['id'] == article_id, 'views'] = views
                    count_upd_views += 1
                if banki.loc[banki['id'] == article_id, 'comments'].values[0] != comments:
                    banki.loc[banki['id'] == article_id, 'comments'] = comments
                    count_upd_comments += 1
                if banki.loc[banki['id'] == article_id, 'source'].values[0] != source:
                    banki.loc[banki['id'] == article_id, 'source'] = source
                    count_upd_source += 1
        sites['banki']['first_page'] = page
        if debug:
            print('Page {}: ADD {}, UPD {} views, {} comments, {} source'.format(
                page, count_add_articles, count_upd_views, count_upd_comments, count_upd_source))

Page 1: ADD 13, UPD 0 views, 0 comments, 0 source
Page 2: ADD 38, UPD 0 views, 0 comments, 0 source
Page 3: ADD 48, UPD 0 views, 0 comments, 0 source
Page 4: ADD 55, UPD 0 views, 0 comments, 0 source
Page 5: ADD 8, UPD 0 views, 0 comments, 0 source
Page 6: ADD 17, UPD 0 views, 0 comments, 0 source
Page 7: ADD 36, UPD 0 views, 0 comments, 0 source
Page 8: ADD 13, UPD 0 views, 0 comments, 0 source
Page 9: ADD 18, UPD 0 views, 0 comments, 0 source
Page 10: ADD 29, UPD 0 views, 0 comments, 0 source
Page 11: ADD 45, UPD 0 views, 0 comments, 0 source
Page 12: ADD 5, UPD 0 views, 0 comments, 0 source
Page 13: ADD 15, UPD 0 views, 0 comments, 0 source
Page 14: ADD 19, UPD 0 views, 0 comments, 0 source
Page 15: ADD 53, UPD 0 views, 0 comments, 0 source
Page 16: ADD 55, UPD 0 views, 0 comments, 0 source
Page 17: ADD 11, UPD 0 views, 0 comments, 0 source
Page 18: ADD 28, UPD 0 views, 0 comments, 0 source
Page 19: ADD 42, UPD 0 views, 0 comments, 0 source
Page 20: ADD 0, UPD 7 views, 2 comments, 0

In [None]:
banki.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113814 entries, 0 to 113813
Data columns (total 8 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   id        113814 non-null  object        
 1   title     113814 non-null  object        
 2   text      113736 non-null  object        
 3   url       113814 non-null  object        
 4   time      113814 non-null  datetime64[ns]
 5   views     113814 non-null  int64         
 6   comments  113814 non-null  int64         
 7   source    113776 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 6.9+ MB


## Обработка дубликатов

В цикле есть проверка на повтор новостей, но сделаем дополнительную проверку на случай изменения id новости

In [None]:
banki.id.nunique()

113814

In [None]:
banki.drop_duplicates(subset=['id'], inplace=True, keep='last')
banki.shape

(113814, 8)

In [None]:
banki[banki.duplicated()].shape

(0, 8)

## Выгрузка в csv

Выгрузим весь датасет в файл, чтобы иметь возможность его загрузить в начале алгоритма и из других скриптов

In [None]:
banki.to_csv(
    'drive/MyDrive/Colab Notebooks/sber/news/data/banki.csv', index=False)

In [None]:
banki.head()

Unnamed: 0,id,title,text,url,time,views,comments,source
0,10940845,"Эксперты рассказали, каким образом мошенникам ...",На сегодняшний день телекоммуникационные систе...,https://www.banki.ru/news/lenta/?id=10940845,2021-02-02 09:09:00,4879,0,Известия
1,10940844,Почти половина работников в России заявили о п...,События 2020 года пагубно сказались на мотивац...,https://www.banki.ru/news/lenta/?id=10940844,2021-02-02 08:58:00,2394,3,РБК
2,10940817,Банк « Уралсиб» сообщил о кадровых перестановках,"Станислав Тывес, заместитель председателя прав...",https://www.banki.ru/news/lenta/?id=10940817,2021-02-02 08:54:00,3480,0,Партнёрский материал
3,10940847,Опрос: москвичи не хотят возвращаться в офисы,"Более половины московских сотрудников, перевед...",https://www.banki.ru/news/lenta/?id=10940847,2021-02-02 08:49:00,2353,4,Banki.ru
4,10940843,В России число преступлений с банковскими карт...,В России в 2020 году количество преступлений с...,https://www.banki.ru/news/lenta/?id=10940843,2021-02-02 08:48:00,3136,2,Известия


Самая просматриваемая статья

In [None]:
banki[banki.views == banki.views.max()]

Unnamed: 0,id,title,text,url,time,views,comments,source
98142,8421613,"Арестован банкир, подозреваемый в организации ...",Сотрудники правоохранительных органов задержал...,https://www.banki.ru/news/lenta/?id=8421613,2015-11-03 09:09:00,1674117,29,Коммерсант


## Очистка (убрать комментарии)

In [None]:
# banki['title'] = banki.title.apply(clean_text)
# banki['text'] = banki.text.apply(clean_text)

# vtb.ru

Повторим вышереализованный алгоритм для сайта ВТБ

## Загрузка имеющихся данных

In [None]:
# скачать можно здесь: https://drive.google.com/file/d/1pNykrWil_aDGVfpHcz1fXDN-4gglXdf3/view?usp=sharing
vtb = pd.read_csv('drive/MyDrive/Colab Notebooks/sber/news/data/vtb.csv',
                  dtype={'id': np.str,
                         'title': np.str,
                         'text': np.str,
                         'url': np.str,
                         'time': np.str,
                         'views': np.int64,
                         'comments': np.int64,
                         'source': np.str
                         })
vtb.time = pd.to_datetime(vtb.time, format='%Y-%m-%d %H:%M:%S')
vtb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2909 entries, 0 to 2908
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   id        2909 non-null   object        
 1   title     2907 non-null   object        
 2   text      2907 non-null   object        
 3   url       2909 non-null   object        
 4   time      2909 non-null   datetime64[ns]
 5   views     2909 non-null   int64         
 6   comments  2909 non-null   int64         
 7   source    2909 non-null   object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 181.9+ KB


## Цикл парсинга

Создадим цикл для парсинга новостей с сайта ВТБ

In [None]:
if sites['vtb']['on']:
    for page in range(sites['vtb']['first_page'], sites['vtb']['last_page']):
        count_add_articles = 0
        url = 'https://vtb.ru/o-banke/press-centr/novosti-i-press-relizy/?page=' + \
            str(page)
        response = load_page(url)
        if response == -1:
            continue
        soup = BeautifulSoup(response.text, 'lxml')
        articles = soup.find_all('div', class_='news-grid__content__item')
        for article in articles:
            # Кол-во просмотров
            views = 0
            # Кол-во комментариев
            comments = 0
            # Источник новости
            source = 'vtb.ru'
            article_url = article.find('a').get('href')
            if article_url == '':
                continue
            article_id = str(article_url.split('/')[6])
            if vtb[vtb['id'] == article_id].shape[0] == 0:
                url = 'https://vtb.ru' + article_url
                response = load_page(url)
                if response == -1:
                    continue
                soup = BeautifulSoup(response.text, 'lxml')
                # Title
                title = soup.find(
                    'section', class_='common-header').find('h1').text
                # Text
                text = soup.find(
                    'div', class_='news-item__main common-text').text
                # Time
                time = soup.find(
                    'div', class_='date-block').text.replace('дата', '').replace('\n', '')
                vtb = vtb.append({'id': str(article_id),
                                  'title': str(clean_text(title)),
                                  'text': str(clean_text(text)),
                                  'url': str(url),
                                  'time': pd.to_datetime(time, format='%d.%m.%Y'),
                                  'views': int(views),
                                  'comments': int(comments),
                                  'source': str(source)}, ignore_index=True)
                count_add_articles += 1
        sites['vtb']['first_page'] = page
        if debug:
            print('Page {}: ADD {}'.format(page, count_add_articles))

Page 1: ADD 7
Page 2: ADD 8
Page 3: ADD 8
Page 4: ADD 8
Page 5: ADD 8
Page 6: ADD 8
Page 7: ADD 8
Page 8: ADD 2
Page 9: ADD 0


In [None]:
vtb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2966 entries, 0 to 2965
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   id        2966 non-null   object        
 1   title     2964 non-null   object        
 2   text      2964 non-null   object        
 3   url       2966 non-null   object        
 4   time      2966 non-null   datetime64[ns]
 5   views     2966 non-null   int64         
 6   comments  2966 non-null   int64         
 7   source    2966 non-null   object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 185.5+ KB


## Обработка дубликатов

In [None]:
vtb.id.nunique()

2966

In [None]:
vtb.drop_duplicates(subset=['id'], inplace=True, keep='last')
vtb.shape

(2966, 8)

In [None]:
vtb[vtb.duplicated()].shape

(0, 8)

## Выгрузка в csv

In [None]:
vtb.to_csv('drive/MyDrive/Colab Notebooks/sber/news/data/vtb.csv', index=False)

In [None]:
vtb.tail()

Unnamed: 0,id,title,text,url,time,views,comments,source
2961,2021-02-15-dmitriy-breytenbikher-vozglavil-rey...,Дмитрий Брейтенбихер возглавил рейтинг топ-мен...,"Старший вице-президент, руководитель Private B...",https://vtb.ru/o-banke/press-centr/novosti-i-p...,2021-02-15,0,0,vtb.ru
2962,2021-02-15-pre-ipo-fond-vtb-kapital-investitsi...,Пре-IPO фонд ВТБ Капитал Инвестиции инвестиров...,Закрытый паевый инвестиционный комбинированный...,https://vtb.ru/o-banke/press-centr/novosti-i-p...,2021-02-15,0,0,vtb.ru
2963,2021-02-15-vtb-snizhaet-komissiyu-na-perevody-...,ВТБ снижает комиссию на переводы с карты на ка...,С 15 февраля ВТБ снижает комиссию на денежные ...,https://vtb.ru/o-banke/press-centr/novosti-i-p...,2021-02-15,0,0,vtb.ru
2964,2021-02-15-vtb-vaktsinatsiya-na-tret-povysila-...,ВТБ: вакцинация на треть повысила спрос россия...,Выручка медицинских лабораторий в России за пе...,https://vtb.ru/o-banke/press-centr/novosti-i-p...,2021-02-15,0,0,vtb.ru
2965,2021-02-15-basketbolnoe-shou-match-vsekh-zvezd...,Баскетбольное шоу Матч Всех Звезд прошло при п...,14 февраля Единая Лига ВТБ провела пятый в ист...,https://vtb.ru/o-banke/press-centr/novosti-i-p...,2021-02-14,0,0,vtb.ru


## Очистка (убрать комментарии)

In [None]:
# vtb['title'] = vtb.title.apply(clean_text)
# vtb['text'] = vtb.text.apply(clean_text)

# alfabank.ru

Повторим вышереализованный алгоритм для сайта Альфабанка

## Загрузка имеющихся данных

In [None]:
# скачать можно здесь: https://drive.google.com/file/d/1k7mKvSyUvAbflRHuK8DlLwAykxCTVABG/view?usp=sharing
alfa = pd.read_csv('drive/MyDrive/Colab Notebooks/sber/news/data/alfa.csv',
                   dtype={'id': np.str,
                          'title': np.str,
                          'text': np.str,
                          'url': np.str,
                          'time': np.str,
                          'views': np.int64,
                          'comments': np.int64,
                          'source': np.str
                          })
alfa.time = pd.to_datetime(alfa.time, format='%Y-%m-%d %H:%M:%S')
alfa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4054 entries, 0 to 4053
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   id        4054 non-null   object        
 1   title     4054 non-null   object        
 2   text      4032 non-null   object        
 3   url       4054 non-null   object        
 4   time      4054 non-null   datetime64[ns]
 5   views     4054 non-null   int64         
 6   comments  4054 non-null   int64         
 7   source    4054 non-null   object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 253.5+ KB


## Цикл парсинга

In [None]:
if sites['alfa']['on']:
    url_base = 'https://alfabank.ru'
    for url_year in range(sites['alfa']['first_page'], sites['alfa']['last_page']):
        count_add_articles = 0
        for url_month in range(1, 13):
            if url_month < 10:
                url_month = '0' + str(url_month)
            url = url_base + '/press/news/' + \
                str(url_year) + '/' + str(url_month) + '/'
            response = load_page(url)
            if response == -1:
                continue
            soup = BeautifulSoup(response.content, 'lxml')
            articles = soup.find_all('div', class_='news-item')
            if len(articles) == 0:
                continue
            for article in articles:
                # Кол-во просмотров
                views = 0
                # Кол-во комментариев
                comments = 0
                # Источник новости
                source = 'alfabank.ru'
                article_url = article.find('a').get('href')
                article_id = str(article_url.split('/')[3]) + '_' + str(article_url.split('/')[4]) + '_' + str(
                    article_url.split('/')[5]) + '_' + str(article_url.split('/')[6].split('.')[0])
                if alfa[alfa['id'] == article_id].shape[0] == 0:
                    # Title
                    title = article.find('div', class_='title').text
                    # Time
                    time = article.find('div', class_='date').text
                    url = url_base + article_url
                    response = load_page(url)
                    if response == -1:
                        continue
                    soup = BeautifulSoup(response.content, 'lxml')
                    article_text = soup.find(
                        'div', class_='news-article').find_all('p')
                    # Text
                    text = ''
                    for text_string in article_text[1:]:
                        text += text_string.text
                    alfa = alfa.append({'id': str(article_id),
                                        'title': str(clean_text(title)),
                                        'text': str(clean_text(text)),
                                        'url': str(url),
                                        'time': pd.to_datetime(time, format='%d.%m.%Y'),
                                        'views': int(views),
                                        'comments': int(comments),
                                        'source': str(source)}, ignore_index=True)
                    count_add_articles += 1
        sites['alfa']['first_page'] = url_year
        if debug:
            print('Year {}, ADD {}'.format(url_year, count_add_articles))

Year 2021, ADD 12


In [None]:
alfa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4066 entries, 0 to 4065
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   id        4066 non-null   object        
 1   title     4066 non-null   object        
 2   text      4044 non-null   object        
 3   url       4066 non-null   object        
 4   time      4066 non-null   datetime64[ns]
 5   views     4066 non-null   int64         
 6   comments  4066 non-null   int64         
 7   source    4066 non-null   object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 254.2+ KB


## Обработка дубликатов

In [None]:
alfa.id.nunique()

4066

In [None]:
alfa.drop_duplicates(subset=['id'], inplace=True, keep='last')
alfa.shape

(4066, 8)

In [None]:
alfa[alfa.duplicated()].shape

(0, 8)

## Выгрузка в csv

In [None]:
alfa.to_csv('drive/MyDrive/Colab Notebooks/sber/news/data/alfa.csv', index=False)

In [None]:
alfa.tail()

Unnamed: 0,id,title,text,url,time,views,comments,source
4061,2021_3_4_76326,Альфа-Банк наградил лауреатов премии ProCharit...,Альфа-Банк стал другом и генеральным партнером...,https://alfabank.ru/press/news/2021/3/4/76326....,2021-03-04,0,0,alfabank.ru
4062,2021_3_3_76260,График проведения платежей с 5 по 8 марта 2021...,Как будут исполняться платежи в рублях.5 марта...,https://alfabank.ru/press/news/2021/3/3/76260....,2021-03-03,0,0,alfabank.ru
4063,2021_3_3_76257,Хакни свою карьеру: Альфа-Банк открывает набор...,Альфа-Банк открывает набор студентов на беспла...,https://alfabank.ru/press/news/2021/3/3/76257....,2021-03-03,0,0,alfabank.ru
4064,2021_3_2_76174,Альфа-Банк и X5 Retail Group внедрили полный э...,"Альфа-Банк, X5 Retail Group и ее поставщик ООО...",https://alfabank.ru/press/news/2021/3/2/76174....,2021-03-02,0,0,alfabank.ru
4065,2021_3_2_76172,Альфа-Банк снова снизил ставку по кредиту нали...,С 1 марта 2021 года получить кредит наличными ...,https://alfabank.ru/press/news/2021/3/2/76172....,2021-03-02,0,0,alfabank.ru


## Очистка (убрать комментарии)

In [None]:
# alfa['title'] = alfa.title.apply(clean_text)
# alfa['text'] = alfa.text.apply(clean_text)

# Выгрузка новостей для рассылки

Реализуем простейший алгоритм подбора новостей для рассылки коллегам

In [None]:
banki.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 113814 entries, 0 to 113813
Data columns (total 8 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   id        113814 non-null  object        
 1   title     113814 non-null  object        
 2   text      113736 non-null  object        
 3   url       113814 non-null  object        
 4   time      113814 non-null  datetime64[ns]
 5   views     113814 non-null  int64         
 6   comments  113814 non-null  int64         
 7   source    113776 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 7.8+ MB


In [None]:
# номер текущей недели
number_of_week = dt.datetime.now().date().isocalendar()[1]

In [None]:
if sites['send']:
    with pd.ExcelWriter('drive/MyDrive/Colab Notebooks/sber/news/data/send.xlsx') as writer:
        banki_send = pd.DataFrame(columns=banki.columns)
        if sites['banki']['send']:
            for i in range(1, 8):
                banki_send = banki_send.append(banki[(banki.time.dt.isocalendar().year == 2021) &
                                                     (banki.time.dt.isocalendar().week == number_of_week) &
                                                     (banki.time.dt.isocalendar().day == i)].sort_values(by='views', ascending=False).head(3))
            display(banki_send.head())
            banki_send.to_excel(writer, sheet_name='banki')
        elif sites['vtb']['send']:
            vtb_send = vtb[(vtb.time.dt.isocalendar().year == 2021) & (
                vtb.time.dt.isocalendar().week == number_of_week)].sort_values(by='time', ascending=True)
            display(vtb_send.head())
            vtb_send.to_excel(writer, sheet_name='vtb')
        elif sites['alfa']['send']:
            alfa_send = alfa[(alfa.time.dt.isocalendar().year == 2021) & (
                alfa.time.dt.isocalendar().week == number_of_week)].sort_values(by='time', ascending=True)
            display(alfa_send.head())
            alfa_send.to_excel(writer, sheet_name='alfa')
        else:
            banki_send.to_excel(writer, sheet_name='clean')

Unnamed: 0,id,title,text,url,time,views,comments,source
113434,10942262,"ЦБ выписал новые штрафы «Открытию», Альфа-Банк...",Банк России вынес новые постановления о привле...,https://www.banki.ru/news/lenta/?id=10942262,2021-03-01 12:28:00,13277,2,Banki.ru
113445,10942251,ВТБ предлагает новый вклад «Новое время»,ВТБ ввел новый вклад «Новое время».Вклад откры...,https://www.banki.ru/news/lenta/?id=10942251,2021-03-01 10:45:00,6541,6,Banki.ru
113442,10942253,Россельхозбанк в рамках акции повысил ставку п...,Россельхозбанк в рамках акции «Весеннее предло...,https://www.banki.ru/news/lenta/?id=10942253,2021-03-01 11:12:00,5098,6,Banki.ru
113422,10942319,Матвиенко назвала сроки индексации пенсий рабо...,Правительство ищет источники бюджетного финанс...,https://www.banki.ru/news/lenta/?id=10942319,2021-03-02 09:07:00,6943,1,Banki.ru
113416,10942325,2 марта. О чем пишут газеты,Аналитики сразу нескольких ведущих банков и ко...,https://www.banki.ru/news/lenta/?id=10942325,2021-03-02 09:29:00,4171,0,Banki.ru


# Вывод

Данный скрипт позволяет осуществлять парсинг 3 источников (банки, ВТБ, альфабанк), очищать данные и делать выборку новостей для рассылки