# 🐅 Парсер

Парсинг начинается со страниц, перечисленных в `pages.json`. Файл содержит необходимые сведения о структуре страниц сайта: стартовая страница, селекторы страницы, отвечающие за их описания (могут быть на стартовой `start_url` или внутренних страницах `event_urk`), количество соответствующих элементов. Если для ссылки события пока нет описания в файле `events.json`, в результате парсинга создаётся соответствующий объект. Этот файл используется для генерации карточек мероприятий в HTML, публикуемый на [matyushkin.github.io/events](https://matyushkin.github.io/events/).

In [252]:
import json

# custom packages
import files
import soups
import urls
import langs
import handlers

FORCE = True  # Если True - все страницы загружаются заново, если False -- только стартовые 

# Узнаем, какие из стартовых страниц, перечисленных в files.pages, размечены.
# Такие страницы содержат все поля, перечисленные в files.fields.
# Выводим список с помощью специальной функции pages_checked()

pages_checked = files.pages_checked()

# Для обработки полей, описывающих события, логична следующая последовательность:
# - cчитываемые поля со стартовой страницы (обычно это заголовк, дата, статус)
# - поля, расположенные на странице мероприятия (темы, докладчики, время начала)
# - получаемые из анализа предобработанных полей (теги, призы)


class StartPage:
    """Парсинг начальных страниц, описанных в pages.json"""
    def __init__(self, start_url):
        self.data, self.event_lists, self.events = {}, {}, {}
        self.data['start_url'] = start_url
        self.fields = files.fields_order(start_url)
        for field in self.fields['start']:
            self.event_lists[field] = files.get_content(self.data, field, force=True)
        event_urls = self.event_lists.pop('event_url')
        self.fields['start'].remove('event_url')
        for i, event_url in enumerate(event_urls):
            self.events[event_url] = {}
            for field in self.fields['start']:
                self.events[event_url][field] = self.event_lists[field][i]
    

    def __repr__(self):
        return self.actual_events
            
                
    @property
    def actual_events(self):
        """События, актуальные на текущий день"""
        events = self.events.copy()
        for event_url in self.events:
            if events[event_url]['date'] < handlers.current_date.isoformat():
                events.pop(event_url)
        return events


class EventPage:
    """Парсинг страниц событий"""
    def __init__(self, event_url, start_page, force=FORCE):
        self.data = start_page.events[event_url]
        self.data['start_url'] = start_page.data['start_url']
        self.data['event_url'] = event_url
        for field in start_page.fields['event']:
            self.data[field] = files.get_content(self.data, field, force)
        for field in self.data:
            # удаление дупликатов в списках с сохранением порядка
            if type(self.data[field]) == list:
                self.data[field] = list(dict.fromkeys(self.data[field]))


for start_url in pages_checked:
    start_page = StartPage(start_url)
    actual = start_page.actual_events
    for event_url in actual:
        event = EventPage(event_url, start_page)
        files.events[event_url] = event.data

Удаляем устаревшие soup-объекты:

In [253]:
for key in soups.soups.keys()-actual:
    del soups.soups[key]

soups.write_soups(soups.soups)

In [254]:
with open('files/events.json', 'w', encoding='utf-8') as events_file:
    json.dump(files.events, events_file, ensure_ascii=False)

In [255]:
#! Отсюда можно забрать обработчикитегов

# all_fields = set(fields.keys())
# required   = {key for key in fields if fields[key]['required']}
# optional   = {key for key in fields if not fields[key]['required']}

#     def tags(self):
#         tags = {}
#         title = self.data['title']
#         event_url = self.data['event_url']
#         themes = self.data['themes'].copy()
#         themes.append(title)
#         themes.append(event_url)
#         text = ''.join(themes)
#         for key in tags:
#             for tag in tags[key]:
#                 if tag.lower() in text.lower():
#                     self.data[tags].add(tag)
#         return tags

# Собираем HTML-страницу и деплоим проект 💃

Для сборки страницы используем pandas и BeautifulSoup. Страницу собираем, объединяя soup-объекты в один. Предварительно, если среди мероприятий имеются мероприятия, не обрабатываемые парсером (`events_special`) или рекламируемые (`events_promo`), обрабатываем их отдельно. Для этого помечаем их в датафрейме особым образом.

In [265]:
import pandas as pd

def promo_and_special():
    event_types = 'promo', 'special'
    d = {}
    for event_type in event_types:
        event_urls = list(eval(f'files.events_{event_type}.keys()'))
        for event_url in event_urls:
            d[event_url] = event_type
    return d

df = pd.DataFrame.from_dict(files.events, orient='index')
df = df.sort_values(by=['date'])
df = df[df['date'] >= handlers.current_date.isoformat()]   #! добавить проверку на время
df['type'] = df.index.map(promo_and_special())

# Убираем те мероприятия, которых не хотим видеть
df = df.drop(list(files.events_bad.keys()), errors='ignore')

In [266]:
df

Unnamed: 0,date,title,start_url,event_url,description,location,themes,speakers_companies,price,speakers,reg_url,online_status,time,organizers,start,type
https://cloud.yandex.ru/events/143,2020-06-30,Вебинар. Как работает сеть в Облаке,https://events.yandex.ru/,https://cloud.yandex.ru/events/143,[30 июня пройдет обзорный вебинар о работе сет...,,[],[],0,[],https://cloud.yandex.ru/events/143#registration,Online,14:00,[Яндекс],,promo
https://cloud.yandex.ru/events/145,2020-07-02,about:cloud – бессерверные технологии и IoT,https://events.yandex.ru/,https://cloud.yandex.ru/events/145,"[Настало время поговорить о том, что нового по...",,"[, Приветствие модератора, Новости Serverless,...",[],0,"[Антон Черноусов, Глеб Борисов, Александр Сур...",https://cloud.yandex.ru/events/145#registration,Online,17:00,[Яндекс],,special
https://events.yandex.ru/events/yasubbotnik/4-jul-2020,2020-07-04,"Я.Субботник по разработке интерфейсов. Онлайн,...",https://events.yandex.ru/,https://events.yandex.ru/events/yasubbotnik/4-...,"[После каждого Я.Субботника мы спрашивали, как...",,"[Бесконечная лента — без шуток, Как померить N...","[Яндекс.Дзен, Яндекс]",0,"[Валентин Каменек, Алексей Попков, Владимир Гр...",https://forms.yandex.ru/surveys/10020700.c6090...,Online,12:00,[Яндекс],,
https://cloud.yandex.ru/events/144,2020-07-07,Вебинар. Как использовать управляемую базу дан...,https://events.yandex.ru/,https://cloud.yandex.ru/events/144,"[Из вебинара вы узнаете, как устроен сервис Ya...",,[],[],0,[],https://cloud.yandex.ru/events/144#registration,Online,15:00,[Яндекс],,
https://events.yandex.ru/events/mini-giperbaton-22-07-2020,2020-07-22,Мини-Гипербатон. Онлайн,https://events.yandex.ru/,https://events.yandex.ru/events/mini-giperbato...,"[22 июля состоится Мини-Гипербатон, посвященны...",,[Как масштабировать тестирование локализации с...,"[Яндекс, Логрус]",0,"[Веста Подрядова, Ольга Суворова, Леонид Глазы...",https://forms.yandex.ru/surveys/10020936.a31d0...,Online,18:00,[Яндекс],,


In [281]:
a = [1, 2, 3]
[*a, *a]

[1, 2, 3, 1, 2, 3]

In [318]:
from bs4 import BeautifulSoup, Comment
from itertools import zip_longest
import copy

with open("files/event_card_template.html") as template:
    template = BeautifulSoup(template.read(), 'html.parser')


def add_info(template, data):
    s = copy.copy(template)
    
    # Информационный блок
    data_block = s.find("div", {"class":"event"})
    companies = [*data.organizers, *data.speakers_companies]
    companies = " ".join(list(set(companies))).strip()
    
    
    # Обработка заголовка
    header = s.find("h2")
    header.string = data.title
    
    # Блок с описанием места и времени
    time_and_space = s.find("p", {"class":"time_and_space"})
    s.time.string = langs.make_datetime_string(data.date, data.time)
    s.time.wrap(s.new_tag('a', attrs={'href':data.event_url}))
    if data.reg_url:
        time_and_space.append(', ')
        reg_url = s.new_tag('a', attrs={'href':data.reg_url})
        reg_url.string = 'регистрация'
        time_and_space.append(reg_url) 
    time_and_space.append('.')
    
    # Блок с темами и докладчиками
    themes_and_speakers = s.find("p", {"class":"themes_and_speakers"})
    
    if data.themes != ['']:
        for theme in data.themes:
            if theme:
                line = s.new_tag('li')
                line.string = theme
                s.ul.append(line)
        if data.speakers!=['']:
            speakers_str = ', '.join(data.speakers)
            themes_and_speakers.append(f'Докладывают: {speakers_str}.')
    else:
        s.find("p", {"class":"themes_and_speakers"}).extract()
    
    # Блок с описанием мероприятия
    description = s.find("p", {"class":"description"})
    description.string = data.description[0]
    return s

total = []

for event_url in df.index:
    s = add_info(template, df.loc[event_url])
    
    # Удаляем комментарии
    for element in s(text = lambda text: isinstance(text, Comment)):
        element.extract()
    total.append(str(s))

total = '<hr/>'.join(total)

path_to_html_template = "../mgio/11ty/_includes/events.njk"
with open(path_to_html_template, 'w', encoding='utf-8') as html_template:
    html_template.write(f'<hr/>{total}<hr/>')

Яндекс
<p class="description" data-companies="Яндекс">30 июня пройдет обзорный вебинар о работе сети в Яндекс.Облаке.
В программе:
-как устроена виртуальная сеть;
-как объединить облачную сеть с собственной;
-как управлять маршрутизацией и балансировкой нагрузки в Облаке.
Мы также расскажем, как настроить сетевую инфраструктуру в Облаке для ваших задач.
Зарегистрируйтесь, чтобы получить ссылку на трансляцию.</p>
<section>
<!-- Заголовок -->
<h2>Вебинар. Как работает сеть в Облаке</h2>
<!-- Время, место и ссылка на регистрацию-->
<p class="time_and_space"><a href="https://cloud.yandex.ru/events/143"><time>Вт, 30 июня в 14:00</time></a>, <a href="https://cloud.yandex.ru/events/143#registration">регистрация</a>.</p>
<!-- Темы и спикеры -->

<!-- Описание мероприятия -->
<p class="description" data-companies="Яндекс">30 июня пройдет обзорный вебинар о работе сети в Яндекс.Облаке.
В программе:
-как устроена виртуальная сеть;
-как объединить облачную сеть с собственной;
-как управлять маршру

In [312]:
print(total)

<section>

<h2>Вебинар. Как работает сеть в Облаке</h2>

<p class="time_and_space"><a href="https://cloud.yandex.ru/events/143"><time>Вт, 30 июня в 14:00</time></a>, <a href="https://cloud.yandex.ru/events/143#registration">регистрация</a>.</p>



<p class="description">30 июня пройдет обзорный вебинар о работе сети в Яндекс.Облаке.
В программе:
-как устроена виртуальная сеть;
-как объединить облачную сеть с собственной;
-как управлять маршрутизацией и балансировкой нагрузки в Облаке.
Мы также расскажем, как настроить сетевую инфраструктуру в Облаке для ваших задач.
Зарегистрируйтесь, чтобы получить ссылку на трансляцию.</p>
</section><hr/><section>

<h2>about:cloud – бессерверные технологии и IoT</h2>

<p class="time_and_space"><a href="https://cloud.yandex.ru/events/145"><time>Чт, 2 июля в 17:00</time></a>, <a href="https://cloud.yandex.ru/events/145#registration">регистрация</a>.</p>

<p class="themes_and_speakers">
<ul>
<li>Приветствие модератора</li><li>Новости Serverless</li><li>

In [283]:
!cd ../mgio/11ty/; npx eleventy --passthroughall --output=../../matyushkin.github.io
!cd ../matyushkin.github.io/; rm -rf 404
!cd ../matyushkin.github.io/; rm -rf README


# посмотрим, что получилось в браузере
import webbrowser
url = "../matyushkin.github.io/events/index.html"
webbrowser.open_new_tab(url)

Writing ../../matyushkin.github.io/404/index.html from ./404.html.
Writing ../../matyushkin.github.io/README/index.html from ./README.md.
Writing ../../matyushkin.github.io/index.html from ./index.html.
Writing ../../matyushkin.github.io/cv/index.html from ./cv/index.html.
Writing ../../matyushkin.github.io/events/index.html from ./events/index.html.
Writing ../../matyushkin.github.io/donate/index.html from ./donate/index.html.
Writing ../../matyushkin.github.io/links/index.html from ./links/index.html.
Writing ../../matyushkin.github.io/posts/index.html from ./posts/index.html.
Writing ../../matyushkin.github.io/spb/index.html from ./spb/index.html.
Writing ../../matyushkin.github.io/texts/index.html from ./texts/index.html.
Copied 15 files / Wrote 10 files in 0.18 seconds (18.0ms each, v0.11.0)


True

In [45]:
#! cd ../matyushkin.github.io/; git add . ; git commit -m "Events page is updated: only actual events"; git push origin master

# Rough technique to reload all imported modules

In [250]:
import sys, importlib
modulenames = set(sys.modules) & set(globals())
allmodules = [sys.modules[name] for name in modulenames]
for module in allmodules:
    importlib.reload(module)