# 🐅 Парсер

Парсинг начинается со страниц, перечисленных в `pages.json`. Файл содержит необходимые сведения о структуре страниц сайта: стартовая страница, селекторы страницы, отвечающие за их описания (могут быть на стартовой `start_url` или внутренних страницах `event_urk`), количество соответствующих элементов. Если для ссылки события пока нет описания в файле `events.json`, в результате парсинга создаётся соответствующий объект. Этот файл используется для генерации карточек мероприятий в HTML, публикуемый на [matyushkin.github.io/events](https://matyushkin.github.io/events/).

In [44]:
import os
import json

# custom packages
import files
import soups
import urls
import langs
import handlers

FORCE = True  # Если True - все страницы загружаются заново, если False -- только стартовые 

# Узнаем, какие из стартовых страниц, перечисленных в files.pages, размечены.
# Такие страницы содержат все поля, перечисленные в files.fields.
# Выводим список с помощью специальной функции pages_checked()

pages_checked = files.pages_checked()

# Для обработки полей, описывающих события, логична следующая последовательность:
# - cчитываемые поля со стартовой страницы (обычно это заголовк, дата, статус)
# - поля, расположенные на странице мероприятия (темы, докладчики, время начала)
# - получаемые из анализа предобработанных полей (теги, призы)


class StartPage:
    """Парсинг начальных страниц, описанных в pages.json"""
    def __init__(self, start_url):
        self.data, self.event_lists, self.events = {}, {}, {}
        self.data['start_url'] = start_url
        self.fields = files.fields_order(start_url)
        for field in self.fields['start']:
            self.event_lists[field] = files.get_content(self.data, field, force=True)
        event_urls = self.event_lists.pop('event_url')
        self.fields['start'].remove('event_url')
        for i, event_url in enumerate(event_urls):
            self.events[event_url] = {}
            for field in self.fields['start']:
                self.events[event_url][field] = self.event_lists[field][i]
    

    def __repr__(self):
        return self.actual_events
            
                
    @property
    def actual_events(self):
        """События, актуальные на текущий день"""
        events = self.events.copy()
        for event_url in self.events:
            if events[event_url]['date'] < handlers.current_date.isoformat():
                events.pop(event_url)
        return events


class EventPage:
    """Парсинг страниц событий"""
    def __init__(self, event_url, start_page, force=FORCE):
        self.data = start_page.events[event_url]
        self.data['start_url'] = start_page.data['start_url']
        self.data['event_url'] = event_url
        for field in start_page.fields['event']:
            self.data[field] = files.get_content(self.data, field, force)
        for field in self.data:
            # удаление дупликатов в списках с сохранением порядка
            if type(self.data[field]) == list:
                self.data[field] = list(dict.fromkeys(self.data[field]))


for start_url in pages_checked:
    start_page = StartPage(start_url)
    actual = start_page.actual_events
    for event_url in actual:
        event = EventPage(event_url, start_page)
        files.events[event_url] = event.data

In [58]:
# def get_content_test(start_url, event_url):
#     start_page = StartPage(start_url)
#     print(start_page.events)
#     actual = start_page.actual_events
#     event = EventPage(event_url, start_page)
#     print(event.data)

# get_content_test("https://events.yandex.ru/", "https://cloud.yandex.ru/events/143")

Удаляем устаревшие soup-объекты:

In [45]:
for key in soups.soups.keys()-actual:
    del soups.soups[key]

soups.write_soups(soups.soups)

In [46]:
with open('files/events.json', 'w', encoding='utf-8') as events_file:
    json.dump(files.events, events_file, ensure_ascii=False)

# Анализируем и дополняем полученную информацию

Предварительно, если среди мероприятий имеются мероприятия, не обрабатываемые парсером (`events_special`) или рекламируемые (`events_promo`), обрабатываем их отдельно. Для этого помечаем их в датафрейме особым образом.

In [47]:
import pandas as pd

def promo_and_special():
    event_types = 'promo', 'special'
    d = {}
    for event_type in event_types:
        event_urls = list(eval(f'files.events_{event_type}.keys()'))
        for event_url in event_urls:
            d[event_url] = event_type
    return d

def tags(data):
    tags = set()
    title = data.title
    event_url = data.event_url
    description = data.description
    themes = data.themes.copy()
    themes += [title, event_url]
    themes += description
    text = ' '.join(themes)
    
    for key in files.tags:
        for tag in files.tags[key]:
            if tag.lower() in text.lower():
                tags.add(key)
    return tags


df = pd.DataFrame.from_dict(files.events, orient='index')

# Сразу выкидываем мероприятия, которые не хотим видеть
df = df.drop(list(files.events_bad.keys()), errors='ignore')

df = df.sort_values(by=['date'])
df = df[df['date'] >= handlers.current_date.isoformat()]   #! добавить проверку на время
df['type'] = df.index.map(promo_and_special())
df['tags'] = df.apply(lambda x: tags(x), axis=1)

# Собираем HTML-страницу и деплоим проект 💃

Для сборки страницы используем BeautifulSoup. Страницу собираем, объединяя soup-объекты в один.

In [48]:
from bs4 import BeautifulSoup, Comment
from itertools import zip_longest
import copy

with open("files/event_card_template.html") as template:
    template = BeautifulSoup(template.read(), 'html.parser')


def add_info(template, data):
    s = copy.copy(template)
    
    # Информационный блок
    data_block = s.find("div", {"class":"event"})
    companies = [*data.organizers, *data.speakers_companies]
    companies = " ".join(list(set(companies))).strip()
    data_block['data-companies'] = companies
    data_block['data-price'] = data.price
    data_block['data-online_status'] = data.online_status
    if data.tags:
        data_block['data-tags'] = " ".join(data.tags)
    if data.type == 'promo':
        data_block['class'].append('promo')
    
    # Обработка заголовка
    header = s.find("h2")
    header.string = data.title
    
    # Блок с описанием места и времени
    time_and_space = s.find("p", {"class":"time_and_space"})
    s.time.string = langs.make_datetime_string(data.date, data.time)
    s.time.wrap(s.new_tag('a', attrs={'href':data.event_url}))
    if data.reg_url:
        time_and_space.append(', ')
        reg_url = s.new_tag('a', attrs={'href':data.reg_url})
        reg_url.string = 'регистрация'
        time_and_space.append(reg_url) 
    time_and_space.append('.')
    
    # Блок с темами и докладчиками
    themes_and_speakers = s.find("p", {"class":"themes_and_speakers"})
    
    if data.themes != ['']:
        for theme in data.themes:
            if theme:
                line = s.new_tag('li')
                line.string = theme
                s.ul.append(line)
    if data.speakers != ['']:
        if len(data.speakers) == 1:
            themes_and_speakers.append(f'Докладывает: {data.speakers[0]}.')
        else:
            speakers_str = ', '.join(data.speakers)
            themes_and_speakers.append(f'Докладывают: {speakers_str}.')
    if data.themes == [''] and data.speakers != ['']:
        s.ul.extract()
    if data.themes == [''] and data.speakers == ['']:
        s.find("p", {"class":"themes_and_speakers"}).extract()
    
    # Блок с описанием мероприятия
    description = s.find("p", {"class":"description"})
    description.string = data.description[0]
    
    # Удаляем комментарии
    for element in s(text = lambda text: isinstance(text, Comment)):
        element.extract()

    return s

df['soup'] = df.apply(lambda x: add_info(template, x), axis=1)
df['html'] = df['soup'].apply(lambda x: str(x))
total = '<hr/>'.join(df['html'])

path_to_html_template = "../mgio/11ty/_includes/events.njk"
with open(path_to_html_template, 'w', encoding='utf-8') as html_template:
    html_template.write(f'<hr/>{total}<hr/>')

In [50]:
!cd ../mgio/11ty/; npx eleventy --passthroughall --output=../../matyushkin.github.io
!cd ../matyushkin.github.io/; rm -rf 404
!cd ../matyushkin.github.io/; rm -rf README


# посмотрим, что получилось в браузере
import webbrowser
url = "../matyushkin.github.io/events/index.html"
webbrowser.open_new_tab(url)

Writing ../../matyushkin.github.io/404/index.html from ./404.html.
Writing ../../matyushkin.github.io/README/index.html from ./README.md.
Writing ../../matyushkin.github.io/index.html from ./index.html.
Writing ../../matyushkin.github.io/cv/index.html from ./cv/index.html.
Writing ../../matyushkin.github.io/events/index.html from ./events/index.html.
Writing ../../matyushkin.github.io/donate/index.html from ./donate/index.html.
Writing ../../matyushkin.github.io/links/index.html from ./links/index.html.
Writing ../../matyushkin.github.io/posts/index.html from ./posts/index.html.
Writing ../../matyushkin.github.io/spb/index.html from ./spb/index.html.
Writing ../../matyushkin.github.io/texts/index.html from ./texts/index.html.
Copied 15 files / Wrote 10 files in 0.19 seconds (19.0ms each, v0.11.0)


True

In [59]:
!cd ../matyushkin.github.io/; git add . ; git commit -m "Events page is updated: some speakers are added"; git push origin master

[master 04fb0f8] Events page is updated: some speakers are added
 1 file changed, 10 insertions(+), 10 deletions(-)
 rewrite events/index.html (84%)
Counting objects: 4, done.
Delta compression using up to 8 threads.
Compressing objects: 100% (3/3), done.
Writing objects: 100% (4/4), 517 bytes | 517.00 KiB/s, done.
Total 4 (delta 2), reused 0 (delta 0)
remote: Resolving deltas: 100% (2/2), completed with 2 local objects.[K
To github.com:matyushkin/matyushkin.github.io.git
   6c5ccc5..04fb0f8  master -> master


# Rough technique to reload all imported modules

In [103]:
import sys, importlib
modulenames = set(sys.modules) & set(globals())
allmodules = [sys.modules[name] for name in modulenames]
for module in allmodules:
    importlib.reload(module)

# Click buttons in footer with Selenium

In [105]:
start_url = "https://events.yandex.ru/"

if files.pages_info[start_url]['load'] == 'with_footer':
    footer_clicks = files.pages_info[start_url]['footer_clicks']
    
footer_clicks

1