# Цели и задачи

**Цель** этого ipynb-файла и соответствующего Python отображения – генерировать html для соответствующей страницы articles.

# Текущие задачи

* Отдельно определять число просмотров теста
* Обрабатывать ошибки Connection Error -- делать пропуск и последующее обращение в конце списка до тех пор, пока список не будет целиком обновлён или ошибка не будет повторяться более 3 раз (статья удалена или что-то подобное)
* Привести к виду отдельного самостоятельно выполняющегося Python-файла, который будет выводить лишь системную информацию

In [1]:
import requests
headers = requests.utils.default_headers()
headers['User-Agent'] = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'

import pandas as pd
from bs4 import BeautifulSoup

Данные о статьях записаны в виде csv-файла. Файл содержит:
* `title` — заголовок статьи
* `url` — полная ссылка на публикацию
* `type` — тип публикации (перевод, статья, инструкция, курс или подборка)
* `date` — дата публикации
* `views` — число просмотров
* `main` — главный тег статьи
* `addtional` — дополнительные теги
* `raiting` — мой личный рейтинг отношения к статье
* `comment` — краткий комментарий

In [5]:
df = pd.read_csv("posts.csv")
del df["Unnamed: 0"]
df.tail()

Unnamed: 0,title,url,type,date,views,main,additional,rating,comment
105,Иллюстративный видеокурс по линейной алгебре: ...,https://proglib.io/p/algebra,подборка,2018-02-09,48928.0,"Видео, курсы, ссылки",,4,
106,Как правильно искать и читать научные статьи?,https://proglib.io/p/research-papers,статья,2018-02-01,14177.0,"Видео, курсы, ссылки",,4,
107,Создаем первый смарт-контракт на Ethereum мене...,https://proglib.io/p/smart-contract,перевод,2018-01-29,34008.0,Блокчейн,,3,
108,Импульсные нейронные сети: мозг в компьютере,https://proglib.io/p/spiking-neural-networks,перевод,2018-01-22,14656.0,Глубокое обучение,,2,
109,Как помочь ребенку выучить таблицу умножения,https://habr.com/ru/post/126043/,статья,2011-08-11,1000.0,Математика,,5,


# Просмотры

Данные о просмотрах обновляются, в особенности для новых статей, которые я писал для [Библиотеки программиста](https://proglib.io). Пропарсим страницы новых публикаций и обновим сведения о просмотрах.

In [3]:
df_proglib = df[df['url'].apply(lambda x: 'proglib' in x)]

In [4]:
def get_views_number(url:str):
    '''Возвращает число просмотров для переданного url'''
    page = requests.get(url, headers=headers).text
    soup = BeautifulSoup(page, 'html.parser')
    span = soup.body.find_all('span', {"class":"ml-1", "data-views":""})[0]
    
    return span.text

In [5]:
test_url = "https://proglib.io/tests/test-na-obshchie-znaniya-dlya-middle-python-razrabotchika"
df_proglib = df_proglib[df_proglib['url']!=test_url]

In [6]:
# for url in df_proglib['url']:
#     if pd.isnull(df.loc[df['url'] == url]['views'].values[0]):
#         print(url)
#         try:
#             num = get_views_number(url)
#             print(num)
#             df.loc[df['url'] == url, ['views']] = num
#         except:
#             print("Error!")
#             continue

In [7]:
df['views'].astype(float).sum()

3436798.0

In [17]:
df.to_csv('posts.csv')

In [24]:
df.to_json("posts.json")

In [14]:
del df['Unnamed: 0']

# Создание index.html из шаблона (template.html)

In [165]:
# Добавить обработку комментария, проверку на nan

import collections

def gen_h(soup, title, level=1):
    h_tag = soup.new_tag('h'+str(level))
    h_tag.string = title
    return h_tag
  

def gen_li(soup, title, url, date, views,
           rating, typ):
    li_tag = soup.new_tag('li')
    li_tag["data-views"] = views
    li_tag["data-rating"] = rating
    li_tag["data-type"] = typ
    a_tag = soup.new_tag('a', href=url)
    time_tag = soup.new_tag('time', datetime=date)
    time_tag.string = title
    a_tag.insert(0, time_tag)
    li_tag.insert(0, a_tag)
    return li_tag


def gen_ul(soup, selected:dict):
    ul_tag = soup.new_tag('ul')
    ul_tag.append('\n')
    for key in selected["title"].keys():
        title = selected["title"][key]
        url = selected["url"][key]
        date = selected["date"][key]
        views = selected["views"][key]
        rating = selected["rating"][key]
        typ = selected["type"][key]
        comment = selected["comment"][key]
        ul_tag.append(' '*4)
        ul_tag.append(gen_li(soup, title, url, date, views,
                             rating, typ))
        ul_tag.append('\n')
    ul_tag.append(' '*2)
    return ul_tag


with open("../template.html") as template:
    soup = BeautifulSoup(template, "lxml")
    article_tag = soup.find('article')
    cf = df.copy()
    c = collections.Counter(df['main'])
    for (title, num) in c.most_common():
        if num >= 5:
            article_tag.append(gen_h(soup, title))
            article_tag.append('\n')
            selected = cf[cf['main']==title].sort_values(by=['date'],
                                                         ascending=False).to_dict()
            cf = cf[cf['main']!=title]
            article_tag.append(' '*2)
            article_tag.append(gen_ul(soup, selected))
            article_tag.append('\n')
    article_tag.append(gen_h(soup, "Публикации по другим темам"))
    article_tag.append('\n')
    selected = cf.sort_values(by=['date'], ascending=False).to_dict()
    article_tag.append(' '*2)
    article_tag.append(gen_ul(soup, selected))
    article_tag.append('\n')
        
    html_file = open("../index.html", "w")
    html_file.write(soup.prettify())
    html_file.close()