In [1]:
import pandas as pd
import codecs
import pickle
import re
import http
from datetime import timedelta, date
from urllib import error
from urllib.request import urlopen, Request
from bs4 import BeautifulSoup
from IPython.display import clear_output

# Краулер по новостным статьям

In [67]:
texts = {"source": [], "author": [], "text": [], "date": []}
start_date = date(1999, 12, 31)
end_date = date(2019, 1, 1)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1) \
           AppleWebKit/537.36 (KHTML, like Gecko) \
           Chrome/41.0.2228.0 Safari/537.3"}
# fake headers, чтобы избежать ошибки 403 Forbidden при скачивании страниц


def daterange(start_date, end_date):
    # вспомогательная функция, упрощающая итерацию по датам
    for n in range(int((end_date - start_date).days)):
        yield start_date + timedelta(n)


def download_page(pageUrl):
    # функция, скачивающая страницу
    req = Request(url=pageUrl, headers=headers)
    try:
        page = urlopen(req).read()
    except (http.client.IncompleteRead) as e:
        page = e.partial
    except error.HTTPError as e:
        if e.code == 404:
            page = "error"
    return page


def get_index(source, date):
    # функция, возвращающая индекс статей по дате
    if source == "Lenta.ru":
        link = "https://lenta.ru/news/" + date.strftime("%Y/%m/%d")
    if source == "Полит.ру":
        link = "https://polit.ru/news/" + date.strftime("%Y/%m/%d")
    if source == "Znak.com":
        link = "https://www.znak.com/" + date.strftime("%Y-%m-%d")
    if source == "Интерфакс":
        link = "https://www.interfax.ru/news/" + date.strftime("%Y/%m/%d")
    return (link)


def get_links_list(page, source):
    # функция, достающая список ссылок на статьи из страницы
    if source == "Lenta.ru":
        links = page.find_all("div", {"class": "titles"})
        links = ["https://lenta.ru" + link.h3.a.get("href") for link in links]
    if source == "Полит.ру":
        links = page.find_all("div", {"class": "news-full stop"})
        links = ["https://polit.ru" + link.h3.a.get("href") for link in links]
    if source == "Znak.com":
        links = page.find_all("a", {"class": "pub"})
        links = ["https://www.znak.com" + link.get("href") for link in links]
    if source == "Интерфакс":
        links = page.find("div", {"class": "an"})
        links = links.find_all("a")
        links = ["https://www.interfax.ru/" +
                 link.get("href") for link in links]
    return (links)


def is_error(page, source):
    # функция, проверяющая, существует ли страница
    if source == "Lenta.ru" and page.html.body["class"] == "page_error":
        return (True)
    if source == "Полит.ру" and (page.html is None or \
                                 page.html.body is None or \
                                 page.html.body["class"] == ""):
        return (True)
    if source == "Znak.com" and page.find("h1", {"class": "error404 x4"}):
        return (True)
    if source == "Интерфакс" and page.html.head.title.string \
            == 'Документ не найден - "Интерфакс"':
        return (True)
    if page is None or str(page) == "error":
        return (True)
    return (False)


def get_author(page, source):
    # функция, достающая из html автора статьи - доступно только для Znak.com,
    # в остальных СМИ авторы новостей анонимны
    if source == "Znak.com":
        try:
            return (page.find("div", {"class": "credits__data"}).get_text())
        except:
            return ("Unknown")
    return ("Unknown")


def get_text(page, source):
    # функция, достающая готовый к лемматизации текст из html
    if source == "Lenta.ru":
        article = page.find("div", {"class": "b-text clearfix js-topic__text"})
        if article.script:
            article.script.decompose()
        for tag in article.find_all("div"):
            tag.decompose()
        strings = article.strings
        text = " ".join(strings)
    if source == "Полит.ру":
        strings = page.find("div",
                            {"class": "text doc js-mediator-article"}).strings
        text = " ".join(strings)
        text = re.sub("\\n", "", text)
    if source == "Znak.com":
        article = page.find("article")
        if article.a:
            article.a.decompose()
        if article.script:
            article.script.decompose()
        for tag in article.find_all("div"):
            tag.decompose()
        strings = article.strings
        text = " ".join(strings)
        text.replace("\xa0", " ")
        text = text.strip()
    if source == "Интерфакс":
        strings = page.find("article", {"itemprop": "articleBody"}).strings
        text = " ".join(strings)
        text = re.sub("\\n", "", text)
    return (text)


last_finished_date = start_date
# если придётся прерывать скачивание


def download_and_parse_texts(source,
                             start=last_finished_date, end=end_date):
    # функция, проходящая по всем статьям СМИ
    # в период с 01.01.2000 по 31.12.2018
    # и для каждой статьи записывающая текст,
    # автора, дату и источник в словарь texts
    global texts
    current_month = start.month
    for date_ in daterange(start + timedelta(days=1), end):
        if date_.month != current_month:
            current_month = date_.month
            with open("texts.pkl", "wb") as file:
                pickle.dump(texts, file)
        # сохраняем после каждого скачанного месяца
        index = download_page(get_index(source, date_))
        index_parsed = BeautifulSoup(index, "html.parser")
        if not is_error(index_parsed, source):
            try: 
                links_list = get_links_list(index_parsed, source)
                for link in links_list:
                    page = download_page(link)
                    page_parsed = BeautifulSoup(page, "html.parser")
                    if not is_error(page_parsed, source):
                        texts["text"].append(get_text(page_parsed, source))
                        texts["author"].append(get_author(page_parsed, source))
                        texts["source"].append(source)
                        texts["date"].append(date_)
            except AttributeError:
                continue
        global last_finished_date
        last_finished_date = date_
        clear_output()
        print("Last finished: {}".format(last_finished_date))

In [None]:
#в случае, если скачивание придётся прервать
with open("texts.pkl", "rb") as file:
    texts = pickle.load(file)
last_finished_date = texts["date"][-1]

In [None]:
# скачиваем тексты четырёх новостных СМИ
download_and_parse_texts("Lenta.ru", start=last_finished_date)

In [36]:
download_and_parse_texts("Полит.ру", start=last_finished_date)

Last finished: 2018-12-18


In [64]:
download_and_parse_texts("Znak.com", start=last_finished_date)

Last finished: 2018-12-31


In [69]:
download_and_parse_texts("Интерфакс", start=last_finished_date)

Last finished: 2018-12-29


In [None]:
# преобразуем получившийся словарь в датафрейм и сортируем по дате
data = pd.DataFrame(texts)
data = data.sort_values(by="date")
data.head()

In [None]:
# сохраняем в csv и как объект pickle
data.to_csv("texts.csv")
pickle.dump(data, "texts.pkl")