# Парсинг Ведомостей

Используем расширения для Chrome для удобного парсинга http://selectorgadget.com (+ используем fromstring из либы lxml)

Будем мультипоточно качать сразу по 50 статей с сайта одновременно (Pool)

In [1]:
import pandas as pd

In [2]:
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

In [21]:
import requests
from multiprocessing.dummy import Pool
from lxml.html import fromstring

def get_page(url):
    html = requests.get(url).text
    dom = fromstring(html)
    dom.make_links_absolute(url)
    return dom

def get_article_urls(url_date):
    pattern = '.b-article__title a'
    dom = get_page(url_date)
    print(f'dom {dom}'  )
    return [t.attrib['href'] for t in dom.cssselect(pattern)]

def get_article_text(url):
    # todo: if 'video' or 'gallery' ... - return ''
    pattern_header = 'h1'
    patterns = ['.b-news-item__text_one p', '.b-social__layout-mutation p']
    
    try:
        dom = get_page(url)
    except Exception as e:
        print(e)
        return None, None
    print(f'dom {dom}'  )
    
    try:
        header = dom.cssselect(pattern_header)[0].text_content().strip()
    except:
        header = ""

    try:
        css_elements = flatten([dom.cssselect(pattern) for pattern in patterns])
        text = "\n\n".join([t.text_content().strip() for t in css_elements])
    except:
        text = ""

    return header, text

flatten = lambda l: [item for sublist in l for item in sublist]

In [4]:
url_date_template = 'https://www.vedomosti.ru/archive/{}/{}/{}'
url_dates = []
for y in [2016]:
    for m in range(1,13):
        for d in range(1,29):
            url_dates.append(url_date_template.format(y,m,d))

In [5]:
pool = Pool(50)

In [10]:
%%time

url_articles = pool.map(get_article_urls, url_dates)
url_articles = flatten(url_articles)
url_articles = [url for url in url_articles if url.split('/')[4] not in {'galleries','video','online'}]

Wall time: 9.8 s


вот сколько ссылок на статьи теперь у нас есть

In [22]:
get_article_urls('https://www.vedomosti.ru/archive/2016/10/18')

dom <Element html at 0xb4c3638>


[]

In [13]:
url_dates

['https://www.vedomosti.ru/archive/2016/1/1',
 'https://www.vedomosti.ru/archive/2016/1/2',
 'https://www.vedomosti.ru/archive/2016/1/3',
 'https://www.vedomosti.ru/archive/2016/1/4',
 'https://www.vedomosti.ru/archive/2016/1/5',
 'https://www.vedomosti.ru/archive/2016/1/6',
 'https://www.vedomosti.ru/archive/2016/1/7',
 'https://www.vedomosti.ru/archive/2016/1/8',
 'https://www.vedomosti.ru/archive/2016/1/9',
 'https://www.vedomosti.ru/archive/2016/1/10',
 'https://www.vedomosti.ru/archive/2016/1/11',
 'https://www.vedomosti.ru/archive/2016/1/12',
 'https://www.vedomosti.ru/archive/2016/1/13',
 'https://www.vedomosti.ru/archive/2016/1/14',
 'https://www.vedomosti.ru/archive/2016/1/15',
 'https://www.vedomosti.ru/archive/2016/1/16',
 'https://www.vedomosti.ru/archive/2016/1/17',
 'https://www.vedomosti.ru/archive/2016/1/18',
 'https://www.vedomosti.ru/archive/2016/1/19',
 'https://www.vedomosti.ru/archive/2016/1/20',
 'https://www.vedomosti.ru/archive/2016/1/21',
 'https://www.vedomost

In [14]:
len(url_articles)

NameError: name 'url_articles' is not defined

ограничимся пока 10000 статьями

In [None]:
urls = url_articles[:10000]

In [None]:
df = pd.DataFrame({"url": urls})

In [None]:
df["topic"] = df.url.apply(lambda x: x.split('/')[3])
df["format"] = df.url.apply(lambda x: x.split('/')[4])

In [None]:
df.head()

скачаем тексты статей

In [None]:
%%time
headers_texts = pool.map(get_article_text, urls)

In [None]:
pool.close()
pool.join()

объединим в датасет

In [None]:
df["header"] = [t[0] for t in headers_texts]
df["text"] = [t[1] for t in headers_texts]

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.to_pickle('vedomosti_archive.pkl')

длина заголовка

In [None]:
df.header.apply(len).hist()

длина текста

In [None]:
df.text.apply(len).hist()

длина текста, крупнее

In [None]:
df[df.text.apply(len)<3000].text.apply(len).hist()

# Лемматизация слов

приведём все слова в текстах к начальной форме слова - так мы сильно сократим размерность пространства признаков

хоть pymorphy2 и достаточно быстрый, лучше его упаковывать в класс со своим кэшем (который хорошо бы ещё куда-то выгружать при окончании и загружать в начале работы, это можете доделать. Удобно для этих целей использовать json)

In [None]:
import pymorphy2
from nltk.tokenize import word_tokenize

In [None]:
class MorphProvider:
    def __init__(self):
        self.cache = {}
        self.morph = pymorphy2.MorphAnalyzer()
    
    def __call__(self, w):
        w = w.lower()
        cached = self.cache.get(w)
        if cached:
            return cached
        try:
            morphed = self.morph.parse(w)[0].normal_form
            self.cache[w] = morphed
            return morphed
        except:
            return None
    
    def morph_string(self, s):
        words = word_tokenize(s)
        return " ".join([self.__call__(w) for w in words])

In [None]:
morph = MorphProvider()

In [None]:
from tqdm import tqdm

In [None]:
df["normalized"] = [morph.morph_string(t) for t in tqdm(df.text)]

In [None]:
df.to_pickle('vedomosti_archive.pkl')

# Облако слов

*4 fun*

In [None]:
from collections import Counter

In [None]:
words = [w for w in " ".join(df.normalized).split() if len(w)>2]

In [None]:
Counter(words).most_common()[:20]

In [None]:
from wordcloud import WordCloud

def get_wordcloud(text,max_font_size=None):
    wordcloud = WordCloud(max_font_size=max_font_size).generate(text)
    plt.imshow(wordcloud)
    plt.axis("off")

In [None]:
get_wordcloud(' '.join(words))

In [None]:
get_wordcloud(' '.join(words), max_font_size=50)

-----