## Создание собственного скрейпера

Библиотеки, которые нам понадобятся:

In [1]:
# стандартные
import re
import urllib.request
from time import sleep
# нужно установить: pip install bs4
from bs4 import BeautifulSoup as bs

Посмотрим, как выглядит заглавная страница ресурса:

In [2]:
fid = urllib.request.urlopen('https://proza.ru/')  # откроем ее с помощью библиотеки urllib

webpage = fid.read().decode('cp1251')  # как узнать, какая нам нужна кодировка: нужно открыть в браузере эту страницу, нажать f12 (для chrome) и в терминале (console) набрать document.characterSet

print(webpage)  # посмотрим, как оно выглядит

<head>
<meta http-equiv="Content-Type" content="text/html" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta http-equiv="X-Frame-Options" content="deny" />
<meta name="DESCRIPTION" content="Сервер предоставляет авторам возможность свободной публикации и обсуждения произведений современной прозы." />
<meta name="Keywords" content="проза произведение роман новелла миниатюра автор литература творчество лирика журнал конкурс" />
<meta name="title" content="Проза.ру" />
<title>Проза.ру</title>
<link rel="stylesheet" href="/styles/s_main_11.css">
<script language="JavaScript" src="/styles/p_main_1.js"></script>
</head>

<body bgcolor="#FFFFFF" text="#000000" link="#000080" vlink="#505050" alink="#FF0000" marginheight="0" marginwidth="0" topmargin="0" leftmargin="0">



<div id="container">

  <div id="header">
    <div class="line1">
      <div class="headlogo"><a href="/"><img src="/images/proza.svg" alt="Стихи.ру" title="Стихи.ру"></a></div>
      <ul class=

![Image](console.PNG)

In [3]:
soup = bs(webpage, 'html.parser')  # передадим нашу страницу в парсер bs4

In [4]:
for link in soup.find_all('a'):
    # посмотрим, какие у нас есть ссылки
    print(link.get('href'))  

/
/authors/
/poems/
/board/
/search.html
https://shop.proza.ru/
https://o.proza.ru/
/login/
https://o.proza.ru/
/poems/
/editor/2018/02/28/462
/avtor/daryona67
/editor/2021/06/23/1291
/avtor/kaperang
/editor/2021/06/23/1739
/avtor/shuvcgl
/editor/2021/06/24/671
/avtor/krater1
/editor/2021/06/24/1293
/avtor/tomakohana
/editor/2021/06/25/550
/avtor/skoloss1
/editor/2021/06/25/766
/avtor/artemic
/editor/2021/06/25/869
/avtor/shevnin
/editor/2018/08/04/512
/avtor/chornogor
/editor/2021/06/28/1022
/avtor/molgast
/editor/2021/06/25/931
/avtor/mudamailru
/editor/2021/06/25/954
/avtor/redin1970
/editor/2021/02/02/638
/avtor/ifynfkm1971
/editor/2021/11/10/995
/avtor/peresvetm
/editor/2021/06/26/893
/avtor/olgaatp
/editor/2021/06/26/969
/avtor/medvegonok
/editor/2021/06/26/1176
/avtor/helga35
/editor/2021/12/23/1360
/avtor/franziri
/editor/2020/07/25/221
/avtor/miliku
/editor/2020/07/15/280
/avtor/iolnta
/editor/2020/08/23/761
/avtor/vlad43
/editor/
/authors/
/authors/online.html
/avtor/gudmar
/

Нас интересуют только внутренние, а они, очевидно, не начинаются с https. Отсеем их:

In [5]:
links = []
for link in soup.find_all('a', attrs={'href': re.compile(r'^/.+')}):
    links.append('https://proza.ru' + link.get('href'))

In [6]:
links[:10] # посмотрим, что вышло

['https://proza.ru/authors/',
 'https://proza.ru/poems/',
 'https://proza.ru/board/',
 'https://proza.ru/search.html',
 'https://proza.ru/login/',
 'https://proza.ru/poems/',
 'https://proza.ru/editor/2018/02/28/462',
 'https://proza.ru/avtor/daryona67',
 'https://proza.ru/editor/2021/06/23/1291',
 'https://proza.ru/avtor/kaperang']

Вроде похоже на правду. Давайте собирать уже просмотренные ссылки в множество, чтобы не попадать в них по нескольку раз:

In [7]:
viewedlinks = set('https://proza.ru/') # главную мы типа уже посмотрели

Давайте попробуем в тестовом режиме пройтись по ссылкам до упора один раз. Давайте оформим наше извлечение страницы в какую-нибудь функцию:

In [8]:
def looklinks(page, viewed):
    """Тестовая функция для просмотра всех ссылок на странице"""
    fid = urllib.request.urlopen(page) 
    webpage = fid.read().decode('cp1251')
    viewed.add(page)
    soup = bs(webpage, 'html.parser') 
    links = []
    for link in soup.find_all('a', attrs={'href': re.compile(r'^/.+')}):
        l = 'https://proza.ru' + link.get('href')
        if l not in viewed:
            links.append(l)
    return links

In [9]:
step = looklinks(links[0], viewedlinks)

In [10]:
step

['https://proza.ru/poems/',
 'https://proza.ru/board/',
 'https://proza.ru/search.html',
 'https://proza.ru/login/',
 'https://proza.ru/avtor/gudmar',
 'https://proza.ru/avtor/uzdechkin3',
 'https://proza.ru/avtor/petrov1910',
 'https://proza.ru/avtor/peresvetm',
 'https://proza.ru/avtor/ryabov3',
 'https://proza.ru/avtor/vbrtybyf',
 'https://proza.ru/avtor/lotos4',
 'https://proza.ru/avtor/bliznec3',
 'https://proza.ru/avtor/89647718053',
 'https://proza.ru/avtor/elisawetaroman',
 'https://proza.ru/avtor/bogdanov1',
 'https://proza.ru/avtor/wlasser',
 'https://proza.ru/login/promo.html?invite',
 'https://proza.ru/poems/',
 'https://proza.ru/board/',
 'https://proza.ru/search.html',
 'https://proza.ru/login/',
 'https://proza.ru/help/']

In [17]:
step = looklinks(step[0], viewedlinks)
step

[]

Если прощелкать несколько раз, рано или поздно дойдем до пустого списка: значит, ссылки на странице закончились. Давайте для проверки, что находится на страницах с авторами, прощелкаем более избирательно:

In [20]:
# 'https://proza.ru/avtor/akochevnik'
# 'https://proza.ru/avtor/akochevnik&book=9#9'
# 'https://proza.ru/2012/11/30/1362'
# 'https://proza.ru/complain.html?text_2012/11/30/1362'
# 'https://proza.ru/about/pravila.html'

step = looklinks('https://proza.ru/2012/11/30/1362', viewedlinks)
step

['https://proza.ru/readers.html?2012/11/30/1362',
 'https://proza.ru/login/promo.html?anons&link=2012/11/30/1362',
 'https://proza.ru/complain.html?text_2012/11/30/1362',
 'https://proza.ru/addrec.html?2012/11/30/1362',
 'https://proza.ru/avtor/vasilek24',
 'https://proza.ru/rec.html?2021/12/28/917',
 'https://proza.ru/complain.html?rec_2021/12/28/917',
 'https://proza.ru/addnotes.html?2021/12/28/917',
 'https://proza.ru/complain.html?notes_2021/12/28/917_akochevnik',
 'https://proza.ru/avtor/yalinka',
 'https://proza.ru/complain.html?notes_2021/12/28/917_yalinka',
 'https://proza.ru/complain.html?notes_2021/12/28/917_akochevnik',
 'https://proza.ru/addnotes.html?2021/12/28/917',
 'https://proza.ru/comments.html?2012/11/30/1362',
 'https://proza.ru/comments.html?2012/11/30/1362',
 'https://proza.ru/addrec.html?2012/11/30/1362',
 'https://proza.ru/login/messages.html?akochevnik']

Ну вроде как понятно: все должно работать. Нам теперь осталось понять, на страницах какого вида лежит хороший текст. Предположу, что на страницах с датами. Проверим, напринтив такую страницу:

In [21]:
fid = urllib.request.urlopen('https://proza.ru/2012/11/30/1362') 
webpage = fid.read().decode('cp1251')
print(webpage)

<head>
<meta http-equiv="Content-Type" content="text/html" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta http-equiv="X-Frame-Options" content="deny" />
<meta name="DESCRIPTION" content="Сервер предоставляет авторам возможность свободной публикации и обсуждения произведений современной прозы." />
<meta name="Keywords" content="проза произведение роман новелла миниатюра автор литература творчество лирика журнал конкурс" />
<meta name="title" content="Моё деревенское счастье. Предисловие (Александр Алексеевич Кочевник) / Проза.ру" />
<title>Моё деревенское счастье. Предисловие (Александр Алексеевич Кочевник) / Проза.ру</title>
<link rel="stylesheet" href="/styles/s_main_11.css">
<script language="JavaScript" src="/styles/p_main_1.js"></script>
</head>

<body bgcolor="#FFFFFF" text="#000000" link="#000080" vlink="#505050" alink="#FF0000" marginheight="0" marginwidth="0" topmargin="0" leftmargin="0">



<div id="container">

  <div id="header">
    <div c

Действительно: тут лежат наши тексты. Возможно, они еще где-нибудь лежат (poem?), это тоже можно проверить. Ну предположим, что мы все проверили и убедились, что страницы с текстами произведений - это, очевидно, адреса в формате r'\d{4}/\d\d/\d\d/.*' = '1234/56/78/123...'

Давайте попробуем допилить нашу тестовую функцию таким образом, чтобы она дополнительно проверяла, не является ли просматриваемая страница текстовой, и добавляла ее в отдельный список. 

In [22]:
texts = []

In [23]:
def looklinks(page, viewed, texts):
    """Тестовая функция для просмотра всех ссылок на странице и добавления текстов"""
    print(page)
    fid = urllib.request.urlopen(page) 
    webpage = fid.read().decode('cp1251')
    viewed.add(page)
    if re.match(r'https://proza.ru/\d{4}/\d\d/\d\d/.*', page):
        texts.append(webpage)
        print(f'text for {page} added!')
    soup = bs(webpage, 'html.parser') 
    links = []
    for link in soup.find_all('a', attrs={'href': re.compile(r'^/.+')}):
        l = 'https://proza.ru' + link.get('href')
        if l not in viewed:
            links.append(l)
    if links:
        for link in links:
            sleep(1)  # чтоб нас случайно не заблочили как робота
            looklinks(link, viewed, texts)
    else:
        return 

Потестим нашу функцию для какого-нибудь конкретного автора:

In [None]:
start = 'https://proza.ru/avtor/evgeny1951mai'
looklinks(start, viewedlinks, texts)


In [25]:
texts

['<head>\n<meta http-equiv="Content-Type" content="text/html" />\n<meta name="viewport" content="width=device-width, initial-scale=1.0" />\n<meta http-equiv="X-Frame-Options" content="deny" />\n<meta name="DESCRIPTION" content="Сервер предоставляет авторам возможность свободной публикации и обсуждения произведений современной прозы." />\n<meta name="Keywords" content="проза произведение роман новелла миниатюра автор литература творчество лирика журнал конкурс" />\n<meta name="title" content="Человеческий фактор-продажная власть и менты! (Евгений Полуэктов) / Проза.ру" />\n<title>Человеческий фактор-продажная власть и менты! (Евгений Полуэктов) / Проза.ру</title>\n<link rel="stylesheet" href="/styles/s_main_11.css">\n<script language="JavaScript" src="/styles/p_main_1.js"></script>\n</head>\n\n<body bgcolor="#FFFFFF" text="#000000" link="#000080" vlink="#505050" alink="#FF0000" marginheight="0" marginwidth="0" topmargin="0" leftmargin="0">\n\n\n\n<div id="container">\n\n  <div id="heade

Видим, что все работает и что наш скрейпер, как ему и полагается, ползает со страницы на страницу и рано или поздно выкачает всю прозу, если мы не установим какой-нибудь лимит, например:

In [26]:
def looklinks(page, viewed, texts, N=10):
    """Тестовая функция для просмотра всех ссылок на странице и добавления текстов"""
    if len(texts) > N:  # N - число текстов, которое мы хотим выкачать
        return
    print(page)
    fid = urllib.request.urlopen(page) 
    webpage = fid.read().decode('cp1251')
    viewed.add(page)
    if re.match(r'https://proza.ru/\d{4}/\d\d/\d\d/.*', page):
        texts.append(webpage)
        print(f'text for {page} added!')
    soup = bs(webpage, 'html.parser') 
    links = []
    for link in soup.find_all('a', attrs={'href': re.compile(r'^/.+')}):
        l = 'https://proza.ru' + link.get('href')
        if l not in viewed:
            links.append(l)
    if links:
        for link in links:
            sleep(1)  # чтоб нас случайно не заблочили как робота
            looklinks(link, viewed, texts)
    else:
        return 

Отлично, дело за малым: вытащить собственно тексты из html-разметки :) И метаинформацию о них: заголовок, автора и дату публикации. 

Заголовок, очевидно, лежит в самом html, это:

        <title>Моё деревенское счастье. Предисловие (Александр Алексеевич Кочевник) / Проза.ру</title> 

Автор тоже есть, он зашит в заголовке: r'(.+?) \\((.+?)\\) / Проза.ру'

Ну а дату можно из ссылки страницы извлечь, мы уже выяснили, что эти ссылки нумеруются датами. Следовательно:

In [27]:
def looklinks(page, viewed, texts, N=10):
    """Тестовая функция для просмотра всех ссылок на странице и добавления текстов"""
    print(page)
    fid = urllib.request.urlopen(page) 
    webpage = fid.read().decode('cp1251')
    viewed.add(page)
    soup = bs(webpage, 'html.parser') 
    # вот наш кусочек, который будет отвечать за добавление всего в итоговый список текстов:
    if re.match(r'https://proza.ru/\d{4}/\d\d/\d\d/.*', page):
        ta = re.search(r'(.+?) \((.+?)\) / Проза.ру', soup.title.string) # расчленяем заголовок на автора и название с помощью групп в регулярках
        if ta:
            title = ta.group(1)
            author = ta.group(2)
        else:
            # а вдруг мы где-то накосячили с регуляркой
            title = 'Unknown'
            author = 'Unknown'
        year = re.search(r'https://proza.ru/(\d{4}/\d\d/\d\d)/.*', page).group(1) # получаем год с помощью группы
        text = '\n'.join((elem.text for elem in soup.find_all("div", {"class": "text"})))  # собираем все возможные сегменты класса "текст" с помощью bs4
        texts.append({'title': title, 'author': author, 'year': year, 'text': text})
        print(f'text for {page} added!')
    links = []
    for link in soup.find_all('a', attrs={'href': re.compile(r'^/.+')}):
        l = 'https://proza.ru' + link.get('href')
        if l not in viewed:
            links.append(l)
    if links:
        for link in links:
            if re.search('board|login|help|topic|type|about', link): # мы, вероятно, не хотим бесконечно лазать по внутренностям не интересующих нас разделов
                continue
            if len(texts) >= N:  # N - число текстов, которое мы хотим выкачать
                return
            sleep(0.5)  # чтоб нас случайно не заблочили как робота
            looklinks(link, viewed, texts, N)
    else:
        return 

In [28]:
viewedlinks = set('https://proza.ru/') # для чистоты эксперимента обнулим наш список просмотренного
texts = [] # и список текстов

In [29]:
start = 'https://proza.ru/avtor/evgeny1951mai' # начнем с того же дяденьки, но укажем, что нам нужно только 10 текстов: мы потестить
looklinks(start, viewedlinks, texts, 10)

https://proza.ru/avtor/evgeny1951mai
https://proza.ru/authors/
https://proza.ru/poems/
https://proza.ru/search.html
https://proza.ru/reg.html
https://proza.ru/texts/list.html
https://proza.ru/rating.html
https://proza.ru/2022/09/26/914
text for https://proza.ru/2022/09/26/914 added!
https://proza.ru/avtor/stajilo
https://proza.ru/recommend.html?stajilo
https://proza.ru/authors/password.html
https://proza.ru/rec_author.html?stajilo
https://proza.ru/avtor/moloko2
https://proza.ru/recommend.html?moloko2
https://proza.ru/rec_author.html?moloko2
https://proza.ru/2009/09/08/948
text for https://proza.ru/2009/09/08/948 added!
https://proza.ru/readers.html?2009/09/08/948
https://proza.ru/avtor/victorlev
https://proza.ru/recommend.html?victorlev
https://proza.ru/rec_author.html?victorlev
https://proza.ru/2021/01/28/1036
text for https://proza.ru/2021/01/28/1036 added!
https://proza.ru/readers.html?2021/01/28/1036
https://proza.ru/avtor/nelly55
https://proza.ru/recommend.html?nelly55
https://pro

In [30]:
texts

[{'title': 'Невидимки и загадки Проза. ру',
  'author': 'Кандидыч',
  'year': '2022/09/26',
  'text': '\n(с) 26.09.2022\n\xa0\n\n1. Рукописи не горят. Теперь они просто не отображаются.\n\n2. Чтобы попасть в рейтинг, надо кинуть в него чем-то.\nМожно кирпичом, но миниатюрой лучше.\n\n3. Загадка № 1\n«Страница не найдена». «Страница не отображается».\nУгадайте, какая из «страниц» – это автор Проза.ру?\nНевидимый или ненайденный?\n\n4. Загадка № 2\nИ не прочитать, и на страницу не зайти, а в рейтинге живёт зримо.\n\nКабачок 13 стульев какой-то подпольный? И как оттуда в рейтинг запускают? \nЗа отдельную денюшку или по членским билетам?\nИ кстати, попробуйте найти кнопку «Заявление о нарушении» для таких авторов-невидимок.\nНа рейтинг ведь так не пожалуешься! И привет не передашь.\n\n5.\nПрочитали? И я тоже нет. Хотя там что-то написано после "5.".\nПо новым веяниям – это возможно миниатюра. \nЯ бы на вашем месте восхитился\xa0 –\xa0 какая она хорошая!\nТкань узорчатая с переливами, с выш

Ну вот и все! осталось для красоты только переписать этот код на классах и в .py....... 