In [3]:
from bs4 import BeautifulSoup
import requests
import datetime
import time
import csv
import pandas as pd
# 3 минуты на 4 дня

In [4]:
class GosParser:
    def __init__(self, period_from, period_to, page=1, money_period=0, logging=True, interval=1, output='cards'):
        self.base_url_start = 'https://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&search-filter=Дате+размещения&pageNumber='
        self.base_url_end = '&sortDirection=false&recordsPerPage=_50&showLotsInfoHidden=false&sortBy=UPDATE_DATE&fz44=on&fz223=on&pc=on'
    
        # logging flag
        self.logging = logging

        # output filename
        self.output = output
        
        # date interval
        self.interval = interval

        # request headers
        self.headers = {
            'Accept-Encoding': 'gzip, deflate, br', 
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36',
            'Connection': 'keep-alive', 
            'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Upgrade-Insecure-Requests': '1',
            'Host': 'zakupki.gov.ru',
            'Sec-Fetch-Dest': 'document',
            'Sec-Fetch-Mode': 'navigate',
            'Sec-Fetch-Site': 'none',
            'Sec-Fetch-User': '?1',
            'Cache-Control': 'max-age=0',
            'Cookie': '_ym_uid=1590413769299894330; _ym_d=1590413769; _ym_isad=2; _ym_visorc_36706425=b'
        }
        
        # dates
        self.start_period = datetime.date.fromisoformat(period_from)
        self.end_period = datetime.date.fromisoformat(period_to)
        self.current_period = datetime.date.fromisoformat(period_from)

        # money periods
        self.money = [[0, 400000], [400000, 1000000], [1000000, 5000000], [
            5000000, 20000000], [20000000, 100000000], [100000000, 1000000000], [1000000000]]
        self.current_money = money_period

        # currencies
        self.currency = {
            '$': 'usd',
            '€': 'eur',
            '₽': 'rub' 
        }

        self.current_page = page

        # current link to parse
        self.current_url = self.construct_url()

    def construct_url(self):
        url_page = self._add_page()
        url_page_day = self._add_day(url_page)
        url_page_day_money = self._add_money(url_page_day)

        return url_page_day_money + '&currencyIdGeneral=-1'

    def parse(self):
        # collect blocks
        while self.current_period <= self.end_period:
            while self.current_money != len(self.money) - 1:
                # make very first iteration
                page_blocks = self._collect_blocks()
                # self.blocks.extend(page_blocks['data'])
                self.current_page += 1
                self.current_url = self.construct_url()

                # read data from blocks while page has blocks
                while ((page_blocks['status'] == 'timeout') or (page_blocks['status'] == 'ok' and len(page_blocks['data']) > 0)) and self.current_page < 20:
                    page_blocks = self._collect_blocks()
                    # self.blocks.extend(page_blocks['data'])
                    self.current_page += 1
                    self.current_url = self.construct_url()

                # go to next money period
                self.current_money += 1

                # reset current page
                self.current_page = 1

                # reconstruct url using new data
                self.current_url = self.construct_url()

            # increment interval days
            self.current_period += datetime.timedelta(days=self.interval)

            # reset current money
            self.current_money = 0

            # reconstruct url using new data
            self.current_url = self.construct_url()

        # read blocks (cards)
        self.blocks = pd.read_csv(self.output + '.csv', parse_dates=True)

        # parse internal pages
        # self.parse_internal()

    def parse_internal(self):
        # print(self.blocks[0])
        self.blocks.iloc[2].link.find('https')

    def _collect_blocks(self):        
        try:
            if self.logging:
                print('page:', self.current_page, '| money:', self.money[self.current_money], '| date:', self.current_period)
                
            response = requests.get(self.current_url, headers=self.headers, verify=True, timeout=2)
        except:
            if self.logging:
                print('timeout')
            
            self.write_to_csv([{
                'date': self._create_iso_date_str(self.current_period.day, self.current_period.month, self.current_period.year),
                'page': self.current_page,
                'money': self.current_money
            }], self.output + '-gaps.csv')
            
            return {
                'data': [],
                'status': 'timeout'
            }

        response.encoding = 'utf-8'
        page = response.text
        soup = BeautifulSoup(page, 'html.parser')

        cards = soup.find_all(
            'div', {'class': 'registry-entry__form'})

        cards_data = []

        for card in cards:
            card_data = {}
            price = card.find_all('div', {'class': 'price-block__value'})
            link = card.find_all('div', {'class': 'registry-entry__header-mid__number'})
                
            # collect link, id and price, also add date, page and money period
            if link and link[0] and price and price[0]:
                a = link[0].find_all('a')
                if a and a[0]:
                    card_data['id'] = a[0].contents[0].strip()[2:]
                    card_data['link'] = a[0]['href']
                    
                price = price[0].contents[0].strip()
                card_data['price'] = float(price[:-2].replace(u'\xa0', '').replace(' ', '').replace(',', '.'))

                if price[-1] in self.currency:
                    card_data['currency'] = self.currency[price[-1]]
                else:
                    card_data['currency'] = price[-1]
                
                # add current date
                card_data['date'] = self._create_iso_date_str(self.current_period.day, self.current_period.month, self.current_period.year)

                # add technical data (page and money period)
                card_data['money'] = self.current_money
                card_data['page'] = self.current_page

                cards_data.append(card_data)

        if len(cards_data) > 0:
            self.write_to_csv(cards_data, self.output + '.csv')
        
        return {
            'data': cards_data,
            'status': 'ok'
        }
    
    def write_to_csv(self, data, file_name):
        keys = data[0].keys()

        with open(file_name, 'a+') as output_file:
            dw = csv.DictWriter(output_file, keys)
            dw.writerows(data)

    def _create_date_str(self, day, month, year):
        return str(day).zfill(2) + '.' + str(month).zfill(2) + '.' + str(year)
    
    def _create_iso_date_str(self, day, month, year):
        return str(year) + '-' + str(month).zfill(2) + '-' + str(day).zfill(2)

    def _add_day(self, url):
        date = self._create_date_str(self.current_period.day, self.current_period.month, self.current_period.year)
        return url + '&publishDateFrom=' + date + '&publishDateTo=' + date

    def _add_money(self, url):
        money_period = self.money[self.current_money]

        if (len(money_period) == 2):
            return url + '&priceFromGeneral=' + str(money_period[0]) + '&priceToGeneral=' + str(money_period[1])
        else:
            return url + '&priceFromGeneral=' + str(money_period[0])

    def _add_page(self):
        return self.base_url_start + str(self.current_page) + self.base_url_end

    def _next_page(self):
        self.current_page += 1
        self.current_url = self.construct_url()

In [5]:
parser = GosParser(period_from='2019-06-01', period_to='2019-06-01', output='cards')
parser.parse()

page: 1 | money: [0, 400000] | date: 2019-06-01
page: 2 | money: [0, 400000] | date: 2019-06-01
page: 3 | money: [0, 400000] | date: 2019-06-01
page: 4 | money: [0, 400000] | date: 2019-06-01
page: 1 | money: [400000, 1000000] | date: 2019-06-01
page: 2 | money: [400000, 1000000] | date: 2019-06-01
page: 1 | money: [1000000, 5000000] | date: 2019-06-01
page: 2 | money: [1000000, 5000000] | date: 2019-06-01
page: 1 | money: [5000000, 20000000] | date: 2019-06-01
page: 2 | money: [5000000, 20000000] | date: 2019-06-01
page: 1 | money: [20000000, 100000000] | date: 2019-06-01
page: 2 | money: [20000000, 100000000] | date: 2019-06-01
page: 1 | money: [100000000, 1000000000] | date: 2019-06-01
page: 2 | money: [100000000, 1000000000] | date: 2019-06-01


In [10]:
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Cookie': '_ym_uid=1590413769299894330; _ym_d=1590413769',
    'Host': 'zakupki.gov.ru',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}

def parse223(link):
    print(link)
    try:    
        response = requests.get(link, headers=headers, verify=True, timeout=2)
    except:
        print('timeout')
        return

    response.encoding = 'utf-8'
    page = response.text
    soup = BeautifulSoup(page, 'html.parser')

    table = soup.find(
        'table', {'id': 'lot'})

    print(table)

    # headers = table.find_all('th')
    # print(headers)

def parse_internal(blocks):
    # blocks.iloc[2].link.find('https')

    for i in range(len(blocks)):
        row = blocks.iloc[i]
        root = 'https://zakupki.gov.ru'

        # 223-ФЗ
        if row.link.find('https') == 0:
            link = row.link.replace('common-info', 'lot-list')
            parse223(link)

        # 44-ФЗ / zk504
        else:
            link = root + row.link


In [11]:
parse_internal(parser.blocks)

https://zakupki.gov.ru/223/purchase/public/purchase/info/lot-list.html?regNumber=31907944880
<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10969164" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10969164" type="hidden" value="Оказание услуг по разработке плана по предупреждению и ликвидации аварийных разливов нефти и нефтепродуктов ООО «Газпром теплоэнерго Воронеж» (ПЛАРН) (113/36/2019)"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10969164&amp;purchaseId=8196843&amp;purchaseMethodType=IS">
                    Оказание услуг по разработке плана по предупреждению и ликвидации аварийных разливов нефти и нефтепродуктов ООО «Газпром теплоэнерго Воронеж» (ПЛАРН) (113/36

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884769" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884769" type="hidden" value='Поставка крепежных изделий для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" '/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884769&amp;purchaseId=8196928&amp;purchaseMethodType=IS">
                    Поставка крепежных изделий для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" 
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=10884769&amp;purchaseId=8196928&amp;purchaseMethodType=IS'">
     

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884767" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884767" type="hidden" value='Поставка картриджей и расходных материалов для оргтехники для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" '/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884767&amp;purchaseId=8196926&amp;purchaseMethodType=IS">
                    Поставка картриджей и расходных материалов для оргтехники для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" 
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=1088

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10934580" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10934580" type="hidden" value="Оказание услуг по предоставлению прав на использование программного обеспечения NormaCS с ежедневным обновлением для нужд ГУП СО институт «ТеррНИИгражданпроект»"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10934580&amp;purchaseId=8196918&amp;purchaseMethodType=AESMBO">
                    Оказание услуг по предоставлению прав на использование программного обеспечения NormaCS с ежедневным обновлением для нужд ГУП СО институт «ТеррНИИгражданпроект»
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li

timeout
https://zakupki.gov.ru/223/purchase/public/purchase/info/lot-list.html?regNumber=31907944980
timeout
https://zakupki.gov.ru/223/purchase/public/purchase/info/lot-list.html?regNumber=31907944979
<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884771" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884771" type="hidden" value='Поставка хозяйственных товаров для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" '/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884771&amp;purchaseId=8196930&amp;purchaseMethodType=IS">
                    Поставка хозяйственных товаров для нужд Серпуховского филиала ООО "Газпром теплоэнерго МО" 
                </a>
<div cl

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884667" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884667" type="hidden" value="Оказание услуг по техническому обслуживанию кондиционеров (131/36/2019)"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884667&amp;purchaseId=8196847&amp;purchaseMethodType=IS">
                    Оказание услуг по техническому обслуживанию кондиционеров (131/36/2019)
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=10884667&amp;purchaseId=8196847&amp;purchaseMethodType=IS'">
                            Просмотре

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10896823" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10896823" type="hidden" value="Поставка хозяйственных товаров и инвентаря"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10896823&amp;purchaseId=8196825&amp;purchaseMethodType=ZPESMBO">
                    Поставка хозяйственных товаров и инвентаря
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=10896823&amp;purchaseId=8196825&amp;purchaseMethodType=ZPESMBO'">
                            Просмотреть
                        </li>
</ul>
</div>
</

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884721" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884721" type="hidden" value="Поставка упаковочных материалов, одноразовой посуды для  организации питания работников ОАО «РЖД» и его дочерних обществ, занятых на аварийно-восстановительных работах, на работах по ликвидации последствий чрезвычайных ситуаций в границах железной дороги, на работах по ремонту пути в «окна» продолжительностью не менее 4-х часов, а также для организации питания пассажиров поездов, следующих с опозданием свыше 4-х часов и пассажиров, оказавшихся в зоне чрезвычайных ситуаций "/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884721&amp;pur

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884621" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884621" type="hidden" value="Разработка методических материалов в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884621&amp;purchaseId=8196812&amp;purchaseMethodType=EP">
                    Разработка методических материалов в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purcha

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884626" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884626" type="hidden" value="Проведение занятий в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884626&amp;purchaseId=8196817&amp;purchaseMethodType=EP">
                    Проведение занятий в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=1088

<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884682" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884682" type="hidden" value="Проведение занятий в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований"/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884682&amp;purchaseId=8196860&amp;purchaseMethodType=EP">
                    Проведение занятий в рамках организации проведения мероприятий в рамках реализации цикла интеллектуальных соревнований
                </a>
<div class="toolTipMenu">
<div class="toolTipDelim"></div>
<ul>
<li onclick="window.location = '/223/purchase/public/purchase/info/lot-info.html?lotId=1088

timeout
https://zakupki.gov.ru/223/purchase/public/purchase/info/lot-list.html?regNumber=31907944916
<table id="lot">
<thead>
<tr>
<th class="nn">№</th>
<th>Наименование лота</th>
<th>Централизованная закупка</th>
<th>Сведения о цене договора</th>
<th>Классификация по ОКПД2 </th>
<th>Классификация по ОКВЭД2 </th></tr></thead>
<tbody>
<tr class="odd">
<td>
<input id="lot_ordinal_number_10884690" type="hidden" value="1"/>
                1
            </td>
<td>
<input id="lot_name_10884690" type="hidden" value='Оказание информационных услуг по сопровождению ранее установленного электронного периодического справочника "Система ГАРАНТ"'/>
<a class="dLink epz_aware" href="/223/purchase/public/purchase/info/lot-info.html?lotId=10884690&amp;purchaseId=8196868&amp;purchaseMethodType=IS">
                    Оказание информационных услуг по сопровождению ранее установленного электронного периодического справочника "Система ГАРАНТ"
                </a>
<div class="toolTipMenu">
<div class="tool

KeyboardInterrupt: 

In [105]:
parser.blocks.head(10)

Unnamed: 0,id,link,price,currency,date,money,page
0,103200008419004518,/epz/order/notice/ea44/view/common-info.html?r...,286501.3,rub,2019-06-01,0,1
1,31907944880,https://zakupki.gov.ru/223/purchase/public/pur...,100000.0,rub,2019-06-01,0,1
2,31907944871,https://zakupki.gov.ru/223/purchase/public/pur...,361191.98,rub,2019-06-01,0,1
3,31907944883,https://zakupki.gov.ru/223/purchase/public/pur...,400000.0,rub,2019-06-01,0,1
4,31907944859,https://zakupki.gov.ru/223/purchase/public/pur...,12670.0,eur,2019-06-01,0,1
5,860200000819006211,/epz/order/notice/ok504/view/common-info.html?...,99921.08,rub,2019-06-01,0,1
6,31907944977,https://zakupki.gov.ru/223/purchase/public/pur...,264717.27,rub,2019-06-01,0,1
7,31907944869,https://zakupki.gov.ru/223/purchase/public/pur...,125949.92,rub,2019-06-01,0,1
8,31907944868,https://zakupki.gov.ru/223/purchase/public/pur...,201000.0,rub,2019-06-01,0,1
9,31907944981,https://zakupki.gov.ru/223/purchase/public/pur...,35530.17,rub,2019-06-01,0,1
