# Сбор данных для анализа тендеров

Источник: [https://zakupki.gov.ru](https://zakupki.gov.ru/epz/main/public/home.html)

### Импорт библиотек

In [49]:
import time 
import urllib.parse

# библиотеки для работы с HTML
import requests
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup

# библиотеки для предобработки и анализа данных 
import pandas as pd

# библиотеки для работы в jupyter notebook
import warnings
warnings.filterwarnings(action='once')  # показывает предупреждения один раз
warnings.filterwarnings('ignore')

###### Формируем ссылки на страницы для парсинга

In [50]:
def get_query(search_string='', 
              search_filter='Дате размещения',
              page_number=1, 
              start_date='01.01.2012', 
              end_date='31.12.2012'):
    s_str = '+'.join(list(map(urllib.parse.quote, search_string.split())))
    s_flt = '+'.join(list(map(urllib.parse.quote, search_filter.split())))
    query = 'https://zakupki.gov.ru/epz/order/extendedsearch/results.html' \
            + f'?searchString={s_str}' \
            + '&morphology=on' \
            + f'&search-filter=+{s_flt}' \
            + f'&pageNumber={page_number}' \
            + '&sortDirection=true' \
            + '&recordsPerPage=_100' \
            + '&showLotsInfoHidden=false' \
            + '&sortBy=PUBLISH_DATE' \
            + '&fz44=on' \
            + '&fz223=on' \
            + '&af=on' \
            + '&ca=on' \
            + '&pc=on' \
            + '&pa=on'\
            + '&selectedSubjectsIdNameHidden=%7B%7D' \
            + f'&publishDateFrom={start_date}' \
            + f'&publishDateTo={end_date}' \
            + '&currencyIdGeneral=-1' \
            + '&OrderPlacementSmallBusinessSubject=on' \
            + '&OrderPlacementRnpData=on' \
            + '&OrderPlacementExecutionRequirement=on' \
            + '&orderPlacement94_0=0' \
            + '&orderPlacement94_1=0' \
            + '&orderPlacement94_2=0'
    return query

In [55]:
def get_urls(query):
    result = []
    dates = [
            ('01.01.2012', '31.12.2012', 1),
            ('01.01.2013', '31.12.2013', 4) ,
            ('01.01.2014', '30.06.2014', 8),
            ('01.07.2014', '31.12.2014', 8),
            ('01.01.2015', '30.06.2015', 8),
            ('01.07.2015', '31.12.2015', 8),
            ('01.01.2016', '30.06.2016', 8),
            ('01.07.2016', '31.12.2016', 8),
            ('01.01.2017', '30.06.2017', 8),
            ('01.07.2017', '31.12.2017', 8),
            ('01.01.2018', '30.06.2018', 8),
            ('01.07.2018', '31.12.2018', 7),
            ('01.01.2019', '30.06.2019', 8),
            ('01.07.2019', '31.12.2019', 7),
            ('01.01.2020', '21.05.2020', 3),
            ]
    for date in dates:
        for i in range(1, date[2] + 1):
            result.append(get_query(search_string=query,
                                    start_date=date[0],
                                    end_date=date[1],
                                    page_number=i,
                                   ))
    return result

In [56]:
query = 'разработка информационных систем'

In [57]:
URLS = get_urls(query)

In [58]:
URLS[7]

'https://zakupki.gov.ru/epz/order/extendedsearch/results.html?searchString=%D1%80%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0+%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D1%85+%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC&morphology=on&search-filter=+%D0%94%D0%B0%D1%82%D0%B5+%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D1%8F&pageNumber=3&sortDirection=true&recordsPerPage=_100&showLotsInfoHidden=false&sortBy=PUBLISH_DATE&fz44=on&fz223=on&af=on&ca=on&pc=on&pa=on&selectedSubjectsIdNameHidden=%7B%7D&publishDateFrom=01.01.2014&publishDateTo=30.06.2014&currencyIdGeneral=-1&OrderPlacementSmallBusinessSubject=on&OrderPlacementRnpData=on&OrderPlacementExecutionRequirement=on&orderPlacement94_0=0&orderPlacement94_1=0&orderPlacement94_2=0'

###### Создаем драйвер для браузера

In [59]:
# https://chromedriver.chromium.org/downloads

options = webdriver.ChromeOptions()
options.binary_location = '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'

webdriver_address = '../../drivers/chromedriver_83'

###### Тестируем подключение

In [60]:
driver = webdriver.Chrome(webdriver_address, options=options)

###### Читаем HTML-страницы и сохраняем их в список

In [61]:
HTMLS = []

In [62]:
%%time

for URL in URLS:
    driver.get(URL)
    HTMLS.append(driver.page_source)
    time.sleep(5)

CPU times: user 1.63 s, sys: 225 ms, total: 1.86 s
Wall time: 13min 19s


In [63]:
len(HTMLS)

102

###### Создаем объекты BeaytifulSoup

In [64]:
SOUPS = []

In [65]:
%%time
for HTML in HTMLS:
    SOUPS.append(BeautifulSoup(HTML, 'lxml'))

CPU times: user 45.4 s, sys: 3.07 s, total: 48.5 s
Wall time: 54.7 s


###### Сохраняем карточки с информацией о тендере с кажой страницы

In [66]:
SSS = []

In [67]:
%%time
for SOUP in SOUPS:
    SSS += SOUP.find_all('div', {'class': 'row no-gutters registry-entry__form mr-0'})

CPU times: user 6.81 s, sys: 79.8 ms, total: 6.89 s
Wall time: 8.16 s


In [68]:
len(SSS)

6454

###### Парсим карточки с информацией о тендере и сохранием их список

In [69]:
def get_data(s):
    __d = dict.fromkeys(['id','law', 'status', 'description', 
                         'author', 'price', 'start_dt', 'end_dt', 'link'])
    if s.text != '':     
        __d['id'] = s.find('div', {'class': 'registry-entry__header-mid__number'}).text.strip()[2:]
        __d['law'] = s.find('div', {'class': 'registry-entry__header-top__title text-truncate'}).text.split()[0]
        __d['status'] = s.find('div', {'class': 'registry-entry__header-mid__title'}).text.strip()
        __d['description'] = s.find('div', {'class': 'registry-entry__body-value'}).text
        __d['author'] = s.find('div', {'class': 'registry-entry__body-href'}).text.strip()

        try:
            __d['price'] = s.find('div', {'class': 'price-block__value'}).text.replace(u'\xa0', '').replace('₽', '').strip()
        except AttributeError:
            __d['price'] = ''

        __d['start_dt'] = s.find('div', {'class': 'data-block__title'}, text='Размещено').find_next().text

        try:
            __d['end_dt'] = s.find('div', {'class': 'data-block__title'}, text='Окончание подачи заявок').find_next().text
        except AttributeError:
            __d['end_dt'] = ''

        __d['link'] = s.find('div', {'class': 'registry-entry__header-mid__number'}).find('a')['href']
        
    return __d

In [70]:
DL = []

In [71]:
%%time
for SS in SSS:
    DL.append(get_data(SS))

CPU times: user 21.3 s, sys: 306 ms, total: 21.6 s
Wall time: 23.8 s


In [72]:
DL[0]

{'id': '31200000567',
 'law': '223-ФЗ',
 'status': 'Закупка завершена',
 'description': 'Открытый запрос предложений № ЦА 31-12 по выбору организации на право заключения договора на выполнение работ по разработке и внедрению автоматизированной информационной системы расчета заработной платы и кадрового учета, в том числе информационной системы персональных данных, и интеграции с существующими системами для нужд ФГУП «Росморпорт»',
 'author': 'Федеральное государственное унитарное предприятие "Росморпорт"',
 'price': '12990000,00',
 'start_dt': '13.09.2012',
 'end_dt': '03.10.2012',
 'link': 'https://zakupki.gov.ru/223/purchase/public/purchase/info/common-info.html?regNumber=31200000567'}

###### Пишем результат в датфрейм

In [73]:
zak = pd.DataFrame(DL)
zak

Unnamed: 0,id,law,status,description,author,price,start_dt,end_dt,link
0,31200000567,223-ФЗ,Закупка завершена,Открытый запрос предложений № ЦА 31-12 по выбо...,Федеральное государственное унитарное предприя...,1299000000,13.09.2012,03.10.2012,https://zakupki.gov.ru/223/purchase/public/pur...
1,31200002815,223-ФЗ,Закупка завершена,Открытый запрос предложений (№ ЦА 49-12) по вы...,Федеральное государственное унитарное предприя...,500000000,05.10.2012,15.10.2012,https://zakupki.gov.ru/223/purchase/public/pur...
2,31200002643,223-ФЗ,Закупка отменена,Открытый конкурс на право заключить государств...,"Казенное предприятие Республики Тыва ""Центр ин...",350000000,05.10.2012,06.11.2012,https://zakupki.gov.ru/223/purchase/public/pur...
3,31200002875,223-ФЗ,Закупка завершена,Заключение договора с единственным контрагенто...,Банк ВТБ (открытое акционерное общество),355000000,05.10.2012,05.10.2012,https://zakupki.gov.ru/223/purchase/public/pur...
4,31200003172,223-ФЗ,Закупка завершена,ОАО «Ростелеком» сообщает о проведении запроса...,Открытое акционерное общество междугородной и ...,7484400000,08.10.2012,15.10.2012,https://zakupki.gov.ru/223/purchase/public/pur...
...,...,...,...,...,...,...,...,...,...
6449,0149200002320003555,44-ФЗ,Подача заявок,Оказание услуг по разработке и подключению мод...,КОМИТЕТ ПО КОНКУРЕНТНОЙ ПОЛИТИКЕ МУРМАНСКОЙ ОБ...,40867600,19.05.2020,28.05.2020,/epz/order/notice/ea44/view/common-info.html?r...
6450,32009162713,223-ФЗ,Подача заявок,Выполнение работ по разработке отдельных компо...,"ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ""ЦИФР...",997632000,19.05.2020,29.05.2020,https://zakupki.gov.ru/223/purchase/public/pur...
6451,0813500000120007130,44-ФЗ,Подача заявок,№ зз-17715-2020 Выполнение работ по разработке...,ГОСУДАРСТВЕННОЕ КАЗЕННОЕ УЧРЕЖДЕНИЕ УДМУРТСКОЙ...,999833333,20.05.2020,11.06.2020,/epz/order/notice/ok504/view/common-info.html?...
6452,0320300133920000004,44-ФЗ,Подача заявок,Оказание услуг по разработке информационных и ...,"МУНИЦИПАЛЬНОЕ КАЗЕННОЕ УЧРЕЖДЕНИЕ ""ЦЕНТРАЛИЗО...",197955751,20.05.2020,28.05.2020,/epz/order/notice/ea44/view/common-info.html?r...


In [75]:
zak.to_csv('data/2020-05-21_imformation-systems-development.csv', index=False)