# Python для анализа данных

## Веб-скрэйпинг: скачивание файлов

*На основе блокнота Татьяны Рогович, НИУ ВШЭ*
*Автор: Ян Пиле, НИУ ВШЭ*

## Скачивание файлов

Еще одно применение скрэйпинга, о котором мы пока не поговорили - это автоматизированное скачивание файлов. Например, вы хотите скачать научные статьи по определенному ключевому слову или прайс-листы поставщика, которые он загружает на сайт в эскеле.

Давайте посмотрим, как скачивать файлы на примере pdf и заодно попробуем походить по ссылкам. Кстати, этот процесс еще часто называется spidering или crawling, потому что ваш скрипт как паучок ползет по ссылкам (отсюда и название первых поисковых роботов - spider).

Давайте попробуем сохранить англоязычные summary дисертаций, защищенных в 2019 году

Мы уже отредактировали фильтры и ссылка их запомнила. Позже сегодня посмотрим как можно самим заполнять такие поля с помощью Selenium.

https://www.hse.ru/sci/diss/?author=&chief=&year=2019&type=1&degree_type=&council=&spec=&fulltext=yes

In [1]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.8.2-py3-none-any.whl (6.9 MB)
     ---------------------------------------- 6.9/6.9 MB 5.7 MB/s eta 0:00:00
Collecting trio-websocket~=0.9
  Using cached trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting trio~=0.17
  Using cached trio-0.22.0-py3-none-any.whl (384 kB)
Collecting async-generator>=1.9
  Using cached async_generator-1.10-py3-none-any.whl (18 kB)
Collecting outcome
  Using cached outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.1.0-py3-none-any.whl (14 kB)
Collecting wsproto>=0.14
  Using cached wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0
  Using cached h11-0.14.0-py3-none-any.whl (58 kB)
Installing collected packages: outcome, h11, exceptiongroup, async-generator, wsproto, trio, trio-websocket, selenium
Successfully installed async-generator-1.10 exceptiongroup-1.1.0 h11-0.14.0 outcome-1.2.0 selenium-4.8.2 trio-0.22.0 trio-websocket-0.9.2 ws



In [2]:
!pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-3.8.5-py2.py3-none-any.whl (27 kB)
Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv, webdriver_manager
Successfully installed python-dotenv-1.0.0 webdriver_manager-3.8.5


In [3]:
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver as wb
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from time import sleep
import pandas as pd
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(ChromeDriverManager().install())

driver.implicitly_wait(2)

[WDM] - Downloading: 100%|████████████████████████████████████████████████████████| 6.78M/6.78M [00:00<00:00, 7.15MB/s]
  driver = webdriver.Chrome(ChromeDriverManager().install())


In [28]:
link = 'https://www.hse.ru/sci/diss/?author=&chief=&year=2019&type=1&degree_type=&council=&spec=&fulltext=yes'
driver.get(link)

In [29]:
#soup = BeautifulSoup(requests.get(link).text)
# soup.find_all('a')
soup = BeautifulSoup(driver.page_source)

Давайте для начала поэкспериментируем с первым кандидатом.

In [30]:
soup

<html><head><title>Диссертации – Национальный исследовательский университет «Высшая школа экономики»</title><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1" name="viewport"/><link href="https://www.hse.ru/sci/diss/" rel="canonical"/><link href="/f/src/global/i/favicon/favicon_ios_180x180.png" rel="apple-touch-icon" sizes="180x180"/><link href="/f/src/global/i/favicon/favicon_32x32.png" rel="icon" sizes="32x32" type="image/png"/><link href="/f/src/global/i/favicon/favicon_16x16.png" rel="icon" sizes="16x16" type="image/png"/><link color="#242f63" href="/f/src/global/i/favicon/favicon.svg" rel="mask-icon"/><link href="/f/src/manifest/manifest_ru.json" rel="manifest"/><meta content="/f/src/global/i/favicon/browserconfig.xml" name="msapplication-config"/><link href="/favicon.ico" rel="shortcut icon" type="image/x-icon"/><meta content="website" property="og:type"/><link href="/f/src/projects/unshm1/unshm1.css" media="all" rel="stylesheet"/><link href="/f/src/global

In [31]:
print(len(soup.find_all('a')))
soup.find_all('a', {'class':'link'})[:50]

173


[<a class="link" href="/sci/diss/314832967">Мотивационные и личностные предпосылки жизненного призвания</a>,
 <a class="link" href="/org/persons/28125914" target="_blank">Леонтьев Дмитрий Алексеевич</a>,
 <a class="link" href="/sci/diss/?keyword=calling">calling</a>,
 <a class="link" href="/sci/diss/?keyword=career%20guidance">career guidance</a>,
 <a class="link" href="/sci/diss/?keyword=meaning%20in%20life">meaning in life</a>,
 <a class="link" href="/sci/diss/?keyword=positive%20psychology%20intervention">positive psychology intervention</a>,
 <a class="link" href="/sci/diss/?keyword=vocation">vocation</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%B8%D0%B2%D0%BD%D0%B0%D1%8F%20%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B5%D0%BD%D1%86%D0%B8%D1%8F">позитивная интервенция</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%BF%D1%80%D0%B8%D0%B7%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5">призвание</a>,
 <a class="link" href="/sci/diss/?keyword=%D1%81%D0%BC%D1%8B%D1%81%D

Видим, что ссылок очень много, а нам нужны только те, которые ведут на summary. Можно поискать их по тексту ссылки.

In [32]:
for link in soup.find_all('a', text='Summary'):
    print(link.get('href'))

http://www.hse.ru/data/2019/10/29/1532361365/summary_EN_final (3).pdf
http://www.hse.ru/data/2019/10/22/1528885739/Mitrofanova - summary.pdf
http://www.hse.ru/data/2019/10/18/1543364021/Borodina E._Summary_181019.pdf
http://www.hse.ru/data/2019/10/16/1239735382/Меликян_Summary 16.10.pdf
http://www.hse.ru/data/2019/10/03/1182240389/Кучин_резюме_ENG.pdf
http://www.hse.ru/data/2019/10/15/1539883570/summary.pdf
http://www.hse.ru/data/2019/10/11/1541034023/Resume.pdf
http://www.hse.ru/data/2019/10/11/1535827784/kulikova_thesis summary_final.pdf
http://www.hse.ru/data/2019/08/26/1536057698/Сидорова_summary.pdf
http://www.hse.ru/data/2019/10/04/1184372726/Резюме на английском_Захарова_04.10.2019_финал.pdf


И соберем ссылки в список.

In [33]:
links = []
for link in soup.find_all('a', text='Summary'):
    print(link)
    links.append(link.get('href'))
    
print(links)

<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/29/1532361365/summary_EN_final (3).pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/22/1528885739/Mitrofanova - summary.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/18/1543364021/Borodina E._Summary_181019.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/16/1239735382/Меликян_Summary 16.10.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/03/1182240389/Кучин_резюме_ENG.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/15/1539883570/summary.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/11/1541034023/Resume.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2019/10/11/1535827784/kulikova_thesis summary_final.pdf">Summary</a>
<a class="link

Отлично. Теперь нужно придумать, откуда взять название для каждого файла. Пусть это будут фамилии авторов, давайте доберемся до них. Такую задачу мы пока не решали: будем искать тэг по тексту, а потом искать его родителя (потому что ни ячейку таблицы с именем автора, ни саму таблицу не получится уникально отсечь).

In [34]:
for author in soup.find_all('div', {'class':'p1 v'}):
    try:
        print(author.span.text)
    except:
        pass


Белобородова Полина Михайловна
calling, 
анализ наступления событий, 
Бородина Елена Николаевна
вахтовый метод организации труда, 
иностранные студенты, 
модели ценообразования активов, 
магнетронное распыление, 
Годин Андрей Сергеевич
Климов Константин Николаевич
измерения диаграмм направленностей электрически малых антенн, 
NorBA, 
Сидорова Мария Алексеевна
Арендт, 
Захарова Олеся Викторовна
аргументационные схемы (топосы), 


In [35]:
soup.find_all('div', text='Соискатель:')[0].parent()[1].get_text()

'Белобородова Полина Михайловна'

Достанем фамилии.

In [36]:
authors = []
for author in soup.find_all('div', text='Соискатель:'):
    print(author.parent()[1].get_text().split()[0])
    authors.append(author.parent()[1].get_text().split()[0])
    
print(authors)

Белобородова
Митрофанова
Бородина
Меликян
Кучин
Монахов
Годин
Куликова
Сидорова
Захарова
['Белобородова', 'Митрофанова', 'Бородина', 'Меликян', 'Кучин', 'Монахов', 'Годин', 'Куликова', 'Сидорова', 'Захарова']


Проверим, что списки действительно одинаковой длины.

In [47]:
len(links) == len(authors)

False

In [38]:
print(links)

['http://www.hse.ru/data/2019/10/29/1532361365/summary_EN_final (3).pdf', 'http://www.hse.ru/data/2019/10/22/1528885739/Mitrofanova - summary.pdf', 'http://www.hse.ru/data/2019/10/18/1543364021/Borodina E._Summary_181019.pdf', 'http://www.hse.ru/data/2019/10/16/1239735382/Меликян_Summary 16.10.pdf', 'http://www.hse.ru/data/2019/10/03/1182240389/Кучин_резюме_ENG.pdf', 'http://www.hse.ru/data/2019/10/15/1539883570/summary.pdf', 'http://www.hse.ru/data/2019/10/11/1541034023/Resume.pdf', 'http://www.hse.ru/data/2019/10/11/1535827784/kulikova_thesis summary_final.pdf', 'http://www.hse.ru/data/2019/08/26/1536057698/Сидорова_summary.pdf', 'http://www.hse.ru/data/2019/10/04/1184372726/Резюме на английском_Захарова_04.10.2019_финал.pdf']


Теперь попробуем сохранить файл. У нас все файлы pdf, будем переименовывать их фамилиями автора. Кстати, если файлы разного формата, то расширение можно узнать через атрибут headers

In [39]:
requests.get(links[0]).headers['content-type']

'application/pdf'

In [40]:
# потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
summary = requests.get(links[0], stream=True) 

# на всякий случай делаем проверку, иначе получим битый файл
if summary.headers['content-type'] == 'application/pdf': 

    # wb - запись байтовой информации
    fh = open('test.pdf', 'wb') 
    
    # считываем туда "содержание" файла по ссылке
    fh.write(summary.content) 
    fh.close()

In [41]:
import os
os.getcwd()

'C:\\Users\\mbbur\\HSE\\DPO2023\\Lect8'

Давайте теперь еще добавим имя файла по фамилии.

In [42]:
# потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
summary = requests.get(links[0], stream=True) 

# на всякий случай делаем проверку, иначе получим битый файл
if summary.headers['content-type'] == 'application/pdf': 

    # wb - запись байтовой информации
    fh = open(f'{authors[0]}.pdf', 'wb') 
    
    # считываем туда "содержание" файла по ссылке
    fh.write(summary.content) 
    fh.close()

Давайте сохраним обработку файла в функцию и соберем уже все в цикл.

In [43]:
authors

['Белобородова',
 'Митрофанова',
 'Бородина',
 'Меликян',
 'Кучин',
 'Монахов',
 'Годин',
 'Куликова',
 'Сидорова',
 'Захарова']

In [24]:
import re
def get_pdf(idx):
    summary = requests.get(links[idx], stream=True) # потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
    if summary.headers['content-type'] == 'application/pdf': # на всякий случай делаем проверку, иначе получим битый файл
        s = re.findall(r'\w+',links[idx].split('/')[-1])[0]
        fh = open(f'{authors[idx]}.pdf', 'wb') # wb - запись байтовой информации
        fh.write(summary.content) # считываем туда "содержание" файла по ссылке
        fh.close()

In [52]:
link = 'https://www.hse.ru/sci/diss/?author=&chief=&year=2019&type=1&degree_type=&council=&spec=&fulltext=yes'
driver.get(link)

soup = BeautifulSoup(driver.page_source)

links = []
for link in soup.find_all('a', text='Summary'):
    links.append(link.get('href'))

authors = []
for author in soup.find_all('div', text='Соискатель:'):
    authors.append(author.parent()[1].get_text().split()[0])

In [53]:
len(links)

10

In [54]:
len(authors)

10

In [55]:
for idx in range(len(links)):
    get_pdf(idx)

Готово!