# Python для анализа данных

## Веб-скрэйпинг: скачивание файлов

*На основе блокнота Татьяны Рогович, НИУ ВШЭ*
*Автор: Ян Пиле, НИУ ВШЭ*

## Скачивание файлов

Кстати, еще одно применение скрэйпинга, о котором мы пока не поговорили - это автоматизированное скачивание файлов. Например, вы хотите скачать научные статьи по определенному ключевому слову или прайс-листы поставщика, которые он загружает на сайт в эскеле.

Давайте посмотрим, как скачивать файлы на примере pdf и заодно попробуем походить по ссылкам. Кстати, этот процесс еще часто называется spidering или crawling, потому что ваш скрипт как паучок ползет по ссылкам (отсюда и название первых поисковых роботов - spider).

Давайте попробуем сохранить англоязычные summary дисертаций, защищенных в 2019 году

Мы уже отредактировали фильтры и ссылка их запомнила. Позже сегодня посмотрим как можно самим заполнять такие поля с помощью Selenium.

https://www.hse.ru/sci/diss/?author=&chief=&year=2019&type=1&degree_type=&council=&spec=&fulltext=yes

In [2]:
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from time import sleep
import pandas as pd
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(ChromeDriverManager().install())

driver.implicitly_wait(2)

  driver = webdriver.Chrome(ChromeDriverManager().install())


In [3]:
link = 'https://www.hse.ru/sci/diss/?fulltext=yes'
driver.get(link)

In [4]:
soup = BeautifulSoup(driver.page_source)
# soup.find_all('a')

In [38]:
# soup.find_all('a', {'class':'link'})

Давайте для начала поэкспериментируем с первым кандидатом.

In [5]:
print(len(soup.find_all('a')))
soup.find_all('a', {'class':'link'})[:10]

199


[<a class="link" href="/sci/diss/783799266">Форсайт для стратегического прогнозирования и планирования инновационного и научно-технологического развития на национальном, отраслевом и корпоративном уровнях</a>,
 <a class="link" href="/org/persons/188939" target="_blank">Чулок Александр Александрович</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%B3%D0%BB%D0%BE%D0%B1%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D1%82%D1%80%D0%B5%D0%BD%D0%B4%D1%8B">глобальные тренды</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%B3%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B5%20%D1%83%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5">государственное управление</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8">инновации</a>,
 <a class="link" href="/sci/diss/?keyword=%D0%BA%D0%BE%D1%80%D0%BF%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9%20%D1%84%D0%BE%D1%80%D1%81%D0%B0%D0%B9%D1%82">корпоративный форсай

Видим, что ссылок очень много, а нам нужны только те, которые ведут на summary. Можно поискать их по тексту ссылки.

In [8]:
for link in soup.find_all('a', text='Summary'):
    print(link.get('href'))

http://www.hse.ru/data/2022/10/21/1730269488/Резюме_АА Чулок_eng_21-10-2022.pdf
http://www.hse.ru/data/2022/09/15/1873608165/1Резюме_Жирун ENG 11.08.2022.pdf
http://www.hse.ru/data/2022/10/21/1735581062/Summary_Kazartsev.pdf
http://www.hse.ru/data/2022/10/20/1732572695/Осадчий_резюме_ENG.pdf
http://www.hse.ru/data/2022/10/18/1734048505/Мифтахутдинов_резюме_ENG.pdf
http://www.hse.ru/data/2022/10/14/1731127090/Сметанин_резюме_ENG.pdf
http://www.hse.ru/data/2022/10/22/1686225294/Summary Mospan A.N. 27.09.pdf
http://www.hse.ru/data/2022/08/31/1695860089/Мкртчян_summary.pdf
http://www.hse.ru/data/2022/08/19/1644913549/ИТОГ_БАЛАШОВ_SUMMARY.pdf
http://www.hse.ru/data/2022/10/12/1645724092/Summary Семион.pdf


И соберем ссылки в список.

In [9]:
links = []
for link in soup.find_all('a', text='Summary'):
    print(link)
    links.append(link.get('href'))
    
print(links)

<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/21/1730269488/Резюме_АА Чулок_eng_21-10-2022.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/09/15/1873608165/1Резюме_Жирун ENG 11.08.2022.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/21/1735581062/Summary_Kazartsev.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/20/1732572695/Осадчий_резюме_ENG.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/18/1734048505/Мифтахутдинов_резюме_ENG.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/14/1731127090/Сметанин_резюме_ENG.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/10/22/1686225294/Summary Mospan A.N. 27.09.pdf">Summary</a>
<a class="link" data-hse-file="PDF" href="http://www.hse.ru/data/2022/08/31/1695860089/Мкртчян_summary.p

Отлично. Теперь нужно придумать, откуда взять название для каждого файла. Пусть это будут фамилии авторов, давайте доберемся до них. Такую задачу мы пока не решали: будем искать тэг по тексту, а потом искать его родителя (потому что ни ячейку таблицы с именем автора, ни саму таблицу не получится уникально отсечь).

In [10]:
for author in soup.find_all('div', {'class':'p1 v'}):
    try:
        print(author.span.text)
    except:
        pass


глобальные тренды, 
дискурс, 
вероятностные модели размера, 
 covariance matrix, 
Мифтахутдинов Зульфат Шайхинурович
Тутубалина Елена Викторовна
машинное обучение, 
автоматическая классификация текстов, 
личностные ресурсы, 
Мкртчян Арам Арсенович
Гладуш Юрий Геннадьевич
аэрозольный метод, 
«негативные» и «позитивные» права человека, 
дифференциальная игра, 


Достанем фамилии.

In [19]:
authors = []
for author in soup.find_all('div', {'class': 'p1 v'}):
    print(author.text)
    #authors.append(author.parent()[1].get_text().split()[0])
    
print(authors)

Чулок Александр Александрович
Совет по государственному и муниципальному управлению
глобальные тренды, государственное управление, инновации, корпоративный форсайт, национальный форсайт, отраслевой форсайт, планирование, прогнозирование, развитие науки и технологий, система прогнозирования, теория и практика стратегического планирования, форсайт, экосистемы
Жирун Ирина Васильевна
Малинова Ольга Юрьевна
Совет по политологии
дискурс, НАТО, национальная идентичность, политика идентичности, политические элиты, Украина
Казарцев Евгений Вячеславович
Совет по филологии
вероятностные модели размера, континентальная силлабо-тоника, метрическая версификация, нидерландский, немецкий и русский стих, поэтические традиции, просодия стиха, Сравнительное стиховедение, ямб
Осадчий Алексей Евгеньевич
Совет по компьютерным наукам 
 covariance matrix,  inverse problem, adaptive beamforming, brain-computer interface, cortical traveling waves, Epileptogenic zone, functional connectivity, instantaneous neuro

Проверим, что списки действительно одинаковой длины.

In [20]:
len(links) == len(authors)

False

In [21]:
print(links)

['http://www.hse.ru/data/2022/10/21/1730269488/Резюме_АА Чулок_eng_21-10-2022.pdf', 'http://www.hse.ru/data/2022/09/15/1873608165/1Резюме_Жирун ENG 11.08.2022.pdf', 'http://www.hse.ru/data/2022/10/21/1735581062/Summary_Kazartsev.pdf', 'http://www.hse.ru/data/2022/10/20/1732572695/Осадчий_резюме_ENG.pdf', 'http://www.hse.ru/data/2022/10/18/1734048505/Мифтахутдинов_резюме_ENG.pdf', 'http://www.hse.ru/data/2022/10/14/1731127090/Сметанин_резюме_ENG.pdf', 'http://www.hse.ru/data/2022/10/22/1686225294/Summary Mospan A.N. 27.09.pdf', 'http://www.hse.ru/data/2022/08/31/1695860089/Мкртчян_summary.pdf', 'http://www.hse.ru/data/2022/08/19/1644913549/ИТОГ_БАЛАШОВ_SUMMARY.pdf', 'http://www.hse.ru/data/2022/10/12/1645724092/Summary Семион.pdf']


Теперь попробуем сохранить файл. У нас все файлы pdf, будем переименовывать их фамилиями автора. Кстати, если файлы разного формата, то расширение можно узнать через атрибут headers

In [22]:
requests.get(links[0]).headers['content-type']

'application/pdf'

In [23]:
# потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
summary = requests.get(links[0], stream=True) 

# на всякий случай делаем проверку, иначе получим битый файл
if summary.headers['content-type'] == 'application/pdf': 

    # wb - запись байтовой информации
    fh = open('test.pdf', 'wb') 
    
    # считываем туда "содержание" файла по ссылке
    fh.write(summary.content) 
    fh.close()

In [24]:
import os
os.getcwd()

'C:\\Users\\Student\\Desktop\\GitHub\\Klim_notebooks\\Classwork\\lect12_Selenium_API'

Давайте теперь еще добавим имя файла по фамилии.

In [25]:
# потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
summary = requests.get(links[0], stream=True) 

# на всякий случай делаем проверку, иначе получим битый файл
if summary.headers['content-type'] == 'application/pdf': 

    # wb - запись байтовой информации
    fh = open(f'{authors[0]}.pdf', 'wb') 
    
    # считываем туда "содержание" файла по ссылке
    fh.write(summary.content) 
    fh.close()

Давайте сохраним обработку файла в функцию и соберем уже все в цикл.

In [26]:
def get_pdf(idx):
    summary = requests.get(links[idx], stream=True) # потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
    if summary.headers['content-type'] == 'application/pdf': # на всякий случай делаем проверку, иначе получим битый файл
        s = re.findall(r'\w+',links[idx].split('/')[-1])[0]
        fh = open(f'{s}.pdf', 'wb') # wb - запись байтовой информации
        fh.write(summary.content) # считываем туда "содержание" файла по ссылке
        fh.close()

In [None]:
def get_pdf(idx):
    summary = requests.get(links[idx], stream=True) # потоковое чтение файла, потому pdf может быть большим и не уместиться в памяти
    if summary.headers['content-type'] == 'application/pdf': # на всякий случай делаем проверку, иначе получим битый файл
        fh = open(f'{authors[idx]}.pdf', 'wb') # wb - запись байтовой информации
        fh.write(summary.content) # считываем туда "содержание" файла по ссылке
        fh.close()

In [27]:
import re
s = re.findall(r'\w+',links[0].split('/')[-1])[0]

In [28]:
f'{s}.pdf'

'Резюме_АА.pdf'

In [29]:
link = 'https://www.hse.ru/sci/diss/?fulltext=yes'
driver.get(link)

soup = BeautifulSoup(driver.page_source)

links = []
for link in soup.find_all('a', text='Summary'):
    links.append(link.get('href'))

authors = []
for author in soup.find_all('td', text='Соискатель:'):
    authors.append(author.parent()[1].get_text().split()[0])

In [30]:
links


['http://www.hse.ru/data/2022/10/21/1730269488/Резюме_АА Чулок_eng_21-10-2022.pdf',
 'http://www.hse.ru/data/2022/09/15/1873608165/1Резюме_Жирун ENG 11.08.2022.pdf',
 'http://www.hse.ru/data/2022/10/21/1735581062/Summary_Kazartsev.pdf',
 'http://www.hse.ru/data/2022/10/20/1732572695/Осадчий_резюме_ENG.pdf',
 'http://www.hse.ru/data/2022/10/18/1734048505/Мифтахутдинов_резюме_ENG.pdf',
 'http://www.hse.ru/data/2022/10/14/1731127090/Сметанин_резюме_ENG.pdf',
 'http://www.hse.ru/data/2022/10/22/1686225294/Summary Mospan A.N. 27.09.pdf',
 'http://www.hse.ru/data/2022/08/31/1695860089/Мкртчян_summary.pdf',
 'http://www.hse.ru/data/2022/08/19/1644913549/ИТОГ_БАЛАШОВ_SUMMARY.pdf',
 'http://www.hse.ru/data/2022/10/12/1645724092/Summary Семион.pdf']

In [31]:
for idx in range(len(links)):
    get_pdf(idx)

Готово!

In [21]:
driver.close()