# Введение в методы анализа данных. Язык Python.

## Лекция 9. Web Scraping
<br><br><br><br>
__Аксентьев Артем (akseart@ya.ru)__

__Ксемидов Борис (nstalker.anonim@yandex.ru)__
<br>

# Зачем необходимо?

- Не всегда готовые датасеты удовлетворяют нашим потребностям
- Иногда неудобно просматривать данные на сайте
- Хочется перенести данные в другое место

# Схема web-scraping
- Анализ веб страницы
- Загрузка html кода
- Парсинг данных
- Их обработка
- Создание какой-либо осознанной структуры данных

# Инструменты для web-scraping:
- Инструменты для парсинга html
    - bs4
    - lxml
- Инструменты для получения html страниц
    - requests
    - selenium

In [49]:
%%writefile index.html

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        <title>Пример веб-страницы</title>
    </head>
    <body class="" id="" name="">
        <h1>Заголовок</h1>
        <div class="meta">
            <!-- Комментарий -->
            <p class="class">Первый абзац.</p>
        </div>
        <div>
            <p> Третий абзац</p>
        </div>
        <h1>Заголовок 1</h1>
        <p>Второй абзац.</p>
        <h1>Заголовок 2</h1>
    </body>
</html>

Overwriting index.html


## BeautifulSoup

In [None]:
from bs4 import BeautifulSoup
with open("index.html", "r") as f:
    text = f.read()
soup = BeautifulSoup(text, "html.parser")

In [None]:
soup.find("h1")

In [None]:
soup.find_all("h1")

In [None]:
soup.find("p", class_="class").text

In [None]:
soup.find("p", class_="class").parent

In [None]:
list(soup.find("p", class_="class").parent.children)

## lxml

In [50]:
from lxml import etree

tree = etree.parse("index.html", etree.HTMLParser())

In [45]:
tree.xpath("//p")

[<Element p at 0x11a220e80>, <Element p at 0x11a220d80>]

In [46]:
tree.xpath("//p/text()")

['Первый абзац.', 'Второй абзац.']

In [47]:
tree.xpath('//p[@class="class"]/text()')

['Первый абзац.']

In [51]:
tree.xpath('//div/p/text()')

['Первый абзац.', ' Третий абзац']

## Selenium

In [55]:
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

desired_capabilities = DesiredCapabilities().SAFARI
desired_capabilities["pageLoadStrategy"] = "eager"
driver = webdriver.Safari(desired_capabilities=desired_capabilities)
driver.get("https://mai.ru/education/studies/schedule/ppc.php?guid=f25361dd-1d99-11e0-9baf-1c6f65450efa&week=8")
first_form_input = driver.find_element_by_class_name("mb-4")
print("OK")

OK


In [56]:
first_form_input.text

'\n\t\t\t\t\tСр,\xa030\xa0марта\t\t\t\t'

In [57]:
first_form_input.parent.find_element_by_class_name("mb-4")

<selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-910A9AD6-3995-440D-B111-C91F1FAAD6B4")>

In [59]:
driver.find_elements_by_xpath("//div/text()")

[<selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-310267DD-15C1-4C21-8CDC-EEB9C8EE8CCE")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-0BF02D44-ED5A-4B19-8229-395AE73EBDB8")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-A440BCF5-48D8-4976-BD61-153F48579049")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-A192EFEA-A0CF-49A8-A2BD-21737A8034E9")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-D3E3AECF-016E-4B4C-A0E0-C8200C86A6E9")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E37-BB8C-85766F79A7F6", element="node-6B6E74B8-6A75-4E88-A36C-A5352DC0D008")>,
 <selenium.webdriver.remote.webelement.WebElement (session="60E73F94-2E36-4E

In [60]:
driver.save_screenshot('image.png')

True

![](image.png)

## Requests

In [61]:
import requests

page = requests.get("https://mai.ru/education/studies/schedule/ppc.php?guid=f25361dd-1d99-11e0-9baf-1c6f65450efa&week=8")

In [62]:
page.text

'\n\n<!DOCTYPE html><html lang="ru">\n<head>\n  <title>Абгарян Каринэ Карленовна</title>\n  <meta charset="UTF-8">\r\n<meta name="viewport" content="width=device-width, initial-scale=1">\r\n<meta name="theme-color" content="#ffffff">\r\n\r\n<meta property="og:type" content="website">\r\n<meta property="og:title" content="Абгарян Каринэ Карленовна">\r\n<meta property="og:url" content="https://mai.ru//education/studies/schedule/ppc.php?guid=f25361dd-1d99-11e0-9baf-1c6f65450efa&week=8">\r\n<meta property="fb:app_id" content="1323748498089307">\r\n\r\n<meta property="twitter:title" content="Абгарян Каринэ Карленовна">\r\n<meta property="twitter:site" content="@MAIuniversity">\r\n<meta property="twitter:card" content="summary_large_image">\r\n<meta property="og:description" content="Основы образовательной деятельности в МАИ, факультеты, кафедры, второе высшее образование, дополнительные кружки и курсы, подготовка к егэ в Московском авиационном институте">\r\n<meta property="twitter:descript

In [63]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0'
}
page = requests.get("https://mai.ru/education/studies/schedule/ppc.php?guid=f25361dd-1d99-11e0-9baf-1c6f65450efa&week=8", headers=headers)

In [64]:
page

<Response [200]>

In [65]:
page.text

'\n\n<!DOCTYPE html><html lang="ru">\n<head>\n  <title>Абгарян Каринэ Карленовна</title>\n  <meta charset="UTF-8">\r\n<meta name="viewport" content="width=device-width, initial-scale=1">\r\n<meta name="theme-color" content="#ffffff">\r\n\r\n<meta property="og:type" content="website">\r\n<meta property="og:title" content="Абгарян Каринэ Карленовна">\r\n<meta property="og:url" content="https://mai.ru//education/studies/schedule/ppc.php?guid=f25361dd-1d99-11e0-9baf-1c6f65450efa&week=8">\r\n<meta property="fb:app_id" content="1323748498089307">\r\n\r\n<meta property="twitter:title" content="Абгарян Каринэ Карленовна">\r\n<meta property="twitter:site" content="@MAIuniversity">\r\n<meta property="twitter:card" content="summary_large_image">\r\n<meta property="og:description" content="Основы образовательной деятельности в МАИ, факультеты, кафедры, второе высшее образование, дополнительные кружки и курсы, подготовка к егэ в Московском авиационном институте">\r\n<meta property="twitter:descript

# Рекомендуемая литература:
- http://wiki.python.su/Документации/BeautifulSoup
- https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
- http://htmlbook.ru/samhtml

# Вопросы для самостоятельного изучения:
- "Общение" с веб страницей с помощью Selenium(обработка полей ввода и тд)
- Более глубоко изучить понравившуюся библиотеку (bs4/lxml)
- HTTP запросы и как они устроены
- HTML(на базовом уровне)

# Вопросы к зачету

- Зачем нужен web-scraping?
- Какие средства для web-scrapinga используются