# <img style="float: left; padding-right: 10px; width: 45px" src="https://raw.githubusercontent.com/Harvard-IACS/2018-CS109A/master/content/styles/iacs.png"> CS109A Introduction to Data Science 

## Lecture 3, Exercise 1: Web Scraping and Parsing Intro


**Harvard University**<br/>
**Fall 2020**<br/>
**Instructors**: Pavlos Protopapas, Kevin Rader, and Chris Tanner

---

# Title

**Exercise 1: Web Scraping and Parsing Intro**

# Description

**OVERVIEW**

Как мы узнали на занятиях, тремя наиболее распространенными источниками данных, используемыми в Data Science, являются:

- файлы (например, `.csv`, `.txt`), которые уже содержат набор данных
- APIs (e.g., Twitter or Facebook)
- web scraping (e.g., Request).

Здесь мы попрактикуемся в веб-скреппинге с помощью **Requests**. Получив содержимое страницы, мы должны извлечь из нее ту информацию, которая нам действительно важна. В этом нам поможет <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" target="_blank">BeautifulSoup</a>.

In [1]:
import re
import requests
from bs4 import BeautifulSoup

## **ПРИМЕЧАНИЕ**: 

Для этого упражнения мы будем брать данные (Top News stories) из [AP News] (apnews.com), некоммерческого информационного агентства.

In [2]:
# URL -адрес веб -страницы, который имеет желаемую информацию
url = "https://apnews.com/hub/ap-top-news"

# Web Scraping (Graded)

Для получения содержимого воспользуемся библиотекой [`requests`](https://requests.readthedocs.io/en/master/user/quickstart/). В частности, в библиотеке [`requests`](https://requests.readthedocs.io/en/master/user/quickstart/) есть функция `.get()`, которая возвращает объект [Response](https://www.w3schools.com/python/ref_requests_response.asp). Объект Response содержит _ответ_ сервера на HTTP-запрос и, таким образом, содержит всю информацию, которую мы могли бы получить от страницы.

Ниже заполните пробел, чтобы получить информацию о сайте AP News' Top News.

In [3]:
### edTest(test_a) ###
home_page = requests.get(url)
home_page.status_code

200

Вы должны были получить код состояния 200, что означает, что страница была успешно найдена на сервере и отправлена на приемник (он же клиент/пользователь/вам).[Опять же, вы можете нажать здесь] (https://www.restapitutorial.com/httpstatuscodes.html) для полного списка кодов статуса.Напомним, что иногда, просмотрев Интернет, веб -страницы сообщают об ошибке 404, возможно, с развлекательной графикой, чтобы облегчить вашу боль.Этот 404 - код состояния, как мы здесь используем!

`home_page` теперь является [объектом ответа] (https://www.w3schools.com/python/ref_requests_response.asp).Он содержит много атрибутов, включая `.Text`.Запустите ячейку ниже и обратите внимание, что она идентична, если бы мы посетили веб -страницу в нашем браузере и нажали «Источник страницы просмотра».

In [4]:
home_page.text



# Data Parsing Intro (Graded)
Приведенное выше свойство `.text` ужасно удобно для просмотра и осмысления. Конечно, мы могли бы написать регулярные выражения, чтобы извлечь все интересующее нас содержимое. Но давайте сначала воспользуемся [`BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) для разбора содержимого на более удобные куски.

Ниже заполните пробелы, чтобы построить HTML-парсинг объекта [`BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) нашего сайта.

In [None]:
### edTest(test_b) ###
soup = BeautifulSoup(home_page.content, 'html.parser')
soup

Вы заметите, что объект `soup` отформатирован лучше, чем при просмотре всего текста. Он все еще плотный, но это помогает.

Ниже заполните пробел, чтобы установить `webpage_title` равным тексту заголовка веб-страницы (без учета HTML-тегов).

In [8]:
### edTest(test_c) ###
webpage_title = soup.title.text
webpage_title

'Top News: US & International Top News Stories Today | AP News | AP News'

И снова наш объект BeautifulSoup обеспечивает быстрый и удобный поиск и доступ к содержимому веб-страницы.

# Примеры парсинга данных (не оценивается)

Каждый раз, когда требуется извлечь определенное содержимое из веб-страницы, необходимо:
- **Шаг 1**. Просматривая страницу в браузере, определить, какое содержимое страницы вас интересует.
- **Шаг 2**. Просмотреть HTML, возвращаемый объектом BeautifulSoup, и определить конкретный контекст, окружающий каждый из этих интересующих вас элементов
- **Шаг 3.** Разработать шаблон с использованием BeautifulSoup и/или RegularExpressions для извлечения этого содержимого.

Например:
### **Шаг 1:**.
Допустим, для каждой новостной статьи, найденной на странице AP's Top News, необходимо извлечь ссылку и связанный с ней заголовок. На этом снимке экрана
<img src="https://github.com/Harvard-IACS/2020-CS109A/blob/master/content/lectures/lecture03/images/apnews_sample.png?raw=true">

показана одна новостная статья (ниже на странице их гораздо больше). Ее заголовок - ``Калифорнийские пожары приносят больше вертолетов, отключения электроэнергии``, а ссылка - на [/c0aa17fff978e9c4768ee32679b8555c](/c0aa17fff978e9c4768ee32679b8555c). Поскольку текущая страница хранится на сайте apnews.com, полный адрес ссылки на статью - [apnews.com/c0aa17fff978e9c4768ee32679b8555c](apnews.com/c0aa17fff978e9c4768ee32679b8555c).


### **Step 2:**

После печати объекта `soup` мы увидели огромный беспорядок во всем HTML. Поэтому давайте разберемся в некоторых разделах. Как показано в [официальной документации здесь](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-using-tag-names), мы можем получить все `<a>` ссылки, выполнив приведенную ниже ячейку:

**Тег `<a>` в HTML представляет собой ссылку или гиперссылку. Он используется для создания ссылок на другие веб-страницы, документы, изображения или различные ресурсы в интернете. Тег `<a>` создает кликабельный элемент, на который пользователь может нажать для перехода по указанному адресу.
 
Пример использования тега `<a>` в HTML:
```html
<a href="https://www.example.com">This is a link</a>
```
В приведенном примере текст "This is a link" будет отображаться на веб-странице как кликабельный текстовый элемент. При нажатии на этот элемент, пользователь будет перенаправлен на указанный URL-адрес (в данном случае https://www.example.com).

In [16]:
soup.find_all("a")

[<a aria-label="home page" href="/">
 <picture>
 <source srcset="https://assets.apnews.com/fa/ba/9258a7114f5ba5c7202aaa1bdd66/aplogo.svg"/>
 <img alt="AP Logo" class="Image" src="https://assets.apnews.com/fa/ba/9258a7114f5ba5c7202aaa1bdd66/aplogo.svg"/>
 </picture>
 </a>,
 <a class="AnClick-MainNav" href="https://apnews.com/us-news">U.S.</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/world-news">World</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/politics">Politics</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/video">Video</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/spotlight">Spotlight</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/entertainment">Entertainment</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/sports">Sports</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/business">Business</a>,
 <a class="AnClick-MainNav" href="https://apnews.com/science">Science</a>,
 <a class="AnClick-MainNav" href="https:

Это все равно тонна текста (ссылок). Поэтому давайте уточним. Теперь я ищу заглавный текст `California fires bring more chopper rescues, power shutations` в выводе предыдущей ячейки (HTML всех ссылок). Я заметил следующее:

`<a class="Component-headline-0-2-110" data-key="card-headline" href="/c0aa17fff978e9c4768ee32679b8555c"><h1 class="Component-h1-0-2-111">California fires bring more chopper rescues, power shutoffs</h1></a>`

Я также вижу, что это повторяется: каждый новостной материал на странице Top News имеет такой текст! Отлично!

### **Step 3:**

Паттерн заключается в том, что мы хотим, чтобы значение атрибута `href` вместе с текстом ссылки.Есть много способов получить эту информацию.Ниже я показываю лишь несколько:

In [28]:
# Пример 1

# возвращает все `<a>` ссылки, которые также содержат`Link`
soup.find_all("a", "Link")

# Итерируем по каждой ссылке и извлекает HREF и заголовок
for link in soup.find_all("a", "Link"):
    url = link['href']
    title = link.text
 
    

Как упоминалось в официальной документации [здесь] (https://www.crummy.com/software/beautifulsoup/bs4/doc/#attributes) и [здесь] (https://www.crummy.com/software/beautifulsoup/BS4/DOC/#The-Keyword-Arguments), тег (такой как `a`) может иметь много атрибутов, и вы можете искать их, поместив свои условия в словаре.

In [20]:
# Пример 2
# Это возвращает то же самое подмножество ссылок, что и пример выше
# Итак, мы могли бы повторить список, как и выше
soup.find_all("a", attrs={"data-key": "card-headline"})

[]

В качестве альтернативы, мы могли бы использовать регулярные выражения, если бы были уверены, что наш шаблон регуляции соответствует соответствующим ссылкам.

In [29]:
# Пример 3
# вместо использования BeautifulSoup, мы обрабатываем все
# сами и работаем напрямую с исходным текстом запроса
re.findall("<a class=\"Component-headline.*?href=\"(.+?)\"><h1.+?>(.+?)</h1></a>", home_page.text)

[]