# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева*

## Практикум 2.2. Формирование ссылок и парсинг полученных страниц

**Полезное напоминание 1.** Чтобы получать списки с нужной структурой, давайте вспомним, в чем различие методов `.append()` и `.extend()` для добавления элементов списка.

In [None]:
L = []
L.append(3)
L.append(5)
L.append([3, 8, 10])
print(L)

In [None]:
K = []
# K.extend(3)

In [None]:
K.extend([3])
K.extend([5])
K.extend([3, 8, 10])
print(K)

Чтобы понять, как это может быть полезно при сборе данных, представьте, что нам нужно собрать однотипные данные не с одной страницы, а сразу с нескольких. Какой способ предпочтительнее, например, если мы хотим получить список ссылок на все товары, которые есть на первой, второй и третьей странице каталога?

**Полезное напоминание 2.** Чтобы объединить элементы списков попарно, можно воспользоваться функцией `zip()`:

In [None]:
zip(["A", "B", "C"], [10, 20, 30])

In [None]:
print(*zip(["A", "B", "C"], [10, 20, 30]))

По перечню пар можно двигаться в рамках одного цикла `for`, присваивая названия первому и второму элементу пары соответственно:

In [None]:
pairs = zip(["A", "B", "C"], [10, 20, 30])

for letter, number in pairs:
    print(letter, "has", number, "apples")

Чтобы понять, как это может быть полезно при сборе данных, представьте, что нам нужно сформировать ссылки, которые содержат даты. Для перебора дней в каждом месяце будет полезно иметь набор пар «месяц-число дней в месяце».

**Полезное напоминание 3.** Вспомним про форматирование строк через f-строки (*f-strings*, *formatted sring literals*):

In [None]:
name = "Alla"
surname = "Turner"
print(f"Hello, {name} {surname}!")

In [None]:
N = 5
print(f"Let's count from 1 to {5}!")
for i in range(1, N+1):
    print(f"{i}")

Чтобы понять, как это может быть полезно при сборе данных, представьте, что в однотипные по структуре ссылки нам необходимо подставлять какие-то слова или числа во избежание «ручного» формирования списка ссылок.

Перейдем к содержательным задачам. Импортируем модуль `requests`, функцию `BeautifulSoup`, а также библиотеку `pandas` для дальнейшей обработки данных:

In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

### Сюжет 1. Форматирование строк и подстановка текста в ссылки

Зайдем на [сайт](https://www.chitai-gorod.ru) книжного магазина «Читай-город» и посмотрим, что происходит с ссылкой в адресной строке браузера, когда мы отправляем запрос для поиска товара. Давайте введем слово `python` и скопируем ссылку из адресной строки.

In [None]:
### YOUR CODE HERE ###

### Задача 1

Напишите код, который отправляет запрос к странице по ссылке выше, забирает HTML-код, находит все «карточки» товаров на первой странице результатов и сохраняет их в виде списка объектов типа `BeautifulSoup`.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Напишите функцию, которая принимает на вход объект типа `BeautifulSoup` с «карточкой» товара (как в списке выше) и возвращает список, состоящий из: 

* названия товара;
* ссылки на страницу товара;
* цены товара.

Примените функцию ко всем элементам списка из предыдущей задачи и проверьте, что все работает.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Полистайте страницы с результатами поиска в браузере и посмотрите, как изменяется ссылка в адресной строке при переходе к следующей странице с результатами.

Напишите код, который подставляет в ссылку номера страниц 1-3 и возвращает список с «карточками» всех товаров на этих странице (как в задаче 1, только теперь больше товаров). Примените функцию из задачи 2 ко всем элементам полученного списка и преобразуйте полученный результат в датафрейм pandas.

In [None]:
### YOUR CODE HERE ###

### Сюжет 2. Форматирование строк и подстановка чисел в ссылки

В практикуме 2.1 мы написали универсальную функцию для сайта [nplus1.ru](https://nplus1.ru), которая принимает на вход ссылку на новость, а возвращает кортеж с текстом новости и другими ее атрибутами. Остается вопрос: а как быть, если мы хотим собрать новости за конкретный период? Не на всех сайтах это возможно сделать удобным образом, однако в данном случае на сайте есть удобные разделы по датам. Например, откроем новости за 27 января 2025 года: https://nplus1.ru/news/2025/01/27.

Если мы посмотрим на страницу по ссылке выше, заметим, что на ней хранятся обычные ссылки на новости, как их собирать, мы уже знаем. Поэтому давайте поймем, как сформировать список ссылок с датами внутри.

### Задача 1

Получите список ссылок на новости за январь 2025 года (с 1 января по 31 января включительно). 

In [None]:
### YOUR CODE HERE ###

### Задача 2

Напишите код, который сформирует список ссылок на даты за весь 2024 год (31 ссылка на даты января, 29 ссылок на даты февраля и так далее).

**Подсказка:** начните со списка с номерами месяцев и списка с числом дней в них.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Перейдите по [ссылке](https://nplus1.ru/news/2025/01/03) на страницу с новостями за 3 января 2025 года. Сравните полный исходный код страницы и код, который отображается в инструментах разработчика. Подумайте, каким образом в данном случае забирать все ссылки на новости за конкретную дату.

In [None]:
### YOUR CODE HERE ###