# Семинар по теме «`Использование библиотеки asyncio`»

## Блокирующий семинар

**Как влияет на уровень**

Чтобы подтвердить продвинутый уровень, необходимо решить задачи и сдать на проверку ноутбук.

**Как влияет на оценку**

За выполнение заданий **всех** семинаров (блокирующих и неблокирующих) начисляются баллы. Чем больше баллов, тем выше оценка за курс.

## Оценивание работы на семинаре

**Система оценивания —** бинарная:

  - если все задачи решены корректно, без ошибок и полностью соответствуют стандартам кода на курсе, то задание выполнено и оценка — **10 баллов**;
  - если решения содержат ошибки или не соответствуют требованиям, то задание не выполнено и оценка — **0 баллов**.


**Проверка задания**

- Перед тем как сдать задание, убедись, что твой код работает без ошибок и соответствует стандартам. Для этого используй автоматическую проверку.
- Загрузи задание на LMS. Ассистент проверит, соответствуют ли твои решения требованиям и целям задания, и выставит оценку.


**Доработка**

- Если твоё задание получило 0 баллов, его вернут на доработку через LMS с комментариями о том, что нужно исправить.

Твоя задача в этом семинаре — создать асинхронный веб-скрейпер для сбора данных с YouTube.

## Шаг 1

Реализуй класс `YouTubeScraper`, который будет асинхронно загружать HTML страницы с видео по URL этих видео.

### Создай класс `YouTubeScraper`

   - Атрибуты:
     - `video_urls` — список URL видео для обработки.

   - Методы:
     - `__init__(self, video_urls)` — инициализирует объект с предоставленным списком URL видео.

     - `fetch_html(self, url, session)` — асинхронно получает HTML страницы по URL с помощью переданной сессии. Логирует успешные и неудачные попытки загрузки.
       - **Ожидаемый вывод**

         При успешной загрузке:
         ```
         Successfully fetched HTML for <url>
         ```
         При ошибке:
         ```
         Failed to fetch <url>: <описание ошибки>
         ```

     - `get_video_data(self)` — создаёт асинхронные задачи, чтобы загрузить HTML для каждого видео из `video_urls`. Возвращает результаты выполнения задач.
       - **Ожидаемый вывод:** cписок HTML-содержимого для каждого видео или `None` для URL, загрузка которого не удалась.



### Примеры использования

  ```python
  # Пример асинхронного сбора HTML-данных с YouTube
  video_urls = [
          'https://www.youtube.com/watch?v=ModFC1bhobA',
          'https://www.youtube.com/watch?v=SIm2W9TtzR0',
  ]
  scraper = YouTubeScraper(video_urls)

  # Запуск асинхронного сбора данных
  video_data = await scraper.get_video_data()
  pprint(video_data)
  ```

### Ожидаемый вывод
   - При успешном выполнении:
     - Логирование успешной загрузки:
     ```
     Successfully fetched HTML for https://www.youtube.com/watch?v=ModFC1bhobA
     Successfully fetched HTML for https://www.youtube.com/watch?v=SIm2W9TtzR0
     ```
     - HTML-код страницы.
   - Если возникла ошибка при получении данных для одного из URL:
     ```
     Failed to fetch https://www.youtube.com/watch?v=example1: <описание ошибки>
     ```

### Шаг 2

Чтобы выполнить этот шаг, сначала изучи информацию про парсинг и библиотеку `BeautifulSoup`.


### `BeautifulSoup`

> `BeautifulSoup` — это библиотека для Python, которая позволяет извлекать информацию из HTML-кода.

В данном случае она поможет тебе найти и сохранить нужные данные из HTML страницы.

Для начала работы с BeautifulSoup:
1. Импортируй библиотеку: `from bs4 import BeautifulSoup`.
2. Создай объект `soup`, используя HTML-контент страницы:
   ```python
   soup = BeautifulSoup(html_content, 'html.parser')
   ```
3. Используй методы `find` и `find_all`, чтобы найти определённые теги с особыми атрибутами. Например, чтобы получить значение атрибута `'content'` из тега `<meta name='title'>`, используй:
   ```python
   soup.find('meta', attrs={'name': 'title'})['content']
   ```

4. Если элемента не существует, BeautifulSoup может выдать ошибку. Чтобы этого избежать, используй блок `try-except`, как показано в функции.

5. Заметка: используй `print(soup.prettify())` чтобы просмотреть отформатированый `html`. Также ты можешь сохранить его файл и вручную просмотреть интересующие тебя строки.

#### Все тэги

Ключевые строки для поиска данных в HTML:
- **Название видео** — ищется по тегу `<meta name='title'>`.
- **Описание видео** — ищется по тегу `<meta name='description'>`.
- **Имя канала** — ищется по тегу `<link itemprop='name'>`.
- **Количество просмотров** — ищется по тегу `<meta itemprop='interactionCount'>`.
- **Дата загрузки видео** — ищется по тегу `<meta itemprop='uploadDate'>`.
- **Жанр видео** — ищется по тегу `<meta itemprop='genre'>`.

#### Примеры

1. **Описание видео** — ищется по тегу `<meta name='description'>`:
   ```python
   soup.find('meta', attrs={'name': 'description'})['content']
   ```

3. **Теги видео** — ищутся с помощью `find_all` по тегу `<meta property='og:video:tag'>`:
   ```python
   [tag['content'] for tag in soup.find_all('meta', property='og:video:tag')]
   ```

4. **Имя канала** — ищется по тегу `<link itemprop="name">`:
   ```python
   soup.find('link', itemprop='name')['content']
   ```


### Парсинг

> **Парсинг** — это извлечение целевой информации из текста. Парсинг помогает программам автоматически находить и обрабатывать данные, например, из веб-страницы.

**Пример.** Есть HTML-код страницы с информацией о книге. Нужно получить название книги и её автора.

```html
<html>
  <head><title>Жанр: Фэнтези</title></head>
  <body>
    <h1>Название: Гарри Поттер</h1>
    <p>Автор: Джоан Роулинг</p>
  </body>
</html>
```

Для парсинга используем библиотеку BeautifulSoup:

```python
from bs4 import BeautifulSoup

html_content = """<html><head><title>Жанр: Фэнтези</title></head><body><h1>Название: Гарри Поттер </h1><p>Автор: Джоан Роулинг</p></body></html>"""
soup = BeautifulSoup(html_content, 'html.parser')

# Извлекаем название и автора
title = soup.find('h1').text.replace('Название: ', '')
author = soup.find('p').text.replace('Автор: ', '')

print('Название книги:', title)
print('Автор:', author)
```

**Результат:**
```
Название книги: Гарри Поттер
Автор: Джоан Роулинг
```


Реализуй класс `YouTubeParser`, который будет обрабатывать HTML страницы с видео и извлекать информацию о видео: название, описание, теги и другие метаданные.

### Создай класс `YouTubeParser`

Методы:
  - `parse(self, html_content)` — асинхронно парсит HTML-содержимое страницы и извлекает метаданные. Если HTML отсутствует, возвращает пустой словарь. В случае успешного парсинга или ошибки логирует соответствующие сообщения.
       - **Ожидаемый вывод:**
         - При успешном парсинге:
           ```
           Successfully parsed video data
           ```
         - Если HTML отсутствует:
           ```
           No HTML content to parse
           ```
         - При ошибке парсинга:
           ```
           Error parsing HTML content: <описание ошибки>
           ```


### Примеры использования

  ```python
  # Пример асинхронного парсинга данных из HTML видео
  html_content = '<html>...</html>'  # Здесь HTML-содержимое страницы YouTube
  parser = YouTubeParser()

  # Асинхронный вызов парсинга
  video_data = await parser.parse(html_content)
  pprint(video_data)
  ```

### Ожидаемый вывод
   - При успешном парсинге возвращает словарь с данными:
     ```python
     {
         'title': 'Пример видео',
         'description': 'Описание видео',
         'tags': ['Tag1', 'Tag2'],
         'channel_name': 'Название канала',
         'views_number': '123456',
         'upload_date': '2024-10-10',
         'genre': 'Жанр видео'
     }
     ```

- Если HTML-содержимое отсутствует или произошла ошибка:

     ```
     {}
     ```

## Шаг 3

Реализуй класс `GoogleSheetWriter` для сохранения данных о видео на YouTube в Google Sheets. Этот класс авторизуется с помощью сервисного аккаунта и записывает данные в указанный Google Sheet.


### Создай класс `GoogleSheetWriter`
   - Атрибуты:
     - `sheet_id` — ID таблицы Google Sheets.
     - `worksheet_name` — название рабочего листа (по умолчанию `'YouTube Data'`).
     - `sheet` — объект таблицы Google Sheets.
     - `agcm` — менеджер для асинхронной работы с Google Sheets API.

   - Методы:
     - `__init__(self, spreadsheet_id, worksheet_name='YouTube Data')` — инициализирует объект с ID таблицы и именем рабочего листа.

     - `get_creds()` — статический метод для получения и настройки учётных данных сервисного аккаунта.

     - `init_spreadsheet(self)` — инициализирует таблицу, открывая её по `sheet_id`. Логирует успешную инициализацию.
       - **Ожидаемый вывод:**
         ```
         Initialized spreadsheet '<spreadsheet_id>'
         ```

     - `write_to_sheet(self, data)` — записывает данные о видео в Google Sheets. Если таблица не инициализирована, вызывает `init_spreadsheet()`. Записывает теги в виде строки, разделённой запятыми.
       - **Ожидаемый вывод:**
         ```
         Data written to sheet.
         ```

### Примеры использования

  ```python
  # Пример записи данных в Google Sheets
  sheet_writer = GoogleSheetWriter('your_spreadsheet_id')

  # Пример данных для записи
  video_data = [
      {
          'title': 'Пример видео',
          'description': 'Описание видео',
          'tags': ['Tag1', 'Tag2'],
          'channel_name': 'Название канала',
          'views_number': '123456',
          'upload_date': '2024-10-15',
          'genre': 'Жанр видео'
      }
  ]

  # Асинхронная запись данных в Google Sheets
  await sheet_writer.write_to_sheet(video_data)
  ```

### Ожидаемый вывод
   - При успешной инициализации таблицы:
     ```
     Initialized spreadsheet 'your_spreadsheet_id'
     ```
   - После успешной записи данных:
     ```
     Data written to sheet.
     ```

### Шаг 4

Создай конвейер данных `YouTubeDataPipeline`, который связывает загрузку HTML страниц, парсинг данных и запись их в Google Sheets. `YouTubeDataPipeline` последовательно выполняет этапы загрузки, обработки и сохранения данных о видео с помощью ранее созданных классов.


### Создай класс `YouTubeDataPipeline`
   - Атрибуты:
     - `scraper` — экземпляр класса `YouTubeScraper` для асинхронной загрузки HTML-данных по URL.
     - `parser` — экземпляр класса `YouTubeParser` для извлечения метаданных из HTML.
     - `writer` — экземпляр класса `GoogleSheetWriter` для записи данных в Google Sheets.

   - Методы:
     - `__init__(self, video_urls, spreadsheet_id)` — инициализирует экземпляры `scraper`, `parser` и `writer` для работы с данными видео и таблицей Google Sheets.

     - `run(self)` — асинхронно выполняет сбор данных, обработку HTML и сохранение в таблице. Логирует начало и завершение работы конвейера данных.
       - **Ожидаемый вывод:** cообщения о начале и завершении выполнения конвейера:
         ```
         Starting YouTube data pipeline...
         Pipeline completed!
         ```



### Примеры использования

```python
# Используем YouTubeDataPipeline для сбора и сохранения данных о видео
video_urls = [
    'https://www.youtube.com/watch?v=NSDdJeCmXXE',
    'https://www.youtube.com/watch?v=WGsMydFFPMk'
]
spreadsheet_id = '1-_bLzWOiOkRIlyM3boc5gLyrHs_rvTUspZyQHUHpxus'

pipeline = YouTubeDataPipeline(video_urls, spreadsheet_id)
asyncio.run(pipeline.run())
```

### Ожидаемый вывод
   - При успешном выполнении всех шагов:
     ```
     Starting YouTube data pipeline...
     Successfully fetched HTML for https://www.youtube.com/watch?v=NSDdJeCmXXE
     Successfully parsed video data
     Successfully fetched HTML for https://www.youtube.com/watch?v=WGsMydFFPMk
     Successfully parsed video data
     Pipeline completed!
     ```
     А также обновлённые данные в Google Sheets.
   - В случае ошибки при загрузке или парсинге данных:
     ```
     Failed to fetch <url>: <описание ошибки>
     Error parsing HTML content: <описание ошибки>
     ```