<a href="https://colab.research.google.com/github/Anna-Tereshchuk/Data-Engineering-Notebooks/blob/main/web_scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Що таке веб-скрапінг?**


> Веб-скрапінг - це процес автоматичного витягування інформації з веб-сторінок. Ця техніка дозволяє збирати дані з веб-сайтів та перетворювати їх у структурований формат, наприклад, CSV, Excel або базу даних, для подальшого аналізу.



**Юридичні та етичні аспектиt**



*   Завжди дотримуйтесь файлу `robots.txt` веб-сайту, який вказує, які частини сайту можна або не можна скрапити.
*   Дотримуйтесь умов використання веб-сайту та уникайте перевантаження серверів занадто великою кількістю запитів.



**Початковий код для веб-скрапінгу**


*   Імпортуємо необхідні модулі:




In [3]:
import requests
from bs4 import BeautifulSoup




*   Отримуємо HTML-сторінку:



In [4]:
# URL блогу, який хочеш аналізувати
url = 'http://quotes.toscrape.com/'

# Надсилаємо запит на сторінку
response = requests.get(url)

# Перевіряємо статус запиту
if response.status_code == 200:
    print("Сторінку успішно завантажено!")
else:
    print(f"Не вдалося завантажити сторінку. Статус: {response.status_code}")

# Отримуємо вміст сторінки
html_content = response.text


Сторінку успішно завантажено!




*   Створюємо об’єкт BeautifulSoup




In [5]:
soup = BeautifulSoup(html_content, 'html.parser')


**Аналіз HTML-структури**


Зайди на сторінку блогу через браузер, натисни F12 (DevTools), щоб переглянути HTML-код. Знайди теги, які містять:


*   Назву поста (наприклад, тег` <h2 class="post-title">`).

*   Ім'я автора (наприклад,` <span class="author-name">`).

*   Дату публікації (наприклад,` <time class="post-date">`).
*   Зміст поста (наприклад, `<div class="post-content">`).





Цей код автоматично проходить по всіх сторінках і збирає цитати.

In [6]:
while url:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Знаходимо всі цитати
    quotes = soup.find_all('div', class_='quote')
    for quote in quotes:
        text = quote.find('span', class_='text').get_text(strip=True)
        author = quote.find('small', class_='author').get_text(strip=True)
        tags = [tag.get_text(strip=True) for tag in quote.find_all('a', class_='tag')]
        print(f'Цитата: {text}\nАвтор: {author}\nТеми: {", ".join(tags)}\n')

    # Пошук посилання на наступну сторінку
    next_page = soup.find('li', class_='next')
    url = next_page.a['href'] if next_page else None
    if url:
        url = 'http://quotes.toscrape.com' + url

Цитата: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Автор: Albert Einstein
Теми: change, deep-thoughts, thinking, world

Цитата: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Автор: J.K. Rowling
Теми: abilities, choices

Цитата: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Автор: Albert Einstein
Теми: inspirational, life, live, miracle, miracles

Цитата: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Автор: Jane Austen
Теми: aliteracy, books, classic, humor

Цитата: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Автор: Marilyn Monroe
Теми: be-yourself, inspirational

Цитата: “Try not to become a man of success. Rather become a man of value.”
Автор: Albert Einstein
Теми:

Для зручності можна зберегти зібрані дані в CSV-файл:

In [8]:
# URL початкової сторінки
url = 'http://quotes.toscrape.com/'

# Створюємо та відкриваємо файл для запису
output_file = 'quotes_results.txt'
with open(output_file, 'w', encoding='utf-8') as file:
    while url:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')

        # Знаходимо всі цитати
        quotes = soup.find_all('div', class_='quote')
        for quote in quotes:
            text = quote.find('span', class_='text').get_text(strip=True)
            author = quote.find('small', class_='author').get_text(strip=True)
            tags = [tag.get_text(strip=True) for tag in quote.find_all('a', class_='tag')]

            # Формуємо рядок результату
            result = f'Цитата: {text}\nАвтор: {author}\nТеми: {", ".join(tags)}\n\n'

            # Записуємо результат у файл
            file.write(result)

        # Пошук посилання на наступну сторінку
        next_page = soup.find('li', class_='next')
        url = next_page.a['href'] if next_page else None
        if url:
            url = 'http://quotes.toscrape.com' + url

print(f"Результати успішно збережено у файлі {output_file}")

Результати успішно збережено у файлі quotes_results.txt
