<a href="https://colab.research.google.com/github/Hanna525/Analysis-of-the-discount-and-deposit-rate/blob/main/%D0%9A%D0%BE%D0%BF%D0%B8%D1%8F_%D0%B1%D0%BB%D0%BE%D0%BA%D0%BD%D0%BE%D1%82%D0%B0_%22lesson_27_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Запити та парсинг

## 🔹 Що таке запит?

**Запит (HTTP request)** — це повідомлення, яке відправляє клієнт (браузер, Python-скрипт, мобільний застосунок) до сервера, щоб отримати або передати дані.  

🖥️ **Клієнт** — той, хто ініціює запит (наш код у Python, браузер).  
🌐 **Сервер** — той, хто обробляє запит і повертає відповідь.  

Цей механізм лежить в основі **вебу**: кожен раз, коли ми відкриваємо сторінку чи завантажуємо дані, відбувається серія запитів і відповідей.

---

## 🔹 Як виглядає HTTP-запит

У нього є кілька частин:

1. **Метод** (GET, POST, PUT, DELETE)

   * `GET` → отримати дані (найчастіше).
   * `POST` → відправити дані (логін, форма).
   * `PUT` → оновити.
   * `DELETE` → видалити.

2. **URL (Uniform Resource Locator)**

```
https://api.site.com:443/data?symbol=BTC&limit=10#section1
```

**Протокол** → `https`

   * Вказує, як передаються дані.
   * `http` – без шифрування.
   * `https` – із шифруванням (зараз стандарт).

**Домен (host)** → `api.site.com`

   * Основна адреса сайту.
   * Складається з:

     * `com` – домен верхнього рівня.
     * `site` – назва сайту.
     * `api` – піддомен (може бути `www`, `blog`, `shop` і т.д.).

**Порт (port)** → `:443` (часто прихований)

   * Номер "дверей", через які клієнт звертається до сервера.
   * `80` – HTTP за замовчуванням.
   * `443` – HTTPS за замовчуванням.

**Шлях (path)** → `/data`

   * Конкретний ресурс на сервері (сторінка, API-ендпоінт).

**Параметри (query string)** → `?symbol=BTC&limit=10`

   * Додають умови чи фільтри.
   * Формат: `ключ=значення` і розділяються `&`.
   * У прикладі:

     * `symbol=BTC` → отримати дані для Bitcoin.
     * `limit=10` → обмежити кількість результатів до 10.

**Фрагмент (anchor)** → `#section1`

   * Використовується у браузері для переходу до конкретної частини сторінки (сервер його не бачить).

3. **Headers (заголовки)**

   * "паспорт" нашого запиту:

     * `User-Agent` – браузер чи бот.
     * `Accept` – який формат даних ми хочемо (HTML/JSON).
     * `Authorization` – токен доступу.

4. **Body (тіло запиту)**

   * використовується у `POST/PUT` (наприклад, JSON із формою логіну).

---

## 🔹 Відповідь (HTTP response)

Сервер повертає:

* **status code** (200 – ок, 404 – не знайдено, 403 – заборонено).
* **headers** (тип контенту, cookies).
* **body** (дані: HTML, JSON, файл, картинка).

In [None]:
import requests

url = "https://httpbin.org/get"
params = {"symbol": "BTC", "limit": 5}
headers = {"User-Agent": "Mozilla/5.0"}

res = requests.get(url, params=params, headers=headers)

print("URL після запиту:", res.url)
print("Код відповіді:", res.status_code)
print("Заголовки:", res.headers)
print("JSON:", res.json())


URL після запиту: https://httpbin.org/get?symbol=BTC&limit=5
Код відповіді: 200
Заголовки: {'Date': 'Mon, 08 Sep 2025 16:18:01 GMT', 'Content-Type': 'application/json', 'Content-Length': '367', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
JSON: {'args': {'limit': '5', 'symbol': 'BTC'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Host': 'httpbin.org', 'User-Agent': 'Mozilla/5.0', 'X-Amzn-Trace-Id': 'Root=1-68bf01b7-336c0a84261c0718398bcb82'}, 'origin': '34.106.76.113', 'url': 'https://httpbin.org/get?symbol=BTC&limit=5'}


**Task 1:**
1. Зробіть GET-запит до **[https://example.com/](https://example.com/)**.
   * Виведіть **статус-код** відповіді.
   * Подивіться перші 300 символів HTML (`.text[:300]`).
2. Змініть **User-Agent** у заголовках:
   * Спочатку відправте запит без User-Agent.
   * Потім з `"User-Agent": "MyCustomBot/1.0"`.
   * Порівняйте відповіді (чи змінився результат).

## BeautifulSoup

`BeautifulSoup` – це бібліотека для **парсингу HTML і XML**.

### Основні методи:

* `soup.title`, `soup.a`, `soup.p` – доступ до тегів.
* `find(tag, attrs={})` – пошук першого елемента.
* `find_all(tag, attrs={})` – пошук усіх елементів.
* `select("css_selector")` – пошук по CSS-селекторах.
* `.text` / `.get("href")` – отримання тексту/атрибутів.

In [None]:
!pip install beautifulsoup4



In [None]:
from bs4 import BeautifulSoup
import requests

response = requests.get('https://example.com/')
soup = BeautifulSoup(response.text, 'html.parser')

In [None]:
print(response.text)

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

### 1. Доступ до тегів напряму

* `soup.title` → перший тег `<title>`
* `soup.p` → перший тег `<p>`
* `soup.a` → перший тег `<a>`

In [None]:
print("Заголовок:", soup.title.text)   # Example Domain
print("Абзац:", soup.p.text)           # This domain is for use in illustrative examples...
print("Посилання:", soup.a.text)       # More information...

Заголовок: Example Domain
Абзац: This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
Посилання: More information...


### 2. `find(tag, attrs={})`

Знаходить **перший елемент**, який відповідає умовам.

In [None]:
first_link = soup.find("a") # Особливість: якщо елемента немає, повертає `None`.
print(first_link.text)
print(first_link.get("href"))

More information...
https://www.iana.org/domains/example


### 3. `find_all(tag, attrs={})`

Повертає **список усіх елементів**.

In [None]:
all_paragraphs = soup.find_all("p") # Особливість: повертає список, навіть якщо елемент один.
for p in all_paragraphs:
    print(p.text)

This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...


### 4. `select("css_selector")`

Дозволяє шукати елементи за **CSS-селекторами**, як у веб-розробці.

* `"p"` → усі абзаци
* `"a"` → усі посилання
* `"h1"` → заголовки першого рівня

In [None]:
links = soup.select("a")
for link in links:
    print(link.text, "→", link.get("href"))

More information... → https://www.iana.org/domains/example


### 5. `.text` та `.get("атрибут")`

* `.text` → повертає **текст всередині тега**.
* `.get("href")` → повертає значення атрибуту (наприклад, посилання).

In [None]:
title = soup.title.text
link_url = soup.a.get("href")

print("Заголовок сторінки:", title)
print("Посилання:", link_url)

Заголовок сторінки: Example Domain
Посилання: https://www.iana.org/domains/example


### Особливості роботи з BeautifulSoup

1. **Відсутні елементи** → якщо шукаєш тег, а його нема → буде `None`.

   ```python
   print(soup.find("h2"))  # None
   ```
2. **HTML може бути "кривим"** → але BeautifulSoup автоматично "підчистить".
3. **Методів багато** – найчастіше використовуються:

   * `.find()`
   * `.find_all()`
   * `.select()`
   * `.text`, `.get()`

## Парсинг реальних сайтів (CoinMarketCap)

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://coinmarketcap.com/"
headers = {"User-Agent": "Mozilla/5.0"}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "html.parser")

In [None]:
table = soup.find("table", class_="cmc-table")

In [None]:
print(table.prettify())

<table class="sc-7e3c705d-3 keBvNC cmc-table">
 <colgroup>
  <col style="width:50px;min-width:auto;max-width:auto"/>
  <col style="width:50px;min-width:auto;max-width:auto"/>
  <col style="width:250px;min-width:auto;max-width:auto"/>
  <col/>
  <col style="width:84px;min-width:auto;max-width:auto"/>
  <col style="width:84px;min-width:auto;max-width:auto"/>
  <col style="width:84px;min-width:auto;max-width:auto"/>
  <col style="width:200px;min-width:auto;max-width:auto"/>
  <col style="width:200px;min-width:auto;max-width:auto"/>
  <col style="width:200px;min-width:auto;max-width:auto"/>
  <col/>
 </colgroup>
 <thead>
  <tr>
   <th class="stickyTop">
   </th>
   <th class="stickyTop" style="text-align:start">
    <div class="sc-65e7f566-0 BmVAr">
     <span class="sc-65e7f566-0 iSzLgt rank-column-title">
      #
     </span>
    </div>
   </th>
   <th class="stickyTop" style="text-align:start">
    <div class="sc-e297ecb-0 bSCmGv sortable-header-container">
     <div class="sc-e297ecb-1

In [None]:
print([col.text for col in table.thead.find_all("th")])

['', '#', 'Name', 'Price', '1h %', '24h %', '7d %', 'Market Cap', 'Volume(24h)', 'Circulating Supply', 'Last 7 Days']


In [None]:
tbody = table.tbody.find_all('tr')


data = []
for item in tbody:
  try:
    cells = item.find_all('td')
    if not cells or len(cells) < 4:
      continue
    rank = cells[1].text.strip()
    name = cells[2].select_one('p.coin-item-name').text.strip()
    symbol = cells[2].select_one('p.coin-item-symbol').text.strip()
    price = cells[3].text.strip()

    data.append({
        'rank': rank,
        'name': name,
        'symbol': symbol,
        'price': price
        })
  except:
    continue

In [None]:
data

[{'rank': '1', 'name': 'Bitcoin', 'symbol': 'BTC', 'price': '$112,395.42'},
 {'rank': '2', 'name': 'Ethereum', 'symbol': 'ETH', 'price': '$4,334.00'},
 {'rank': '3', 'name': 'XRP', 'symbol': 'XRP', 'price': '$2.97'},
 {'rank': '4', 'name': 'Tether', 'symbol': 'USDT', 'price': '$0.9999'},
 {'rank': '5', 'name': 'BNB', 'symbol': 'BNB', 'price': '$880.25'},
 {'rank': '6', 'name': 'Solana', 'symbol': 'SOL', 'price': '$216.48'},
 {'rank': '7', 'name': 'USDC', 'symbol': 'USDC', 'price': '$0.9998'},
 {'rank': '8', 'name': 'Dogecoin', 'symbol': 'DOGE', 'price': '$0.2392'},
 {'rank': '9', 'name': 'TRON', 'symbol': 'TRX', 'price': '$0.3338'},
 {'rank': '10', 'name': 'Cardano', 'symbol': 'ADA', 'price': '$0.8652'}]

## Автоматичний збір з кількох сторінок

In [None]:
import time
import pandas as pd

i = 1
res = []
while i < 10:

  url = f'https://coinmarketcap.com/?page={i}'
  soup = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
  table = soup.find('table', class_='cmc-table')
  if not table:
    break

  tbody = table.tbody.find_all('tr')

  if not tbody:
    break

  tbody = table.tbody.find_all('tr')
  data = []

  for item in tbody:
    try:
      cells = item.find_all('td')
      if not cells or len(cells) < 4:
        continue
      rank = cells[1].text.strip()
      name = cells[2].select_one('p.coin-item-name').text.strip()
      symbol = cells[2].select_one('p.coin-item-symbol').text.strip()
      price = cells[3].text.strip()

      data.append({
          'rank': rank,
          'name': name,
          'symbol': symbol,
          'price': price
          })
    except:
      continue
  res += data
  time.sleep(3)
  i+=1

df = pd.DataFrame(res)
df

1
2
3
4
5
6
7
8
9


Unnamed: 0,rank,name,symbol,price
0,1,Bitcoin,BTC,"$112,564.36"
1,2,Ethereum,ETH,"$4,340.95"
2,3,XRP,XRP,$2.98
3,4,Tether,USDT,$0.9999
4,5,BNB,BNB,$878.82
...,...,...,...,...
85,806,Telos,TLOS,$0.05963
86,807,GUNZ,GUN,$0.02327
87,808,Groestlcoin,GRS,$0.2939
88,809,Portal,PORTAL,$0.04445


**Task 3:**

1. Зберіть перші 3 сторінки і порахуйте, скільки монет зібрали.
2. Збережіть у CSV.
3. Зробіть графік цін топ-20 монет.

## Альтернативний підхід: `pandas.read_html`

In [None]:
dfs = pd.read_html("https://coinmarketcap.com/")
print(dfs[0].head())

   Unnamed: 0    #         Name        Price   1h %  24h %   7d %  \
0         NaN  1.0   BitcoinBTC  $112,609.55  0.66%  1.30%  1.97%   
1         NaN  2.0  EthereumETH    $4,340.25  0.83%  0.93%  1.30%   
2         NaN  3.0       XRPXRP        $2.98  1.02%  3.68%  6.38%   
3         NaN  4.0   TetherUSDT      $0.9997  0.03%  0.03%  0.03%   
4         NaN  5.0       BNBBNB      $879.05  0.42%  0.53%  2.98%   

                 Market Cap              Volume(24h) Circulating Supply  ...  \
0  $2.24T$2,243,030,113,730   $41,998,562,863372.95K         19.91M BTC  ...   
1  $523.97B$523,974,597,537     $33,047,968,1487.61M         120.7M ETH  ...   
2  $178.08B$178,076,235,205      $6,334,465,1022.12B         59.61B XRP  ...   
3  $168.88B$168,875,166,823  $120,439,053,196120.47B       168.92B USDT  ...   
4  $122.32B$122,321,562,499      $2,158,629,0162.45M        139.18M BNB  ...   

   Unnamed: 94  Unnamed: 95  Unnamed: 96  Unnamed: 97  Unnamed: 98  \
0          NaN          NaN       

## Аналітика на основі зібраних даних

In [None]:
df["price_num"] = (
    df["price"].str.replace("$", "").str.replace(",", "").astype(float)
)

print("Середня ціна монети:", df["price_num"].mean())
print("Найдорожча монета:", df.loc[df["price_num"].idxmax()])

Середня ціна монети: 1352.4659182786665
Найдорожча монета: rank                   1
name             Bitcoin
symbol               BTC
price        $112,564.36
price_num      112564.36
Name: 0, dtype: object


**Task 4:**

1. Знайдіть топ-5 найдорожчих монет.
2. Побудуйте барчарт (`matplotlib`).
3. Зробіть підрахунок, скільки монет дешевші за \$1.

## Обмеження і ризики

1. **Етика** – перевіряти `robots.txt`.
2. **Захист** – капчі, блокування.
3. **User-Agent** – треба маскувати під браузер.
4. **Частота запитів** – обмежувати `time.sleep`.
5. **API завжди краще** ніж HTML-парсинг.

## Додаткові завдання для практики

**Task 1.** Зробіть парсинг заголовків новин з **[https://news.ycombinator.com/](https://news.ycombinator.com/)**.  
**Task 2.** Витягніть курс валют з **[https://www.x-rates.com/](https://www.x-rates.com/)**.  