# Збір даних (Data Collection)

Першим кроком більшості процесів обробки даних є отримання даних. Дані, які ми зазвичай використовуємо, походять з багатьох різних джерел.

Якщо вам пощастить, хтось може безпосередньо надати вам файл, наприклад CSV. А іноді для збору відповідних даних потрібно буде виконати запит до бази даних . Але в цій лекції ми поговоримо про збір даних з двох основних джерел:

- запит до API (більшість з яких сьогодні є веб-орієнтованими); та
- вилучення даних з веб-сторінки.

## Збір даних з веб-джерел (Collecting data from web-based sources)

Переважна більшість автоматизованих запитів даних, які ви будете виконувати, використовуватимуть HTTP-запити (це стало домінуючим протоколом не тільки для запитів веб-сторінок).

In [6]:
import requests
response = requests.get("https://fmi.chnu.edu.ua/")

print("Status Code:", response.status_code)
print("Headers:", response.headers)

Status Code: 200
Headers: {'Date': 'Fri, 12 Sep 2025 05:44:43 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Server': 'cloudflare', 'vary': 'Accept-Encoding', 'content-security-policy': "default-src 'self' data: 'unsafe-eval' 'unsafe-inline' *.gstatic.com *.googleapis.com *.googletagmanager.com *.addtoany.com *.youtube-nocookie.com *.google.com *.google-analytics.com *.ytimg.com *.facebook.com forms.gle *.chnu.edu.ua *.madmagz.com madmagz.app www.arcgis.com; worker-src 'self' blob:", 'x-frame-options': 'SAMEORIGIN, SAMEORIGIN', 'x-content-type-options': 'nosniff', 'strict-transport-security': 'max-age=31536000', 'referrer-policy': 'no-referrer', 'permissions-policy': 'accelerometer=(), camera=(), geolocation=*, gyroscope=(), magnetometer=(), microphone=(), payment=(), usb=()', 'Report-To': '{"group":"cf-nel","max_age":604800,"endpoints":[{"url":"https://a.nel.cloudflare.com/report/v4?s=F1n6Iq9gHVk11wnEd4wrbf12%2BXLAXthH1IJ

In [None]:
print(response.text)

HTTP GET є найпоширенішим методом, але існують також методи PUT, POST, DELETE, які змінюють деякі параметри на сервері.

Параметри URL можна вказати за допомогою бібліотеки запитів, як показано нижче:

In [None]:
params = {"sa":"t", "rct":"j", "q":"", "esrc":"s",
"source":"web", "cd":"9", "cad":"rja", "uact":"8"}
response = requests.get("http://www.google.com/url", params=params)

print("Final URL:", response.url)
print(response.text)

## RESTful API

Якщо ви перейдете від простого запиту веб-сторінок до веб-API, ви, швидше за все, зіткнетеся з REST API (Representational State Transfer). REST — це скоріше архітектура дизайну, але ось кілька ключових моментів:

Використовує стандартний інтерфейс і методи HTTP (GET, PUT, POST, DELETE)
Stateless – сервер не запам'ятовує, що ви робили
Практичне правило: якщо ви надсилаєте ключ свого облікового запису разом із кожним викликом API, ви, ймовірно, використовуєте REST API

Ви запитуєте REST API подібно до стандартних HTTP-запитів, але майже завжди потрібно включати параметри

Отримайте власний токен доступу на https://github.com/settings/tokens/new GitHub API використовує GET/PUT/DELETE, щоб ви могли автоматично запитувати або оновлювати елементи у вашому обліковому записі GitHub Приклад REST: сервер не запам'ятовує ваші останні запити, наприклад, ви завжди повинні включати свій токен доступу, якщо використовуєте його таким чином

In [12]:
import os
from dotenv import load_dotenv

load_dotenv()
token = os.getenv("GITHUB_TOKEN")

headers = {'Authorization': 'Bearer '+token}
response = requests.get("https://api.github.com/user", headers=headers)
print(response.content)

b'{"login":"maxvonlancaster","id":38358502,"node_id":"MDQ6VXNlcjM4MzU4NTAy","avatar_url":"https://avatars.githubusercontent.com/u/38358502?v=4","gravatar_id":"","url":"https://api.github.com/users/maxvonlancaster","html_url":"https://github.com/maxvonlancaster","followers_url":"https://api.github.com/users/maxvonlancaster/followers","following_url":"https://api.github.com/users/maxvonlancaster/following{/other_user}","gists_url":"https://api.github.com/users/maxvonlancaster/gists{/gist_id}","starred_url":"https://api.github.com/users/maxvonlancaster/starred{/owner}{/repo}","subscriptions_url":"https://api.github.com/users/maxvonlancaster/subscriptions","organizations_url":"https://api.github.com/users/maxvonlancaster/orgs","repos_url":"https://api.github.com/users/maxvonlancaster/repos","events_url":"https://api.github.com/users/maxvonlancaster/events{/privacy}","received_events_url":"https://api.github.com/users/maxvonlancaster/received_events","type":"User","user_view_type":"private"

## CSV-файли

CSV: Відноситься до будь-якого текстового файлу з роздільниками (не завжди розділеного комами).

Якщо самі значення містять коми, ви можете взяти їх у лапки (наш реєстратор, очевидно, завжди так робить, щоб бути впевненим).

In [13]:
import pandas as pd

dataframe = pd.read_csv("../resources/bitcoin.csv", delimiter=',', quotechar='"')
dataframe.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Currency
0,2010-07-18,0.0,0.1,0.1,0.1,75,USD
1,2010-07-19,0.1,0.1,0.1,0.1,574,USD
2,2010-07-20,0.1,0.1,0.1,0.1,262,USD
3,2010-07-21,0.1,0.1,0.1,0.1,575,USD
4,2010-07-22,0.1,0.1,0.1,0.1,2160,USD
5,2010-07-23,0.1,0.1,0.1,0.1,2403,USD
6,2010-07-24,0.1,0.1,0.1,0.1,496,USD
7,2010-07-25,0.1,0.1,0.1,0.1,1551,USD
8,2010-07-26,0.1,0.1,0.1,0.1,877,USD
9,2010-07-27,0.1,0.1,0.1,0.1,3374,USD


## Парсинг JSON в Python

Вбудована бібліотека для читання/запису об'єктів Python з/у файли JSON

In [15]:
import json
# load json from a REST API call

headers = {'Authorization': 'token ' + token}
response = requests.get("https://api.github.com/user", headers=headers)
data = json.loads(response.content)

#json.load(file) # load json from file
json.dumps(data) # return json string
#json.dump(obj, file) # write json to file

'{"login": "maxvonlancaster", "id": 38358502, "node_id": "MDQ6VXNlcjM4MzU4NTAy", "avatar_url": "https://avatars.githubusercontent.com/u/38358502?v=4", "gravatar_id": "", "url": "https://api.github.com/users/maxvonlancaster", "html_url": "https://github.com/maxvonlancaster", "followers_url": "https://api.github.com/users/maxvonlancaster/followers", "following_url": "https://api.github.com/users/maxvonlancaster/following{/other_user}", "gists_url": "https://api.github.com/users/maxvonlancaster/gists{/gist_id}", "starred_url": "https://api.github.com/users/maxvonlancaster/starred{/owner}{/repo}", "subscriptions_url": "https://api.github.com/users/maxvonlancaster/subscriptions", "organizations_url": "https://api.github.com/users/maxvonlancaster/orgs", "repos_url": "https://api.github.com/users/maxvonlancaster/repos", "events_url": "https://api.github.com/users/maxvonlancaster/events{/privacy}", "received_events_url": "https://api.github.com/users/maxvonlancaster/received_events", "type": "

## Парсинг XML/HTML в Python

Існує ряд XML/HTML-парсерів для Python, але для науки про дані добре підходить бібліотека BeautifulSoup (спеціально призначена для вилучення даних з XML/HTML-файлів).

In [16]:
# get all the links within the webpage
from bs4 import BeautifulSoup
import requests

response = requests.get("https://fmi.chnu.edu.ua/")

root = BeautifulSoup(response.content)
root.find("div").findAll("a")

[<a href="/cdn-cgi/l/email-protection#77141b105a1a16031f37141f190259121302590216"><span><span class="__cf_email__" data-cfemail="a0c3ccc78dcdc1d4c8e0c3c8ced58ec5c4d58ed5c1">[email protected]</span></span></a>,
 <a href="https://www.facebook.com/fmi.org.ua/" rel="noopener" target="_blank" title="Факультет математики та інформатики ЧНУ ім. Ю. Федьковича"><span class="iconify-icon footer-social-link-icon icon--fa-brands icon--fa-brands--facebook-f"></span></a>,
 <a href="https://www.instagram.com/m._i_.f/" rel="noopener" target="_blank" title="Профбюро студентів ФМІ"><span class="iconify-icon footer-social-link-icon icon--fa-brands icon--fa-brands--instagram"></span></a>,
 <a href="https://youtube.com/@MathTube_" rel="noopener" target="_blank" title="Youtube"><span class="iconify-icon footer-social-link-icon icon--fa-brands icon--fa-brands--youtube"></span></a>]

## Регулярні вирази (Regular expressions)

Після завантаження даних (або якщо вам потрібно створити парсер для завантаження даних іншого формату) часто доводиться шукати певні елементи в даних.

Наприклад, знайти перше входження рядка «data science»

In [None]:
import re
text = "This course will introduce the basics of data science"
match = re.search(r"data science", text)
print(match.start())
print(re.match(r"This", text))

# Regular expressions in Python

match = re.match(r"data science", text) # check if start of text matches
match = re.search(r"data science", text) # find first match or None

all_matches = re.findall(r"a", text) # return all matches
print(all_matches)


# You can also use “compiled” version of regular expressions
# regex = re.compile(r"data science")
# regex.match(text, [startpos, [endpos]])
# regex.search(...)s
# regex.finditer(...)
# regex.findall(...)

41
<re.Match object; span=(0, 4), match='This'>
['a', 'a', 'a']


## Відповідність декількох потенційних символів (Matching multiple potential characters)

Справжня сила регулярних виразів полягає в можливості збігу декількох можливих послідовностей символів. Спеціальні символи в регулярних виразах: `.^$*+?{}\[]|()` (якщо ви хочете, щоб ці символи збігалися точно, вам потрібно їх екранувати: `\$`)

Відповідність наборів символів:

- Відповідність символу «a»: `a`
- Відповідність символів «a», «b» або «c»: `[abc]`
- Будь-який символ, крім «a», «b» або «c»: `[^abc]`
- Відповідність будь-якої цифри: `\d` (те саме, що `[0-9]`)
- Відповідність будь-якого алфавітно-цифрового символу: `\w` (те саме, що `[a-zA-z0-9_]`)
- Відповідність пробілу: `\s` (те саме, що `[ \t\n\r\f\v]`)
- Відповідність будь-якого символу: `.` (включно з новою лінією з re.DOTALL)

Може збігатися з одним або декількома випадками символу (або набору символів)

Деякі поширені модифікатори:

- Відповідність символу «a» рівно один раз: `a`
- Відповідність символу «a» нуль або один раз: `a?`
- Відповідність символу «a» нуль або більше разів: `a*`
- Відповідність символу «a» один або більше разів: `a+`
- Відповідність символу «a» рівно n разів: `a{n}`

Можна поєднувати їх із збігом декількох символів:

- Відповідність усіх випадків «`<something>` science», де `<something>` — це алфавітно-цифровий рядок, що містить принаймні один символ:
`\w+\s+science`



### Групування (Grouping)

Часто нам потрібно отримати більше інформації, ніж просто те, чи знайшли ми збіг чи ні (наприклад, ми можемо хотіти знати, який текст збігся).

Групування: оберніть частини регулярного виразу в дужки, щоб «запам'ятати» ці частини збігу `(\w+)\s([Ss]cience)`.

In [19]:
text = "This course will introduce the basics of data science"
match = re.search(r"(\w+)\s([Ss]cience)", text)
print(match.start(), match.groups())
# Why the ‘r’ before the string? Avoids need to double escape strings

41 ('data', 'science')


### Заміни (Substitutions) 

Регулярні вирази надають механізм для заміни одного тексту іншим текстом.

In [20]:
better_text = re.sub(r"data science", r"schmada science", text)

# To include text that was remembered in the matching using groups, use the escaped sequences 
# \1, \2, … in the substitution text
better_text = re.sub(r"(\w+)\s([Ss])cience", r"\1 \2hmience", text)
print(better_text)

This course will introduce the basics of data shmience


### Порядок і жадібне зіставлення (Ordering and greedy matching)

У регулярних виразах існує порядок операцій. `abc|def` відповідає рядкам «abc» або «def», а не «ab(c або d)ef». Ви можете обійти це, використовуючи дужки, наприклад `a(bc|de)f`. Це також створює групу, використовуйте `a(?:bc|de)f`, якщо ви не хочете її захоплювати.

За замовчуванням регулярні вирази намагаються захопити якомога більше тексту (жадібне співставлення). `<(.*)>`, застосоване до `<a>text</a>`, буде відповідати всьому виразу. Якщо ви хочете захопити якомога менше тексту, використовуйте `<(.*?)>`, це буде відповідати тільки терміну `<a>`.