### Getting Data
**Date**: 2025-11-17

**Topics**:
> 1. Work with file 
> 2. Format of data: csv, json  
> 3. APIs 
> 4. Web-scraping 
> 5. Excel 

**Materials**:
> [Context Manager](https://www.geeksforgeeks.org/python/context-manager-in-python/) \
> [API example](https://www.geeksforgeeks.org/python/python-api-tutorial-getting-started-with-apis/) \
> [Googe Sheets](https://medium.com/@obaff/automate-google-sheets-with-python-for-efficient-data-management-and-task-automation-1c5e4f45ef57) \
> [Files](https://realpython.com/working-with-files-in-python/)
> [Excel in Python](https://realpython.com/openpyxl-excel-spreadsheets-python/)

---
#### Work with file
Файл — це набір байтів, який операційна система зберігає на диску.

Властивості файлів:
> Шлях - /../.csv \
> Розмір(size) \
> Розширення (txt, csv, json..) \
> Кодування (utf-8, unicode, cp)


## File Paths

1. Nested Folders
2. File name
3. Extension

**module/filename.txt**

#### Типи файлів:

**Читаються як рядок**:
> txt \
> csv \
> json \
> log 

**Бінарні**:
> картинки: png, jpg, etc \
> відео: mp4, etc \
> ML-моделі: .pkl 

**Структура файлів**: \
> Metadata -> Body -> end of file


In [None]:
# open - функція для роботи із файлами 

test_file = '/Users/alksandr/Desktop/kdt_lessons/a.txt'

file = open(test_file, 'r', encoding = 'utf-8') # (filename, work status, encoding)

print(file.read())

file.close()

In [None]:
ord('A'), ord('a')

In [None]:
test_file = 'a.txt'

file = open(test_file, encoding= 'utf-8')

errors = 0
for row in file.readlines():
    #print(row)
    if row.strip() == 'error':
        errors += 1
print(errors)

file.close()

In [None]:
# context manager - with, бере на себе відкриття та закриття файлу 
with open(test_file, 'r') as f:
    print(f.read())


In [None]:
with open('new_file.txt', 'w') as f:
    f.write('Second line')

In [None]:
with open('new_file.txt', 'a') as f:
    f.write('Example of append mode')

In [None]:
# if not check_status_code(response):
#     raise Exception('SomethingWrong')

#### Режими читання файлів 
| Режим  | Значення                           |
| ------ | ---------------------------------- |
| `"r"`  | читання (помилка, якщо файла нема) |
| `"w"`  | запис (перезапише файл!)           |
| `"a"`  | дозапис у кінець                   |
| `"rb"` | читання бінарного файла            |
| `"wb"` | запис у бінарному режимі           |


#### Методи для роботи із файлами
| Метод           | Повертає / Що робить                     | Коли використовувати                     |
| --------------- | ---------------------------------------- | ---------------------------------------- |
| `read()`        | Увесь файл однією строкою                | Маленькі файли (до 50–100 МБ)            |
| `read(n)`       | Перші *n* символів/байтів                | Обмежене читання                         |
| `readline()`    | ОДНУ строку                              | Перше рядок або построкова обробка       |
| `readlines()`   | Список рядків                            | Коли файл невеликий і потрібні всі рядки |
| `for line in f` | Ітерація по рядках                       | Великі файли, логи                       |
| `write()`       | Записує один рядок                       | Запис рядків вручну                      |
| `writelines()`  | Записує список рядків                    | Масовий запис                            |
| `close()`       | Закриває файл (автоматично через `with`) | Використовується рідко вручну            |


In [None]:
# read() — прочитати весь файл
with open(test_file, "r", encoding="utf-8") as f:
    text = f.read()
    print(text)

In [None]:
# read(n) — прочитати перші n символів
with open(test_file, "r", encoding="utf-8") as f:
    text = f.read(20)
    print(text)

In [None]:
# readline() — прочитати одну стрічку
with open(test_file) as f:
    line = f.readline()
    print(line)
    second_line = f.readline()
    print(second_line)

In [None]:
# readlines() — повертає список усіх рядків
with open(test_file) as f:
    lines = f.readlines()
    print(lines, lines[0])

In [None]:
# ітерація по файлу
with open(test_file) as f:
    for line in f:
        print(line.strip())


In [None]:
# write() — запис рядка в файл
with open("out.txt", "w") as f:
    f.write("Hello!\n")

In [None]:
# writelines() — запис списку рядків
lines = ["a\n", "b\n", "c\n"]

with open("out.txt", "w") as f:
    f.writelines(lines)

In [None]:
with open("big_data.txt", "w", encoding="utf-8") as f:
    for i in range(1_000_000):
        f.write(f"Line number {i}\n")

In [None]:
with open("big_data.txt", "r", encoding="utf-8") as f:
    chunk_size = 10_000
    chunk_counter = 0
    while True:
        chunk = f.read(chunk_size)
        if not chunk: # None
            break
        # print(chunk[:50], "...")  
        # print('#' * 50)
        chunk_counter += 1
        print(chunk_counter)


--- 
#### Format of data: csv, json


**CSV (Comma-Separated Values)**
- Табличні дані у вигляді рядків тексту.
- Кожен рядок — один запис (record).
- Значення розділені комами, але може бути ;, |

**Приклад**: \
id,name,age \
1,Name1,22 \
2,Name2,31


In [None]:
# для роботи із цим типом файлів використовується бібліотеки: pandas, csv 

In [None]:
import csv # імпорт стандартної бібліотеки 

iris_file = '/Users/alksandr/Desktop/kdt_lessons/iris.csv'

In [None]:
with open(iris_file, 'r', encoding = 'utf-8') as f:
    reader = csv.reader(f, delimiter= ',') # reader(file, delimiter, dialect)
    
    for row in reader:
        print(row)
        

**Методи для роботи із csv**
| Об’єкт     | Метод                    | Що робить               | Коли використовувати |
| ---------- | ------------------------ | ----------------------- | -------------------- |
| reader     | ітерація по рядках       | читає CSV у списки      | прості CSV           |
| DictReader | ітерація по рядках       | читає у словники        | CSV з заголовками    |
| writer     | writerow()               | запис одного рядка      | простий запис        |
| writer     | writerows()              | запис списку рядків     | масовий запис        |
| DictWriter | writerow(dict)           | запис 1 словника        | структурований запис |
| DictWriter | writerows(list_of_dicts) | масовий запис словників | робота з колонками   |
| CSV        | register_dialect         | оголосити формат        | різні роздільники    |


In [None]:
example_dict = {
    'country':
        {
            'city': 'Kyiv'
        }
}

In [None]:
example_dict.get('country').get('city')

In [None]:
result = {
    'setosa': []
    , 'versicolor': []
    , 'virginica': []
}

In [None]:
# DictReader
with open(iris_file, "r", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        species = row.get('species')
        if species in result:
            result[species].append(row.get('sepal_length'))
        

In [None]:
result

In [None]:
# save data as rows
data = [
    ["id", "name", "age"],
    [1, "Name1", 22],
    [2, "Name2", 31],
]

with open("out.csv", "w", encoding="utf-8", newline="") as f:
    writer = csv.writer(f)
    writer.writerows(data)

In [None]:
# save data as dict
rows = [
    {"id": 1, "name": "Name1", "age": 22},
    {"id": 2, "name": "Name2", "age": 31},
]

with open("users_out.csv", "w", encoding="utf-8", newline="") as f:
    writer = csv.DictWriter(f, fieldnames=["id", "name", "age"])
    
    writer.writeheader()
    writer.writerows(rows)

In [None]:
from faker import Faker 

fake = Faker()

allow_methods = {
    'name': fake.name
    , 'address': fake.address
    , 'email': fake.ascii_email
    , 'country': fake.country
    , 'date': fake.date
    , 'age': lambda: fake.random_int(18, 65)
}

In [None]:
def create_dataset(n: int, columns: set[str] = ('name', 'age', 'country', 'email')) -> list[list]:
    result = []
    
    columns = [i for i in columns if i in allow_methods]
    
    def generate_row(column: str) -> list:
            method = allow_methods.get(column)
            return method() if method else None
    
    for row_id in range(1, n):
        row = [row_id]
        for col in columns:
            value = generate_row(col)
            row.append(value)
        result.append(row)
    return result
           

In [None]:
import os 

In [None]:
# приклад 1. порахувати середній вік

file_name = '/Users/alksandr/Desktop/kdt_lessons/example_data.csv'

if os.path.exists(file_name):
    print('All okey')
else:
    raise FileNotFoundError(f'No file {file_name}')

ages = []
with open(file_name, encoding = 'utf') as f:
    reader = csv.DictReader(f)
    for row in reader:
        ages.append(int(row.get('age', 0)))

In [None]:
print('Avg age:', round(sum(ages) / len(ages), 2))

#### JSON - JavaScript Object Notation

Зручний для читання людиною, підтримує вкладенність 

Приклад: \
    { \
        'id': 1 \
        , 'name': Name1 \
    }

**Таблиця методів для роботи із json-lib**
| Метод                  | Опис                            | Коли застосовувати               |
| ---------------------- | ------------------------------- | -------------------------------- |
| `json.load(f)`         | Зчитує JSON із файла            | коли працюємо з `.json` на диску |
| `json.loads(s)`        | Зчитує JSON зі строки           | коли отримуємо JSON з API        |
| `json.dump(obj, f)`    | Записує Python-об’єкт у файл    | збереження конфігів, даних       |
| `json.dumps(obj)`      | Перетворює об’єкт у JSON-строку | логування, відправка в API       |
| Параметри форматування |                                 |                                  |
| `indent=2`             | Форматує JSON у красивий вигляд | для читабельності файлів         |
| `ensure_ascii=False`   | Дозволяє кирилицю               | для української мови             |
| `sort_keys=True`       | Сортує ключі                    | для стабільного форматування     |


In [None]:
import json # імпорт бібліотеки для роботи із json

iris_json = '/Users/alksandr/Desktop/kdt_lessons/iris 2.json'
with open(iris_json, "r", encoding="utf-8") as f:
    data = json.load(f)
    
    for row in data[:5]:
        print(row)


In [None]:
text = '{"a": 1, "b": 2}'
data = json.loads(text)
print(data)

In [None]:
data = {
    "id": 1,
    "name": "name",
    "active": True,
    "hobbies": ["art", "python", "gaming"]
}

with open("out.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)


In [None]:
try:
    json.loads('{"id": 1,]')
except json.JSONDecodeError as e:
    print("Помилка JSON:", e)

---
### Робота з API (Application Programming Interface)
API — це спосіб, яким програми обмінюються даними.

**Аналітики використовують API для**:
> отримання даних з сервісів (YouTube, Telegram, Google) \
> інтеграцій між системами \
> автоматизації \
> збору статистики \
> перевірки статусів 

API = домовленість про формат запиту → формат відповіді.


#### Основні терміни
| Поняття         | Пояснення                                       |
| --------------- | ----------------------------------------------- |
| **Endpoint**    | Адреса запиту (`https://api.example.com/users`) |
| **Method**      | GET, POST, PUT, DELETE                          |
| **Headers**     | Токен, content-type                             |
| **Body**        | Дані у запиті (для POST)                        |
| **Response**    | Відповідь сервера (частіше JSON)                |
| **Status code** | Код відповіді (`200`, `404`, `401`, `500`)      |
| **Rate Limits** | Ліміти запитів                                  |


#### HTTP Methods
| Метод      | Для чого                |
| ---------- | ----------------------- |
| **GET**    | Отримати дані           |
| **POST**   | Надіслати дані          |
| **PUT**    | Оновити весь об’єкт     |
| **PATCH**  | Оновити частину об’єкта |
| **DELETE** | Видалити об’єкт         |


In [None]:
# pip install requests

#### Методи роботи із requests
| Метод                       | Опис                         |
| --------------------------- | ---------------------------- |
| `requests.get(url, ...)`    | отримати дані                |
| `requests.post(url, ...)`   | відправити дані              |
| `requests.put(url, ...)`    | оновити дані                 |
| `requests.delete(url, ...)` | видалити                     |
| `.json()`                   | перетворити відповідь у JSON |
| `.status_code`              | отримати код відповіді       |
| `.headers`                  | заголовки відповіді          |
| `.text`                     | текст відповіді              |
| `timeout=`                  | лімітує час очікування       |
| `params=`                   | GET-параметри                |
| `data=`                     | форма (POST)                 |
| `json=`                     | JSON (POST)                  |


In [None]:
import requests

url = "https://catfact.ninja/fact"

response = requests.get(url) 
data = response.json()

print(data["fact"])


In [None]:
# Monobank API

url = 'https://api.monobank.ua/bank/currency'

response = requests.get(url)
print(response.headers)

In [None]:
def check_status_code(status_code: int):
    match status_code:
        case 200:
            return True
        case 404:
            return False
        case _:
            return False

In [None]:
response

In [None]:
from time import sleep

seconds_sleep = 4
try:
    response = requests.get(url)
    # requests.raise_for_status()
    
    data = response.json()
except requests.exceptions.ReadTimeout as rt:
    print(f'Timeout')
except Exception as e:
    print(f'Something wrong: {e}')
    sleep(4)

In [None]:
data[:1]

In [None]:
import requests

GIPHY_URL = 'https://api.giphy.com/v1/gifs/search'

API_KEY = ''

payload = {
    'api_key': '',
    'q': '', 
    'limit': 1, 
    'offset': 1, 
    'rating': 'g', 
    'lang': 'en',
    'bundle': 'messaging_non_clips'
    }

req = requests.get(GIPHY_URL)

In [None]:
# APIs: https://api.sampleapis.com/

--- 
#### Web-scraping 
Це техніка витягування даних із веб-сайтів шляхом аналізу HTML-структури сторінки

**Scraping для аналітиків:** 
> збору цін товарів \
> моніторингу конкурентів \
> збору відгуків і рейтингів \
> аналізу новин, постів, статей \
> підготовки датасетів

#### Основні терміни
| Поняття                  | Пояснення                         |
| ------------------------ | --------------------------------- |
| **HTML**                 | мова розмітки сторінок            |
| **Тег**                  | елемент сторінки (`<div>`, `<p>`) |
| **Атрибут**              | властивість (`class="price"`)     |
| **CSS-клас**             | група стилів (`class="item"`)     |
| **DOM-дерево**           | структура HTML як дерева          |
| **Selector**             | спосіб знайти елемент             |
| **Відповідь (response)** | HTML-код, який ми парсимо         |


#### HTML-теги

| Тег             | Для чого                           | Приклад                          |
| --------------- | ---------------------------------- | -------------------------------- |
| `<h1>` … `<h6>` | Заголовки                          | `<h1>Магазин</h1>`               |
| `<p>`           | Абзац тексту                       | `<p>Опис</p>`                    |
| `<span>`        | Короткий текст усередині ін. тегів | `<span class="price">999</span>` |
| `<div>`         | Контейнер / блок                   | `<div class="item">...</div>`    |
| `<ul>`          | Список                             | `<ul>...</ul>`                   |
| `<li>`          | Елемент списку                     | `<li>iPhone — 999</li>`          |
| `<a>`           | Посилання                          | `<a href="/item">Відкрити</a>`   |
| `<img>`         | Зображення                         | `<img src="img.png">`            |
| `<table>`       | Таблиця                            | `<table>...</table>`             |
| `<tr>`          | Рядок таблиці                      | `<tr>...</tr>`                   |
| `<td>`          | Комірка таблиці                    | `<td>Ціна</td>`                  |


In [None]:
# pip install requests beautifulsoup4

#### BeautifulSoup методи
| Метод        | Приклад                 | Що робить                   |
| ------------ | ----------------------- | --------------------------- |
| `find()`     | `soup.find("h1")`       | знаходить перший елемент    |
| `find_all()` | `soup.find_all("p")`    | знаходить всі елементи      |
| `.text`      | `el.text`               | витягнути текст             |
| `[атрибут]`  | `el["href"]`            | витягнути значення атрибуту |
| `select()`   | `soup.select(".price")` | пошук по CSS-селектору      |


In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://httpbin.org/html"
html = requests.get(url).text

soup = BeautifulSoup(html, "html.parser")

print(soup.find("h1").text)


In [None]:
html = requests.get("http://quotes.toscrape.com/").text
soup = BeautifulSoup(html, "html.parser")

quotes = soup.find_all("span", class_="text")

# for q in quotes:
#     print(q.text)


In [None]:
title = soup.find("h1")
print(title.text)

In [None]:
# знайти всі елементи
paragraphs = soup.find_all("p")

for p in paragraphs:
    print(p.text)

In [None]:
# знайти елемент за class
products = soup.find_all("li", class_="item")

for p in products:
    print(p.text)


In [None]:
# знайти елемент за id
ul = soup.find("ul", id="products")
print(ul)


---
### Робота з Excel

In [None]:
# pip install openpyxl

In [None]:
from openpyxl import Workbook

wb = Workbook()
ws = wb.active
ws.title = "Report"

ws["A1"] = "Hello"
ws["B1"] = 123

wb.save("new_file.xlsx")


In [None]:
from openpyxl import load_workbook

wb = load_workbook("example.xlsx")
sheet = wb.active    

for row in sheet.iter_rows(values_only=True):
    print(row)


In [None]:
# список листів 
print(wb.sheetnames)

In [None]:
# читати значення 
value = ws["A2"].value
print(value)

In [None]:
ws = wb["Лист1"]

for row in ws.iter_rows(values_only=True):
    print(row)


In [None]:
for row in ws.iter_rows(min_row=1, max_row=4, min_col=1, max_col=3):
    for cell in row:
        print(cell.value)
