# Домашнє завдання: ETL-пайплайни для аналітиків даних

Це ДЗ передбачене під виконання на локальній машині. Виконання з Google Colab буде суттєво ускладнене.

## Підготовка
1. Переконайтесь, що у вас встановлены необхідні бібліотеки:
   ```bash
   pip install sqlalchemy pymysql pandas matplotlib seaborn python-dotenv
   ```

2. Створіть файл `.env` з параметрами підключення до бази даних classicmodels. Базу даних ви можете отримати через

  - docker-контейнер згідно існтрукції в [документі](https://www.notion.so/hannapylieva/Docker-1eb94835849480c9b2e7f5dc22ee4df9), також відео інструкції присутні на платформі - уроки "MySQL бази, клієнт для роботи з БД, Docker і ChatGPT для запитів" та "Як встановити Docker для роботи з базами даних без терміналу"
  - або встановивши локально цю БД - для цього перегляньте урок "Опціонально. Встановлення MySQL та  БД Сlassicmodels локально".
  
  Приклад `.env` файлу ми створювали в лекції. Ось його обовʼязкове наповнення:
    ```
    DB_HOST=your_host
    DB_PORT=3306 або 3307 - той, який Ви налаштували
    DB_USER=your_username
    DB_PASSWORD=your_password
    DB_NAME=classicmodels
    ```
  Якщо ви створили цей файл під час перегляду лекції - **новий створювати не треба**. Замініть лише назву БД, або пропишіть назву в коді створення підключення (замість отримання назви цільової БД зі змінних оточення). Але переконайтесь, що до `.env` файл лежить в тій самій папці, що і цей ноутбук.

  **УВАГА!** НЕ копіюйте скрит для **створення** `.env` файлу. В лекції він наводиться для прикладу. І давалось пояснення, що в реальних проєктах ми НІКОЛИ не пишемо доступи до бази в коді. Копіювання скрипта для створення `.env` файлу сюди в ДЗ буде вважатись грубою помилкою і ми зніматимемо бали.

3. Налаштуйте підключення через SQLAlchemy до БД за прикладом в лекції.

Рекомендую вивести (відобразити) змінну engine після створення. Вона має бути не None! Якщо None - значить у Вас не підтягнулись налаштування з .env файла.

Ви також можете налаштувати параметри підключення до БД без .env файла, просто прописавши текстом в відповідних місцях. Це - не рекомендований підхід.

In [1]:
import datetime
import requests
import json
import os

from dotenv import load_dotenv
import pandas as pd
import sqlalchemy as sa
from sqlalchemy import create_engine, text, MetaData, Table
from sqlalchemy.orm import sessionmaker

In [2]:
def create_connection():
    """
    Створює підключення через SQLAlchemy
    """
    # Завантажуємо змінні середовища
    load_dotenv()

    # Отримуємо параметри з environment variables
    host = os.getenv('DB_HOST', 'localhost')
    port = os.getenv('DB_PORT', '3306')
    user = os.getenv('DB_USER')
    password = os.getenv('DB_PASSWORD')
    database = os.getenv('DB_NAME')

    if not all([user, password, database]):
        raise ValueError("Не всі параметри БД задані в .env файлі!")

    # Створюємо connection string
    connection_string = f"mysql+pymysql://{user}:{password}@{host}:{port}/{database}"

    # Створюємо engine з connection pooling
    engine = create_engine(
        connection_string,
        pool_size=2,           # Розмір пулу підключень
        max_overflow=20,        # Максимальна кількість додаткових підключень
        pool_pre_ping=True,     # Перевірка підключення перед використанням
        echo=False              # Логування SQL запитів (True для debug)
    )

    # Тестуємо підключення
    try:
        with engine.connect() as conn:
            result = conn.execute(text("SELECT 1"))
            result.fetchone()

        print("✅ Підключення до БД успішне!")
        print(f"🔗 {user}@{host}:{port}/{database}")
        print(f"⚡ Engine: {engine}")

        return engine

    except Exception as e:
        print(f"❌ Помилка підключення: {e}")
        return None

# Створюємо підключення
engine = create_connection()

✅ Підключення до БД успішне!
🔗 root@127.0.0.1:3307/classicmodels
⚡ Engine: Engine(mysql+pymysql://root:***@127.0.0.1:3307/classicmodels)


### Завдання 1: Створення таблиці курсів валют та API інтеграція (2 бали)

**Повторіть процедуру з лекції:** створіть таблицю для курсів валют, але вже в цій базі даних. Результатом має бути нова таблиця з курсами валют USD, EUR, UAH в БД (можна завантажити більше валют). Продемонструйте, що таблиця була додана, використовуючи SELECT.

Тобто тут ви можете прямо скопіювати код з лекції, внести необхідні зміни і запустити. Головне - отримати таблицю в БД classicmodels.

In [3]:
def create_currency_table(engine):
    """Створює таблицю через SQLAlchemy"""

    create_table_sql = text("""
    CREATE TABLE IF NOT EXISTS currency_rates (
        id INT AUTO_INCREMENT PRIMARY KEY,
        currency_code VARCHAR(3) NOT NULL,
        rate_to_usd DECIMAL(10, 6) NOT NULL,
        rate_date DATE NOT NULL,
        created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
        updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
        INDEX idx_currency_date (currency_code, rate_date),
        UNIQUE KEY unique_currency_date (currency_code, rate_date)
    )
    """)

    with engine.connect() as conn:
        conn.execute(create_table_sql)

    print("✅ Таблиця currency_rates створена")

def fetch_exchange_rates():
    """Отримує курси валют з API"""
    try:

        url = "https://api.exchangerate-api.com/v4/latest/USD"
        response = requests.get(url, timeout=10)
        response.raise_for_status()

        data = response.json()


        currencies = ['USD', 'EUR', 'UAH']
        rates = {}

        for currency in currencies:
            if currency in data['rates']:

                rates[currency] = data['rates'][currency]

        return rates, datetime.date.today()

    except Exception as e:
        print(f"❌ Помилка API: {e}")
        return None, None

def save_exchange_rates(engine, rates_dict, rate_date):
    """Зберігає курси в БД з обробкою конфліктів"""

    if not rates_dict:
        print("❌ Немає даних для збереження")
        return False

    insert_sql = text("""
    INSERT INTO currency_rates (currency_code, rate_to_usd, rate_date)
    VALUES (:currency, :rate, :date)
    ON DUPLICATE KEY UPDATE
        rate_to_usd = VALUES(rate_to_usd),
        updated_at = CURRENT_TIMESTAMP
    """)

    try:
        with engine.connect() as conn:
            with conn.begin():
                for currency, rate in rates_dict.items():
                    conn.execute(insert_sql, {
                        'currency': currency,
                        'rate': rate,
                        'date': rate_date
                    })

        print(f"✅ Збережено {len(rates_dict)} курсів валют на {rate_date}")
        return True

    except Exception as e:
        print(f"❌ Помилка збереження: {e}")
        return False

In [4]:
create_currency_table(engine)

print("📡 Отримуємо курси валют...")
rates, date = fetch_exchange_rates()

if rates:
    print(f"Отримані курси на {date}:")
    for currency, rate in rates.items():
        print(f"  1 USD = {rate:.4f} {currency}")


    if save_exchange_rates(engine, rates, date):

        verification_df = pd.read_sql(
            "SELECT * FROM currency_rates ORDER BY created_at DESC LIMIT 10",
            engine
        )
        print("\nЗбережені дані:")
        display(verification_df)

✅ Таблиця currency_rates створена
📡 Отримуємо курси валют...
Отримані курси на 2025-09-26:
  1 USD = 1.0000 USD
  1 USD = 0.8560 EUR
  1 USD = 41.4900 UAH
✅ Збережено 3 курсів валют на 2025-09-26

Збережені дані:


Unnamed: 0,id,currency_code,rate_to_usd,rate_date,created_at,updated_at
0,535,UAH,41.49,2025-09-26,2025-09-26 08:34:14,2025-09-26 09:42:07
1,534,EUR,0.856,2025-09-26,2025-09-26 08:34:14,2025-09-26 09:42:07
2,533,USD,1.0,2025-09-26,2025-09-26 08:34:14,2025-09-26 09:42:07
3,15,EUR,0.78511,2004-01-09,2025-09-24 08:46:54,2025-09-26 08:34:15
4,16,EUR,0.77954,2004-01-12,2025-09-24 08:46:54,2025-09-26 08:34:15
5,18,EUR,0.7879,2004-01-14,2025-09-24 08:46:54,2025-09-26 08:34:15
6,9,EUR,0.79177,2003-12-31,2025-09-24 08:46:54,2025-09-26 08:34:15
7,10,EUR,0.79416,2004-01-02,2025-09-24 08:46:54,2025-09-26 08:34:15
8,11,EUR,0.79008,2004-01-05,2025-09-24 08:46:54,2025-09-26 08:34:15
9,12,EUR,0.78394,2004-01-06,2025-09-24 08:46:54,2025-09-26 08:34:15


# Завдання 2: Створення простого ETL пайплайну (7 балів)

В цьому завданні ми створимо повноцінний ETL процес для аналізу продажів ClassicModels.

Завдання обʼємне і оцінюється відповідно. Ви можете пропустити обчислення якихось з метрик, якщо відчуєте, що вже немає сил робити це завдання. Бал буде виставлено виходячи з виконаного обʼєму та його правильності.

## Що саме треба зробити:

### Extract (Витягування даних):
На цьому етапі треба витягнути дані з БД в pandas.DataFrame для подальшої обробки.
Які дані нам потрібні (кожен пункт - в окремий фрейм даних):
1. **дані про виконані замовлення за 2004 рік** - з'єднати таблиці orders, orderdetails, products, customers
2. **дані про продукти** - назви, категорії, ціни
3. **дані про курси валют** - використати дані з попереднього завдання

### Transform (Обробка даних):

#### 2.1 Додати розрахункові колонки до основної таблиці:
Додайте до DataFrame з продажами такі нові колонки:

- **`profit_per_item`** - прибуток з одного товару (використайте колонки: `priceEach` - `buyPrice`)
- **`total_profit`** - загальний прибуток з товарної позиції (використайте колонки: `profit_per_item` × `quantityOrdered`)
- **`total_amount_eur`** - сума в євро (використайте колонки: `total_amount` / `eur_rate`)

#### 2.2 Створити аналітичну таблицю по країнах (ТОП-5):
Згрупуйте дані по колонці **`country`** та обчисліть для кожної країни:

**Метрики для розрахунку:**
- **Кількість унікальних замовлень** - унікальні значення колонки `orderNumber`
- **Загальний дохід** - сума колонки `total_amount`
- **Загальний прибуток** - сума колонки `total_profit`
- **Кількість проданих товарів** - сума колонки `quantityOrdered`
- **Маржа прибутку (%)** - (`загальний прибуток` / `загальний дохід`) × 100

**Результат:** Таблиця з 5 найприбутковіших країн, відсортована за загальним доходом (від більшого до меншого).

#### 2.3 Створити аналітичну таблицю по продуктових лініях:
Згрупуйте дані по колонці **`productLine`** та обчисліть ті ж метрики:

**Метрики для розрахунку:**
- **Кількість унікальних замовлень** - унікальні значення колонки `orderNumber`
- **Загальний дохід** - сума колонки `total_amount`
- **Загальний прибуток** - сума колонки `total_profit`
- **Кількість проданих товарів** - сума колонки `quantityOrdered`
- **Маржа прибутку (%)** - (`загальний прибуток` / `загальний дохід`) × 100

**Результат:** Таблиця з усіма продуктовими лініями, відсортована за загальним доходом.

#### 2.4 Створити підсумкову інформацію (Executive Summary):
Розрахуйте загальні показники бізнесу за 2004 рік:

**Фінансові показники:**
- **Загальний дохід в доларах** - сума всієї колонки `total_amount`
- **Загальний дохід в євро** - сума всієї колонки `total_amount_eur`
- **Загальний прибуток в доларах** - сума всієї колонки `total_profit`
- **Загальна маржа прибутку (%)** - (`загальний прибуток` / `загальний дохід`) × 100
- **Середній розмір замовлення** - середнє значення колонки `total_amount`

**Операційні показники:**
- **Кількість унікальних замовлень** - унікальні значення колонки `orderNumber`
- **Кількість унікальних клієнтів** - унікальні значення колонки `customerName`
- **Період даних** - мінімальна та максимальна дата з колонки `orderDate`

**Топ показники:**
- **Найприбутковіша країна** - перший рядок з таблиці країн (колонка `country`)
- **Найприбутковіша продуктова лінія** - перший рядок з таблиці продуктів (колонка `productLine`)

### Load (Збереження результатів):
В цій частині ми зберігаємо результати наших обчислень.
Використайте приклади коду з лекцій та адаптуйте його під цей ETL процес.
Що Вам потрібно створити:

#### 3.1 Excel файл з трьома вкладками:
- **"Summary"** - підсумкова інформація у вигляді таблиці "Показник - Значення"
- **"Top_Countries"** - аналітика по топ-5 країнах
- **"Product_Lines"** - аналітика по всіх продуктових лініях

#### 3.2 Візуалізація:
- Створіть стовпчикову діаграму топ-5 країн за доходом.
- Створіть pie chart з відсотковим розподілом доходу в USD по продуктових лінійках.

## РЕКОМЕНДАЦІЇ ДО ВИКОНАННЯ:

### Покрокова стратегія виконання:
1. Спочатку протестуйте Extract просто в Jupyter notebook (без фукнції) - переконайтеся що SQL запит працює і повертає дані за 2004 рік
2. Потім протестуйте кожен Transform окремо - виведіть проміжні результати
3. Нарешті протестуйте Load - перевірте що файли створюються правильно  
4. Тільки після цього обгортайте все в функцію

### Як перевірити що все працює:
- Виводьте на екран, який етап зараз відбувається
- Виведіть кількість записів після кожного кроку
- Покажіть перші 5 рядків кожної аналітичної таблиці
- Перевірте що дати належать 2004 року
- Переконайтеся що маржа прибутку в розумних межах (0-50%)

In [5]:
sales_2004_sql = """
SELECT
    o.orderNumber, o.orderDate, o.status,
    c.customerNumber, c.customerName, c.country,
    od.productCode, p.productName, p.productLine, p.buyPrice,
    od.quantityOrdered, od.priceEach,
    (od.quantityOrdered * od.priceEach) AS total_amount
FROM orders o
JOIN orderdetails od  ON o.orderNumber = od.orderNumber
JOIN products p       ON od.productCode = p.productCode
JOIN customers c      ON o.customerNumber = c.customerNumber
WHERE o.status IN ('Shipped','Resolved','Disputed')
  AND YEAR(o.orderDate) = 2004;
"""

# 3. виконуємо
df_sales = pd.read_sql(sales_2004_sql, engine, parse_dates=["orderDate"])

print(df_sales.head())

   orderNumber  orderDate   status  customerNumber        customerName  \
0        10345 2004-11-25  Shipped             103   Atelier graphique   
1        10298 2004-09-27  Shipped             103   Atelier graphique   
2        10298 2004-09-27  Shipped             103   Atelier graphique   
3        10346 2004-11-29  Shipped             112  Signal Gift Stores   
4        10278 2004-08-06  Shipped             112  Signal Gift Stores   

  country productCode                                productName  \
0  France    S24_2022  1938 Cadillac V-16 Presidential Limousine   
1  France    S18_2625        1936 Harley Davidson El Knucklehead   
2  France    S10_2016                      1996 Moto Guzzi 1100i   
3     USA    S24_3969           1936 Mercedes Benz 500k Roadster   
4     USA    S24_3856                    1956 Porsche 356A Coupe   

    productLine  buyPrice  quantityOrdered  priceEach  total_amount  
0  Vintage Cars     20.61               43      38.98       1676.14  
1   Mo

In [6]:
products_sql = """
SELECT
    p.productCode,
    p.productName,
    p.productLine,
    p.productVendor,
    p.buyPrice,
    p.MSRP
FROM products p;
"""

print("EXTRACT › products …")
products_df = pd.read_sql(text(products_sql), engine)
print(f"OK: {len(products_df)} рядків × {len(products_df.columns)} колонок")
display(products_df.head())

EXTRACT › products …
OK: 110 рядків × 6 колонок


Unnamed: 0,productCode,productName,productLine,productVendor,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,Min Lin Diecast,48.81,95.7
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,Classic Metal Creations,98.58,214.3
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,Highway 66 Mini Classics,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,Red Start Diecast,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,Motor City Art Classics,85.68,136.0


In [7]:
CURRENCIES = ["EUR","UAH"]
BASE = "USD"
HIST_START = "2004-01-01"
HIST_END   = "2004-12-31"

In [8]:
import requests, datetime as dt

def fetch_timeseries_rates(base: str, symbols: list[str], start_date: str, end_date: str, timeout: int = 20):

    url = f"https://api.frankfurter.app/{start_date}..{end_date}"
    params = {"from": base, "to": ",".join(symbols)}
    r = requests.get(url, params=params, timeout=timeout)
    r.raise_for_status()
    data = r.json()
    if "rates" not in data:
        raise RuntimeError(f"Frankfurter bad payload: {data}")
    return data["rates"]

In [9]:
def save_rates_timeseries(engine, rates_by_day: dict):
    insert_sql = text("""
        INSERT INTO currency_rates (currency_code, rate_to_usd, rate_date)
        VALUES (:cc, :rate, :d)
        ON DUPLICATE KEY UPDATE
            rate_to_usd = VALUES(rate_to_usd),
            updated_at = CURRENT_TIMESTAMP
    """)

    rows = []
    for d_str, day_map in rates_by_day.items():
        d = dt.date.fromisoformat(d_str)
        for cc, rate in day_map.items():
            rows.append({"cc": cc, "rate": float(rate), "d": d})

    if rows:
        with engine.begin() as conn:
            conn.execute(insert_sql, rows)
    return len(rows)

In [10]:
print("→ Тягну історичні курси EUR/UAH за 2004…")
rates_by_day = fetch_timeseries_rates(BASE, CURRENCIES, HIST_START, HIST_END)
affected = save_rates_timeseries(engine, rates_by_day)
print("→ Збережено/оновлено рядків:", affected)

→ Тягну історичні курси EUR/UAH за 2004…
→ Збережено/оновлено рядків: 260


In [11]:
check_sql = """
SELECT rate_date, currency_code, rate_to_usd
FROM currency_rates
WHERE currency_code = 'EUR'
  AND rate_date BETWEEN :s AND :e
ORDER BY rate_date
"""
eur_check = pd.read_sql(text(check_sql), engine,
                        params={"s": HIST_START, "e": HIST_END},
                        parse_dates=["rate_date"])

print("Всього курсів EUR за 2004:", len(eur_check))
display(eur_check.head(), eur_check.tail())


Всього курсів EUR за 2004: 259


Unnamed: 0,rate_date,currency_code,rate_to_usd
0,2004-01-02,EUR,0.79416
1,2004-01-05,EUR,0.79008
2,2004-01-06,EUR,0.78394
3,2004-01-07,EUR,0.78871
4,2004-01-08,EUR,0.79151


Unnamed: 0,rate_date,currency_code,rate_to_usd
254,2004-12-27,EUR,0.73926
255,2004-12-28,EUR,0.73351
256,2004-12-29,EUR,0.73486
257,2004-12-30,EUR,0.73508
258,2004-12-31,EUR,0.73416


In [12]:
eur_check = pd.read_sql(
    text("""
        SELECT rate_date, rate_to_usd 
        FROM currency_rates
        WHERE currency_code = 'EUR'
          AND rate_date BETWEEN :start AND :end
        ORDER BY rate_date
    """),
    engine,
    params={"start": HIST_START, "end": HIST_END},
    parse_dates=["rate_date"]
)

eur_daily = eur_check.rename(columns={
    "rate_date": "orderDate",
    "rate_to_usd": "usd_per_eur"
})

print(eur_daily.head())

   orderDate  usd_per_eur
0 2004-01-02      0.79416
1 2004-01-05      0.79008
2 2004-01-06      0.78394
3 2004-01-07      0.78871
4 2004-01-08      0.79151


In [13]:
df_sales = df_sales.merge(eur_daily, on="orderDate", how="left")

print("Колонки після merge:")
print(df_sales.columns.tolist())

Колонки після merge:
['orderNumber', 'orderDate', 'status', 'customerNumber', 'customerName', 'country', 'productCode', 'productName', 'productLine', 'buyPrice', 'quantityOrdered', 'priceEach', 'total_amount', 'usd_per_eur']


In [14]:
df_sales['usd_per_eur'] = df_sales['usd_per_eur'].astype(float)
df_sales['usd_per_eur'] = df_sales['usd_per_eur'].replace(0, pd.NA).ffill()

df_sales['profit_per_item'] = df_sales['priceEach'] - df_sales['buyPrice']
df_sales['total_profit']    = df_sales['profit_per_item'] * df_sales['quantityOrdered']
df_sales['total_amount_eur']= df_sales['total_amount'] / df_sales['usd_per_eur']

display(df_sales[['orderDate','country','productLine','priceEach','buyPrice',
                  'quantityOrdered','total_amount','usd_per_eur',
                  'total_amount_eur','profit_per_item','total_profit']].head())

Unnamed: 0,orderDate,country,productLine,priceEach,buyPrice,quantityOrdered,total_amount,usd_per_eur,total_amount_eur,profit_per_item,total_profit
0,2004-11-25,France,Vintage Cars,38.98,20.61,43,1676.14,0.75683,2214.684936,18.37,789.91
1,2004-09-27,France,Motorcycles,60.57,24.23,32,1938.24,0.81606,2375.119477,36.34,1162.88
2,2004-09-27,France,Motorcycles,105.86,68.99,39,4128.54,0.81606,5059.1133,36.87,1437.93
3,2004-11-29,USA,Vintage Cars,38.57,21.75,22,848.54,0.75489,1124.05781,16.82,370.04
4,2004-08-06,USA,Classic Cars,136.22,98.3,25,3405.5,0.82891,4108.407427,37.92,948.0


In [15]:
countries = (
    df_sales
    .groupby('country', as_index=False)
    .agg(
        unique_orders   = ('orderNumber', 'nunique'),
        total_amount    = ('total_amount', 'sum'),
        total_profit    = ('total_profit', 'sum'),
        total_qty       = ('quantityOrdered', 'sum')
    )
)

countries['margin_%'] = (countries['total_profit'] / countries['total_amount'] * 100).round(2)
countries = countries.sort_values('total_amount', ascending=False)

top5_countries = countries.head(5).reset_index(drop=True)
display(top5_countries)


Unnamed: 0,country,unique_orders,total_amount,total_profit,total_qty,margin_%
0,USA,52,1485054.44,597654.15,16265,40.24
1,France,19,506660.01,211528.15,5632,41.75
2,Spain,13,392816.48,156131.39,4357,39.75
3,Australia,6,204213.18,78176.66,2232,38.28
4,New Zealand,5,195592.89,78147.87,2229,39.95


In [16]:
product_lines = (
    df_sales
    .groupby('productLine', as_index=False)
    .agg(
        unique_orders   = ('orderNumber', 'nunique'),
        total_amount    = ('total_amount', 'sum'),
        total_profit    = ('total_profit', 'sum'),
        total_qty       = ('quantityOrdered', 'sum')
    )
)

product_lines['margin_%'] = (product_lines['total_profit'] / product_lines['total_amount'] * 100).round(2)
product_lines = product_lines.sort_values('total_amount', ascending=False).reset_index(drop=True)
display(product_lines.head())


Unnamed: 0,productLine,unique_orders,total_amount,total_profit,total_qty,margin_%
0,Classic Cars,93,1682980.21,671878.21,15424,39.92
1,Vintage Cars,85,823927.95,337219.36,10487,40.93
2,Motorcycles,37,527243.84,222485.41,5976,42.2
3,Trucks and Buses,39,448702.69,176415.25,4853,39.32
4,Planes,33,445464.3,171794.41,5509,38.57


In [17]:
total_revenue_usd = df_sales['total_amount'].sum()
total_revenue_eur = df_sales['total_amount_eur'].sum()
total_profit_usd  = df_sales['total_profit'].sum()
overall_margin    = (total_profit_usd / total_revenue_usd * 100)

order_totals = df_sales.groupby('orderNumber', as_index=False)['total_amount'].sum()
avg_order_value = order_totals['total_amount'].mean()

unique_orders    = df_sales['orderNumber'].nunique()
unique_customers = df_sales['customerName'].nunique()
period_start     = df_sales['orderDate'].min().date()
period_end       = df_sales['orderDate'].max().date()

top_country      = countries.iloc[0]['country'] if not countries.empty else None
top_product_line = product_lines.iloc[0]['productLine'] if not product_lines.empty else None

summary_tbl = pd.DataFrame({
    'Показник': [
        'Загальний дохід (USD)',
        'Загальний дохід (EUR)',
        'Загальний прибуток (USD)',
        'Загальна маржа (%)',
        'Середній розмір замовлення (USD)',
        'К-сть унікальних замовлень',
        'К-сть унікальних клієнтів',
        'Період: початок',
        'Період: кінець',
        'Найприбутковіша країна',
        'Найприбутковіша продуктова лінія'
    ],
    'Значення': [
        round(total_revenue_usd, 2),
        round(total_revenue_eur, 2),
        round(total_profit_usd, 2),
        round(overall_margin, 2),
        round(avg_order_value, 2),
        unique_orders,
        unique_customers,
        str(period_start),
        str(period_end),
        top_country,
        top_product_line
    ]
})

display(summary_tbl)


Unnamed: 0,Показник,Значення
0,Загальний дохід (USD),4321167.85
1,Загальний дохід (EUR),5414058.95
2,Загальний прибуток (USD),1731827.62
3,Загальна маржа (%),40.08
4,Середній розмір замовлення (USD),29597.04
5,К-сть унікальних замовлень,146
6,К-сть унікальних клієнтів,87
7,Період: початок,2004-01-02
8,Період: кінець,2004-12-17
9,Найприбутковіша країна,USA


In [18]:
out_path = "classicmodels_2004_ETL.xlsx"
with pd.ExcelWriter(out_path, engine="openpyxl") as writer:
    summary_tbl.to_excel(writer, sheet_name="Summary", index=False)
    top5_countries.to_excel(writer, sheet_name="Top_Countries", index=False)
    product_lines.to_excel(writer, sheet_name="Product_Lines", index=False)

print(f"✅ Збережено: {out_path}")


✅ Збережено: classicmodels_2004_ETL.xlsx
