<a href="https://colab.research.google.com/github/cpython-projects/python_da_06_11_25/blob/main/lesson_26.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Легенда

Ви — аналітик даних у роздрібній компанії, що розвиває мобільний застосунок. Команда продукту хоче зрозуміти:

* як користувачі взаємодіють із застосунком: скільки установок, скільки переглядають товари, скільки купують;
* де втрачаються користувачі (на якому етапі воронки);
* яка ефективність різних каналів залучення.

## Таблиці бази даних

**1. `app_sessions`** — установки застосунку

| Поле                  | Тип SQL        | Опис                                            |
| --------------------- | -------------- | ----------------------------------------------- |
| `session_id`          | `VARCHAR(20)`  | Унікальний ідентифікатор установки              |
| `device_code`         | `VARCHAR(20)`  | Ідентифікатор пристрою                          |
| `first_seen`          | `DATE`         | Дата установки                                  |
| `os_type`             | `VARCHAR(10)`  | Платформа (`iOS`, `Android`)                    |
| `acquisition_channel` | `VARCHAR(50)`  | Канал установки (`Organic`, `Facebook` і т.д.)  |
| `cpi_uah`             | `NUMERIC(6,2)` | Вартість установки (Cost Per Install) у гривнях |

> `cpi_uah` (Cost Per Install) — це сума, яку компанія платить рекламній платформі (наприклад, Facebook, Google Ads) за те, що користувач встановив застосунок по рекламі.
> * Використовується для оцінки ефективності каналів і розрахунку окупності (ROI)

---

**2. `product_views_log`** — перегляди товарів

| Поле          | Тип SQL       | Опис                           |
| ------------- | ------------- | ------------------------------ |
| `device_code` | `VARCHAR(20)` | Пристрій                       |
| `view_date`   | `DATE`        | Дата перегляду                 |
| `platform`    | `VARCHAR(10)` | Платформа                      |
| `view_count`  | `INTEGER`     | Кількість переглянутих товарів |

---

**3. `devices_users_map`** — відповідність `device_code` і `user_uuid`

| Поле          | Тип SQL       | Опис                                 |
| ------------- | ------------- | ------------------------------------ |
| `device_code` | `VARCHAR(20)` | Пристрій                             |
| `user_uuid`   | `VARCHAR(20)` | Користувач (присвоюється при логіні) |

> Користувач може не авторизуватися — тоді `user_uuid` відсутній.

---

**4. `orders_log`** — покупки

| Поле         | Тип SQL         | Опис                                     |
| ------------ | --------------- | ---------------------------------------- |
| `user_uuid`  | `VARCHAR(20)`   | Унікальний ID авторизованого користувача |
| `order_time` | `DATE`          | Дата замовлення                          |
| `total_uah`  | `NUMERIC(10,2)` | Сума покупки у гривнях                   |


## Зв’язки таблиць

| Зв’язок                                                    | Опис                             |
| ---------------------------------------------------------- | -------------------------------- |
| `app_sessions.device_code = devices_users_map.device_code` | Зв’язок установки з користувачем |
| `devices_users_map.user_uuid = orders_log.user_uuid`       | Хто зробив замовлення            |
| `product_views_log.device_code = app_sessions.device_code` | Хто переглядав товари            |

## Шлях користувача

```
ВСТАНОВИВ → ПЕРЕГЛЯДАВ → АВТОРИЗУВАВСЯ → КУПИВ
(app_sessions) → (product_views_log) → (devices_users_map) → (orders_log)
```

## SQL-запити для створення таблиць

```sql
DROP TABLE IF EXISTS orders_log;
DROP TABLE IF EXISTS devices_users_map;
DROP TABLE IF EXISTS product_views_log;
DROP TABLE IF EXISTS app_sessions;

CREATE TABLE app_sessions (
    session_id VARCHAR(10) PRIMARY KEY,
    device_code VARCHAR(20) UNIQUE,
    first_seen DATE,
    os_type VARCHAR(10),
    acquisition_channel VARCHAR(50),
    cpi_uah NUMERIC(6, 2)
);

CREATE TABLE product_views_log (
    device_code VARCHAR(20),
    view_date DATE,
    platform VARCHAR(10),
    view_count INTEGER,
    FOREIGN KEY (device_code) REFERENCES app_sessions(device_code)
);

CREATE TABLE devices_users_map (
    device_code VARCHAR(20),
    user_uuid VARCHAR(20) UNIQUE,
    FOREIGN KEY (device_code) REFERENCES app_sessions(device_code)
);

CREATE TABLE orders_log (
    user_uuid VARCHAR(20),
    order_time DATE,
    total_uah NUMERIC(10, 2),
    FOREIGN KEY (user_uuid) REFERENCES devices_users_map(user_uuid)
);
```

In [None]:
## Підключення до бази даних

In [1]:
DB_USER = "prog_academy_da_8936_user"
DB_PASS = "ih9DVSH5hmpm2DvvES0wIRFSnOrkJ2FZ"
DB_HOST = "dpg-d6g4hu0gjchc73d78ju0-a.oregon-postgres.render.com"
DB_PORT = "5432"
DB_NAME = "prog_academy_da_8936"

In [3]:
!pip install sqlalchemy



In [2]:
import pandas as pd
from sqlalchemy import create_engine

In [4]:
link = f"postgresql://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
link

'postgresql://prog_academy_da_8936_user:ih9DVSH5hmpm2DvvES0wIRFSnOrkJ2FZ@dpg-d6g4hu0gjchc73d78ju0-a.oregon-postgres.render.com:5432/prog_academy_da_8936'

In [5]:
engine = create_engine(f"postgresql://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")

In [6]:
from sqlalchemy import inspect
inspector = inspect(engine)

In [7]:
inspector.get_table_names()

['app_sessions', 'product_views_log', 'devices_users_map', 'orders_log']

## SELECT, FROM, WHERE — основа SQL-запиту

Кожен SQL-запит починається з чіткої структури:

```sql
SELECT [що вибрати]
FROM [звідки взяти]
WHERE [які рядки відфільтрувати]
```

### SELECT

* Вказує, **які стовпці** ми хочемо отримати
* Можна вказати `*`, щоб взяти всі стовпці (на практиці — лише для відладки)
* Підтримує **вирази** (арифметика, функції, перейменування через `AS`)

> ❗ **Порядок рядків не гарантований!**
> Якщо важливий порядок — використовуйте `ORDER BY`

### FROM

* Обов’язково вказує, **з якої таблиці** брати дані
* Може бути не одна таблиця (пізніше буде `JOIN`)

### WHERE

* Фільтрація рядків до всіх інших операцій (до `GROUP BY`, `HAVING`)
* Працює лише з рядками, які **існують** у таблиці

> ❗ **WHERE не може використовувати агрегатні функції** (наприклад, `AVG()`)

In [9]:
query = """
SELECT device_code, first_seen, os_type
FROM app_sessions;
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,device_code,first_seen,os_type
0,DVC0000,2024-04-25,Android
1,DVC0001,2024-01-15,Android
2,DVC0002,2024-01-18,Android
3,DVC0003,2024-02-23,iOS
4,DVC0004,2024-04-24,Android
...,...,...,...
495,DVC0495,2024-06-20,iOS
496,DVC0496,2024-02-08,Android
497,DVC0497,2024-01-10,Android
498,DVC0498,2024-02-11,Android


## Приклад небезпечного коду (SQL-ін’єкція)

In [11]:
user_input = "2024-03-01' OR '1'='1"
query = f"""
SELECT * FROM app_sessions
WHERE first_seen >= '{user_input}'
"""


In [12]:
query

"\nSELECT * FROM app_sessions\nWHERE first_seen >= '2024-03-01' OR '1'='1'\n"

In [13]:
df = pd.read_sql(query, con=engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00000,DVC0000,2024-04-25,Android,Facebook,30.53
1,S00001,DVC0001,2024-01-15,Android,Referral,13.91
2,S00002,DVC0002,2024-01-18,Android,Facebook,31.80
3,S00003,DVC0003,2024-02-23,iOS,Referral,14.98
4,S00004,DVC0004,2024-04-24,Android,Google Ads,29.64
...,...,...,...,...,...,...
495,S00495,DVC0495,2024-06-20,iOS,Organic,19.58
496,S00496,DVC0496,2024-02-08,Android,Google Ads,34.12
497,S00497,DVC0497,2024-01-10,Android,Referral,20.56
498,S00498,DVC0498,2024-02-11,Android,Organic,27.31


Цей запит буде:

```sql
SELECT * FROM app_sessions
WHERE first_seen >= '2024-03-01' OR '1'='1'
```

`OR '1'='1'` завжди істинне, отже фільтр `first_seen >= ...` не працює — повертаються всі рядки, що небезпечно.

## Безпечний параметризований запит

In [16]:
from sqlalchemy import text

query = text(
    """
    SELECT * FROM app_sessions
    WHERE first_seen >= :user_input
    """
)

df = pd.read_sql(query, con=engine, params={"user_input": "2024-03-01"})
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00000,DVC0000,2024-04-25,Android,Facebook,30.53
1,S00004,DVC0004,2024-04-24,Android,Google Ads,29.64
2,S00005,DVC0005,2024-06-02,Android,Facebook,10.67
3,S00006,DVC0006,2024-03-02,iOS,Referral,30.56
4,S00007,DVC0007,2024-05-25,iOS,Organic,15.28
...,...,...,...,...,...,...
333,S00492,DVC0492,2024-04-21,Android,Organic,31.41
334,S00493,DVC0493,2024-03-11,Android,Facebook,30.46
335,S00494,DVC0494,2024-04-18,iOS,Facebook,16.96
336,S00495,DVC0495,2024-06-20,iOS,Organic,19.58


## Логічні оператори AND, OR, IN, BETWEEN, LIKE

* `AND`, `OR` — дозволяють об’єднувати умови
* `AND` — обидві частини мають бути істинними
* `OR` — достатньо, щоб одна була істинною

> **Використовуйте дужки!** Логіка без дужок може бути несподіваною

### Приклад використання AND


In [17]:
query = """
SELECT * FROM app_sessions
WHERE os_type = 'iOS' AND acquisition_channel = 'Facebook';
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00010,DVC0010,2024-03-11,iOS,Facebook,32.8
1,S00036,DVC0036,2024-05-28,iOS,Facebook,26.68
2,S00038,DVC0038,2024-04-11,iOS,Facebook,22.06
3,S00041,DVC0041,2024-06-27,iOS,Facebook,39.77
4,S00054,DVC0054,2024-05-02,iOS,Facebook,11.14
5,S00072,DVC0072,2024-02-22,iOS,Facebook,16.57
6,S00083,DVC0083,2024-02-23,iOS,Facebook,13.85
7,S00087,DVC0087,2024-04-16,iOS,Facebook,28.0
8,S00105,DVC0105,2024-05-08,iOS,Facebook,30.98
9,S00107,DVC0107,2024-04-21,iOS,Facebook,17.21


### Оператор IN

Спрощує множинні порівняння (альтернатива багатьом OR)

In [23]:
query = """
SELECT * FROM app_sessions
WHERE acquisition_channel IN ('Facebook', 'Google Ads');
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00000,DVC0000,2024-04-25,Android,Facebook,30.53
1,S00002,DVC0002,2024-01-18,Android,Facebook,31.80
2,S00004,DVC0004,2024-04-24,Android,Google Ads,29.64
3,S00005,DVC0005,2024-06-02,Android,Facebook,10.67
4,S00008,DVC0008,2024-01-05,iOS,Google Ads,16.56
...,...,...,...,...,...,...
252,S00490,DVC0490,2024-01-23,iOS,Facebook,11.79
253,S00493,DVC0493,2024-03-11,Android,Facebook,30.46
254,S00494,DVC0494,2024-04-18,iOS,Facebook,16.96
255,S00496,DVC0496,2024-02-08,Android,Google Ads,34.12


In [21]:
df.acquisition_channel.unique()

array(['Facebook'], dtype=object)

### BETWEEN a AND b

Діапазон значень включно. Зручно для дат і чисел

In [24]:
query = """
SELECT * FROM app_sessions
WHERE first_seen BETWEEN '2024-01-01' AND '2024-03-01';
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00001,DVC0001,2024-01-15,Android,Referral,13.91
1,S00002,DVC0002,2024-01-18,Android,Facebook,31.80
2,S00003,DVC0003,2024-02-23,iOS,Referral,14.98
3,S00008,DVC0008,2024-01-05,iOS,Google Ads,16.56
4,S00018,DVC0018,2024-02-04,iOS,Google Ads,26.72
...,...,...,...,...,...,...
158,S00486,DVC0486,2024-02-12,Android,Facebook,31.48
159,S00490,DVC0490,2024-01-23,iOS,Facebook,11.79
160,S00496,DVC0496,2024-02-08,Android,Google Ads,34.12
161,S00497,DVC0497,2024-01-10,Android,Referral,20.56


### LIKE — пошук за шаблоном

* `%` — будь-яка кількість будь-яких символів
* `_` — один будь-який символ

---

### Особливості LIKE у PostgreSQL

* `LIKE` — **чутливий до регістру**
* Для нечутливого пошуку використовуйте `ILIKE`

---

### Приклади LIKE:

| Умова          | Знайде рядки, де...              |
| -------------- | -------------------------------- |
| `LIKE 'Alex%'` | починається з `Alex`             |
| `LIKE '%son'`  | закінчується на `son`            |
| `LIKE '%lex%'` | містить `lex` у будь-якому місці |
| `LIKE '%'`     | всі рядки                        |

---

### Приклад регістронезалежного пошуку:

```sql
SELECT * FROM products
WHERE name ILIKE '%phone%';
```

---

### Символ `_` у LIKE

| Умова         | Знайде                              |
| ------------- | ----------------------------------- |
| `LIKE '_ex'`  | `Lex`, `Rex`, але не `Alex`         |
| `LIKE 'A__x'` | `Alex`, `Abbx`, але не `Ax`, `Alx` |

In [36]:
query = text("""
SELECT *
FROM app_sessions
WHERE acquisition_channel LIKE '%o%'
""")

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00000,DVC0000,2024-04-25,Android,Facebook,30.53
1,S00002,DVC0002,2024-01-18,Android,Facebook,31.80
2,S00004,DVC0004,2024-04-24,Android,Google Ads,29.64
3,S00005,DVC0005,2024-06-02,Android,Facebook,10.67
4,S00008,DVC0008,2024-01-05,iOS,Google Ads,16.56
...,...,...,...,...,...,...
252,S00490,DVC0490,2024-01-23,iOS,Facebook,11.79
253,S00493,DVC0493,2024-03-11,Android,Facebook,30.46
254,S00494,DVC0494,2024-04-18,iOS,Facebook,16.96
255,S00496,DVC0496,2024-02-08,Android,Google Ads,34.12


In [32]:
df.acquisition_channel.unique()

array(['Facebook', 'Google Ads', 'Organic'], dtype=object)

## ORDER BY, LIMIT

* `ORDER BY` — сортування результату
* За замовчуванням — за зростанням (`ASC`)
* Можна вказати `DESC` — за спаданням
* `LIMIT` — обмежує кількість рядків (часто з `ORDER BY` для топ-N)

In [38]:
query = """
SELECT * FROM app_sessions
ORDER BY cpi_uah DESC
LIMIT 5;
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00108,DVC0108,2024-02-29,Android,Google Ads,40.0
1,S00186,DVC0186,2024-04-14,Android,Referral,39.95
2,S00445,DVC0445,2024-04-27,Android,Organic,39.89
3,S00499,DVC0499,2024-05-07,iOS,Google Ads,39.78
4,S00041,DVC0041,2024-06-27,iOS,Facebook,39.77


## IS NULL — робота з пропущеними значеннями

* `NULL` — "нічого" або "невідомо"
* Порівнювати `= NULL` не можна, треба `IS NULL` або `IS NOT NULL`

COALESCE(назва_стовпчика, 0) + 1  
NULL AND TRUE -> NULL


## DISTINCT — видалення дублікатів

* Видаляє повні дублікати рядків
* Працює на всю комбінацію стовпців, а не на окремі

In [42]:
query = """
SELECT DISTINCT acquisition_channel, os_type FROM app_sessions;
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,acquisition_channel,os_type
0,Facebook,iOS
1,Google Ads,iOS
2,Facebook,Android
3,Organic,Android
4,Organic,iOS
5,Google Ads,Android
6,Referral,iOS
7,Referral,Android


## Задачі

**Задача 1.** Знайти всі установки з лютого 2024 року по каналах `'Organic'` або `'Referral'`.


In [43]:
query = """
SELECT * FROM app_sessions
WHERE first_seen >= '2024-02-01' AND acquisition_channel IN ('Organic', 'Referral');
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00003,DVC0003,2024-02-23,iOS,Referral,14.98
1,S00006,DVC0006,2024-03-02,iOS,Referral,30.56
2,S00007,DVC0007,2024-05-25,iOS,Organic,15.28
3,S00009,DVC0009,2024-05-05,Android,Referral,21.54
4,S00011,DVC0011,2024-03-25,Android,Organic,31.57
...,...,...,...,...,...,...
194,S00489,DVC0489,2024-05-29,iOS,Referral,35.08
195,S00491,DVC0491,2024-05-28,iOS,Referral,27.90
196,S00492,DVC0492,2024-04-21,Android,Organic,31.41
197,S00495,DVC0495,2024-06-20,iOS,Organic,19.58


**Задача 2.** Вивести топ-5 найдорожчих установок за `cpi_uah`.


In [44]:
query = """
SELECT * FROM app_sessions
ORDER BY cpi_uah DESC
LIMIT 5;
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,session_id,device_code,first_seen,os_type,acquisition_channel,cpi_uah
0,S00108,DVC0108,2024-02-29,Android,Google Ads,40.0
1,S00186,DVC0186,2024-04-14,Android,Referral,39.95
2,S00445,DVC0445,2024-04-27,Android,Organic,39.89
3,S00499,DVC0499,2024-05-07,iOS,Google Ads,39.78
4,S00041,DVC0041,2024-06-27,iOS,Facebook,39.77


**Задача 3.** Знайти унікальні платформи, на які встановлювали застосунок.


In [45]:
query = """
SELECT DISTINCT os_type
FROM app_sessions;
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,os_type
0,iOS
1,Android


**Задача 4.** Показати всі `device_code`, які зустрічаються у переглядах з `view_count > 20`.  
**Задача 4.1.** Показати всі `device_code`, які зробили переглядів більше 30`.


In [53]:
query = """
SELECT device_code, view_count
FROM product_views_log
WHERE view_count > 20;
"""

df = pd.read_sql(query, engine)
df = df.groupby('device_code').view_count.sum().reset_index()
df = df[df.view_count > 30]
df

Unnamed: 0,device_code,view_count
0,DVC0000,52
2,DVC0002,47
3,DVC0003,136
9,DVC0009,56
13,DVC0013,80
...,...,...
433,DVC0491,81
435,DVC0493,101
437,DVC0496,56
438,DVC0497,83


**Задача 5.** Вивести замовлення між 1 лютого і 1 березня 2024 року.


In [55]:
query = """
SELECT *
FROM orders_log
WHERE order_time BETWEEN '2024-02-01' AND '2024-03-01'
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,user_uuid,order_time,total_uah
0,USR0270,2024-02-28,2243.89
1,USR0270,2024-02-22,860.55
2,USR0235,2024-02-02,2827.60
3,USR0235,2024-02-18,1622.73
4,USR0213,2024-02-22,2547.48
...,...,...,...
435,USR0255,2024-02-19,851.17
436,USR0037,2024-02-29,214.89
437,USR0037,2024-02-10,1719.10
438,USR0037,2024-02-02,2515.57


**Задача 6.** Знайти пристрої без прив’язки до `user_uuid`.

In [61]:
query_login = """
SELECT device_code
FROM devices_users_map
"""

query_install = """
SELECT device_code
FROM app_sessions
"""

df_install = pd.read_sql(query_install, engine)
df_login = pd.read_sql(query_login, engine)

In [62]:
df_install.shape

(500, 1)

In [63]:
df_login.shape

(300, 1)

In [67]:
res = set(df_install.device_code) - set(df_login.device_code)

In [68]:
len(res)

200

In [69]:
res

{'DVC0001',
 'DVC0002',
 'DVC0008',
 'DVC0011',
 'DVC0013',
 'DVC0014',
 'DVC0017',
 'DVC0019',
 'DVC0022',
 'DVC0025',
 'DVC0028',
 'DVC0031',
 'DVC0032',
 'DVC0033',
 'DVC0035',
 'DVC0037',
 'DVC0038',
 'DVC0040',
 'DVC0041',
 'DVC0046',
 'DVC0047',
 'DVC0052',
 'DVC0054',
 'DVC0057',
 'DVC0059',
 'DVC0062',
 'DVC0064',
 'DVC0065',
 'DVC0068',
 'DVC0069',
 'DVC0070',
 'DVC0071',
 'DVC0072',
 'DVC0074',
 'DVC0076',
 'DVC0078',
 'DVC0079',
 'DVC0080',
 'DVC0081',
 'DVC0089',
 'DVC0090',
 'DVC0091',
 'DVC0097',
 'DVC0099',
 'DVC0101',
 'DVC0102',
 'DVC0105',
 'DVC0107',
 'DVC0108',
 'DVC0109',
 'DVC0111',
 'DVC0115',
 'DVC0117',
 'DVC0118',
 'DVC0123',
 'DVC0124',
 'DVC0128',
 'DVC0130',
 'DVC0132',
 'DVC0134',
 'DVC0136',
 'DVC0137',
 'DVC0138',
 'DVC0140',
 'DVC0141',
 'DVC0142',
 'DVC0144',
 'DVC0145',
 'DVC0146',
 'DVC0147',
 'DVC0150',
 'DVC0152',
 'DVC0156',
 'DVC0159',
 'DVC0160',
 'DVC0165',
 'DVC0170',
 'DVC0172',
 'DVC0175',
 'DVC0176',
 'DVC0178',
 'DVC0180',
 'DVC0182',
 'DV