In [None]:
Потрібно розрахувати дані для моделі підписки.
Примітки: роботодавець може створити підписку на певний пакет. 
Плата з роботодавців стягується в кінці пакетного періоду, і підписка автоматично поновлюється.
Кожен роботодавець може мати лише одну активну підписку одночасно.

In [None]:
встановлюємо Pandas та Jupyter Notebooks, виконавши такі команди у терміналі:
pip install pandas
pip install jupyter

запускаємо Jupyter Notebooks:
jupyter notebook

In [16]:
Створення підключення до бази даних:
import os
import psycopg2 as ps
import pandas as pd

conn = ps.connect(
    host="localhost",
    port="5432",
    dbname="Jooble",
    user="postgres",
    password="Password")

In [None]:
Є 3 таблиці:
1. Subscription (підписки)
У цій таблиці ми зберігаємо дані про підписку клієнта
- Id_subscription - ідентифікація підписки
- Id_employer - ідентифікація роботодавця/клієнта
- Id_period - ідентифікація тривалості підписки
- Sub_start_date - дата і час активації підписки
- Статус - має два значення
- 0 - підписка не активна
- 1 - підписка активна

In [18]:
import pandas as pd
from sqlalchemy import create_engine

# Створення об'єкта з'єднання SQLAlchemy
engine = create_engine('postgresql://postgres:Password@localhost:5432/Jooble')

# Зчитування даних з SQL-запиту в DataFrame
df = pd.read_sql_query("SELECT * FROM Subscriptions", con=engine)
df

Unnamed: 0,id_subscription,id_employer,id_period,sub_start_date,status
0,1,101,1,2024-01-01 06:24:20,0
1,2,101,1,2024-02-02 10:54:20,1
2,3,102,3,2024-04-03 09:20:00,1
3,4,103,2,2024-04-04 17:11:12,1


In [None]:
2. Payments (Платежі)
У цій таблиці ми зберігаємо дані про платежі клієнта
- id_payment - ідентифікація платежу
- payment_date - дата і час обробки платежу
- id_subscription - ідентифікатор підписки, до якої належить оплата
- ціна - ціна, яку заплатив роботодавець

In [19]:
df = pd.read_sql_query("SELECT * FROM Payments", con=engine)
df

Unnamed: 0,id_payment,payment_date,id_subscription,price
0,1,2024-01-01 06:25:20,1,100.0
1,2,2024-02-02 10:54:20,2,100.0
2,3,2024-03-02 10:54:20,2,100.0
3,4,2024-04-02 10:54:20,2,100.0
4,5,2024-04-03 09:22:00,3,800.0
5,6,2024-04-04 17:12:12,4,250.0


In [None]:
3. Periods (Періоди)
У цій таблиці ми зберігаємо дані про тривалість пакету
- Id_period - ідентифікація тривалості підписки
- Month_count - тривалість пакету в місяцях

In [20]:
df = pd.read_sql_query("SELECT * FROM Periods", con=engine)
df

Unnamed: 0,id_period,month_count
0,1,1
1,2,3
2,3,12


In [None]:
Завдання №1.

Розрахувати дату наступного платежу для кожної активної підписки. Вихід має містити 2 стовпці: 
ідентифікатор підписки та дата наступного платежу. 

In [None]:
Для виконання завдання використано синтаксис PostgreSQL

Рішення: 
Використовуючи вираз WITH, створимо тимчасову таблицю next_payment_dates, яка містить id передплат та їх наступні
дати платежів.
Для цього використовуються дані таблиць Payments, Subscriptions та Periods, де наявні відповідні зв'язки.
Потім результати вибираються з next_payment_dates, конвертуються у формат дати-часу  та сортуються за id передплат.

In [None]:
WITH next_payment_dates AS (
    SELECT
        p.id_subscription,
        MAX(payment_date + INTERVAL '1 month' * pr.month_count) OVER (PARTITION BY p.id_subscription) AS next_payment_date---обчислюємо дату наступного
платежу для кожної підписки з урахуванням періоду оплати
    FROM
        Payments p
    JOIN
        Subscriptions s ON p.id_subscription = s.id_subscription
    JOIN
        Periods pr ON s.id_period = pr.id_period
    WHERE
        s.status = 1 --- фільтрація активних підписок
)
SELECT
    id_subscription,
    TO_CHAR(next_payment_date, 'YYYY-MM-DD HH24:MI:SS') AS next_payment_date ---конвертуємо дату наступного платежу 
                                                                             в рядковий формат у заданому стандарті
FROM
    next_payment_dates
GROUP BY
    id_subscription, next_payment_date
ORDER BY
    id_subscription;

In [25]:
df = pd.read_sql_query("WITH next_payment_dates AS (SELECT p.id_subscription,MAX(payment_date + INTERVAL '1 month' * pr.month_count) OVER (PARTITION BY p.id_subscription) AS next_payment_date FROM Payments p JOIN Subscriptions s ON p.id_subscription = s.id_subscription JOIN Periods pr ON s.id_period = pr.id_period WHERE s.status = 1)SELECT id_subscription, TO_CHAR(next_payment_date, 'YYYY-MM-DD HH24:MI:SS') AS next_payment_date FROM next_payment_dates GROUP BY id_subscription, next_payment_date ORDER BY id_subscription", con=engine)
df

Unnamed: 0,id_subscription,next_payment_date
0,2,2024-05-02 10:54:20
1,3,2025-04-03 09:22:00
2,4,2024-07-04 17:12:12


In [None]:
Висновок:
Цей запит дозволяє отримати інформацію про наступні платежі для кожної активної підписки 
на основі їхніх періодів оплати.

In [None]:
Завдання №2. 

Розрахувати виручку від кожного роботодавця. Вихідні дані повинні містити 2 стовпці:
ідентифікатор роботодавця та дохід.

In [None]:
Рішення:
Щоб розрахувати виручку від кожного клієнта, необхідно звязати таблиці Payments та Subscriptions, 
щоб отримати ціни за підписку, а потім згрупувати результат за ідентифікатором клієнта та підрахувати загальний дохід.

In [None]:
SELECT
    s.id_employer
    , SUM(p.price) AS revenue   ----застосовуємо функцію SUM до поля price з таблиці Payments для підрахунку 
                                    загального доходу від кожного клієнта.
FROM
    Payments p
JOIN
    Subscriptions s ON p.id_subscription = s.id_subscription ---обєднуємо таблиці Payments та Subscriptions 
                                                                за допомогою поля id_subscription, щоб отримати ціну 
                                                                за кожну підписку.
GROUP by               ----групуємо результат за id_employer (ідентифікатор клієнта)
    s.id_employer
ORDER by              ----результат сортується за ідентифікатором клієнта                                 
    s.id_employer;
  

In [27]:
df = pd.read_sql_query("SELECT s.id_employer, SUM(p.price) AS revenue FROM Payments p JOIN  Subscriptions s ON p.id_subscription = s.id_subscription GROUP by  s.id_employer ORDER by  s.id_employer", con=engine)
df

Unnamed: 0,id_employer,revenue
0,101,400.0
1,102,800.0
2,103,250.0


In [None]:
Висновок:
    
Кожен клієнт (employer) генерує свій дохід (revenue) у наш бізнес, який обчислюється як сума всіх його 
платежів за підписки.
Клієнт з id 101 дає дохід у 400.0 одиниць. Клієнт з id 102 - дохід у 800.0 одиниць.
Клієнт з id 103 - дохід у 250.0 одиниць.
Ці дані показують, скільки доходу приносить кожен клієнт бізнесу.

In [None]:
Завдання №3. 

Розрахувати частку загального доходу від кожного клієнта. 
Вихід повинен містить 4 стовпці: ідентифікатор клієнта, дохід від клієнта, 
загальний дохід і частку від загального доходу(%)

In [None]:
Рішення:
Спочатку потрібно знайти загальний дохід за всіх клієнтів.
Потім для кожного клієнта розрахуємо його власний дохід та частку від загального доходу.

In [None]:
 SELECT
    s.id_employer
    , SUM(p.price) AS employer_revenue ---обчислюється дохід від кожного клієнта (employer_revenue) з таблиці Payments,
                                          групуючи за ідентифікатором клієнта.
    , SUM(SUM(p.price)) OVER () AS total_revenue ---загальний дохід (total_revenue) обчислюється за допомогою
                                                    функції SUM разом з OVER (), яка вказує, що сума обчислюється 
                                                    для всіх рядків в результуючому наборі.
    , ROUND((SUM(p.price) / SUM(SUM(p.price)) OVER ()) * 100, 2) AS share_revenue ---Частка від загального доходу 
                                                    (revenue_share) обчислюється для кожного клієнта, ділячи дохід 
                                                    від кожного клієнта на загальний дохід та множачи на 100%.
                                                    Результат видається з округленням до двох знаків після коми.                                                                              
FROM                                          
    Payments p
JOIN
    Subscriptions s ON p.id_subscription = s.id_subscription
GROUP BY
    s.id_employer
ORDER by          ---Результат сортується за ідентифікатором клієнта.
    s.id_employer;

In [28]:
df = pd.read_sql_query("SELECT  s.id_employer, SUM(p.price) AS employer_revenue, SUM(SUM(p.price)) OVER () AS total_revenue , ROUND((SUM(p.price) / SUM(SUM(p.price)) OVER ()) * 100, 2) AS share_revenue  FROM Payments p JOIN  Subscriptions s ON p.id_subscription = s.id_subscription GROUP BY  s.id_employer ORDER by  s.id_employer", con=engine)
df

Unnamed: 0,id_employer,employer_revenue,total_revenue,share_revenue
0,101,400.0,1450.0,27.59
1,102,800.0,1450.0,55.17
2,103,250.0,1450.0,17.24


In [None]:
Висновок:

1. Загальний дохід бізнесу від усіх клієнтів становить 1450.0 одиниць.
Це сума всіх доходів, отриманих від усіх клієнтів.
2. Частка від загального доходу для кожного клієнта вказує на його внесок у загальний дохід бізнесу. 
За наданими прикладом, клієнт з id_employer 101 має частку у 27.59% від загального доходу, 
клієнт з id_employer 102 - 55.17%, а клієнт з id_employer 103 - 17.24%.

Ці дані допомагають зрозуміти, який внесок в доход кожен клієнт вносить у бізнес, 
та визначити, що клієнт з id_employer 102 може бути ключовим для бізнесу з точки зору прибутковості.

In [None]:
Завдання №4. 

Обчисліть кумулятивну суму/загальну суму доходу від грошових потоків за кожен місяць. 
Вихідні дані повинні містити 2 стовпці: місяць і поточний загальний дохід.

In [None]:
Рішення:
Використовуємо спільний тимчасовий запит (CTE) для обчислення суми доходу за кожен місяць (monthly_payments). 
Це дозволяє нам виконати агрегацію даних тільки один раз. 
Потім основний запит витягує номер місяця та обчислює кумулятивний дохід за кожний місяць, 
використовуючи вікно, що сумує кумулятивний дохід по місяцям. Результати сортуються за номером місяця. 

In [None]:
Створення індексу на полі payment_date може значно покращити швидкодію запиту, 
особливо при обробці великих обсягів даних, оскільки база даних буде швидше знаходити та обробляти необхідні 
записи за датою.

In [None]:
CREATE INDEX idx_payment_date ON Payments(payment_date) -- Створення індексу на полі payment_date

In [None]:
df = pd.read_sql_query("CREATE INDEX idx_payment_date ON Payments", con=engine)
df

In [None]:
WITH monthly_payments AS (
    SELECT
        DATE_TRUNC('month', payment_date) AS month,---Функція DATE_TRUNC('month', payment_date) відсікає час і залишає 
                                                      тільки перший день місяця для кожного платежу.
        SUM(price) AS cumulative_revenue --- обчислюється сума платежів, що представляє собою кумулятивний дохід 
                                             за кожний місяць.
    FROM
        Payments
    GROUP BY
        DATE_TRUNC('month', payment_date) --- групуємо за місяцями
)
SELECT
    EXTRACT(MONTH FROM month) AS month, --- витягуємо номер місяця з дати кожного місяця.
    SUM(cumulative_revenue) OVER (ORDER BY EXTRACT(MONTH FROM month)) AS cumulative_revenue --використовуємо вікно для 
                                                            обчислення кумулятивного доходу, сумуючи кумулятивний дохід
                                                            за кожний місяць, виходячи з порядку місяців.
FROM
    monthly_payments
ORDER BY
    EXTRACT(MONTH FROM month) ---результати сортуються за номером місяця

In [36]:
df = pd.read_sql_query("WITH monthly_payments AS (SELECT DATE_TRUNC('month', payment_date) AS month, SUM(price) AS cumulative_revenue FROM Payments GROUP BY  DATE_TRUNC('month', payment_date)) SELECT EXTRACT(MONTH FROM month) AS month, SUM(cumulative_revenue) OVER (ORDER BY EXTRACT(MONTH FROM month)) AS cumulative_revenue FROM monthly_payments ORDER BY EXTRACT(MONTH FROM month)", con=engine)
df['month'] = df['month'].astype(int) ---перетворення стовпця month у цілі числа
df

Unnamed: 0,month,cumulative_revenue
0,1,100.0
1,2,200.0
2,3,300.0
3,4,1450.0


In [None]:
Висновок:
    
1. Кумулятивний дохід зростає з кожним місяцем.
2. У перших трьох місяцях (січень, лютий, березень) зростання кумулятивного доходу є відносно стабільним, 
додаючи по 100 одиниць до кожного місяця.
3. У квітні кумулятивний дохід суттєво зростає, що може вказувати на значну зміну у доходах цього місяця порівняно
з попередніми місяцями. Це може бути зумовлено, наприклад, важливими подіями, акціями або іншими чинниками,
які впливають на обсяги продажів чи платежів.

Цей запит може бути корисний для аналізу тенденцій та розуміння динаміки доходу від певної послуги
чи продукту протягом часу.