In [1]:
###
# SQL часть
# Есть сервис проката пластинок и соответствующая ему база данных со следующими таблицами:
# albums (альбом)
#    • id
#    • title
#    • band
#
# issues (издание, один и тот же альбом может выпускаться несколько раз)
#    • id
#    • album_id
#    • release_date
#
# items (конкретные физические пластинки в сервисе)
#    • id
#    • issue_id
#    • item_number
#
# operations (информация о выдаче пластинок пользователям сервиса/получении их обратно)
#    • id
#    • user_id
#    • item_id
#    • date_start (дата начала аренды, заполняется при выдаче пластинки)
#    • date_end (дата окончания аренды, заполняется при приемке пластинки)
#    • amount (стоимость аренды конкретной пластинки, может меняться в зависимости от ее ценности)
#
# Напишите скрипты, чтобы:
#    1. Найти альбомы, которые выпускались менее 3 раз.
#    2. Показать в одной таблице % альбомов, которые арендовались < 10 уникальных пользователей и % альбомов, которые арендовались >= 10 раз.
#    3. Для каждого пользователя найти названия первых 3 арендованных пластинок этим пользователем.
#    4. Список топ-5 текущих лучших на текущий момент пользователей. 2 критерия оценки предложите самостоятельно (т.е. сформировать 2 разных списка, а не в 1 списке 2 критерия оценки :)).

In [2]:
%load_ext sql

In [3]:
%sql postgresql://postgres:xzaq123@localhost/testdb     

In [4]:
%%sql

DROP TABLE IF EXISTS albums,issues,items,operations,operations_dupl

 * postgresql://postgres:***@localhost/testdb
Done.


[]

In [5]:
%%sql 

CREATE TABLE albums (
  id serial primary key,
  title varchar(64),
  band varchar(64)
);

INSERT INTO albums (title, band)
VALUES
  ('Album1', 'Band1'),
  ('Album2', 'Band1'),
  ('Album3', 'Band2'),
  ('Album1', 'Band3');

CREATE TABLE issues (
  id serial primary key,
  album_id integer,
  release_date date
);

INSERT INTO issues (album_id, release_date)
VALUES
  (1, '1960-01-18'),
  (1, '1968-11-02'),
  (2, '1965-05-20'),
  (2, '1972-02-11'),
  (2, '1976-08-30');

CREATE TABLE items (
  id serial primary key,
  issue_id integer,
  item_number integer
);

INSERT INTO items (issue_id, item_number)
VALUES
  (1,1),
  (2,1),
  (3,1),
  (4,1),
  (5,1);

CREATE TABLE operations (
  id serial primary key,
  user_id integer,
  item_id integer,
  date_start date,
  date_end date,
  amount integer
);

INSERT INTO operations (user_id, item_id, date_start, date_end, amount)
VALUES
  (1,1,'2020-05-01','2020-05-10',500),
  (1,3,'2020-05-21',NULL,NULL),
  (2,1,'2020-05-11','2020-05-12',100),    
  (2,2,'2020-05-10','2020-05-18',800),
  (2,4,'2020-05-21','2020-05-25',400),
  (3,1,'2020-05-14','2020-05-20',600),
  (3,2,'2020-05-19','2020-05-25',600),
  (3,3,'2020-05-16','2020-05-20',400),
  (3,5,'2020-05-02','2020-05-08',600),
  (4,3,'2020-05-01','2020-05-10',900),
  (4,2,'2020-05-01','2020-05-10',900),
  (5,4,'2020-05-02','2020-05-17',1500),
  (6,1,'2020-05-22','2020-05-30',800),
  (7,5,'2020-05-28',NULL,NULL);

 * postgresql://postgres:***@localhost/testdb
Done.
4 rows affected.
Done.
5 rows affected.
Done.
5 rows affected.
Done.
14 rows affected.


[]

In [6]:
# 1. Найти альбомы, которые выпускались менее 3 раз.

In [7]:
%%sql

SELECT *,
    count(*) AS num_releases
FROM (
SELECT
  albums.title AS title,
  albums.band AS band
FROM albums
LEFT JOIN issues ON albums.id=issues.album_id) AS a
GROUP BY a.title, a.band
HAVING count(*)<3

 * postgresql://postgres:***@localhost/testdb
3 rows affected.


title,band,num_releases
Album3,Band2,1
Album1,Band1,2
Album1,Band3,1


In [8]:
# 2. Показать в одной таблице 
# % альбомов, которые арендовались < 10 уникальных пользователей 
# и % альбомов, которые арендовались >= 10 раз.


In [9]:
%%sql

WITH total_issues AS (SELECT COUNT(DISTINCT item_id) AS total_issues FROM operations)
SELECT 
    SUM(fraction_pct) FILTER (where unique_users <10) AS rented_by_lessthen10_uniqie_users,
    SUM(fraction_pct) FILTER (where times_rented >=10) AS rented_over_10times
FROM(
SELECT item_id,
    MAX(n) as unique_users,
    MAX(rental_order) as times_rented,
    fraction_pct
FROM(SELECT *,
    ROW_NUMBER() OVER (PARTITION BY item_id ORDER BY user_id) AS rental_order,
    DENSE_RANK() OVER (PARTITION BY item_id ORDER BY item_id,user_id) AS N,
    100/total_issues AS FRACTION_PCT
FROM operations,total_issues) AS fff
GROUP BY item_id,fff.fraction_pct) AS mmm, total_issues
GROUP BY total_issues

 * postgresql://postgres:***@localhost/testdb
1 rows affected.


rented_by_lessthen10_uniqie_users,rented_over_10times
100,


In [10]:
# 3. Для каждого пользователя найти названия первых 3 арендованных пластинок этим пользователем.

In [11]:
%%sql

SELECT * 
FROM (
    SELECT user_id,date_start,title, band, release_date,
    ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY date_start) AS rental_order
FROM operations
JOIN items ON items.issue_id=operations.item_id
JOIN issues ON issues.id=operations.item_id
JOIN albums ON albums.id=issues.album_id) as f
WHERE f.rental_order <= 3

 * postgresql://postgres:***@localhost/testdb
13 rows affected.


user_id,date_start,title,band,release_date,rental_order
1,2020-05-01,Album1,Band1,1960-01-18,1
1,2020-05-21,Album2,Band1,1965-05-20,2
2,2020-05-10,Album1,Band1,1968-11-02,1
2,2020-05-11,Album1,Band1,1960-01-18,2
2,2020-05-21,Album2,Band1,1972-02-11,3
3,2020-05-02,Album2,Band1,1976-08-30,1
3,2020-05-14,Album1,Band1,1960-01-18,2
3,2020-05-16,Album2,Band1,1965-05-20,3
4,2020-05-01,Album1,Band1,1968-11-02,1
4,2020-05-01,Album2,Band1,1965-05-20,2


In [12]:
#  4. Список топ-5 текущих лучших на текущий момент пользователей. 2 критерия оценки предложите самостоятельно 
# (т.е. сформировать 2 разных списка, а не в 1 списке 2 критерия оценки :)).

In [13]:
%%sql

CREATE TABLE operations_dupl AS (select * from operations);

 * postgresql://postgres:***@localhost/testdb
14 rows affected.


[]

In [14]:
%%sql
DELETE FROM operations_dupl
WHERE date_end IS null
RETURNING *;

 * postgresql://postgres:***@localhost/testdb
2 rows affected.


id,user_id,item_id,date_start,date_end,amount
2,1,3,2020-05-21,,
14,7,5,2020-05-28,,


In [15]:

# query to calculate returns on trades

uid_returns_totaldays_nrents = '''
SELECT DISTINCT ON (user_id)
    user_id,
    SUM(amount) OVER (PARTITION BY user_id ORDER BY user_id) AS returns,
    SUM(date_end-date_start) OVER (PARTITION BY user_id ORDER BY user_id) AS rent_period,
    COUNT(*) OVER (PARTITION BY user_id ORDER BY user_id) AS n_rent
FROM operations_dupl'''

# 5 клиентов принесших наибольший доход - самый очевидный критерий оценки
best_revenue = %sql SELECT user_id,returns FROM ($uid_returns_totaldays_nrents) AS AA ORDER BY returns DESC LIMIT 5

# 5 клиентов с наибольшей средней выручкой за одну аренду
best_average_return_on_1rent = %sql SELECT user_id,returns/n_rent AS av_return_on_rent FROM ($uid_returns_totaldays_nrents) AS AA ORDER BY av_return_on_rent DESC LIMIT 5

print(best_revenue)
print(best_average_return_on_1rent)


# еще два возможных критерия на которые можно посмотреть это:
# 1: сортировка клиентов по давности аренды - наиболее недавние более вероятно вернутся снова, а те кто давно арендовал возможно переехали итд.: 
# 2: сортировка по кол-ву аренд - чем больше, тем более вероятно что клиент вернется снова:

 * postgresql://postgres:***@localhost/testdb
5 rows affected.
 * postgresql://postgres:***@localhost/testdb
5 rows affected.
+---------+---------+
| user_id | returns |
+---------+---------+
|    3    |   2200  |
|    4    |   1800  |
|    5    |   1500  |
|    2    |   1300  |
|    6    |   800   |
+---------+---------+
+---------+-------------------+
| user_id | av_return_on_rent |
+---------+-------------------+
|    5    |        1500       |
|    4    |        900        |
|    6    |        800        |
|    3    |        550        |
|    1    |        500        |
+---------+-------------------+
