# Тестовое SQL* задание

выполнил: Копоть Н.С.

mikitakopats@gmail.com

январь 2025 года [время выполнения: ~ 5 часов]
    
    время указано с учетом:
    - создания пробных гугл-таблиц,
    - попытки задать в полученных датафремах таблиц тип данных Дата
    (узнал, что в pandas есть ограничение максимальной даты до 11.04.2262 [в примере МАКС(дата) = 01.01.3001]).
    Поэтому в sql-запросах для уверенности все поля с датами переведены в формат Даты непосредственно во время выполнения запроса [обернуты в TO_DATE()].
    - оформление результата

*запросы написаны на PostgreSQL

# 1. META DATA
Информация про таблицы из условия тестового задания

### **LOANS** – **таблица кредитных договоров**

В которой реализована историзация строк по типу **Slowly Changing Dimension Type 2** (действующая [последняя актуальная] строка имеет dt_end = ’01.01.3001’) и которая выглядят следующим образом:

    id_loan – ID договора;
    dt_start, dt_end – даты действия строк;
    id_client – ID клиента;
    num_loan – номер договора;
    dt_open_loan – дата открытия договора;
    code_curr – код валюты договора;
    int_rate – процентная ставка по основному долгу;
    risk_group – группа риска.

### **CLIENTS – таблица клиентов**

В которой историзация организована по такому же принципу, как в LOANS, и которая содержит поля:

    id_client – ID клиента;
    dt_start, dt_end – даты действия строк;
    name_client – наименование клиента;
    type_client – тип клиента (значения: ФЛ, ЮЛ);
    department – наименование подразделения клиента.

### **LOANS_FACT – таблица фактов по кредитным договорам за каждый день**

Содержит поля:

    id_loan – ID договора;
    dt – дата факта (по состоянию на конец этого дня отображаются остатки по кредитам);
    rest_od, rest_od_eq – остаток основного долга в валюте договора и в эквиваленте BYN соответственно;
    rest_pd, rest_pd_eq – остаток просроченного долга в валюте договора и в эквиваленте BYN соответственно.
    
**Внимание!
Поля с префиксом rest_ могут содержать NULL**

(например, если по договору нет просроченного долга, то rest_pd и rest_pd_eq могут содержать NULL)

# 2. Подготовка к работе
  *   подключение к удаленному серверу с PostgreSQL (сервис Neon console предоставляет хранилище с предустановленной базой данных PostgreSQL)
  *   создание пробных датасетов таблиц (три таблицы в Google Sheets: https://docs.google.com/spreadsheets/d/1YUKU4uqINC6F33hjm7GlCQOfWDz-4me4TLHMN5o9wlI/edit?usp=sharing)
  * загрузка датасетов в БД на удаленный сервер для последующего тестирования работоспособности SQL-запросов
  * создание функции для читабельности команды по запуску sql-запросов

In [None]:
import pandas as pd
import numpy  as np

In [None]:
# подключение к бесплатной учетной записи серверного PostgreSQL [Neon console: https://neon.tech/]

from sqlalchemy import create_engine
con = create_engine('postgresql+psycopg2://neondb_owner:6elsz1ARZYyF@ep-purple-dew-a2mqsmvc.eu-central-1.aws.neon.tech/neondb?sslmode=require')

Для удобства создал в Google Sheets три таблицы с рандомными данными:
https://docs.google.com/spreadsheets/d/1KBTwhZT85_MKgUk9KEkE441-zKG-j1B_HxuSL6rlBKc/edit?usp=sharing

In [None]:
# автопоиск id нужных таблиц внутри гугл-таблицы по ссылке нужного диапазона
# (url - ссылка на диапазон созданной заранее таблицы, в первом случае таблицы LOANS)

url      = 'https://docs.google.com/spreadsheets/d/1YUKU4uqINC6F33hjm7GlCQOfWDz-4me4TLHMN5o9wlI/edit?gid=0#gid=0&range=A1:I34'
table_id = url.split('/')[5]

# получение кода листа и диапазона нужных ячеек (учебный вариант - предполагаю, что таблица расширяться не будет)
gid_and_range = url.split('#gid=')[1]

# экспорт гугл-таблицы LOANS в csv и в датафрейм
loans = pd.read_csv(f'https://docs.google.com/spreadsheets/d/{table_id}/export?format=csv&gid={gid_and_range}')

In [None]:
# загрузка таблицы CLIENTS (аналогичным способом)

url           = 'https://docs.google.com/spreadsheets/d/1YUKU4uqINC6F33hjm7GlCQOfWDz-4me4TLHMN5o9wlI/edit?gid=175846565#gid=175846565&range=A1:F30'
table_id      = url.split('/')[5]
gid_and_range = url.split('#gid=')[1]

clients = pd.read_csv(f'https://docs.google.com/spreadsheets/d/{table_id}/export?format=csv&gid={gid_and_range}')

In [None]:
# загрузка таблицы LOANS_FACT (аналогичным способом)

url           = 'https://docs.google.com/spreadsheets/d/1YUKU4uqINC6F33hjm7GlCQOfWDz-4me4TLHMN5o9wlI/edit?gid=1912862469#gid=1912862469&range=A1:F34'
table_id      = url.split('/')[5]
gid_and_range = url.split('#gid=')[1]

loans_fact = pd.read_csv(f'https://docs.google.com/spreadsheets/d/{table_id}/export?format=csv&gid={gid_and_range}')

In [None]:
# заливка CSV-датасета в PostgreSQL к удаленной базе данных с ускорителем
# (найденное ранее готовое решение со stackoverflow.com)

import csv
from io import StringIO

from sqlalchemy import create_engine

def psql_insert_copy(table, conn, keys, data_iter):
  # получает DBAPI соединение, которое может быть предоставлено курсором
  dbapi_conn = conn.connection
  with  dbapi_conn.cursor() as cur:
    s_buf  = StringIO()
    writer = csv.writer(s_buf)
    writer.writerows(data_iter)
    s_buf.seek(0)

    columns = ', '.join('"{}"'.format(k) for k in keys)
    if table.schema:
        table_name = '{}.{}'.format(table.schema, table.name)
    else:
        table_name = table.name

    sql = 'COPY {} ({}) FROM STDIN WITH CSV'.format(table_name, columns)
    cur.copy_expert(sql = sql, file = s_buf)

In [None]:
loans.sample(10).to_sql('loans', con, index = False, if_exists = 'replace', method = psql_insert_copy)
# sample(10) - пробная заливка 10-ти рандомных строк на удаленный сервер (для проверки)

In [None]:
# Загрузка таблиц loans, clients и loans_fact в БД на удаленный сервер с PostgreSQL (Neon)

loans.to_sql('loans',           con, index = False, if_exists = 'replace', method = psql_insert_copy)
clients.to_sql('clients',       con, index = False, if_exists = 'replace', method = psql_insert_copy)
loans_fact.to_sql('loans_fact', con, index = False, if_exists = 'replace', method = psql_insert_copy)

In [None]:
# создание функции, для простоты и читабельности команды по подключению запросов

def select(sql):
   return pd.read_sql(sql, con)

In [None]:
# тестовый запрос

sql = '''
SELECT *
  FROM loans
 LIMIT 3
'''

In [None]:
select(sql)

Unnamed: 0,id_loan,dt_start,dt_end,id_client,num_loan,dt_open_loan,code_curr,int_rate,risk_group
0,1,01.01.1980,01.01.3001,101,DEAL_A,01.05.2023,933,10.0,1
1,2,01.01.1980,30.09.2023,102,DEAL_B,11.04.2023,840,5.5,1
2,2,01.10.2023,01.01.3001,102,DEAL_B,11.04.2023,840,5.5,2


# 3. Решение задач [7 шт]

## 3.1


Необходимо вывести по состоянию на **30.09.2023** `номера кредитных договоров (только в валютах 840 и 978)`, `группу риска` и `сумму основного + просроченного долга в эквиваленте` (назовите полученное поле `rest_eq`).

Выведите также вычисляемое поле `currency`, которые будет содержать
«Доллары США», если валюта договора – 840, и «Евро», если валюта договора – 978.
Т.е. `ожидаются поля: номер договора, группа риска, currency, rest_eq.`

`Договоры, по которым суммарный остаток нулевой выводить не нужно.`

In [None]:
sql = '''
SELECT
       l.num_loan
       , l.risk_group
       , ( COALESCE(lf.rest_od_eq, 0) + COALESCE(lf.rest_pd_eq, 0) ) AS rest_eq
       , CASE
             WHEN l.code_curr = 840 THEN 'Доллары США'
             WHEN l.code_curr = 978 THEN 'Евро'
         END AS currency
  FROM loans AS l
  LEFT JOIN loans_fact AS lf ON l.id_loan = lf.id_loan
 WHERE
       TO_DATE(lf.dt, 'DD.MM.YYYY')                                    = '2023-09-30'    --- приводим к типу даты и выбираем нужный день = 30.09.2023
       AND l.code_curr                                                 IN (840, 978)     --- договора только в 2-х валютах (долларах и евро)
       AND ( COALESCE(lf.rest_od_eq, 0) + COALESCE(lf.rest_pd_eq, 0) ) > 0               --- выводить только тех у кого суммарный остаток больше нуля
       AND TO_DATE(l.dt_start, 'DD.MM.YYYY')                           <= '2023-09-30'   --- приводим к типу даты и сверяем что договор действующий (временнОе соответствие нашему дню)
       AND TO_DATE(l.dt_end, 'DD.MM.YYYY')                             > '2023-09-30'    --- приводим к типу даты и сверяем что договор действующий
'''

In [None]:
select(sql)

Unnamed: 0,num_loan,risk_group,rest_eq,currency
0,DEAL_C,3,1660.0,Евро
1,DEAL_K,1,1390.0,Евро
2,DEAL_L,3,1060.0,Доллары США
3,DEAL_U,3,1450.0,Доллары США


## 3.2

Необходимо `вывести за каждый день сентября 2023 количество открытых в этот день договоров по клиентам-ФЛ`
(состояние договора и клиента можно брать последнее актуальное, т.е. dt_end = ’01.01.3001’).

`Поле количества назовите cnt_loan.`

`Отсортируйте по дате открытия договора.`

In [None]:
sql = '''
SELECT
       TO_DATE(lf.dt, 'DD.MM.YYYY') AS dt_open_loan                             --- дата месяца (сентября 2023 года)
       , COUNT( DISTINCT l.id_loan) AS cnt_loan                                 --- кол-во открытых в этот день договоров

  FROM loans AS l
  LEFT JOIN loans_fact   AS lf  ON l.id_loan   = lf.id_loan
  LEFT JOIN clients      AS c   ON l.id_client = c.id_client

 WHERE
       TO_DATE(lf.dt, 'DD.MM.YYYY') BETWEEN '2023-09-01' AND '2023-09-30'       --- выводить только сентябрь 2023 года
       AND TO_DATE(l.dt_end, 'DD.MM.YYYY') = '3001-01-01'                       --- последнее актуальное состояние договора (dt_end = ’01.01.3001’)
       AND c.type_client                   = 'ФЛ'                               --- только ФИЗлица

 GROUP BY TO_DATE(lf.dt, 'DD.MM.YYYY')                                          --- группировка по дате
 ORDER BY dt_open_loan                                                          --- сортировка по дате по возрастанию

'''

In [None]:
select(sql)

Unnamed: 0,dt_open_loan,cnt_loan
0,2023-09-30,3


## 3.3

`Аналогично предыдущему пункту`, но теперь `отбор по клиентам-ЮЛ`, а в столбцах надо `вывести отдельно кол-во договоров по валютам 933, 840
и 978`

`(т.е. поля будут dt_open_loan, cnt_BYN, cnt_USD, cnt_EUR).`

In [None]:
sql = '''
SELECT
       TO_DATE(lf.dt, 'DD.MM.YYYY')                                  AS dt_open_loan      --- дата месяца (сентября 2023 года)
       , COUNT( DISTINCT l.id_loan) FILTER (WHERE l.code_curr = 933) AS cnt_BYN           --- кол-во открытых в этот день договоров в BYN
       , COUNT( DISTINCT l.id_loan) FILTER (WHERE l.code_curr = 840) AS cnt_USD           --- кол-во открытых в этот день договоров в USD
       , COUNT( DISTINCT l.id_loan) FILTER (WHERE l.code_curr = 978) AS cnt_EUR           --- кол-во открытых в этот день договоров в EUR

  FROM loans AS l
  LEFT JOIN loans_fact   AS lf  ON l.id_loan   = lf.id_loan
  LEFT JOIN clients      AS c   ON l.id_client = c.id_client

 WHERE
       TO_DATE(lf.dt, 'DD.MM.YYYY') BETWEEN '2023-09-01' AND '2023-09-30'                 --- выводить только сентябрь 2023 года
       AND TO_DATE(l.dt_end, 'DD.MM.YYYY') = '3001-01-01'                                 --- последнее актуальное состояние договора (dt_end = ’01.01.3001’)
       AND c.type_client = 'ЮЛ'                                                           --- только ЮРлица

 GROUP BY TO_DATE(lf.dt, 'DD.MM.YYYY')                                                    --- группировка по дате
 ORDER BY dt_open_loan                                                                    --- сортировка по дате по возрастанию

'''

In [None]:
select(sql)

Unnamed: 0,dt_open_loan,cnt_byn,cnt_usd,cnt_eur
0,2023-09-25,0,0,1
1,2023-09-30,1,1,2


## 3.4

`Выведите наименования клиентов-ЮЛ`, `наименование` которых `начинается с «ООО» (на всякий случай сделайте регистро-нечувствительную
проверку)`, у которых `в 2022 году было открыто более одного договора.`


In [None]:
sql = '''
SELECT
       c.name_client                                                            --- наименования клиентов
  FROM clients AS c
  JOIN loans AS l ON l.id_client = c.id_client
 WHERE
       c.type_client = 'ЮЛ'                                                     --- только ЮРлица
       AND LOWER(c.name_client) LIKE 'ооо%'                                     --- регистро-нечувствительная проверка на ООО в начале названия
       AND EXTRACT(YEAR FROM TO_DATE(l.dt_open_loan, 'DD.MM.YYYY')) = 2022      --- оставляем только открытые договора за 2022 год
 GROUP BY c.id_client, c.name_client                                            --- группировка по клиентам
HAVING COUNT(l.id_loan) > 1                                                     --- только те, у кого открыто более одного договора
'''

In [None]:
select(sql)

## 3.5

Необходимо `для каждого клиента-ЮЛ, который в сентябре 2023 открыл больше одного договора`, `вывести эти договоры` (открытые в сентябре
2023), `сумму основного + просроченного долга в эквиваленте (как в задаче №1)` `по каждому договору` (назовите поле rest_eq_loan) по состоянию
на 30.09.2023 и `по клиенту в целом` (назовите поле rest_eq_client).

`Т.е. поля будут: name_client, num_loan, rest_eq_deal, rest_eq_client.`

`Состояние договора и клиента можно брать последнее актуальное. Договоры с нулевыми остатками отбрасывать не нужно.`

`Отсортируйте по наименованию клиента`

In [None]:
sql = '''
SELECT
       c.name_client                                                                    --- наименование клиента
       , l.num_loan                                                                     --- номер договора
       , ( COALESCE(lf.rest_od_eq, 0) + COALESCE(lf.rest_pd_eq, 0) ) AS rest_eq_deal    --- общая сумма долгов по договору
       , SUM(COALESCE(lf.rest_od_eq, 0) + COALESCE(lf.rest_pd_eq, 0))
         OVER (PARTITION BY c.id_client)                             AS rest_eq_client  --- сумма задолженности в целом по клиенту

  FROM loans AS l
  LEFT JOIN loans_fact AS lf ON l.id_loan = lf.id_loan
                                AND TO_DATE(lf.dt, 'DD.MM.YYYY') = '2023-09-30'         --- получаем только остатки на 30.09.2023
  LEFT JOIN clients    AS c  ON l.id_client = c.id_client

 WHERE
      c.type_client = 'ЮЛ'                                                              --- только ЮРлица
      AND TO_DATE(l.dt_open_loan, 'DD.MM.YYYY') BETWEEN '2023-09-01' AND '2023-09-30'   --- договора, открытые только в сентябре 2023 года
      AND TO_DATE(l.dt_end, 'DD.MM.YYYY') = '3001-01-01'                                --- только актуальные договоры (dt_end = '01.01.3001')
 GROUP BY
      c.id_client, c.name_client, l.num_loan, lf.rest_od_eq, lf.rest_pd_eq              --- группировка по клиентам и договорам
HAVING COUNT(l.id_loan) > 1                                                             --- только те, у кого открыто более одного договора
ORDER BY c.name_client                                                                  --- сортировка по наименованию клиента по алфавиту

'''

In [None]:
select(sql)

Unnamed: 0,name_client,num_loan,rest_eq_deal,rest_eq_client


## 3.6

Необходимо `посчитать по состоянию на 31.12.2022 среднюю взвешенную ставку по основному долгу в разрезе клиентов-ЮЛ для кредитных
договоров в бел. рублях (код валюты 933).`

    Пояснение по расчету средневзвешенной ставки:
    если у клиента есть один договор с остатком 1000 и ставкой 10% и другой договор с остатком 400 с ставкой 12%,
    то средневзвешенная ставка будет (1000 * 10 + 400 * 12) / (1000 + 400) = 10.57.

`Поле средневзвешенной ставки назовите avg_rate и отобразите значение по модулю с округлением до двух знаков после запятой.`
`Отсортируйте по возрастанию средневзвешенной ставки (по модулю).`

`Также необходимо вывести сумму основного долга по клиенту в эквиваленте по состоянию на указанную дату.`

`Информацию о клиентах необходимо взять последнюю актуальную.`

`Не следует выводить договоры без остатка основного долга.`



In [None]:
sql = '''

SELECT
       ABS( ROUND( SUM(COALESCE(lf.rest_od_eq, 0) * l.int_rate)::decimal / NULLIF( SUM(COALESCE(lf.rest_od_eq, 0) ), 0)
                 , 2)
           )                             AS avg_rate                               --- средневзвешенная ставка
       , SUM(COALESCE(lf.rest_od_eq, 0)) AS rest_od_eq_client                      --- сумма основного долга по клиенту на дату

  FROM loans AS l
  LEFT JOIN loans_fact AS lf   ON l.id_loan   = lf.id_loan
  LEFT JOIN clients    AS c    ON l.id_client = c.id_client

 WHERE
       TO_DATE(lf.dt, 'DD.MM.YYYY')           = '2022-12-31'                       --- выбираем нужный день = 31.12.2022
       AND TO_DATE(l.dt_start, 'DD.MM.YYYY') <= '2022-12-31'                       --- сверяем что договор действующий (временнОе соответствие нашему дню)
       AND TO_DATE(l.dt_end, 'DD.MM.YYYY')    > '2022-12-31'                       --- сверяем что договор действующий
       AND c.type_client                      = 'ЮЛ'                               --- только ЮРлица
       AND l.code_curr                        = 933                                --- договора только в BYN
       AND TO_DATE(l.dt_end, 'DD.MM.YYYY')    = '3001-01-01'                       --- только актуальные договоры (dt_end = '01.01.3001')
       AND COALESCE(lf.rest_od_eq, 0)         > 0                                  --- выводить только тех у кого остаток по основному долгу больше нуля

GROUP BY c.id_client                                                               --- группировка по клиентам и договорам
ORDER BY avg_rate

'''

In [None]:
select(sql)

Unnamed: 0,avg_rate,rest_od_eq_client


## 3.7

Необходимо `в разрезе подразделений клиентов вывести количество клиентов, у которых нет кредитного договора` (назовите поле cnt_clients_without_loans).

`Отсортируйте по названию подразделения`

In [None]:
sql = '''
SELECT
       c.department
       , COUNT(c.id_client) AS cnt_clients_without_loans                            --- кол-во клиентов без кредитных договоров

  FROM clients     AS  c
  LEFT JOIN loans  AS  l  ON l.id_client = c.id_client
                             AND TO_DATE(l.dt_start, 'DD.MM.YYYY') <= CURRENT_DATE  --- выбираем только действующие договора
                             AND TO_DATE(l.dt_end, 'DD.MM.YYYY')    > CURRENT_DATE  --- выбираем только действующие договора
 WHERE l.id_loan IS NULL                                                            --- LEFT JOIN соединение таблицы с клиентами к договорам подсветит строки без договоров NULL-значением
 GROUP BY c.department
 ORDER BY c.department
'''

In [None]:
select(sql)

Unnamed: 0,avg_rate,rest_od_eq_client
