# SQL 1 - базовые запросы.

Дана таблица по вводу ОТП кодов клиентами (файл: OTP_session_id.csv )  

![](table.png)

Поля таблицы:   
client_id  -  номер клиента  
sessionId – идентификатор сессии  
datetime - дата время  
status – статус ввода кода  
category – текстовый код ОТП  

**Подготовка к выполнению задач**

In [1]:
# Импортируем библеотеки. 

import pandas as pd
import numpy as np

In [2]:
# Загружаем таблицу.

df = pd.read_csv('https://raw.githubusercontent.com/zhukov-analyst/portfolio/main/sql_data/OTP_session_id2.csv', sep=';')

In [3]:
# Проверяем данные на анамалии и изучаем для выстраивания дальнейшей логики работы.

def describe_data(df):
    display(df.head(10))
    print('------------------------------------------------------------------------------------------------------')
    print(df.info())
    print('------------------------------------------------------------------------------------------------------')
    print(df.describe())
    print('------------------------------------------------------------------------------------------------------')
    print('Уникальные значения:')
    print(df.describe(include='all').loc['unique', :])
    print('------------------------------------------------------------------------------------------------------')
    print('Пропуски:')
    print(df.isna().sum())
    print('------------------------------------------------------------------------------------------------------')
    print('Дубликаты:', df.duplicated().sum())
    print()

describe_data(df)

Unnamed: 0,client_id,sessionId,datetime,status,category
0,"2,37723E+11",1af2a994-0039-4d92-bb78-c217a50ab82a,04.05.2021,CORRECT,default
1,"2,3765E+11",148b3ffb-ee4c-4f5b-9098-436993a0ade0,04.05.2021,CORRECT,default
2,"2,37614E+11",84a0ac11-f876-4e16-9b3d-b548f809eb46,16.05.2021,CORRECT,otp-login
3,"2,37413E+11",79396f39-b31a-465b-91f6-1c7f2a08dfe8,04.05.2021,CORRECT,operation-name_web
4,"2,37179E+11",c624f6cd-54ef-4099-b433-cd80f4071301,04.05.2021,CORRECT,otp-login
5,"2,38806E+11",b2dd7717-42d9-4639-88b9-14e03d17a15f,16.05.2021,CORRECT,operation-name_web
6,"2,38519E+11",7fb5144e-458f-4556-a624-c2c4b6920b3f,04.05.2021,CORRECT,transfer_card_web
7,"2,37606E+11",0526af9f-2b8b-404e-a0f4-38c9f08bd753,04.05.2021,CORRECT,otp-login
8,"2,37629E+11",01c2df68-dddc-4e4b-b380-29874c2da50e,16.05.2021,CORRECT,otp-login
9,"2,37156E+11",5088390c-2552-41d1-9585-07b07f71807c,04.05.2021,CORRECT,otp-login


------------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10164 entries, 0 to 10163
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   client_id  10164 non-null  object
 1   sessionId  10164 non-null  object
 2   datetime   10164 non-null  object
 3   status     10164 non-null  object
 4   category   10164 non-null  object
dtypes: object(5)
memory usage: 397.2+ KB
None
------------------------------------------------------------------------------------------------------
       client_id                            sessionId    datetime   status  \
count      10164                                10164       10164    10164   
unique      1138                                 7383          11        2   
top     2,37E+11  1ce3a1e-642b-4e6d-84c7-79d5df49f221  04.05.2021  CORRECT   
freq         994                                   13 

In [4]:
# Посмотрим на уникальные значения в каждом столбце.

from IPython.display import display

pd.set_option('display.max_colwidth', 400)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 300)

df_info = pd.DataFrame(df.describe(include='all').loc['unique', :])
df_info['type'] = pd.Series(list(df.dtypes),index=df.columns)
df_info['value'] = pd.Series(list(map(set,df.values.T)),index=df.columns)

display(df_info)

Unnamed: 0,unique,type,value
client_id,1138,object,"{2,37496E+11, 2,37074E+11, 2,37334E+11, 2,38532E+11, 2,37118E+11, 2,39464E+11, 2,3768E+11, 2,39734E+11, 2,38936E+11, 2,39997E+11, 2,37631E+11, 2,3888E+11, 2,37299E+11, 2,37455E+11, 2,38951E+11, 2,39984E+11, 2,37388E+11, 2,37131E+11, 2,38598E+11, 2,37167E+11, 2,37557E+11, 2,38538E+11, 2,37175E+11, 2,37629E+11, 2,38503E+11, 2,37649E+11, 2,3784E+11, 2,37528E+11, 2,37399E+11, 2,39525E+11, 2,37867E..."
sessionId,7383,object,"{c812dbc-bf8f-4eff-93e4-557b852d0b03, c8539ed-9083-4d0b-b438-11386221181b, 6c41e6d-e60a-4938-b4b6-d1608422b59c, 8b0c2800-3d1b-4b92-b0ac-93384651f7fe, 2aac74c-bbde-4469-9f16-62db1830e1f7, bfd72313-0bff-4099-950b-98150efbd276, 4874198d-0fb2-4fef-9b1c-59535390bdca, 85bd162-5b6c-49b6-a28d-9cd5beb60b03, 866ba69-2b0b-467c-97d9-c2986b85acdd, 840826d9-1010-48b5-a9bb-5c8096de90b6, deceb393-03a8-4df8-92..."
datetime,11,object,"{02.05.2021, 04.05.2021, 16.05.2021, 02.06.2021, 09.06.2021, 11.06.2021, 01.05.2021, 16.06.2021, 01.06.2021, 04.06.2021, 17.06.2021}"
status,2,object,"{INCORRECT, CORRECT}"
category,14,object,"{default, sms-info_off_web, otp-login, limit_set_web, transfer_acc_web, cc-contract-sign_web, sms-info_on_web, operation-name_web, sms-info_phone_web, credit-contract-sign_web, payment_card_web, transfer-p2p_card_web, transfer-free_acc_web, transfer_card_web}"


**Вывод проверки данных**  
Данные пригодны для последующей работы:  
- нет пропущенных значений,
- 533 полных дубликата данных из 10164 строк данных - вызывает вопросы, но задачи чистить данные нет,
- нет схожих наименований среди уникальных значений status и category,
- все данные в нужном формате кроме даты - исправим это.

In [5]:
# Конвертируем правильный формат даты.

df['datetime'] = pd.to_datetime(df['datetime'],format='%d.%m.%Y')

# Посмотрим на данные.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10164 entries, 0 to 10163
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   client_id  10164 non-null  object        
 1   sessionId  10164 non-null  object        
 2   datetime   10164 non-null  datetime64[ns]
 3   status     10164 non-null  object        
 4   category   10164 non-null  object        
dtypes: datetime64[ns](1), object(4)
memory usage: 397.2+ KB


In [6]:
# Все отлично. Заливаем таблицу в sql.

from sqlalchemy import create_engine
con = create_engine('postgresql+psycopg2://fnvidjvc:bvCt7HVPVhjmphQGbtgw0W_RcyyQoxih@hattie.db.elephantsql.com/fnvidjvc')

df.to_sql('otp_session_id', con, index=False, if_exists='replace', method='multi')

10164

In [7]:
# Посмотрим на получившуюся таблицу через sql.

sql = '''
SELECT 
*
FROM otp_session_id
'''

In [8]:
pd.read_sql(sql, con)

Unnamed: 0,client_id,sessionId,datetime,status,category
0,"2,37723E+11",1af2a994-0039-4d92-bb78-c217a50ab82a,2021-05-04,CORRECT,default
1,"2,3765E+11",148b3ffb-ee4c-4f5b-9098-436993a0ade0,2021-05-04,CORRECT,default
2,"2,37614E+11",84a0ac11-f876-4e16-9b3d-b548f809eb46,2021-05-16,CORRECT,otp-login
3,"2,37413E+11",79396f39-b31a-465b-91f6-1c7f2a08dfe8,2021-05-04,CORRECT,operation-name_web
4,"2,37179E+11",c624f6cd-54ef-4099-b433-cd80f4071301,2021-05-04,CORRECT,otp-login
...,...,...,...,...,...
10159,"2,37E+11",e8f5331-6349-47d5-ac73-495a287fd16d,2021-06-17,CORRECT,otp-login
10160,"2,40E+11",35edc5b-b0bd-4eb5-8d39-c880ece9dab8,2021-06-17,CORRECT,otp-login
10161,"2,37E+11",d64fa9a-71f9-418d-a862-ea48bb8f0235,2021-06-17,CORRECT,otp-login
10162,"2,37E+11",f276d6d-8ac9-4765-a4c0-565736d41a95,2021-06-17,INCORRECT,default


In [9]:
# Проверим форматы данных.

sql = '''
SELECT
column_name
, data_type
FROM information_schema.columns
WHERE table_name = 'otp_session_id'
'''

In [10]:
pd.read_sql(sql, con)

Unnamed: 0,column_name,data_type
0,client_id,text
1,sessionId,text
2,datetime,timestamp without time zone
3,status,text
4,category,text


Можно приступать к задачам.

---

**ЗАДАНИЕ 1**  
Показать категорию, по которой было введено наибольшее число кодов

In [11]:
sql = '''
SELECT
otp.category
FROM otp_session_id as otp
GROUP BY otp.category
HAVING count(otp.category) = (SELECT count(*) FROM otp_session_id GROUP BY category ORDER BY count(*) desc LIMIT 1)
'''

In [12]:
pd.read_sql(sql, con)

Unnamed: 0,category
0,otp-login


**Вывод**: самая популярная категория в базе - otp-login.

---

**ЗАДАНИЕ 2**  
Добавить индикатор, который будет выделять следующие значения:  
- Если otp для категории платежей (payment), то - 1  
- Если otp для категории переводов (transfer), но не для переводов с использованием счетов (acc), то - 2  
Все остальные заявки не должны попасть в результат выполнения запроса.  

In [13]:
sql = '''
SELECT
otp.*
FROM (
        SELECT
        *,
        CASE
            WHEN category LIKE '%%payment%%' THEN '-1'
            WHEN category LIKE '%%transfer%%' AND category NOT LIKE '%%acc%%' THEN '-2'
            ELSE NULL
            END as flag
        FROM otp_session_id
    ) as otp
WHERE flag IN ('-1', '-2')
'''

In [14]:
pd.read_sql(sql, con)

Unnamed: 0,client_id,sessionId,datetime,status,category,flag
0,"2,38519E+11",7fb5144e-458f-4556-a624-c2c4b6920b3f,2021-05-04,CORRECT,transfer_card_web,-2
1,"2,37788E+11",f8fb0b85-e525-4fcf-b242-791c35a3c20b,2021-05-04,CORRECT,payment_card_web,-1
2,"2,37098E+11",2b2d3d29-d35d-402e-bddd-028113928736,2021-05-04,CORRECT,transfer-p2p_card_web,-2
3,"2,37246E+11",d321701a-60f9-455b-a60a-7b62919ead6b,2021-05-04,CORRECT,payment_card_web,-1
4,"2,37683E+11",8832ef3a-b9ec-47e6-aa02-0f697f684815,2021-05-04,CORRECT,payment_card_web,-1
...,...,...,...,...,...,...
1583,"2,38E+11",8ba90f4-a806-42e2-a554-94b972fe78cd,2021-06-17,CORRECT,payment_card_web,-1
1584,"2,37E+11",46b3426-0ca5-4e6c-9ee8-24f00b2d5b92,2021-06-17,CORRECT,payment_card_web,-1
1585,"2,37E+11",78583b7-18fc-4afa-b3d4-03b705aee69f,2021-06-17,CORRECT,payment_card_web,-1
1586,"2,37E+11",05bd069-b795-46fb-a6b8-d36baa3fdaf4,2021-06-17,CORRECT,payment_card_web,-1


**Вывод**: промаркированы соответствующие категории, их в базе - 1588.

---

**ЗАДАНИЕ 3**  
Посчитать метрику Month-of-Month (прирост текущего месяца к предыдущему) по уникальным клиентам с кодами otp-login.

In [15]:
sql = '''
with t as (
SELECT
cast(date_trunc('month', datetime) as date) as month
, count(DISTINCT client_id) cnt_uniq
FROM otp_session_id otp
WHERE category = 'otp-login'
GROUP BY cast(date_trunc('month', datetime) as date)
)
select
concat(t1.month, ' -> ', t2.month) as month
, (t2.cnt_uniq * 1.0  / t1.cnt_uniq * 1.0) as Month_of_Month 
from t t1
inner join t t2 on t1.month < t2.month
'''

In [16]:
pd.read_sql(sql, con)

Unnamed: 0,month,month_of_month
0,2021-05-01 -> 2021-06-01,0.775489


**Вывод**: в июне уникальных клиентов было меньше, чем в мае (на ~30%).  

---

**ЗАДАНИЕ 4**  
Одним запросом сформируйте:  
- Количество успешно введённых ОТП кодов в разрезе категории кода ОТП  
- Долю каждой категории по убыванию  
- Количество с накопительным итогом  
- Общее количество введённых ОТП кодов  
- Последний отчётный месяц (полный месяц, от текущего)  

In [17]:
sql = '''
SELECT
f.category,
f.correct_cnt_cat,
f.share_cat,
sum(f.all_cnt) OVER (ORDER BY f.share_cat desc ROWS BETWEEN unbounded preceding and current row) as cum_cnt_cat,
f.all_cnt,
CASE 
    WHEN cast(date_trunc('month', f.date) as date) <  cast(date_trunc('month', date'2021-06-01') as date)
    THEN cast(date_trunc('month', f.date) as date)
    ELSE lag(cast(date_trunc('month', f.date) as date)) over(order by f.date)
    END as last_full_month
FROM (
        SELECT
        otp.category,
        sum(CASE WHEN status = 'CORRECT' THEN 1 ELSE 0 END) as correct_cnt_cat,
        count(otp.category)*1.0 / (SELECT count(*) FROM otp_session_id) as share_cat,
        count(otp.category) as all_cnt,
        max(otp.datetime) as date
        FROM otp_session_id as otp
        GROUP BY otp.category
    ) as f
ORDER BY f.share_cat desc
'''

In [18]:
pd.read_sql(sql, con)

Unnamed: 0,category,correct_cnt_cat,share_cat,cum_cnt_cat,all_cnt,last_full_month
0,otp-login,5497,0.556179,5653.0,5653,2021-06-01
1,default,1979,0.206218,7749.0,2096,2021-06-01
2,payment_card_web,1207,0.122098,8990.0,1241,2021-06-01
3,operation-name_web,621,0.063164,9632.0,642,2021-06-01
4,transfer-p2p_card_web,217,0.02194,9855.0,223,2021-06-01
5,transfer_card_web,117,0.0122,9979.0,124,2021-06-01
6,transfer-free_acc_web,115,0.012003,10101.0,122,2021-06-01
7,sms-info_off_web,32,0.003247,10134.0,33,2021-06-01
8,credit-contract-sign_web,11,0.001082,10145.0,11,2021-06-01
9,limit_set_web,8,0.000787,10153.0,8,2021-06-01


**Вывод**: получилось одним запросом вывести всю информацию.  