# Настройка ноутбука

In [2]:
import pandas as pd
import numpy as np
from sklearn import datasets
import datetime as dt

from pandasql import sqldf

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Расширить рабочее поле ноутбука на весь экран
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# Описание

Ноутбук формализует основные концепты языка SQL. Приведены основные практики с примерами задач, где они могут использоваться 

## Ресурсы

[7 Advanced SQL Concepts You Need to Know!](https://medium.com/dp6-us-blog/7-advanced-sql-concepts-you-need-to-know-45fa149ba0b0)

# Концепты

## Порядок выполнения команд - execution order

Python - это императивный язык программирования, в нем мы описываем **как** сделать то, что нам нужно. А SQL это декларативный язык, в нем мы описываем **что** хотим получить. Разница между этими двумя подходами проявляется в последновательности исполнения комманд. В SQL они выполняются не в порядке их ввода (как в питоне), а в строго заданной последовательности:

[Ресурс](https://techrocks.ru/2021/03/05/order-of-sql-operations/)

1. FROM (выбор таблицы) / JOIN (комбинация с подходящими по условию данными из второй таблицы)
2. WHERE (фильтрация строк)
3. GROUP BY (агрегирование данных)
4. HAVING (фильтрация агрегированных данных)
5. SELECT (возврат результирующего датасета) / CASE (if-else выражения) / OVER () (оконные функции)
6. DISTINCT
7. UNION (объединение )
8. ORDER BY (сортировка)
9. LIMIT, TOP OFFSET

Как правило, запрос исполняется именно в такой последовательности.

Однако, в последних SQL-диалектах допускаются отходы от этой последовательности. Так в SQLite можно использовать в GROUP BY обозначения из SELECT. Хотя по идее это равносильно обращению к еще не заданной переменной. Это видно на примере ниже:

### Пример

In [4]:
df = pd.DataFrame({
    'name': ['Robert', 'Rojer', 'Rex', 'Alex', 'Jason', 'Thomas', 'Tobias'],
})
df.head()

Unnamed: 0,name
0,Robert
1,Rojer
2,Rex
3,Alex
4,Jason


In [5]:
# Почему это работает?
query = """
select
      substr(name, 1, 1) as first_letter
    , count(1) as n_rows
from
    df
group by 
    first_letter
order by
    n_rows desc
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,first_letter,n_rows
0,R,3
1,T,2
2,A,1
3,J,1


In [6]:
query = """
select
      substr(name, 1, 1) as first_letter
    , count(name) as n_rows
from
    df
group by 
    substr(name, 1, 1)
order by
    n_rows desc
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,first_letter,n_rows
0,R,3
1,T,2
2,A,1
3,J,1


## Функции агрегации

Позволяют находить агрегаты (числовые характеристики) по группе значений, например максимальное, минимальное или среднее значение. Активно используются вместе с группировками. Подробнее об этом [здесь](https://github.com/Saxsafon/Analysis/blob/master/Processing/SQL/Groupby.ipynb).

### Посчитать основные статистики выборки

**Минимум, среднее, медиана, максимум:**

```sql
select 
    cat, min(val), avg(val), median(val), max(val) 
from data 
group by cat
```

**Квартили:**

```sql
select
      cat
    , round(percentile_cont(0)    within group (order by val)) as q0_min
    , round(percentile_cont(0.25) within group (order by val)) as q25
    , round(percentile_cont(0.5)  within group (order by val)) as q50_median
    , round(percentile_cont(0.75) within group (order by val)) as q75
    , round(percentile_cont(1)    within group (order by val)) as q100_max
from data
group by cat
order by q50_median desc
```

### Определить размах

Разницу между максимальным и минимальным значением (сумм значений-колонок):

```sql
select max(val1 + val2 + val3) - min(val1 + val2 + val3) from data
```

#### Примеры задач:

- [Stratascratch: Class Performance - Medium](https://platform.stratascratch.com/coding/10310-class-performance?code_type=1)

## Подзапросы - subqueries

Есть три основных способа использования подзапросов:

### 1) Как источник данных для основного запроса

Эта практика обычно используется для получения подмножества или фильтрации записей.

```sql
select
    val1, val2, ...
from (select val1, val2, ... from data where val1 == 'A') df
```

#### Пример

In [7]:
df = pd.DataFrame({
    'name': ['Robert', 'Robert', 'Rex'],
    'surname': ['Pattison', 'Paulson', 'Roberts']
})

df.head()

Unnamed: 0,name,surname
0,Robert,Pattison
1,Robert,Paulson
2,Rex,Roberts


In [8]:
query = """
select
      surname
    , count(surname) as n_students
from
    (select surname from df where name = 'Robert') as t
group by 
    t.surname
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,surname,n_students
0,Pattison,1
1,Paulson,1


Технически мы неограничены в количестве уровней подзапросов. Однако читаемость кода уменьшается с каждым уровнем.

### 2) Внутри списка колонок выбранных в select-е

Это может быть полезно, когда для расчета нужных метрик необходимы данные из другой таблицы, при этом не хочется их объединять.

Либо, когда нужно получить сумму для рассчета процентов

```sql
select 
      id
    , sum(val)*100/(select sum(val) from data) as pct
from data
group by id  
```

#### Пример

In [9]:
students = pd.DataFrame({
    'std_id': [1, 2, 3, 4, 5, 6],
    'name': ['Robert Pattison', 'Robert Paulson', 'Rex Roberts', 'Thomas Edison', 'Bonny Bones', 'Elison Woods'],
})

students.head()

Unnamed: 0,std_id,name
0,1,Robert Pattison
1,2,Robert Paulson
2,3,Rex Roberts
3,4,Thomas Edison
4,5,Bonny Bones


In [10]:
presence = pd.DataFrame({
    'std_id': [
        1, 2, 3, 4, 5, 6,
        1, 2, 3, 4, 5, 6,
        1, 2, 3, 4, 5, 6,
    ],
    'lesson_id': [
        1, 1, 1, 1, 1, 1,
        2, 2, 2, 2, 2, 2,
        3, 3, 3, 3, 3, 3,
    ],
    
    'is_present': [
        True, False, False, True, True, True,
        True, True, True, True, True, True,
        False, True, True, True, True, False,
    ],
})

presence.head()

Unnamed: 0,std_id,lesson_id,is_present
0,1,1,True
1,2,1,False
2,3,1,False
3,4,1,True
4,5,1,True


In [11]:
exams = pd.DataFrame({
    'std_id': [
        1, 2, 3, 4, 5, 6,
        1, 2, 3, 4, 5, 6,
    ],
    'exam_id': [
        1, 1, 1, 1, 1, 1,
        2, 2, 2, 2, 2, 2,
    ],
    'grade': [
        5, 2, 3, 4, 3, 5,
        4, 4, 4, 5, 4, 5,
    ],
})

exams.head()

Unnamed: 0,std_id,exam_id,grade
0,1,1,5
1,2,1,2
2,3,1,3
3,4,1,4
4,5,1,3


In [12]:
query = """
select
     name
    , (
        select avg(grade)
        from exams e
        where s.std_id = e.std_id
    
    ) as average_grades
    
    , (
        select count(is_present)
        from presence p
        where s.std_id = p.std_id and p.is_present = True
    ) as quantity_of_presence
from
    students s
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,name,average_grades,quantity_of_presence
0,Robert Pattison,4.5,2
1,Robert Paulson,3.0,2
2,Rex Roberts,3.5,2
3,Thomas Edison,4.5,3
4,Bonny Bones,3.5,3
5,Elison Woods,5.0,2


#### Примеры задач

- [Stratascratch: Popularity Percentage - Hard](https://platform.stratascratch.com/coding/10284-popularity-percentage?tabname=question)

### 3) Как внешний фильтр запроса

```sql
select
    id, val1, val2, ...
from data
where id in (select id from data where cat = True)
```

Чтобы отфильтровать данные по нескольким полям, нужно перечислеть их в скобках:

```sql
select
    id, val1, val2, ..., val
from data
where (id, val) in (select id, max(val) from data group by id)
```

#### Пример

In [13]:
students = pd.DataFrame({
    'std_id': [1, 2, 3, 4, 5, 6],
    'name': ['Robert Pattison', 'Robert Paulson', 'Rex Roberts', 'Thomas Edison', 'Bonny Bones', 'Elison Woods'],
})

students.head()

Unnamed: 0,std_id,name
0,1,Robert Pattison
1,2,Robert Paulson
2,3,Rex Roberts
3,4,Thomas Edison
4,5,Bonny Bones


In [14]:
presence = pd.DataFrame({
    'std_id': [
        1, 2, 3, 4, 5, 6,
        1, 2, 3, 4, 5, 6,
        1, 2, 3, 4, 5, 6,
    ],
    'lesson_id': [
        1, 1, 1, 1, 1, 1,
        2, 2, 2, 2, 2, 2,
        3, 3, 3, 3, 3, 3,
    ],
    
    'is_present': [
        True, False, False, True, True, True,
        True, True, True, True, True, True,
        False, True, True, True, True, False,
    ],
})

presence.head()

Unnamed: 0,std_id,lesson_id,is_present
0,1,1,True
1,2,1,False
2,3,1,False
3,4,1,True
4,5,1,True


In [15]:
query = """
select
      std_id
    , name
from
    students
where
    std_id in (select std_id from presence where is_present = True)
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,std_id,name
0,1,Robert Pattison
1,2,Robert Paulson
2,3,Rex Roberts
3,4,Thomas Edison
4,5,Bonny Bones
5,6,Elison Woods


В большинстве случаев можно добиться тех же результатов не прибегая к подзапросам, а используя join-ы. Однак, если основной запрос явно не использует колонки из другой таблицы, лучше воспользоваться постзапросами, поскольку процедура объединения довольно затратна.

#### Примеры задач

- [Stratascratch: Finding Updated Records - Easy](https://platform.stratascratch.com/coding/10299-finding-updated-records?tabname=question)
- [Stratascratch: Find all posts which were reacted to with a heart - Easy](https://platform.stratascratch.com/coding/10087-find-all-posts-which-were-reacted-to-with-a-heart?tabname=solutions)
- [Stratascratch: Top Cool Votes - Medium](https://platform.stratascratch.com/coding/10060-top-cool-votes?tabname=solutions)
- [Stratascratch: Workers With The Highest Salaries - Medium](https://platform.stratascratch.com/coding/10353-workers-with-the-highest-salaries?code_type=1)
- [Stratascratch: Highest Target Under Manager - Medium](https://platform.stratascratch.com/coding/9905-highest-target-under-manager?tabname=question)
- [Stratascratch: Highest Energy Consumption - Medium](https://platform.stratascratch.com/coding/10064-highest-energy-consumption?tabname=solutions)
- [Stratascratch: Highest Cost Orders - Medium](https://platform.stratascratch.com/coding/9915-highest-cost-orders?code_type=1)
- [Stratascratch: Highest Salary In Department - Medium](https://platform.stratascratch.com/coding/9897-highest-salary-in-department?tabname=solutions)
- [Stratascratch: Population Density - Medium](https://platform.stratascratch.com/coding/10368-population-density?code_type=1)

## Case

### Фильтрование значений перед агрегированием - Filtering values before aggregating

Хорошее решение, когда нужно подсчитать сумму по определенной категории значений:
```sql
select sum(case where cat=True then value end) from data
```

Это будет работать вместе с группировкой или оконной функцией:
```sql
select sum(case where cat=True then value end) from data group by date
```
```sql
select sum(case where cat=True then value end) over (partition by date) from data
```

Можно применять сразу несколько условий. Пригодится в случаях, когда нужно подсчитать, например, разность агрегатов за различные периоды:

```sql 
select 
      date
    , sum(
    case 
        when year=2020 then 1 
        when year=2019 then -1
        else 0
    end
    ) as value
from data 
group by date
```

#### Примеры задач

- [Stratascratch: Salaries Differences - Easy](https://platform.stratascratch.com/coding/10308-salaries-differences?tabname=solutions)
- [Stratascratch: Find the rate of processed tickets for each type - Medium](https://platform.stratascratch.com/coding/9781-find-the-rate-of-processed-tickets-for-each-type?tabname=solutions)
- [Stratascratch: New Products - Medium](https://platform.stratascratch.com/coding/10318-new-products?code_type=1)
- [Stratascratch: Premium vs Freemium - Hard](https://platform.stratascratch.com/coding/10300-premium-vs-freemium?tabname=solutions)
- [Stratascratch: Algorithm Performance - Hard](https://platform.stratascratch.com/coding/10350-algorithm-performance?code_type=1)

### Введение колонки категориального признака - Introduction of a categorical attribute column

```sql
select
      id
    , (
        case
            when val = 0 then 'zero'
            when val between 1 and 5 then '1-5'
            when val > 5 then '>5'
        end
    ) as new_cat
    , ...
from data
```

#### Примеры задач

- [Stratascratch: Classify Business Type - Medium](https://platform.stratascratch.com/coding/9726-classify-business-type?tabname=question)
- [Stratascratch: Host Popularity Rental Prices - Hard](https://platform.stratascratch.com/coding/9632-host-popularity-rental-prices?code_type=1)

### Подсчет процентов

Чтобы посчитать процент значений, которые отличаются от общего количества, можно использовать case + group by.

```sql
select 
    group_name, sum(case when val > 1000 then 1 else 1 end)/count(id) as percentage
from df
group by group_name
```

Иногда требуется округлить проценты до второго знака после запятой. Для этого можно использовать функцию round(), однако нужно не забыть обозначить тип данных числителя на numeric. Иначе эта функция вернет 0.

```sql
select 
    group_name, round(sum(case when val > 1000 then 1 else 1 end)::numeric/count(id), 2) as percentage
from df
group by group_name
```

Вместо отношения sum()/count() в этом случае можно просто использовать avg()

```sql
select 
    group_name, avg(case when val > 1000 then 1 else 1 end) as percentage
from df
group by group_name
```

#### Примеры задач: 

- [InterviewQuery: Employee Salaries - Medium](https://www.interviewquery.com/questions/employee-salaries)

## Табличные выражения - Common Table Expressions (CTEs)

Проблема подзапросов в том, что они вредят читаемости запросов. Для решения этой проблемы были введены табличные выражения. Они позволяют инкапсулировать отдельные части запроса в отдельные блоки и обращаться к ним из основного запроса. 

#### Пример

In [127]:
df = pd.DataFrame({
    'name': ['Robert', 'Robert', 'Rex', 'Robert'],
    'surname': ['Pattison', 'Paulson', 'Roberts', 'De Niro']
})

df.head()

Unnamed: 0,name,surname
0,Robert,Pattison
1,Robert,Paulson
2,Rex,Roberts
3,Robert,De Niro


In [128]:
query = """
with robert_table as (
    select surname from df where name = 'Robert'
)

select
      surname
    , count(surname) as n_students
from
    robert_table
group by 
    robert_table.surname
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,surname,n_students
0,De Niro,1
1,Pattison,1
2,Paulson,1


In [129]:
query = """
with 

robert_table as (
    select surname from df where name = 'Robert'
),

surname_count as (
    select 
          surname
        , count(surname) as n_students 
    from 
        robert_table 
    group by 
        robert_table.surname
)


select
      surname
    , n_students
from 
    surname_count
where
    surname like 'P%'
      
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,surname,n_students
0,Pattison,1
1,Paulson,1


Особенность CTE в том, что после создания мы можем обащаться к каждому блоку из основного заброса. Что позволяет сильно его упростить.
Однако это работает только для первого запроса. Если выполнить сразу два запроса подряд, то второй выведет ошибку.

<img src="../../data/img/CTE.PNG" width="800">

#### Прмеры задач

- [Stratascratch: Users By Average Session Time - Medium](https://platform.stratascratch.com/coding/10352-users-by-avg-session-time?tabname=question)
- [Income By Title and Gender](https://platform.stratascratch.com/coding/10077-income-by-title-and-gender?tabname=solutions)
- [VC.RU: Полезные оконные функции](https://vc.ru/dev/130856-poleznye-okonnye-funkcii-sql)

## Оконные функции - window functions

В SQL есть несколько типов функций. Скалярные функции принимают на вход одно значение и возвращают тоже одно (например concat, upper, lower). Агрегирующие функции принимают на вход набор значений и возращают одно значение (sum, min, max, avg и т.д.). 

Есть также третий тип функций, которые принимают на вход набор строк, выполняют преобразования в контексте этого набора и возвращают приобразованные значения  - это оконные функции (RANK, DENSE_RANK, ROW_NUMBER). 

<img src="../data/img/window_functions.PNG" width="800">

### Синтаксис

```sql
<название функции>(<выражение>) OVER (
    <окно>
  <сортировка>
  <границы окна>
)
```

```sql
select 
    id, date
    , avg(time) over(partition by id order by date rows between 1 preceding and current row) 
    as avg_time
FROM data
```

```sql
ROWS BETWEEN 1 PRECEDING AND CURRENT ROW
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
ROWS BETWEEN 15 PRECEDING AND 15 FOLLOWING
```

### Виды оконных функций

Оконные функции делятся на:
- Агрегатные функции
- Ранжирующие функции
- Функции смещения
- Аналитические функции

---
**Агрегатные функции - Aggregate functions**

Собственно, те же, что и обычные, только встроенные в конструкцию с OVER: 

SUM, AVG, COUNT, MIN, MAX

---
**Ранжируемые функции - Numbering functions**

ROW_NUMBER() — нумерует строки в результирующем наборе.

RANK() — присваивает ранг для каждой строки, если найдутся одинаковые значения, то следующий ранг присваивается с пропуском.

DENSE_RANK() — присваивает ранг для каждой строки, если найдутся одинаковые значения, то следующий ранг присваивается без пропуска.

PERCENT_RANK() - присваивает персентиль значений.


NTILE() — помогает разделить результирующий набор на группы.

---
**Функции смещения / навигации -  Navigation functions**

Используется в случаях, когда нужно обратиться к строке в наборе данных из окна с некоторым смещением относительно текущей строки.

LAG() — смещение назад

LEAD() — смещение вперед

LAG() и LEAD() имеют следующие аргументы:
    - Столбец, значение которого необходимо вернуть
    - На сколько строк выполнить смешение (дефолт =1)
    - Что вставить, если вернулся NULL
    

FIRST_VALUE() — найти первое значение набора данных

LAST_VALUE() — найти последнее значение набора данных

#### Примеры задач

- [Stratascratch:Finding User Purchases - Medium](https://platform.stratascratch.com/coding/10322-finding-user-purchases?code_type=1)
- [Stratascratch: Marketing Campaign Success [Advanced] - Hard](https://platform.stratascratch.com/coding/514-marketing-campaign-success-advanced?tabname=question)

### Пример

In [5]:
exams = pd.DataFrame({
    'name': [
        'Robert Pattison', 'Robert Paulson', 'Rex Roberts', 'Thomas Edison', 'Bonny Bones', 'Elison Woods',
        'Robert Pattison', 'Robert Paulson', 'Rex Roberts', 'Thomas Edison', 'Bonny Bones', 'Elison Woods',
    ],
    'exam_id': [
        1, 1, 1, 1, 1, 1,
        2, 2, 2, 2, 2, 2,
    ],
    'grade': [
        5, 2, 3, 4, 3, 5,
        4, 4, 4, 5, 4, 5,
    ],
})

exams.head()

Unnamed: 0,name,exam_id,grade
0,Robert Pattison,1,5
1,Robert Paulson,1,2
2,Rex Roberts,1,3
3,Thomas Edison,1,4
4,Bonny Bones,1,3


In [6]:
query = """
select 
      row_number() over () as row_number
    , name
    , grade
FROM 
    exams
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,row_number,name,grade
0,1,Robert Pattison,5
1,2,Robert Paulson,2
2,3,Rex Roberts,3
3,4,Thomas Edison,4
4,5,Bonny Bones,3
5,6,Elison Woods,5
6,7,Robert Pattison,4
7,8,Robert Paulson,4
8,9,Rex Roberts,4
9,10,Thomas Edison,5


In [132]:
query = """
select
      row_number() over (partition by name) as row_number
    , name
    , grade
FROM 
    exams
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,row_number,name,grade
0,1,Bonny Bones,3
1,2,Bonny Bones,4
2,1,Elison Woods,5
3,2,Elison Woods,5
4,1,Rex Roberts,3
5,2,Rex Roberts,4
6,1,Robert Pattison,5
7,2,Robert Pattison,4
8,1,Robert Paulson,2
9,2,Robert Paulson,4


### Посчитать процентное изменение

```sql 
select 
      to_char(created_at::date, 'YYYY-MM') as year_month
    , round(
        (sum(value) - lag(sum(value),1) over (w)) *100/lag(sum(value),1) over (w), 2
    ) as revenue_diff
from df
group by year_month
window w as (order by to_char(created_at::date, 'YYYY-MM'))
```

#### Прмеры задач

- [Stratascratch: Monthly Percentage Difference - Hard](https://platform.stratascratch.com/coding/10319-monthly-percentage-difference?tabname=question)

### Отранжировать агрегаты

```sql 
select 
      id_col
    , sum(value_col) as values_sum
    , dense_rank() over (order by sum(value_col) desc)
from df
group by id_col
```

#### Примеры задач:

- [Stratascratch: Ranking Most Active Guests - Medium](https://platform.stratascratch.com/coding/10159-ranking-most-active-guests?tabname=question)
- [Stratascratch: Activity Rank - Medium](https://platform.stratascratch.com/coding/10351-activity-rank/solutions?code_type=1)
- [Stratascratch: Find the top 5 cities with the most 5 star businesses - Medium](https://platform.stratascratch.com/coding/10148-find-the-top-10-cities-with-the-most-5-star-businesses?code_type=1)
- [Stratascratch: Most Checkins - Medium](https://platform.stratascratch.com/coding/10053-most-checkins/solutions?code_type=1)

### Отранжировать значения 

ROW_NUMBER() — нумерует строки в результирующем наборе.

RANK() — присваивает ранг для каждой строки, если найдутся одинаковые значения, то следующий ранг присваивается с пропуском.

DENSE_RANK() — присваивает ранг для каждой строки, если найдутся одинаковые значения, то следующий ранг присваивается без пропуска.

PERCENT_RANK() - присваивает персентиль значений.

...В каждой группе (от максимального к минимальному)

```sql 
select
      dense_rank() over (partition by gr order by val desc), gr, val
from df
```

### Посчитать персентиль значения (в контексте групп)

```sql
select 
      percent_rank() over (partition by group_name order by val asc)
--     , 1 - ntile(100) over (partition by state order by fraud_score desc)/100::decimal as percentile
from data
```

#### Примеры задач:

- [Stratascratch: Top Percentile Fraud - Medium](https://platform.stratascratch.com/coding/10303-top-percentile-fraud?code_type=1)
- [Stratascratch: Ranking Hosts By Beds - Medium](https://platform.stratascratch.com/coding/10161-ranking-hosts-by-beds/solutions?code_type=1)
- [Stratascratch: Start Dates Of Top Drivers - Medium](https://platform.stratascratch.com/coding/10083-start-dates-of-top-drivers?code_type=1)

### Выделить первую, последнюю и n-ную строку 

Вывести первое, последнее и n-ное значение в группе 

```sql
select 
      distinct gr
    , first_value(val) over w as first
    , last_value(val) over w as last 
    , nth_value(val, {n}) over w as nth
from data
window w as (partition by gr)
```

#### Альтернативные решения

##### Выделить n-ную строку

```sql
select 
    gr, val
from (
    select
          gr 
        , row_number() over (partition by gr) as row_number
        , val
    FROM data
)
where row_number = {n}
```

##### Выделить последнюю строку

```sql
with ordered_data as (
    select *, row_number() over () as order_column from data
)

select 
    gr, val
from (
    select *, row_number() over (partition by group_col order by order_column desc) as row_number
    from ordered_data
) subquery
where 
    row_number = 1
```

#### Пример

In [23]:
data = pd.DataFrame({
    'gr': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'C'],
    'val': ['a1','a2', 'a3', 'b1', 'b2', 'c1', 'c2', 'c3'],
})

data.head()

Unnamed: 0,gr,val
0,A,a1
1,A,a2
2,A,a3
3,B,b1
4,B,b2


In [24]:
n = 2

query = f"""

select 
      distinct gr
    , first_value(val) over w as first
    , last_value(val) over w as last 
    , nth_value(val, {n}) over w as nth
from data
window w as (partition by gr)
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,gr,first,last,nth
0,A,a1,a3,a2
1,B,b1,b2,b2
2,C,c1,c3,c2


In [8]:
n = 3

query = f"""

select 
    gr, val
from (
    select
          gr 
        , row_number() over (partition by gr) as row_number
        , val
    FROM data
)
where row_number = {n}

"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,gr,val
0,A,a3
1,C,c3


In [21]:
query = '''

with ordered_data as (
    select *, row_number() over () as order_column from data
)

select 
    gr, val
from (
    select *, row_number() over (partition by gr order by order_column desc) as row_number
    from ordered_data
) subquery
where 
    row_number = 1
'''

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,gr,val
0,A,a3
1,B,b2
2,C,c3


### Вывести строки с минимальным и максимальным значением

```sql
-- Через cte + union
with 

min_max_vals as (
    (select gr, max(val) as val, 'Highest val' as val_type from data group by gr)
    union all
    (select gr, min(val) as val, 'Lowest val' as val_type from data group by gr)
)

select
    d.worker_id, d.salary, d.department, mm.salary_type
from data d right join min_max_vals mm on d.gr = mm.gr and d.val = mm.val
```

```sql
-- Через cte + window

ranked_vals as (
    select *
        , row_number() over (partition by gr order by val desc) as max_rank
        , row_number() over (partition by gr order by val asc) as min_rank
        , (
        case
            when row_number() over (partition by gr order by val desc) = 1 then 'Highest val'
            when row_number() over (partition by gr order by val asc) = 1 then 'Lowest val' 
        end
        ) as val_type
    from data

)

select 
    data_id, val, gr, val_type
from ranked_vals
where max_rank = 1 or min_rank = 1
```

#### Примеры задач:

- [Stratascratch: Workers With The Highest And Lowest Salaries - Medium](https://platform.stratascratch.com/coding/10152-workers-with-the-highest-and-lowest-salaries/solutions?code_type=1)

### Работа с последовательностями строк

#### Вывести предыдущую, текущую и следующую строки в контексте группы

```sql
select  
      group_col
    , lag(created_at, 1) over (partition by group_col order by created_at asc) as prev_row
    , created_at as cur_row
    , lead(created_at, 1) over (partition by group_col order by created_at asc) as next_row
from data
```

##### Примеры задач:

- [Stratascratch:Finding User Purchases - Medium](https://platform.stratascratch.com/coding/10322-finding-user-purchases?code_type=1)

##### Пример:

In [32]:
transactions = pd.DataFrame({
    'id': [
        1, 2, 3, 4, 
        5, 6, 
        7, 
        8, 9, 10, 11, 12, 
        13, 14, 15
    ],
    'user_id': [
        1, 1, 1, 1, 
        2, 2, 
        3, 
        4, 4, 4, 4, 4, 
        5, 5, 5
    ],
    'created_at': [
        dt.datetime(2023, 4, 21, 14, 0, 0), dt.datetime(2023, 4, 21, 14, 5, 30), dt.datetime(2023, 4, 21, 14, 10, 40), dt.datetime(2023, 4, 21, 17, 10, 40), 
        dt.datetime(2023, 4, 21, 15, 30, 0), dt.datetime(2023, 4, 21, 15, 40, 0), 
        dt.datetime(2023, 4, 22, 13, 25, 25),
        dt.datetime(2023, 4, 21, 16, 0, 0), dt.datetime(2023, 4, 22, 16, 0, 0), dt.datetime(2023, 4, 24, 16, 0, 0), dt.datetime(2023, 4, 26, 16, 0, 0), dt.datetime(2023, 4, 27, 16, 0, 0),
        dt.datetime(2023, 4, 21, 13, 30, 35), dt.datetime(2023, 4, 21, 13, 36, 35), dt.datetime(2023, 4, 21, 15, 20, 38),
    ],
    'amount': [
        5, 6, 10, 2, 
        15, 8, 
        16, 
        13, 2, 3, 9 , 4, 
        4, 9, 3
    ],
})

transactions

Unnamed: 0,id,user_id,created_at,amount
0,1,1,2023-04-21 14:00:00,5
1,2,1,2023-04-21 14:05:30,6
2,3,1,2023-04-21 14:10:40,10
3,4,1,2023-04-21 17:10:40,2
4,5,2,2023-04-21 15:30:00,15
5,6,2,2023-04-21 15:40:00,8
6,7,3,2023-04-22 13:25:25,16
7,8,4,2023-04-21 16:00:00,13
8,9,4,2023-04-22 16:00:00,2
9,10,4,2023-04-24 16:00:00,3


In [40]:
query = '''

select  
      user_id
    , lag(created_at, 1) over (partition by user_id order by created_at asc) as prev_transaction
    , created_at as cur_transaction
    , lead(created_at, 1) over (partition by user_id order by created_at asc) as next_transaction
from transactions
'''

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,user_id,prev_transaction,cur_transaction,next_transaction
0,1,,2023-04-21 14:00:00.000000,2023-04-21 14:05:30.000000
1,1,2023-04-21 14:00:00.000000,2023-04-21 14:05:30.000000,2023-04-21 14:10:40.000000
2,1,2023-04-21 14:05:30.000000,2023-04-21 14:10:40.000000,2023-04-21 17:10:40.000000
3,1,2023-04-21 14:10:40.000000,2023-04-21 17:10:40.000000,
4,2,,2023-04-21 15:30:00.000000,2023-04-21 15:40:00.000000
5,2,2023-04-21 15:30:00.000000,2023-04-21 15:40:00.000000,
6,3,,2023-04-22 13:25:25.000000,
7,4,,2023-04-21 16:00:00.000000,2023-04-22 16:00:00.000000
8,4,2023-04-21 16:00:00.000000,2023-04-22 16:00:00.000000,2023-04-24 16:00:00.000000
9,4,2023-04-22 16:00:00.000000,2023-04-24 16:00:00.000000,2023-04-26 16:00:00.000000


## Скалярные пользовательские функции - User Defined Functions (UDF): Scalar functions

Как и в других языках программирования, в SQL вы также можете инкапсулировать логику в функции, которые принимают параметры, а возвращают значение или набор значений. Пользовательские функции используются в ситуациях, когда нашу задачу нельзя решить с помощью встроенных функций.

Как было сказано ранее, скалярные отличаются тем, что возвращают только одно число.

```sql
create function frequency_students (name_student string) returns int64 as (
    
    select 
        count(1)
    from 
        presence
    where
        name = name_student
        and
        is_present = True
    
);

create function average_students (name_student string) returns float64 as (

    select
        avg(grade)
    from
        exams
    where
        name = name_student

);

select
      std_id
    , name
    , average_students(name) as average_grades
    , frequency_students(name) as quantity_of_presence
from
    students
```

## Табличные пользовательские функции - User Defined Functions (UDF): Table functions

В отличии от скалярных функций, табличные функции принимают параметры и возвращают таблицу вместо одного значения. В отличае от CTE, табличные функции могут использоваться в контексте всей базы, а не только одного запроса.

```sql
create table function count_students_by_surname(name_student string, first_letter_surname string) as (

    with  

    student_filtered_by_name as (
        select surname from students where name = name_student
    ),

    count_of_students_by_surname as (
        select
              surname
            , count(1) as count_students
        from 
            students_filtered_by_name
        group by surname
    )

    select
          surnamae
        , count_students
    from
        count_of_students_by_name
    where
        surname like concat(first_letter_surname, '%')

);

select 
      surname
    , count_students
from
    count_students_by_surname('Robert', 'P')
```

## Временные таблицы - Temporary Tables

Как исходит из названия временные таблицы не хранятся в базе данных, а находятся в кеше и удаляются либо самим пользователем, либо когда закончится сессия.

В отличае от CTE и табличных функций, временные таблицы обладают характеристиками обычных таблиц - в них можно добавлять и удалять строки.

Основная функция временных таблиц - хранить и обрабатывать промежуточные результаты запроса, чтобы оптимизировать время выполнения/выделенные ресурсы более сложного запроса. Например, вместо применения вычислений к таблицам с миллионами строк для получения подмножества данных вы можете сначала отфильтровать это подмножество во временную таблицу, а затем выполнить вычисления. Таким образом, мы работаем только с теми данными, которые нам нужны, и не тратим ресурсы на обработку запросов.

Синтаксис создания временных таблиц похож с созданием обычных. Нужон только добавить temporary после create:

```sql
create temporary table name_of_table as (
    select [columns] from [table]
);
```