# Настройка ноутбука

In [4]:
import pandas as pd
import numpy as np
from sklearn import datasets
import datetime as dt

from pandasql import sqldf

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# Описание

# Виды join-ов

<img src="../../img/sql_joins.PNG" width="500">

INNER JOIN — возвращает записи, имеющиеся в обеих таблицах

LEFT JOIN — возвращает записи из левой таблицы, даже если такие записи отсутствуют в правой таблице

RIGHT JOIN — возвращает записи из правой таблицы, даже если такие записи отсутствуют в левой таблице

FULL JOIN — возвращает все записи объединяемых таблиц

CROSS JOIN — возвращает все возможные комбинации строк обеих таблиц

SELF JOIN — используется для объединения таблицы с самой собой

# Практики

## Объединение таблиц

```sql
select
    t1.val, t2.val, t3.val, ...
from
         table1 t1
    join table2 t2 on t1.id = t2.id
    join table3 t3 on t2.id = t3.id
```

#### Примеры задач

- [Stratascratch: Number Of Units Per Nationality - Medium](https://platform.stratascratch.com/coding/10156-number-of-units-per-nationality?code_type=1)
- [Stratascratch: Income By Title and Gender - Medium](https://platform.stratascratch.com/coding/10077-income-by-title-and-gender?tabname=solutions)
- [Stratascratch: Distances Traveled - Medium](https://platform.stratascratch.com/coding/10324-distances-traveled/solutions?code_type=1)
- [Stratascratch: Expensive Projects - Medium](https://platform.stratascratch.com/coding/10301-expensive-projects?code_type=1)

## Перебор комбинаций - self join

Порой возникает необходимость выделить строки в таблице по разнице определенного параметра между ними (хронологического или количественного). 
В таких случаях подойдет такое решение: 
- получить комбинации строк через self merge, 
- посчитать искомый параметр и 
- отсортировать по нему
- ограничить количество строк

При этом нужно добавить два фильтра:

1) Идентификаторы объединяемых таблиц не должны совпадать - это исключит комбинации одинаковых строк

2) Значение одной из строк должно быть больше или равно чем другое - это исключит обратный комбинации строк (a - b = 30, b - a = -30)

**Замечание:** Второй вильтр допускает одну неточность. Как быть со строками разница между которыми равна нулю? Второй фильтр в этом случаи не исключит обратные комбинации. Если же сделать, чтобы одна строка была строго больше второй, тогда эти строки вообще не попадут в выборку. 

### Вариант 1 - join on

```sql
select 
    a.id as a_id, b.id as b_id, b.val - a.val as diff
from

    table a join table b on a.id != b.id and b.val >= a.val
order by a_id asc, diff asc
limit 1
```

### Вариант 2 - cross join

```sql
select 
    a.id as a_id, b.id as b_id, b.val - a.val as diff
from

    table a cross join table b where a.id != b.id and b.val >= a.val
order by a_id asc, diff asc
limit 1
```

#### Примеры задач

- [Interviewquery: Closest SAT Scores - Medium](https://www.interviewquery.com/questions/closest-sat-scores)
- [Stratascratch: Finding User Purchases - Medium](https://platform.stratascratch.com/coding/10322-finding-user-purchases?code_type=1)
- [Stratascratch: Find matching hosts and guests in a way that they are both of the same gender and nationality - Medium](https://platform.stratascratch.com/coding/10078-find-matching-hosts-and-guests-in-a-way-that-they-are-both-of-the-same-gender-and-nationality?code_type=1)
- [Stratascratch: Employee and Manager Salaries - Medium](https://platform.stratascratch.com/coding/9894-employee-and-manager-salaries?tabname=question)