##  <center> Соединение таблиц по ключу

### <center> ОБЪЕДИНЯЕМ ТАБЛИЦЫ БЕЗ ОПЕРАТОРОВ

*Чтобы соединить две таблицы между собой, достаточно записать названия таблиц через запятую в разделе from. Что произойдёт в таком случае?*

In [None]:
# SELECT *
# FROM
#     sql.teams,
#     sql.matches

Давайте исправим это. В таблице teams есть столбец api_id, а таблица matches содержит столбцы home_team_api_id и away_team_api_id — это ключи таблиц, по которым они соединяются.

*Ключ — это поле (столбец) в таблице, которое позволяет однозначно идентифицировать запись (строку).*

Чтобы соединить таблицы и получить данные о домашней команде по каждому матчу, добавим условие
where home_team_api_id = api_id.

In [1]:
# SELECT *
# FROM
#     sql.teams,
#     sql.matches
# WHERE home_team_api_id = api_id

Ключи бывают двух основных типов:

Primary — первичный ключ — служит для идентификации текущей таблицы и, как правило, идёт первым в списке столбцов. Всегда уникален: повторяющихся значений в основной таблице быть не может.
Foreign — внешний ключ — представляет собой ссылку на другую таблицу.

Напишите запрос, который выведет таблицу с результатами матчей, содержащую:

*названия гостевых команд (long_name)*;

количество забитых мячей домашней команды (home_team_goals);

количество забитых мячей гостевой команды (away_team_goals).

In [None]:
# SELECT 
#     long_name, 
#     home_team_goals,
#     away_team_goals
# FROM
#     sql.teams,
#     sql.matches
# WHERE away_team_api_id = api_id

# <center> Знакомимся с JOIN

JOIN — это оператор SQL, который позволяет соединять таблицы по условию.

In [None]:
# В качестве примера используем запрос из предыдущего юнита.
# SELECT 
#     long_name,
#     home_team_goals,
#     away_team_goals
# FROM    
#     sql.teams
# JOIN sql.matches on home_team_api_id = api_id


### <center> СИНТАКСИС

In [None]:
# SELECT
#         столбец1,
# 	столбец2,
# 	...
# FROM
# 	таблица1
# JOIN таблица2 ON условие

С помощью JOIN можно соединить и более двух таблиц.

In [None]:
# SELECT
#         столбец1,
# 	столбец2,
# 	...
# FROM
# 	таблица1
# JOIN таблица2 ON условие
# JOIN таблица3 ON условие

 К примеру, столбец id есть и в таблице matches, и в таблице teams. Такой запрос не будет обработан.

?
Что же делать в таком случае?

Можно указать, откуда мы хотим запросить данные, записав название таблицы перед столбцом через точку.

In [2]:
# SELECT
#     teams.id
# FROM 
#     sql.teams
# JOIN sql.matches ON home_team_api_id = api_id

Упростить обращение к различным таблицам можно, присвоив им сокращённые названия — алиасы (от англ. alias).

In [3]:
# SELECT
#         столбец1,
# 	столбец2,
# 	...
# FROM
# 	таблица1 AS короткое_название_1
# JOIN таблица2 AS короткое_название_2 ON условие

Важно! Обращаться по такому алиасу придётся также с помощью кавычек.


In [4]:
# SELECT
# 	"таблица1".столбец1,
# 	"table 2".столбец2,
# 	...
# FROM
# 	таблица1 AS "таблица1"
# 	JOIN таблица2 AS "table 2" ON условие

In [None]:
# Напишите запрос, который выведет два столбца: id матча (match_id) и id домашней команды (team_id), — а затем отсортируйте по id матча в порядке возрастания значений.
# SELECT 
# m.id match_id,
# t.id team_id
# FROM
#     sql.teams t
# join
#     sql.matches m on m.home_team_api_id = api_id
# order by match_id



Давайте с помощью запроса SQL получим таблицу, содержащую:

название домашней команды;

количество забитых домашней командой голов;

количество забитых гостевой командой голов;

название гостевой команды.

In [None]:
# SELECT
#     h.long_name "домашняя команда",
#     m.home_team_goals "голы домашней команды",
#     m.away_team_goals "голы гостевой команды",
#     a.long_name "гостевая команда" 
# FROM
#     sql.matches m
#     JOIN sql.teams h ON m.home_team_api_id = h.api_id
#     JOIN sql.teams a ON m.away_team_api_id = a.api_id

## <center> Фильтрация и агрегатные функции

### <center>РАБОТА С ОБЪЕДИНЁННЫМИ ТАБЛИЦАМИ

In [5]:
# ринцип построения запроса и порядок операторов такой же, как и с обычной таблицей.

# Вспомним его:

# SELECT... 
# FROM... 
# WHERE... 
# GROUP BY... 
# ORDER BY... 
# LIMIT...

ФИЛЬТРАЦИЯ ДАННЫХ

К соединённым таблицам применимы функции фильтрации данных.

Например, можно вывести id матчей, в которых команда Arsenal была гостевой.

In [6]:
# SELECT 
#     m.id
# FROM
#     sql.teams t
#     JOIN sql.matches m ON m.away_team_api_id = t.api_id
# WHERE long_name = 'Arsenal'

Например, можно оставить только записи, в которых короткое название домашней команды GEN и матчи сезона 2008/2009.



In [None]:
# SELECT *
# FROM    
#     sql.matches m
#     JOIN sql.teams t on t.api_id = m.home_team_api_id
# WHERE
#     t.short_name = 'GEN'
#     AND m.season = '2008/2009'

Напишите запрос, чтобы вывести id матчей, короткое название домашней команды (home_short), короткое название гостевой команды (away_short) для матчей сезона 2011/2012, в которых участвовала команда с названием Liverpool.
Отсортируйте по id матча в порядке возрастания.

In [None]:
# SELECT
#     m.id,
#     t.short_name home_short,
#     t1.short_name away_short
# FROM
#     sql.matches m
# JOIN sql.teams t ON m.home_team_api_id = t.api_id
# JOIN sql.teams t1 ON m.away_team_api_id = t1.api_id
# WHERE
#     m.season = '2011/2012'
#     and (t.long_name = 'Liverpool' or t1.long_name = 'Liverpool')
# ORDER BY m.id

*что выводим то и присоединяем*

# <CENTER> АГРЕГАЦИЯ ДАННЫХ

In [7]:
# SELECT
#     t.long_name, /*столбец long_name таблицы t*/
#     SUM(m.home_team_goals) + SUM(m.away_team_goals) match_goals /*функция суммирования; столбец home_team_goals таблицы m; функция суммирования; столбец away_team_goals таблицы m; новое название столбца*/
# FROM
#     sql.matches m /*таблица matches с алиасом m*/
#     JOIN sql.teams t ON m.away_team_api_id = t.api_id /*оператор соединения таблиц; таблица teams с алиасом t; условие: away_team_api_id таблицы m равен api_id таблицы t*/
# GROUP BY t.id /*группировка по столбцу id таблицы t*/

Обратите внимание! В данном запросе была использована группировка по столбцу id таблицы teams, хотя этот столбец не выводится в запросе. Это необходимо для того, чтобы команды с одинаковым названием, если такие найдутся, не группировались между собой. Группировка по названию команды в данном запросе будет неверной, так как есть несколько команд с одинаковым полным названием — мы говорили об этом в начале модуля.

Напишите запрос, с помощью которого можно вывести список полных названий команд, сыгравших в гостях 150 и более матчей.
Отсортируйте список по названию команды.

In [None]:
# SELECT
#     t.long_name
# FROM
#     sql.matches m
# JOIN sql.teams t ON m.away_team_api_id = t.api_id
# GROUP BY t.id
# HAVING COUNT(*) >= 150
# ORDER BY 1

### <center>  Способы соединения таблиц

### <center> ОПЕРАТОРЫ

Для INNER JOIN работает следующее правило: присоединяются только те строки таблиц, которые удовлетворяют условию соединения. Если в любой из соединяемых таблиц находятся такие строки, которые не удовлетворяют заявленному условию, — они отбрасываются.

In [None]:
# SELECT 
# COUNT(DISTINCT t.id) 
# FROM 
# sql.teams t
# JOIN sql.matches m ON t.api_id = m.home_team_api_id OR t.api_id = m.away_team_api_id

И в таблице останется уже не 299 команд, а только 292.

?
Почему?

Дело в том, что таблица sql.matches по какой-то причине не содержит информацию о командах Lierse SK, KVC Westerlo, KAS Eupen, Club Brugge KV, KV Oostende, RSC Anderlecht и Hull City, зато они есть в таблице sql.teams. Возможно, эти команды не участвовали ни в одном матче или записи по этим матчам были удалены.

Для LEFT JOIN работает следующее правило: из левой (относительно оператора) таблицы сохраняются все строки, а из правой добавляются только те, которые соответствуют условию соединения. Если в правой таблице не находится соответствия, то значения строк второй таблицы будут иметь значение NULL.

LEFT JOIN может быть полезен, когда соответствующих записей во второй таблице может не быть, но важно сохранить записи из первой таблицы.

In [1]:
# SELECT
#     t.long_name,
#     m.id
# FROM sql.teams t
# LEFT JOIN sql.matches m ON t.api_id = m.home_team_api_id OR t.api_id = m.away_team_api_id
# ORDER BY m.id DESC

Вывод: в таблице teams сохранились все записи, а в таблице matches есть пустые строки.

Теперь, чтобы выбрать такие команды, которые не принимали участия в матчах, достаточно добавить условие where m.id is null (или любое другое поле таблицы matches).

In [2]:
# SELECT
#     t.long_name
# FROM 
#     sql.teams t
# LEFT JOIN sql.matches m ON t.api_id = m.home_team_api_id OR t.api_id = m.away_team_api_id
# WHERE m.id IS NULL

Обратите внимание! Если мы добавим какой-либо фильтр по значению для таблицы matches, то LEFT JOIN превратится в INNER JOIN, поскольку для второй таблицы станет необходимым присутствие значения в строке.

С LEFT JOIN также работают агрегатные функции, что позволяет не потерять значения из левой таблицы. Например, мы можем вывести сумму голов команд по гостевым матчам.

In [None]:
# SELECT
#     t.long_name,
#     SUM(m.away_team_goals) total_goals
# FROM   
#     sql.teams t
# LEFT JOIN sql.matches m ON t.api_id = m.away_team_api_id
# GROUP BY t.id
# ORDER BY 2 DESC

Обратите внимание! При применении функций SUM, MIN, MAX, AVG к полям со значением NULL в результате получится NULL, а не 0. А при использовании функции COUNT, наоборот, получится 0.

Задание 5.1

Используя LEFT JOIN, выведите список уникальных названий команд, содержащихся в таблице matches. Отсортируйте список в алфавитном порядке.
В поле ниже введите запрос, с помощью которого вы решили задание.

In [None]:
# SELECT
#   DISTINCT t.long_name
# FROM
#   sql.teams t
# LEFT JOIN sql.matches m ON t.api_id = m.home_team_api_id or t.api_id = m.away_team_api_id
# WHERE m.id is not null
# ORDER BY 1

Обратите внимание! При применении функций SUM, MIN, MAX, AVG к полям со значением NULL в результате получится NULL, а не 0. А при использовании функции COUNT, наоборот, получится 0.

Задание 5.2

Используя LEFT JOIN, напишите запрос, который выведет полное название команды (long_name), количество матчей, в которых участвовала команда, — домашних и гостевых (matches_cnt).
Отсортируйте по количеству матчей в порядке возрастания, затем по названию команды в алфавитном порядке.

In [None]:
# select
# t.long_name,
# count(m.id)
# from
# sql.teams t
# left join sql.matches m on t.api_id = m.home_team_api_id or t.api_id = m.away_team_api_id
# group by t.id
# order by 2, 1

При использовании RIGHT JOIN сохраняется та же логика, что и для LEFT JOIN, только за основу берётся правая таблица.

Чтобы из LEFT JOIN получить RIGHT JOIN, нужно просто поменять порядок соединения таблиц.

Оператор FULL OUTER JOIN объединяет в себе LEFT и RIGHT JOIN и позволяет сохранить кортежи обеих таблиц. Даже если не будет соответствий, мы сохраним все записи из обеих таблиц.

CROSS JOIN соединяет таблицы так, что каждая запись в первой таблице присоединяется к каждой записи во второй таблице, иначе говоря, даёт декартово произведение.

Обратите внимание! Условие для CROSS JOIN, в отличие от других операторов, не требуется.

В начале модуля вы использовали этот оператор, записывая таблицы через запятую.

Например, с помощью такого запроса мы можем получить все возможные комбинации полных названий команд в матчах.

In [None]:
# SELECT
#     DISTINCT
#     t1.long_name home_team, 
#     t2.long_name away_team
# FROM
#     sql.teams t1
#     CROSS JOIN sql.teams t2

Задание 5.3

Напишите запрос, который выведет все возможные уникальные комбинации коротких названий домашней команды (home_team) и коротких названий гостевой команды (away_team).
Отсортируйте запрос по первому и второму столбцам.

In [None]:
# select distinct
#     h.short_name "Короткое название домашней команды",
#     a.short_name "Короткое название гостевой команды"
# from sql.teams h
#     join sql.teams a on true
# order by 1,2

*Например, для ответа на вопрос: «Какая команда сыграла больше всех матчей в сезоне 2010/2011?» в качестве центральной лучше выбрать таблицу с командами.*

*А для ответа на вопрос: «В каком сезоне участвовало больше всего команд?» — таблицу с матчами.*

Задание 6.3

Напишите запрос, который выведет столбцы с основным типом покемона и общим количеством покемонов этого типа.

Учитывайте только тех покемонов, у которых или показатель атаки, или показатель защиты принимает значение между 50 и 100 включительно.

Оставьте только те типы покемонов, у которых максимальный показатель здоровья не больше 125.

Выведите только тот тип, который находится на пятом месте по количеству покемонов.



In [3]:
# SELECT
#     type1,
#     count(*)
# FROM sql.pokemon
# where (attack between 50 and 100) or (defense between 50 and 100) 
# group by type1
# HAVING MAX(hp) <= 125
# order by 2 desc
# offset 4 
# limit 1 

Задание 6.3

Напишите запрос, который выведет ТОП-10 команд (long_name) по суммарному количеству забитых голов в гостевых матчах. Во втором столбце запроса выведите суммарное количество голов в гостевых матчах (total_goals).

In [4]:
# select 
#     t.long_name "ТОП-10 команд по голам в гостях",
#     sum(a.away_team_goals) "total_goals_away"
# from sql.teams t
#     --join sql.matches h on t.api_id = h.home_team_api_id
#     join sql.matches a on t.api_id = a.away_team_api_id
#     --where t.long_name = 'Inter'
#     group by t.long_name
#     order by 2 desc
#     limit 10

Задание 6.4

Выведите количество матчей между командами Real Madrid CF и FC Barcelona.
В поле ниже введите запрос, с помощью которого вы решили задание.

In [5]:
# SELECT
#     COUNT (*)
# FROM
#     sql.matches m
#     JOIN sql.teams h ON h.api_id = m.home_team_api_id 
#     JOIN sql.teams a ON a.api_id = m.away_team_api_id
# WHERE
#     (h.long_name = 'Real Madrid CF' and a.long_name = 'FC Barcelona')
#     or (a.long_name = 'Real Madrid CF' and h.long_name = 'FC Barcelona')

Задание 6.5

Напишите запрос, который выведет название команды (long_name), сезон (season) и суммарное количество забитых голов в домашних матчах (total_goals).
Оставьте только те строки, в которых суммарное количество голов менее десяти.
Отсортируйте запрос по названию команды, а затем — по сезону.

In [6]:
# SELECT t.long_name "Название команды",
#         m.season "Сезон",
#         sum(m.home_team_goals) "total_goals"
# FROM
#     sql.teams t
#     JOIN sql.matches m on t.api_id = m.home_team_api_id 
# group by t.long_name, m.season
# having sum(m.home_team_goals) < 10
# order by 1, 2