# Практика SQL (join, window functions)

## Задание до начала семинара:
1. Скачать и ознакомиться с базой European Soccer Database (https://www.kaggle.com/datasets/hugomathien/soccer)
2. Скачать и установить DBeaver (https://dbeaver.io/)
3. Скачать и установить DBVisualizer (https://www.dbvis.com/)
4. Установить себе локально или в колаб библиотеки pandas, sqlalchemy (если еще не установлены)

Проверить установку можно следующим образом:

In [1]:
import pandas as pd
print(pd.__version__)

1.2.3


In [2]:
import sqlalchemy
print(sqlalchemy.__version__)

1.4.2


# European Soccer Database
- https://www.kaggle.com/datasets/hugomathien/soccer
- https://github.com/hugomathien/football-data-collection

## Оффтоп. Каналы со спортивной аналитикой и DS

- Канал Рената Алимбекова "Пристанище Дата Сайентиста"
https://t.me/renat_alimbekov
- Канал "Артета позвонит"
https://t.me/arteta_will_call

- Пост "Футбольная аналитика и Data Science"
https://t.me/renat_alimbekov/249

- Курс "Level 1: How is Data Used in Football?"
https://analyisport.com/product/modules/how-is-data-used-in-football/

- Знакомство с базовыми инструментами футбольного Data Scientist-а. Объясняем, где найти бесплатные данные и с чего начать
https://www.sports.ru/tribuna/blogs/footsci/2985326.html

# DBeaver
- https://dbeaver.io/
- Free multi-platform database tool for developers, database administrators, analysts and all people who need to work with databases. Supports all popular databases: MySQL, PostgreSQL, SQLite, Oracle, DB2, SQL Server, Sybase, MS Access, Teradata, Firebird, Apache Hive, Phoenix, Presto, etc.

# DBVisualizer
- https://www.dbvis.com/
- DbVisualizer has everything you need to build, manage and maintain state-of-the-art database technologies. Each feature has been thoughtfully crafted to solve real world problems.

# Check data

## Импорт библиотек и подключение к БД

### SQLite

In [3]:
import pandas as pd
pd.set_option('display.max_columns', 500)

In [4]:
from sqlalchemy import create_engine

# create engine to connect to SQLite database
engine = create_engine('sqlite:///database.sqlite')

### Примеры для других баз данных

In [5]:
# https://docs.sqlalchemy.org/en/20/core/engines.html

# PostgreSQL
# engine = create_engine("postgresql+psycopg2://scott:tiger@localhost:5432/mydatabase")

# Oracle SQL
# engine = create_engine("oracle://scott:tiger@127.0.0.1:1521/sidname")

In [6]:
# Альтернативный вариант без sqlalchemy
# import sqlite3
# engine = sqlite3.connect('database.sqlite')

## Проверка таблиц

In [7]:
pd.read_sql("""select * from country""", engine)

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


In [8]:
pd.read_sql("""select * from team""", engine)

Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,1,9987,673.0,KRC Genk,GEN
1,2,9993,675.0,Beerschot AC,BAC
2,3,10000,15005.0,SV Zulte-Waregem,ZUL
3,4,9994,2007.0,Sporting Lokeren,LOK
4,5,9984,1750.0,KSV Cercle Brugge,CEB
...,...,...,...,...,...
294,49479,10190,898.0,FC St. Gallen,GAL
295,49837,10191,1715.0,FC Thun,THU
296,50201,9777,324.0,Servette FC,SER
297,50204,7730,1862.0,FC Lausanne-Sports,LAU


In [9]:
pd.read_sql("""select * from league""", engine)

Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


## Список всех таблиц в БД

### SQLite

In [10]:
pd.read_sql("""
select *
from sqlite_master
where type = 'table'
""", engine)

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


### Примеры для других баз данных

In [11]:
# PostgreSQL
"""
SELECT *
  FROM information_schema.columns
 WHERE table_schema = 'your_schema'
   AND table_name   = 'your_table'
""";

# Oracle
"""
select *
from all_tables
""";

"""
select *
from all_tab_columns
""";

## Список всех таблиц и колонок

In [12]:
pd.read_sql("""
SELECT --m.*,
       --p.*
       m.name as tableName, 
       p.name as columnName,
       p.type
FROM sqlite_master m
left outer join pragma_table_info((m.name)) p
     on m.name <> p.name
order by tableName, columnName
""", engine)

Unnamed: 0,tableName,columnName,type
0,Country,id,INTEGER
1,Country,name,TEXT
2,League,country_id,INTEGER
3,League,id,INTEGER
4,League,name,TEXT
...,...,...,...
202,sqlite_autoindex_Player_1,,
203,sqlite_autoindex_Player_2,,
204,sqlite_autoindex_Team_1,,
205,sqlite_sequence,name,


## Список внешних ключей (foreign keys)

In [13]:
pd.read_sql("""
SELECT 
--    p.id,
    m.name,
    p."from",
    p."table",
    p."to"
FROM
    sqlite_master m
    JOIN pragma_foreign_key_list(m.name) p ON m.name != p."table"
WHERE m.type = 'table'
ORDER BY m.name
""", engine)

Unnamed: 0,name,from,table,to
0,League,country_id,country,id
1,Match,away_player_11,Player,player_api_id
2,Match,away_player_10,Player,player_api_id
3,Match,away_player_9,Player,player_api_id
4,Match,away_player_8,Player,player_api_id
5,Match,away_player_7,Player,player_api_id
6,Match,away_player_6,Player,player_api_id
7,Match,away_player_5,Player,player_api_id
8,Match,away_player_4,Player,player_api_id
9,Match,away_player_3,Player,player_api_id


# Batch 1. Joins

## Примеры

### Вывести список всех матчей (date, match_api_id, id) вместе с названием страны и названием лиги, в которых они проходили.
Ключи для джойна: match.league_id = league.id and match.country_id = country.id

In [14]:
pd.read_sql("""
SELECT  date,
        match_api_id,
        m.id,
        l.name AS league_name,
        c.name AS country_name
FROM Match m
INNER JOIN League l ON m.league_id = l.id
INNER JOIN Country c ON m.country_id = c.id
""", engine)

Unnamed: 0,date,match_api_id,id,league_name,country_name
0,2008-08-17 00:00:00,492473,1,Belgium Jupiler League,Belgium
1,2008-08-16 00:00:00,492474,2,Belgium Jupiler League,Belgium
2,2008-08-16 00:00:00,492475,3,Belgium Jupiler League,Belgium
3,2008-08-17 00:00:00,492476,4,Belgium Jupiler League,Belgium
4,2008-08-16 00:00:00,492477,5,Belgium Jupiler League,Belgium
...,...,...,...,...,...
25974,2015-09-22 00:00:00,1992091,25975,Switzerland Super League,Switzerland
25975,2015-09-23 00:00:00,1992092,25976,Switzerland Super League,Switzerland
25976,2015-09-23 00:00:00,1992093,25977,Switzerland Super League,Switzerland
25977,2015-09-22 00:00:00,1992094,25978,Switzerland Super League,Switzerland


### Объедините таблицы "Match" и "League" по полям ("league_id", "id") и найдите среднее количество забитых голов на матч в каждом чемпионате.

In [15]:
pd.read_sql("""
SELECT  l.name,
        AVG(m.home_team_goal + m.away_team_goal) as avg_goals
FROM Match m
JOIN League l ON m.league_id = l.id
GROUP BY l.name
""", engine)

Unnamed: 0,name,avg_goals
0,Belgium Jupiler League,2.801505
1,England Premier League,2.710526
2,France Ligue 1,2.443092
3,Germany 1. Bundesliga,2.901552
4,Italy Serie A,2.616838
5,Netherlands Eredivisie,3.080882
6,Poland Ekstraklasa,2.425
7,Portugal Liga ZON Sagres,2.5346
8,Scotland Premier League,2.633772
9,Spain LIGA BBVA,2.767105


## Задачи для решения на семинаре

### Найдите 10 команд, у которых самое большое количество побед на домашнем поле.
Критерий победы на домашнем поле: хозяева забили больше голов, чем гости.

### Напишите запрос, который позволяет вывести общее количество голов, забитых каждой командой в каждом сезоне. Выведите результаты в порядке убывания количества забитых голов (вывести топ 10 записей)
Нужно учитывать голы, забитые как дома, так и в гостях

## Задачи в качестве домашней работы

### Вывести id, название страны, название лиги, сезон, этап, дату, название домашней команды, название гостевой команды, количество голов, забитых домашней и гостевой командами, для всех матчей в Испании, отсортированных по дате

### Найдите количество побед, поражений и ничьих для каждой команды в каждом сезоне. Для этого необходимо объединить информацию из таблицы Match и Team. Отобразите результаты в порядке убывания количества побед.

### Для каждой команды определите максимальное количество забитых голов на домашнем поле и на выезде за каждый сезон. Отобразите результаты в порядке убывания максимального количества забитых голов на выезде.

### Найдите среднее количество забитых голов за игру на домашнем поле и на выезде для каждой команды в каждом сезоне. Отобразите результаты в порядке убывания среднего количества забитых голов на выезде.

# Batch 2. Оконные функции

## Примеры

### Найдите топ-3 лиги с самым большим количеством забитых голов в каждом сезоне. Выведите название лиги, сезон и количество забитых голов. Определите ранг лиги в топ-3 по количеству забитых голов.

In [16]:
pd.read_sql("""
with t as (
SELECT season, league_name, goals_scored, 
       RANK() OVER (PARTITION BY season ORDER BY goals_scored DESC) AS rank
FROM (
  SELECT m.season, l.name AS league_name, 
         SUM(m.home_team_goal + m.away_team_goal) AS goals_scored
  FROM Match AS m
  JOIN League AS l ON m.league_id = l.id
  GROUP BY m.season, l.name
) AS goals
)
select *
from t
WHERE rank <= 3
ORDER BY season, rank
""", engine)

Unnamed: 0,season,league_name,goals_scored,rank
0,2008/2009,Spain LIGA BBVA,1101,1
1,2008/2009,Italy Serie A,988,2
2,2008/2009,England Premier League,942,3
3,2009/2010,England Premier League,1053,1
4,2009/2010,Spain LIGA BBVA,1031,2
5,2009/2010,Italy Serie A,992,3
6,2010/2011,England Premier League,1063,1
7,2010/2011,Spain LIGA BBVA,1042,2
8,2010/2011,Netherlands Eredivisie,987,3
9,2011/2012,England Premier League,1066,1


## Задачи для решения на семинаре

### Для каждого сезона и каждой лиги необходимо вывести топ-3 команд по количеству забитых голов за сезон. Выводить название команды, количество забитых голов, сезон и название лиги.

### Найдите топ-3 команды с самым большим количеством выигранных матчей в каждой лиге за каждый сезон. Выведите название команды, лигу, сезон и количество выигранных матчей. Определите ранг команды в топ-3 по количеству выигранных матчей.

## Задачи в качестве домашней работы

### Найдите топ-3 (среди всех стран) команды с самым большим количеством пропущенных голов в каждом сезоне. Выведите название команды, сезон и количество пропущенных голов. Определите ранг команды в топ-3 по количеству пропущенных голов.

### Найдите топ-3 команды с наибольшим количеством набранных очков в каждой лиге за каждый сезон. Выведите название команды, лигу, сезон и количество набранных очков.