# Tổng quan đề tài

Bạn nhận được Cơ sở dữ liệu bóng đá châu Âu có hơn 25.000 trận đấu và hơn 10.000 cầu thủ cho các mùa bóng đá chuyên nghiệp châu Âu từ 2008 đến 2016. Mục tiêu là bạn xem qua cơ sở dữ liệu này và thực hiện phân tích, bao gồm một số bước khám phá dữ liệu, thống kê cơ bản và sau đó bạn hình dung kết quả. Để hoàn thành tất cả các bước, bạn cần truy vấn dữ liệu trong cơ sở dữ liệu bằng cách sử dụng câu lệnh SQL. Đề tài này thực hành bạn viết lệnh SQL để kéo dữ liệu về và trích xuất nó.

# Mô tả dữ liệu

Cơ sở dữ liệu bóng đá châu Âu này có hơn 25.000 trận đấu và hơn 10.000 cầu thủ cho các mùa bóng đá chuyên nghiệp châu Âu từ 2008 đến 2016, 11 quốc gia châu Âu với chức vô địch dẫn đầu. Các thuộc tính của Người chơi và Đội có nguồn gốc từ loạt trò chơi video FIFA của EA Sports, bao gồm các bản cập nhật hàng tuần.

# Import Python package

In [1]:
#Import libraries
import numpy as np
import pandas as pd
import sqlite3
from datetime import timedelta
import warnings
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns", 100)

## Câu hỏi 1: Kết nối tới cơ sở dữ liệu và truy vấn thông tin của tất cả các bảng

Đọc https://docs.python.org/2/library/sqlite3.html

Học viên chỉ sử dụng câu lệnh SQL để truy vấn kế quả, không được sử dụng câu lệnh Pandas để tính toán ra kết quả.

In [2]:
#Connect to database 
# <write your code>
conn = sqlite3.connect('database.sqlite')

#and get information of all tables
tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


## Câu hỏi 2: Liệt kê các quốc gia có trong dữ liệu bảng "Country"

In [3]:
#write your query
result = pd.read_sql("""SELECT *
                        FROM country;""", conn)
result

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


## Câu hỏi 3: Liệt kê các giải đấu trong bảng "League"

In [4]:
#write your query
result = pd.read_sql("""SELECT name
                        FROM league;""", conn)
result

Unnamed: 0,name
0,Belgium Jupiler League
1,England Premier League
2,France Ligue 1
3,Germany 1. Bundesliga
4,Italy Serie A
5,Netherlands Eredivisie
6,Poland Ekstraklasa
7,Portugal Liga ZON Sagres
8,Scotland Premier League
9,Spain LIGA BBVA


## Câu hỏi 4: Liệt kê các giải đấu và thông tin quốc gia của từng league

Bảng League có quan hệ với bảng Country qua khóa country_id.

In [5]:
#write your query
result = pd.read_sql("""SELECT l.name as 'league name',
                               c.name as 'country name' 
                        FROM league l
                        LEFT JOIN country c 
                        ON l.country_id = c.id;""", conn)
result

Unnamed: 0,league name,country name
0,Belgium Jupiler League,Belgium
1,England Premier League,England
2,France Ligue 1,France
3,Germany 1. Bundesliga,Germany
4,Italy Serie A,Italy
5,Netherlands Eredivisie,Netherlands
6,Poland Ekstraklasa,Poland
7,Portugal Liga ZON Sagres,Portugal
8,Scotland Premier League,Scotland
9,Spain LIGA BBVA,Spain


## Câu hỏi 5: Liệt kê các trận đấu trong bảng  “Match”
- Khi một đội là chủ nhà, đội đó là "home team". Đội còn lại là "away team"
- Trong bảng Match, mỗi dòng dư liệu là một trận đấu của một đội chủ nhà và đội khách, tương ứng với kết quả ghi bàn đội nhà (home goal) và đội khách (away goal).

In [6]:
#write your query
result = pd.read_sql("""SELECT *
                        FROM MATCH;""", conn)
result

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal,home_player_X1,home_player_X2,home_player_X3,home_player_X4,home_player_X5,home_player_X6,home_player_X7,home_player_X8,home_player_X9,home_player_X10,home_player_X11,away_player_X1,away_player_X2,away_player_X3,away_player_X4,away_player_X5,away_player_X6,away_player_X7,away_player_X8,away_player_X9,away_player_X10,away_player_X11,home_player_Y1,home_player_Y2,home_player_Y3,home_player_Y4,home_player_Y5,home_player_Y6,home_player_Y7,home_player_Y8,home_player_Y9,home_player_Y10,home_player_Y11,away_player_Y1,away_player_Y2,away_player_Y3,away_player_Y4,away_player_Y5,away_player_Y6,...,home_player_11,away_player_1,away_player_2,away_player_3,away_player_4,away_player_5,away_player_6,away_player_7,away_player_8,away_player_9,away_player_10,away_player_11,goal,shoton,shotoff,foulcommit,card,cross,corner,possession,B365H,B365D,B365A,BWH,BWD,BWA,IWH,IWD,IWA,LBH,LBD,LBA,PSH,PSD,PSA,WHH,WHD,WHA,SJH,SJD,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,1,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,1.73,3.40,5.00,1.75,3.35,4.20,1.85,3.2,3.5,1.80,3.3,3.75,,,,1.70,3.30,4.33,1.90,3.3,4.00,1.65,3.40,4.50,1.78,3.25,4.00,1.73,3.40,4.20
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,1.95,3.20,3.60,1.80,3.30,3.95,1.90,3.2,3.5,1.90,3.2,3.50,,,,1.83,3.30,3.60,1.95,3.3,3.80,2.00,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.60
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,2.38,3.30,2.75,2.40,3.30,2.55,2.60,3.1,2.3,2.50,3.2,2.50,,,,2.50,3.25,2.40,2.63,3.3,2.50,2.35,3.25,2.65,2.50,3.20,2.50,2.30,3.20,2.75
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,1.44,3.75,7.50,1.40,4.00,6.80,1.40,3.9,6.0,1.44,3.6,6.50,,,,1.44,3.75,6.00,1.44,4.0,7.50,1.45,3.75,6.50,1.50,3.75,5.50,1.44,3.75,6.50
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,5.00,3.50,1.65,5.00,3.50,1.60,4.00,3.3,1.7,4.00,3.4,1.72,,,,4.20,3.40,1.70,4.50,3.5,1.73,4.50,3.40,1.65,4.50,3.50,1.65,4.75,3.30,1.67
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25974,25975,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992091,10190,10191,1,0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,6.0,6.0,8.0,8.0,8.0,11.0,1.0,3.0,3.0,3.0,3.0,6.0,...,195215.0,462944.0,563066.0,8800.0,67304.0,158253.0,133126.0,186524.0,93223.0,121115.0,232110.0,289732.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
25975,25976,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992092,9824,10199,1,2,1.0,3.0,5.0,7.0,2.0,4.0,6.0,8.0,5.0,4.0,6.0,1.0,2.0,4.0,6.0,8.0,3.0,5.0,7.0,3.0,5.0,7.0,1.0,3.0,3.0,3.0,7.0,7.0,7.0,7.0,9.0,11.0,11.0,1.0,3.0,3.0,3.0,3.0,7.0,...,37257.0,42276.0,114792.0,150007.0,178119.0,27232.0,570830.0,260708.0,201704.0,36382.0,34082.0,95257.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
25976,25977,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992093,9956,10179,2,0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,6.0,6.0,8.0,8.0,8.0,11.0,1.0,3.0,3.0,3.0,3.0,6.0,...,289472.0,10637.0,67349.0,202663.0,32597.0,114794.0,188114.0,25840.0,482200.0,95230.0,451335.0,275122.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
25977,25978,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992094,7896,10243,0,0,1.0,2.0,4.0,6.0,8.0,3.0,7.0,5.0,3.0,5.0,7.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,7.0,7.0,7.0,10.0,10.0,10.0,1.0,3.0,3.0,3.0,3.0,6.0,...,178142.0,274776.0,121080.0,197757.0,260964.0,231614.0,113235.0,41116.0,462608.0,42262.0,92252.0,194532.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


## Câu hỏi 6: Liệt kê các trận đấu và thông tin về leage và country tương ứng

Bảng Match có quan hệ với :
 - Bảng Country thông qua khóa country_id
 - Bảng League thông qua khóa League_id
 
Sử dụng câu lệnh join để kết nối dư liệu từ 3 bảng trên.


In [7]:
#write your querySELECT *

result = pd.read_sql("""SELECT *
                        FROM MATCH m
                        LEFT JOIN league l ON m.league_id = l.id
                        LEFT JOIN country c ON m.country_id = c.id;""", conn)
result

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal,home_player_X1,home_player_X2,home_player_X3,home_player_X4,home_player_X5,home_player_X6,home_player_X7,home_player_X8,home_player_X9,home_player_X10,home_player_X11,away_player_X1,away_player_X2,away_player_X3,away_player_X4,away_player_X5,away_player_X6,away_player_X7,away_player_X8,away_player_X9,away_player_X10,away_player_X11,home_player_Y1,home_player_Y2,home_player_Y3,home_player_Y4,home_player_Y5,home_player_Y6,home_player_Y7,home_player_Y8,home_player_Y9,home_player_Y10,home_player_Y11,away_player_Y1,away_player_Y2,away_player_Y3,away_player_Y4,away_player_Y5,away_player_Y6,...,away_player_5,away_player_6,away_player_7,away_player_8,away_player_9,away_player_10,away_player_11,goal,shoton,shotoff,foulcommit,card,cross,corner,possession,B365H,B365D,B365A,BWH,BWD,BWA,IWH,IWD,IWA,LBH,LBD,LBA,PSH,PSD,PSA,WHH,WHD,WHA,SJH,SJD,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA,id.1,country_id.1,name,id.2,name.1
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,1,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,1.73,3.40,5.00,1.75,3.35,4.20,1.85,3.2,3.5,1.80,3.3,3.75,,,,1.70,3.30,4.33,1.90,3.3,4.00,1.65,3.40,4.50,1.78,3.25,4.00,1.73,3.40,4.20,1,1,Belgium Jupiler League,1,Belgium
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,1.95,3.20,3.60,1.80,3.30,3.95,1.90,3.2,3.5,1.90,3.2,3.50,,,,1.83,3.30,3.60,1.95,3.3,3.80,2.00,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.60,1,1,Belgium Jupiler League,1,Belgium
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,2.38,3.30,2.75,2.40,3.30,2.55,2.60,3.1,2.3,2.50,3.2,2.50,,,,2.50,3.25,2.40,2.63,3.3,2.50,2.35,3.25,2.65,2.50,3.20,2.50,2.30,3.20,2.75,1,1,Belgium Jupiler League,1,Belgium
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,1.44,3.75,7.50,1.40,4.00,6.80,1.40,3.9,6.0,1.44,3.6,6.50,,,,1.44,3.75,6.00,1.44,4.0,7.50,1.45,3.75,6.50,1.50,3.75,5.50,1.44,3.75,6.50,1,1,Belgium Jupiler League,1,Belgium
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,5.00,3.50,1.65,5.00,3.50,1.60,4.00,3.3,1.7,4.00,3.4,1.72,,,,4.20,3.40,1.70,4.50,3.5,1.73,4.50,3.40,1.65,4.50,3.50,1.65,4.75,3.30,1.67,1,1,Belgium Jupiler League,1,Belgium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25974,25975,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992091,10190,10191,1,0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,6.0,6.0,8.0,8.0,8.0,11.0,1.0,3.0,3.0,3.0,3.0,6.0,...,158253.0,133126.0,186524.0,93223.0,121115.0,232110.0,289732.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,24558,24558,Switzerland Super League,24558,Switzerland
25975,25976,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992092,9824,10199,1,2,1.0,3.0,5.0,7.0,2.0,4.0,6.0,8.0,5.0,4.0,6.0,1.0,2.0,4.0,6.0,8.0,3.0,5.0,7.0,3.0,5.0,7.0,1.0,3.0,3.0,3.0,7.0,7.0,7.0,7.0,9.0,11.0,11.0,1.0,3.0,3.0,3.0,3.0,7.0,...,27232.0,570830.0,260708.0,201704.0,36382.0,34082.0,95257.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,24558,24558,Switzerland Super League,24558,Switzerland
25976,25977,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992093,9956,10179,2,0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,6.0,6.0,8.0,8.0,8.0,11.0,1.0,3.0,3.0,3.0,3.0,6.0,...,114794.0,188114.0,25840.0,482200.0,95230.0,451335.0,275122.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,24558,24558,Switzerland Super League,24558,Switzerland
25977,25978,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992094,7896,10243,0,0,1.0,2.0,4.0,6.0,8.0,3.0,7.0,5.0,3.0,5.0,7.0,1.0,2.0,4.0,6.0,8.0,4.0,6.0,3.0,5.0,7.0,5.0,1.0,3.0,3.0,3.0,3.0,7.0,7.0,7.0,10.0,10.0,10.0,1.0,3.0,3.0,3.0,3.0,6.0,...,231614.0,113235.0,41116.0,462608.0,42262.0,92252.0,194532.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,24558,24558,Switzerland Super League,24558,Switzerland


## Câu hỏi 7: Liệt kê số lượng trận đấu của mỗi giải đấu bao gồm cả tên giải đấu, sắp xếp theo thứ tự giảm dần số trận đấu

In [8]:
#write your query
result = pd.read_sql("""SELECT count(*) as 'num of match',
                        l.name
                        FROM MATCH m
                        LEFT JOIN league l ON m.country_id =l.id
                        GROUP BY l.name
                        ORDER BY count(*) DESC;""", conn)
result

Unnamed: 0,num of match,name
0,3040,Spain LIGA BBVA
1,3040,France Ligue 1
2,3040,England Premier League
3,3017,Italy Serie A
4,2448,Netherlands Eredivisie
5,2448,Germany 1. Bundesliga
6,2052,Portugal Liga ZON Sagres
7,1920,Poland Ekstraklasa
8,1824,Scotland Premier League
9,1728,Belgium Jupiler League


## Câu hỏi 8: Liệt kê tổng số bàn thắng của đội nhà và đội khách trong mỗi giải đấu
- Sử dụng câu lệnh Group By

In [9]:
#write your query
result = pd.read_sql("""SELECT sum(home_team_goal) as 'Tong ban thang doi nha',
                               sum(away_team_goal) as 'Tong ban thang doi khach',
                               l.name
                        FROM MATCH m
                        LEFT JOIN league l ON m.country_id =l.country_id
                        GROUP BY l.name
                        ORDER BY count(*) DESC;""", conn)
result

Unnamed: 0,Tong ban thang doi nha,Tong ban thang doi khach,name
0,4959,3453,Spain LIGA BBVA
1,4265,3162,France Ligue 1
2,4715,3525,England Premier League
3,4528,3367,Italy Serie A
4,4357,3185,Netherlands Eredivisie
5,3982,3121,Germany 1. Bundesliga
6,2890,2311,Portugal Liga ZON Sagres
7,2678,1978,Poland Ekstraklasa
8,2607,2197,Scotland Premier League
9,2781,2060,Belgium Jupiler League


## Câu hỏi 9: Liệt kê thông tin các đội từ bảng “Team”

In [10]:
#write your query
result = pd.read_sql("""SELECT *
                        FROM team;""", conn)
result

Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,1,9987,673.0,KRC Genk,GEN
1,2,9993,675.0,Beerschot AC,BAC
2,3,10000,15005.0,SV Zulte-Waregem,ZUL
3,4,9994,2007.0,Sporting Lokeren,LOK
4,5,9984,1750.0,KSV Cercle Brugge,CEB
...,...,...,...,...,...
294,49479,10190,898.0,FC St. Gallen,GAL
295,49837,10191,1715.0,FC Thun,THU
296,50201,9777,324.0,Servette FC,SER
297,50204,7730,1862.0,FC Lausanne-Sports,LAU


## Câu hỏi 10: Liệt kê 20 đội với số bàn thắng sân nhà cao nhất
- Sử dung câu lênh GROUP BY, LIMIT

In [11]:
#sử dụng order by để sắp xếp số lượng từ cao xuống thấp
result = pd.read_sql("""SELECT team_long_name,
                               sum(home_team_goal) as 'Tong ban thang san nha'
                        FROM team t
                        LEFT JOIN MATCH m ON t.team_api_id = m.home_team_api_id
                        GROUP BY t.team_long_name
                        ORDER BY sum(m.home_team_goal) DESC 
                        LIMIT 20;""", conn)
result

Unnamed: 0,team_long_name,Tong ban thang san nha
0,Real Madrid CF,505
1,FC Barcelona,495
2,Celtic,389
3,FC Bayern Munich,382
4,PSV,370
5,Manchester City,365
6,Ajax,360
7,FC Basel,344
8,Manchester United,338
9,Chelsea,333


## Câu hỏi 11: Liệt kê 20 đội có số bàn thắng trên sân khách cao nhất
- Sử dụng câu lênh GROUP BY, LIMIT

In [12]:
#sử dụng order by để sắp xếp số lượng từ cao xuống thấp
result = pd.read_sql("""SELECT team_long_name,
                               sum(away_team_goal) as 'Tong ban thang san khach'
                        FROM team t
                        LEFT JOIN MATCH m ON t.team_api_id = m.home_team_api_id
                        GROUP BY t.team_long_name
                        ORDER BY sum(m.away_team_goal) DESC
                        LIMIT 20;""", conn)
result

Unnamed: 0,team_long_name,Tong ban thang san khach
0,Kilmarnock,238
1,SV Werder Bremen,203
2,SC Heerenveen,202
3,Motherwell,201
4,ADO Den Haag,200
5,Aston Villa,198
6,VfB Stuttgart,195
7,Hannover 96,195
8,Dundee United,194
9,Willem II,192


## Câu hỏi 12: Liệt kê tên các đội bóng và tổng số bàn thắng mỗi đội, sắp xếp  theo số lượng giảm dần

- Tổng số bàn thắng của một đội bao gồm cả số bàn thắng ở sân nhà và sân khách.
- Sử dụng câu lệnh Union  

In [13]:
#sử dụng truy vấn con sau khi gộp kết quả bằng lệnh Union, sau đó group by kết quả đã gộp theo long name
result = pd.read_sql("""
SELECT team_long_name,
       sum(c.d) AS Tong_ban
FROM
  (SELECT team_long_name,
          sum(home_team_goal) AS d
   FROM team t
   LEFT JOIN MATCH m ON t.team_api_id = m.home_team_api_id
   GROUP BY team_long_name
   UNION SELECT team_long_name,
                sum(away_team_goal) AS d
   FROM team t
   LEFT JOIN MATCH m ON t.team_api_id = m.home_team_api_id
   GROUP BY team_long_name
   ORDER BY team_long_name) c
GROUP BY team_long_name
ORDER BY Tong_ban DESC ;""", conn)
result

Unnamed: 0,team_long_name,Tong_ban
0,Real Madrid CF,652
1,FC Barcelona,596
2,PSV,496
3,Manchester City,490
4,BSC Young Boys,485
...,...,...
291,Angers SCO,35
292,Feirense,32
293,Amadora,31
294,Hércules Club de Fútbol,27


## Câu hỏi 13: Liệt kê tên các đội bóng (long name) và tổng số trận đấu đội đó tham gia, sắp xếp theo thứ tự giảm dần.

In [14]:
#write your query
result = pd.read_sql("""
SELECT team_long_name,
       count(*)
FROM MATCH m
LEFT JOIN team t ON t.team_api_id = m.home_team_api_id
GROUP BY t.team_long_name
ORDER BY count(*) DESC;""", conn)
result

Unnamed: 0,team_long_name,count(*)
0,Valencia CF,152
1,Toulouse FC,152
2,Tottenham Hotspur,152
3,Sunderland,152
4,Stoke City,152
...,...,...
291,Termalica Bruk-Bet Nieciecza,15
292,Portimonense,15
293,KAS Eupen,15
294,Feirense,15


## Câu hỏi 14: Liệt kê số trận thắng, thua và hòa của mỗi đội.

- Nếu một đội có số lượng bàn thắng trên sân nhà > số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "thắng" trong trận đấu này
- Nếu một đội có số lượng bàn thắng trên sân nhà < số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "thua" trong trận đấu này
- Nếu một đội có số lượng bàn thắng trên sân nhà = số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "hòa" trong trận đấu này
- Sử dụng câu lệnh "Case When"


In [15]:
#Sử dụng group by 2 columns sau khi phân loại
result = pd.read_sql("""
SELECT t.team_long_name,
       CASE
           WHEN m.home_team_goal > m.away_team_goal THEN 'This team win this match'
           WHEN m.home_team_goal < m.away_team_goal THEN 'This team lose this match'
           ELSE 'This match is a draw'
       END AS status,
       count(*) so_tran
FROM MATCH m
LEFT JOIN team t ON t.team_api_id = m.home_team_api_id
group by team_long_name, status
;""", conn)
result

Unnamed: 0,team_long_name,status,so_tran
0,1. FC Kaiserslautern,This match is a draw,11
1,1. FC Kaiserslautern,This team lose this match,15
2,1. FC Kaiserslautern,This team win this match,8
3,1. FC Köln,This match is a draw,31
4,1. FC Köln,This team lose this match,39
...,...,...,...
881,Évian Thonon Gaillard FC,This team lose this match,30
882,Évian Thonon Gaillard FC,This team win this match,29
883,Śląsk Wrocław,This match is a draw,35
884,Śląsk Wrocław,This team lose this match,26


## Câu hỏi 15: Liệt kê 10 đội có số trận thắng nhiều nhất

In [16]:
#lấy đoạn truy vấn ở câu trên làm câu truy vấn con để xác định trạng thái trận thắng bằng mệnh đề where
result = pd.read_sql("""
SELECT team_long_name,
       count(*) as so_tran_thang
FROM
  (SELECT t.team_long_name,
          m.home_team_goal,
          m.away_team_goal,
          CASE
              WHEN m.home_team_goal > m.away_team_goal THEN 'This team win this match'
              WHEN m.home_team_goal < m.away_team_goal THEN 'This team lose this match'
              ELSE 'This match is a draw'
          END AS status
   FROM MATCH m
   LEFT JOIN team t ON t.team_api_id = m.home_team_api_id)
WHERE status = 'This team win this match'
GROUP BY team_long_name
ORDER BY count(*) DESC
LIMIT 10;""", conn)
result

Unnamed: 0,team_long_name,so_tran_thang
0,FC Barcelona,131
1,Real Madrid CF,129
2,Celtic,120
3,Manchester United,116
4,Manchester City,113
5,FC Bayern Munich,109
6,PSV,105
7,Juventus,105
8,FC Basel,103
9,Atlético Madrid,103


## Câu hỏi 16: Liệt kê tỉ lệ phần trăm về số trận của mỗi giải trên tổng tất cả các trận

In [17]:
"""
dùng truy vấn con đếm tổng tất cả các trận sau đó dùng hàm group by để kết tập theo tên giải đấu, 
đếm số lượng trận theo tên giải đấu rồi chia cho tổng tất cả các trận
"""
result = pd.read_sql("""
SELECT round(count(*)*1.0/
               (SELECT sum(b)
                FROM
                  (SELECT count(*) AS b
                   FROM MATCH m
                   LEFT JOIN league l ON m.country_id =l.country_id))*100, 2) as 'ty_le_%_tong_tran',
       l.name
FROM MATCH m
LEFT JOIN league l ON m.country_id =l.country_id
GROUP BY l.name
ORDER BY count(*) DESC;""", conn)
result

Unnamed: 0,ty_le_%_tong_tran,name
0,11.7,Spain LIGA BBVA
1,11.7,France Ligue 1
2,11.7,England Premier League
3,11.61,Italy Serie A
4,9.42,Netherlands Eredivisie
5,9.42,Germany 1. Bundesliga
6,7.9,Portugal Liga ZON Sagres
7,7.39,Poland Ekstraklasa
8,7.02,Scotland Premier League
9,6.65,Belgium Jupiler League


## Câu hỏi 17: Liệt kê tỉ lệ phần trăm về số bàn ghi được của từng giải so với tổng số bàn của tất cả các trận.

In [18]:
#write your query
"""
dùng truy vấn con đếm tổng tất cả các bàn sau đó dùng hàm group by để kết tập theo tên giải đấu, 
đếm số lượng bàn theo tên giải đấu rồi chia cho tổng tất cả các bàn
"""
result = pd.read_sql("""
SELECT round((sum(away_team_goal+home_team_goal)*1.0)/
               (SELECT sum(b)
                FROM
                  (SELECT sum(away_team_goal+home_team_goal) AS b
                   FROM MATCH m
                   LEFT JOIN league l ON m.country_id =l.country_id))*100, 2) as 'ty_le_%_tong_ban',
       l.name
FROM league l
LEFT JOIN MATCH m ON l.id = m.league_id
GROUP BY l.name
ORDER BY sum(m.away_team_goal+home_team_goal) DESC;""", conn)
result

Unnamed: 0,ty_le_%_tong_ban,name
0,11.97,Spain LIGA BBVA
1,11.72,England Premier League
2,11.23,Italy Serie A
3,10.73,Netherlands Eredivisie
4,10.57,France Ligue 1
5,10.11,Germany 1. Bundesliga
6,7.4,Portugal Liga ZON Sagres
7,6.89,Belgium Jupiler League
8,6.83,Scotland Premier League
9,6.62,Poland Ekstraklasa


## Câu hỏi 18: Liệt kê tổng số bàn ghi được của từng giải đấu theo từng mùa giải.

In [27]:
result = pd.read_sql("""
SELECT sum(away_team_goal+home_team_goal) as Tong_ban,
       name,
       season
FROM MATCH m
LEFT JOIN league l ON l.id = m.league_id
GROUP BY name, season;""", conn)
result

Unnamed: 0,Tong_ban,name,season
0,855,Belgium Jupiler League,2008/2009
1,565,Belgium Jupiler League,2009/2010
2,635,Belgium Jupiler League,2010/2011
3,691,Belgium Jupiler League,2011/2012
4,703,Belgium Jupiler League,2012/2013
...,...,...,...
83,425,Switzerland Super League,2011/2012
84,462,Switzerland Super League,2012/2013
85,520,Switzerland Super League,2013/2014
86,517,Switzerland Super League,2014/2015


## Câu hỏi 19: Liệt kê thông tin cầu thủ:

- Quy đổi cân nặng sang kilogram
- Quy đổi chiều cao sang mét
- Tính chỉ số bmi = ( (weight* 0.453592) / (height/100)^2)
- Tính tuổi của cầu thủ

In [20]:
#Tuổi của cầu thủ, dùng hàm julianday lấy ngày tháng hiện tại trừ cho ngày tháng sinh, sau đó chia 365
result = pd.read_sql("""
SELECT round(weight*0.45359237, 2) weight,
       round(height/100, 2) height,
       round((weight*0.45359237/((height/100)*(height/100))),2) Bmi,
       round((julianday('now') - julianday(birthday))/365, 0) AS Age
FROM player;""", conn)
result

Unnamed: 0,weight,height,Bmi,Age
0,84.82,1.83,25.36,30.0
1,66.22,1.70,22.87,32.0
2,73.94,1.70,25.53,31.0
3,89.81,1.83,26.85,40.0
4,69.85,1.83,20.89,42.0
...,...,...,...,...
11055,76.20,1.83,22.78,43.0
11056,79.83,1.83,23.87,35.0
11057,69.85,1.80,21.48,43.0
11058,78.02,1.85,22.69,41.0


## Câu hỏi 20: Liệt kê cầu thủ lớn tuổi nhất

In [21]:
#dùng hàm order by desc sau đó limit 1 để lấy cầu thủ lớn tuổi nhất
result = pd.read_sql("""
SELECT round((julianday('now') - julianday(birthday))/365, 0) AS Age
FROM player
ORDER BY Age DESC
LIMIT 1;""", conn)
result

Unnamed: 0,Age
0,55.0


## Câu hỏi 21: Liệt kê  cầu thủ có số trận đấu nhiều nhất

In [22]:
#left join hai bảng player và player_attributes
#sau đó đếm số trận đấu dựa trên group by player_api_id, order by để sắp xếp
result = pd.read_sql("""
SELECT  l.player_name, 
        count(*) so_tran,
        la.player_api_id
FROM player_attributes la
LEFT JOIN player l ON la.player_api_id = l.player_api_id
GROUP BY la.player_api_id
ORDER BY count(*) DESC;""", conn)
result

Unnamed: 0,player_name,so_tran,player_api_id
0,Roberto Pereyra,56,210278
1,Alessio Cerci,56,41269
2,Sebastian Meoli,55,42116
3,Michael Bradley,54,26472
4,Yacine Brahimi,53,179795
...,...,...,...
11055,"Rui Baiao,22",2,11788
11056,Tibor Tisza,2,9203
11057,Yasin Karaca,2,9144
11058,Ryan Thomson,2,8925


## Câu hỏi 22: Liệt kê các cầu thủ có tổng số điểm đánh giá lớn hơn 80

In [23]:
#left join hai bảng player và player_attributes
#sau đó xác định dựa trên where overall_rating, order by để sắp xếp
result = pd.read_sql("""
SELECT player_name,
       l.player_api_id
FROM player_attributes la
LEFT JOIN player l ON l.player_api_id = la.player_api_id
WHERE la.overall_rating > 80
GROUP BY player_name
ORDER BY la.overall_rating DESC;""", conn)
result

Unnamed: 0,player_name,player_api_id
0,Lionel Messi,30981
1,Cristiano Ronaldo,30893
2,Neymar,19533
3,Manuel Neuer,27299
4,Luis Suarez,40636
...,...,...
832,"Afonso Alves,24",35608
833,Adrian Lopez,45744
834,Adil Rami,77741
835,Adem Ljajic,155738
