# Tổng quan đề tài

Bạn nhận được Cơ sở dữ liệu bóng đá châu Âu có hơn 25.000 trận đấu và hơn 10.000 cầu thủ cho các mùa bóng đá chuyên nghiệp châu Âu từ 2008 đến 2016. Mục tiêu là bạn xem qua cơ sở dữ liệu này và thực hiện phân tích, bao gồm một số bước khám phá dữ liệu, thống kê cơ bản và sau đó bạn hình dung kết quả. Để hoàn thành tất cả các bước, bạn cần truy vấn dữ liệu trong cơ sở dữ liệu bằng cách sử dụng câu lệnh SQL. Đề tài này thực hành bạn viết lệnh SQL để kéo dữ liệu về và trích xuất nó.

# Mô tả dữ liệu

Cơ sở dữ liệu bóng đá châu Âu này có hơn 25.000 trận đấu và hơn 10.000 cầu thủ cho các mùa bóng đá chuyên nghiệp châu Âu từ 2008 đến 2016, 11 quốc gia châu Âu với chức vô địch dẫn đầu. Các thuộc tính của Người chơi và Đội có nguồn gốc từ loạt trò chơi video FIFA của EA Sports, bao gồm các bản cập nhật hàng tuần.

# Import Python package

In [1]:
#Import libraries
import numpy as np
import pandas as pd
import sqlite3 as sql
from datetime import timedelta
import warnings
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns", 100)

## Câu hỏi 1: Kết nối tới cơ sở dữ liệu và truy vấn thông tin của tất cả các bảng

Đọc https://docs.python.org/2/library/sqlite3.html

Học viên chỉ sử dụng câu lệnh SQL để truy vấn kế quả, không được sử dụng câu lệnh Pandas để tính toán ra kết quả.

In [2]:
#Connect to database 
# <write your code>
conn = sql.connect('database.sqlite')
cursor = conn.cursor()

#and get information of all tables
tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


## Câu hỏi 2: Liệt kê các quốc gia có trong dữ liệu bảng "Country"

In [3]:
#write your query
task_2 = pd.read_sql('SELECT * FROM Country', conn)
task_2

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


## Câu hỏi 3: Liệt kê các giải đấu trong bảng "League"

In [12]:
#write your query
task_3 = pd.read_sql_query('select * from league', conn)
task_3

Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


## Câu hỏi 4: Liệt kê các giải đấu và thông tin quốc gia của từng league

Bảng League có quan hệ với bảng Country qua khóa country_id.

In [13]:
#write your query
task_4 = pd.read_sql_query('select b.name as Name_of_league, a.name as Name_of_country from country as a inner join league as b on a.id = b.id ', conn)
task_4

Unnamed: 0,Name_of_league,Name_of_country
0,Belgium Jupiler League,Belgium
1,England Premier League,England
2,France Ligue 1,France
3,Germany 1. Bundesliga,Germany
4,Italy Serie A,Italy
5,Netherlands Eredivisie,Netherlands
6,Poland Ekstraklasa,Poland
7,Portugal Liga ZON Sagres,Portugal
8,Scotland Premier League,Scotland
9,Spain LIGA BBVA,Spain


## Câu hỏi 5: Liệt kê các trận đấu trong bảng  “Match”
- Khi một đội là chủ nhà, đội đó là "home team". Đội còn lại là "away team"
- Trong bảng Match, mỗi dòng dư liệu là một trận đấu của một đội chủ nhà và đội khách, tương ứng với kết quả ghi bàn đội nhà (home goal) và đội khách (away goal).

In [14]:
#write your query
task_5 = pd.read_sql_query('select home_team_api_id as Home_team,home_team_goal as Home_goal\
                                ,away_team_api_id as Away_team, away_team_goal as Away_goal \
                                from match',conn)
task_5

Unnamed: 0,Home_team,Home_goal,Away_team,Away_goal
0,9987,1,9993,1
1,10000,0,9994,0
2,9984,0,8635,3
3,9991,5,9998,0
4,7947,1,9985,3
...,...,...,...,...
25974,10190,1,10191,0
25975,9824,1,10199,2
25976,9956,2,10179,0
25977,7896,0,10243,0


## Câu hỏi 6: Liệt kê các trận đấu và thông tin về leage và country tương ứng

Bảng Match có quan hệ với :
 - Bảng Country thông qua khóa country_id
 - Bảng League thông qua khóa League_id
 
Sử dụng câu lệnh join để kết nối dư liệu từ 3 bảng trên.


In [15]:
#write your query
task_6 = pd.read_sql_query('select match.match_api_id, league.name , country.id, country.name from\
                            country, match, league where match.country_id = country.id = league.country_id',conn)
task_6

Unnamed: 0,match_api_id,name,id,name.1
0,492473,Belgium Jupiler League,1,Belgium
1,492474,Belgium Jupiler League,1,Belgium
2,492475,Belgium Jupiler League,1,Belgium
3,492476,Belgium Jupiler League,1,Belgium
4,492477,Belgium Jupiler League,1,Belgium
...,...,...,...,...
25974,1992091,Belgium Jupiler League,24558,Switzerland
25975,1992092,Belgium Jupiler League,24558,Switzerland
25976,1992093,Belgium Jupiler League,24558,Switzerland
25977,1992094,Belgium Jupiler League,24558,Switzerland


## Câu hỏi 7: Liệt kê số lượng trận đấu của mỗi giải đấu bao gồm cả tên giải đấu, sắp xếp theo thứ tự giảm dần số trận đấu

In [10]:
#write your query
task_7 = pd.read_sql_query('select  count(league_id) as number_of_match, name as Name_of_league \
                            from match, league \
                            on match.league_id = league.id \
                            group by league_id \
                            order by number_of_match DESC',conn)
task_7

Unnamed: 0,number_of_match,Name_of_league
0,3040,Spain LIGA BBVA
1,3040,France Ligue 1
2,3040,England Premier League
3,3017,Italy Serie A
4,2448,Netherlands Eredivisie
5,2448,Germany 1. Bundesliga
6,2052,Portugal Liga ZON Sagres
7,1920,Poland Ekstraklasa
8,1824,Scotland Premier League
9,1728,Belgium Jupiler League


## Câu hỏi 8: Liệt kê tổng số bàn thắng của đội nhà và đội khách trong mỗi giải đấu
- Sử dụng câu lệnh Group By

In [12]:
#write your query
task_8  = pd.read_sql_query('select  sum(home_team_goal) as sum_home_goal, sum(away_team_goal) as sum_away_goal , name as name_of_league \
                            from match, league \
                            on match.league_id = league.id \
                            group by league_id ',conn)
task_8

Unnamed: 0,sum_home_goal,sum_away_goal,name_of_league
0,2781,2060,Belgium Jupiler League
1,4715,3525,England Premier League
2,4265,3162,France Ligue 1
3,3982,3121,Germany 1. Bundesliga
4,4528,3367,Italy Serie A
5,4357,3185,Netherlands Eredivisie
6,2678,1978,Poland Ekstraklasa
7,2890,2311,Portugal Liga ZON Sagres
8,2607,2197,Scotland Premier League
9,4959,3453,Spain LIGA BBVA


## Câu hỏi 9: Liệt kê thông tin các đội từ bảng “Team”

In [16]:
task_9 = pd.read_sql_query('select * from Team',conn)
task_9

Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,1,9987,673.0,KRC Genk,GEN
1,2,9993,675.0,Beerschot AC,BAC
2,3,10000,15005.0,SV Zulte-Waregem,ZUL
3,4,9994,2007.0,Sporting Lokeren,LOK
4,5,9984,1750.0,KSV Cercle Brugge,CEB
...,...,...,...,...,...
294,49479,10190,898.0,FC St. Gallen,GAL
295,49837,10191,1715.0,FC Thun,THU
296,50201,9777,324.0,Servette FC,SER
297,50204,7730,1862.0,FC Lausanne-Sports,LAU


## Câu hỏi 10: Liệt kê 20 đội với số bàn thắng sân nhà cao nhất
- Sử dung câu lênh GROUP BY, LIMIT

In [14]:
#write your query
task_10 = pd.read_sql_query('select team.team_api_id,sum(home_team_goal)as sum_home_goal \
from match join team \
on match.home_team_api_id = team.team_api_id \
group by team.team_api_id \
order by sum_home_goal desc limit 20 ',conn)
task_10

Unnamed: 0,team_api_id,sum_home_goal
0,8633,505
1,8634,495
2,9925,389
3,9823,382
4,8640,370
5,8456,365
6,8593,360
7,9931,344
8,10260,338
9,8455,333


## Câu hỏi 11: Liệt kê 20 đội có số bàn thắng trên sân khách cao nhất
- Sử dụng câu lênh GROUP BY, LIMIT

In [17]:
#write your query
task_11 = pd.read_sql_query('select team.team_api_id, sum(away_team_goal)as sum_away_goal \
from match,team \
on match.away_team_api_id = team.team_api_id \
group by team.team_api_id \
order by sum_away_goal desc limit 20 ',conn)
task_11

Unnamed: 0,team_api_id,sum_away_goal
0,8634,354
1,8633,338
2,9925,306
3,8593,287
4,8640,282
5,9931,275
6,9823,271
7,9825,267
8,9789,253
9,8455,250


## Câu hỏi 12: Liệt kê tên các đội bóng và tổng số bàn thắng mỗi đội, sắp xếp  theo số lượng giảm dần

- Tổng số bàn thắng của một đội bao gồm cả số bàn thắng ở sân nhà và sân khách.
- Sử dụng câu lệnh Union  

In [23]:
taskk = pd.read_sql_query('select team.team_api_id,team.team_long_name as name,sum(home_team_goal) + sum(away_team_goal) as total_goal \
from match inner join team \
on match.home_team_api_id = team.team_api_id \
group by team.team_api_id union \
select team.team_api_id,team.team_long_name as name,sum(home_team_goal)+sum(away_team_goal) as total_goal from match inner join team \
on match.home_team_api_id = team.team_api_id \
group by team.team_api_id \
order by total_goal desc',conn)
taskk

Unnamed: 0,team_api_id,name,total_goal
0,8633,Real Madrid CF,652
1,8634,FC Barcelona,596
2,8640,PSV,496
3,8456,Manchester City,490
4,10192,BSC Young Boys,485
...,...,...,...
294,6367,Uniao da Madeira,36
295,7992,Trofense,35
296,8121,Angers SCO,35
297,4064,Feirense,32


## Câu hỏi 13: Liệt kê tên các đội bóng (long name) và tổng số trận đấu đội đó tham gia, sắp xếp theo thứ tự giảm dần.

In [27]:
#write your query
task_13 = pd.read_sql_query('select team_long_name, count(home_team_api_id) + count(away_team_api_id) as total_of_match from match inner join team on match.home_team_api_id = team.team_api_id or \
                            match.away_team_api_id = team.team_api_id \
                            group by team.team_api_id \
                            order by total_of_match DESC ', conn)
task_13

Unnamed: 0,team_long_name,total_of_match
0,Valencia CF,608
1,Manchester United,608
2,Aston Villa,608
3,Stoke City,608
4,Toulouse FC,608
...,...,...
294,Amadora,60
295,Portimonense,60
296,Trofense,60
297,KAS Eupen,60


## Câu hỏi 14: Liệt kê số trận thắng, thua và hòa của mỗi đội.

- Nếu một đội có số lượng bàn thắng trên sân nhà > số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "thắng" trong trận đấu này
- Nếu một đội có số lượng bàn thắng trên sân nhà < số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "thua" trong trận đấu này
- Nếu một đội có số lượng bàn thắng trên sân nhà = số lượng bàn thắng trên sân khách của chính đội đó, thì đội đó sẽ "hòa" trong trận đấu này
- Sử dụng câu lệnh "Case When"


In [65]:
task_14 = pd.read_sql_query('select team_api_id,\
count(case when (home_team_goal - away_team_goal)>0 then  [home_team_api_id] end) as win, \
count( case when (home_team_goal - away_team_goal)<0 then [away_team_api_id] end) as lose, \
count( case when (home_team_goal - away_team_goal)=0 then "nil_nil" end) as nil \
from match inner join team on match.home_team_api_id = team.team_api_id or match.away_team_api_id = team.team_api_id \
group by team_api_id;',conn)
task_14

Unnamed: 0,team_api_id,win,lose,nil
0,1601,107,76,57
1,1773,40,22,28
2,1957,122,54,64
3,2033,53,42,55
4,2182,111,69,60
...,...,...,...,...
294,158085,39,30,29
295,177361,12,9,9
296,188163,13,15,6
297,208931,16,11,11


## Câu hỏi 15: Liệt kê 10 đội có số trận thắng nhiều nhất

In [24]:
#write your query
task_15 = pd.read_sql_query('select team_api_id,\
count(case when (home_team_goal - away_team_goal)>0 then  [home_team_api_id] end) as win, \
count( case when (home_team_goal - away_team_goal)<0 then [away_team_api_id] end) as lose, \
count( case when (home_team_goal - away_team_goal)=0 then "nil_nil" end) as nil \
from match inner join team on match.home_team_api_id = team.team_api_id or match.away_team_api_id = team.team_api_id \
group by team_api_id \
order by win desc limit 10;',conn)
task_15

Unnamed: 0,team_api_id,win,lose,nil
0,8456,160,83,61
1,8633,157,111,36
2,8302,157,82,65
3,9906,156,89,59
4,8558,156,75,73
5,10233,153,70,79
6,10260,151,96,57
7,8600,151,75,76
8,10267,150,80,74
9,8315,150,83,71


## Câu hỏi 16: Liệt kê tỉ lệ phần trăm về số trận của mỗi giải trên tổng tất cả các trận

In [25]:
task_16 = pd.read_sql_query('select  match.league_id, round((count(match.league_id)*100.0/25979),2) as percent_number_of_match\
                            from match inner join league \
                            on match.league_id = league.id \
                            group by league_id',conn)
task_16

Unnamed: 0,league_id,percent_number_of_match
0,1,6.65
1,1729,11.7
2,4769,11.7
3,7809,9.42
4,10257,11.61
5,13274,9.42
6,15722,7.39
7,17642,7.9
8,19694,7.02
9,21518,11.7


## Câu hỏi 17: Liệt kê tỉ lệ phần trăm về số bàn ghi được của từng giải so với tổng số bàn của tất cả các trận.

In [123]:
#write your query
task_17 = pd.read_sql_query('select league_id , round(sum(home_team_goal+away_team_goal)*100.0/773157,2) as percent_of_goal from match,league \
group by league_id',conn)
task_17

Unnamed: 0,league_id,percent_of_goal
0,1,6.89
1,1729,11.72
2,4769,10.57
3,7809,10.11
4,10257,11.23
5,13274,10.73
6,15722,6.62
7,17642,7.4
8,19694,6.83
9,21518,11.97


## Câu hỏi 18: Liệt kê tổng số bàn ghi được của từng giải đấu theo từng mùa giải.

In [26]:
#write your query
task_18 = pd.read_sql_query('select league_id,season ,sum(home_team_goal+away_team_goal) as total_goal_of_season \
from match,league on match.league_id = league.id \
group by league_id,season',conn)
task_18

Unnamed: 0,league_id,season,total_goal_of_season
0,1,2008/2009,855
1,1,2009/2010,565
2,1,2010/2011,635
3,1,2011/2012,691
4,1,2012/2013,703
...,...,...,...
83,24558,2011/2012,425
84,24558,2012/2013,462
85,24558,2013/2014,520
86,24558,2014/2015,517


## Câu hỏi 19: Liệt kê thông tin cầu thủ:

- Quy đổi cân nặng sang kilogram
- Quy đổi chiều cao sang mét
- Tính chỉ số bmi = ( (weight* 0.453592) / (height/100)^2)
- Tính tuổi của cầu thủ

In [17]:
task_19 = task_19 = pd.read_sql_query('select player_api_id, player_name, weight *0.453 as convert_weigh_kg, height/100 convert_height_meter, \
((weight* 0.453592)/((height/100)*(height/100))) as bmi, \
(CURRENT_TIMESTAMP - birthday) as age \
from player',conn)
task_19

Unnamed: 0,player_api_id,player_name,convert_weigh_kg,convert_height_meter,bmi,age
0,505942,Aaron Appindangoye,84.711,1.8288,25.361478,29
1,155782,Aaron Cresswell,66.138,1.7018,22.866579,32
2,162549,Aaron Doran,73.839,1.7018,25.529126,30
3,30572,Aaron Galindo,89.694,1.8288,26.853330,39
4,23780,Aaron Hughes,69.762,1.8288,20.885923,42
...,...,...,...,...,...,...
11055,26357,Zoumana Camara,76.104,1.8288,22.784644,42
11056,111182,Zsolt Laczko,79.728,1.8288,23.869627,35
11057,36491,Zsolt Low,69.762,1.8034,21.478402,42
11058,35506,Zurab Khizanishvili,77.916,1.8542,22.692413,40


## Câu hỏi 20: Liệt kê cầu thủ lớn tuổi nhất

In [171]:
#write your query
task_20 = pd.read_sql_query('select player_name,player_api_id,max(CURRENT_TIMESTAMP - birthday) as age from player',conn)
task_20

Unnamed: 0,player_name,player_api_id,age
0,Alberto Fontana,39425,54


## Câu hỏi 21: Liệt kê  cầu thủ có số trận đấu nhiều nhất

In [12]:
task_21 = pd.read_sql_query('select a.player_api_id,player_name,count(a.player_api_id) as number_match \
from player_attributes as a,player as b \
on a.player_api_id = b.player_api_id \
group by a.player_api_id \
order by number_match desc limit 1',conn)
task_21

Unnamed: 0,player_api_id,player_name,number_match
0,210278,Roberto Pereyra,56


## Câu hỏi 22: Liệt kê các cầu thủ có tổng số điểm đánh giá lớn hơn 80

In [20]:
#write your query
task_22 = pd.read_sql_query('select* from Player_Attributes where overall_rating > 80 \
group by player_api_id',conn)
task_22

Unnamed: 0,id,player_fifa_api_id,player_api_id,date,overall_rating,potential,preferred_foot,attacking_work_rate,defensive_work_rate,crossing,finishing,heading_accuracy,short_passing,volleys,dribbling,curve,free_kick_accuracy,long_passing,ball_control,acceleration,sprint_speed,agility,reactions,balance,shot_power,jumping,stamina,strength,long_shots,aggression,interceptions,positioning,vision,penalties,marking,standing_tackle,sliding_tackle,gk_diving,gk_handling,gk_kicking,gk_positioning,gk_reflexes
0,137863,179591,2802,2011-08-30 00:00:00,81,83,right,medium,medium,81,79,53,74,74.0,85,75.0,77,69,82,86,85,87.0,80,80.0,76,65.0,71,51,81,54,49,78,82.0,72,42,47,36.0,13,16,9,9,7
1,40331,134594,2977,2007-08-30 00:00:00,82,83,left,medium,medium,41,52,87,42,20.0,41,30.0,46,64,66,63,80,45.0,74,44.0,59,58.0,75,82,66,83,66,70,48.0,51,85,82,56.0,7,14,64,9,10
2,109394,147455,3204,2013-04-05 00:00:00,81,81,right,medium,low,77,71,58,80,65.0,84,75.0,68,75,85,79,77,81.0,84,83.0,82,54.0,59,55,83,59,51,78,83.0,76,35,43,31.0,8,14,9,11,11
3,8053,109416,3517,2013-03-15 00:00:00,81,81,right,high,medium,70,86,70,76,73.0,74,66.0,79,69,79,84,83,74.0,76,70.0,89,84.0,82,69,84,83,34,84,76.0,82,40,21,19.0,12,13,12,15,11
4,13275,147777,3520,2012-08-31 00:00:00,81,81,right,low,low,74,75,47,78,79.0,85,73.0,76,76,88,78,77,85.0,74,84.0,82,61.0,54,65,80,47,27,76,81.0,73,22,28,27.0,9,11,13,7,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
834,122283,202556,303824,2016-02-18 00:00:00,81,88,right,high,low,67,73,55,73,69.0,85,85.0,90,65,83,91,89,82.0,82,85.0,88,74.0,79,77,82,62,21,77,74.0,66,24,31,20.0,8,14,6,12,10
835,140774,211110,325916,2016-05-05 00:00:00,81,87,left,medium,medium,72,87,60,78,80.0,89,81.0,82,58,90,90,85,91.0,82,85.0,77,69.0,79,55,83,48,31,85,79.0,76,15,21,21.0,9,11,9,10,11
836,45600,210935,364520,2016-05-05 00:00:00,81,86,left,high,medium,76,80,62,75,76.0,85,71.0,63,75,85,86,87,87.0,75,73.0,81,65.0,80,64,80,80,26,79,77.0,84,22,30,30.0,5,6,5,5,6
837,18299,212218,411617,2015-10-16 00:00:00,83,87,left,medium,medium,32,26,85,70,31.0,55,52.0,77,79,70,63,74,49.0,81,55.0,71,77.0,73,83,28,72,85,35,49.0,36,86,88,85.0,10,11,5,14,5
