# INTRODUCCIÓN

Usaré esta notebook para proporcionar una introducción a SQL, lenguaje imprescindible para todo analista de datos.

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje SQL, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

* SQL significa Structured Query Language (Lenguaje de consulta estructurado)
* SQL permite acceder y manipular bases de datos
* SQL es una herramienta simple para el análisis avanzado de datos

SQL no se usa sólo para manipular datos, sino también para administrar la misma base de datos, crear y modificar el diseño de objetos de la base de datos, como tablas. El elemento de SQL que se usa para crear y modificar objetos de base de datos se denomina lenguaje de definición de datos (DDL). Este curso no trata DDL.

En esta notebook veremos cómo trabajar/manipular tablas. Aprenderemos a usar SQL para interactuar con una base de datos de fútbol europeo y generar información interesante con sus datos.

La base de datos utilizada, pueder ser encontrada [aquí](https://www.kaggle.com/hugomathien/soccer)

### 1 Configuraciones previas

Vamos a importar la librería de SQLite y otras que nos pueden ser de utilidad más adelante.

Asimismo, crearemos la conexión con la BD y listaremos las tablas con las que contamos.

In [14]:
import pandas as pd
import sqlite3

path = "./"
database = path + 'database.sqlite'

conn = sqlite3.connect(database)
print ("Conexión exitosa")

tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables

Conexión exitosa


Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


##Listar los países

Queremos consultar qué países se encuentran en la tabla `Country` de la base de datos del fútbol europeo.


Importante: La estructura y el orden de las secciones son importantes, mientras que los espacios, las nuevas líneas, las mayúsculas y las sangrías están ahí para facilitar la lectura del código.

In [10]:
query = """ SELECT *
            FROM Country; """

countries = pd.read_sql(query, conn)
countries

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


##Listar las ligas del fútbol europeo

Deben listar todas las ligas que estén en la tabla `League` de la base de datos de fútbol europeo.

In [11]:
query = """ SELECT *
            FROM League; """

leagues = pd.read_sql(query, conn)
leagues

Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


##Listar los jugadores del fútbol europeo

Deben listar los campos `id`,`player_name`, `birthday`, `height` y `weight` que estan en la tabla `Player` de la base de datos de Fútbol Europeo.

In [12]:
query = """ SELECT id, player_name, birthday, height, weight
           FROM Player; """

players = pd.read_sql(query, conn)
players

Unnamed: 0,id,player_name,birthday,height,weight
0,24919,24558,1,2010-07-17 00:00:00,845025
1,24920,24558,1,2010-07-18 00:00:00,845026
2,24921,24558,1,2010-07-18 00:00:00,845027
3,24560,24558,1,2008-07-19 00:00:00,486264
4,24561,24558,1,2008-07-20 00:00:00,486265
5,24562,24558,1,2008-07-20 00:00:00,486266
6,24563,24558,10,2008-09-26 00:00:00,486310
7,29038,39334,78,83,right
8,29039,39334,77,83,right
9,29040,39334,78,86,right


##Listar las temporadas jugadas de esta Base de Datos

Si consultamos por todas las temporadas que se almacenaron en la tabla `Match`de la base de datos de Fútbol Europeo, vamos a tener el siguiente resultado.


In [15]:
query = """ SELECT season
            FROM Match; """
seasons = pd.read_sql(query, conn)
seasons

Unnamed: 0,season
0,2008/2009
1,2008/2009
2,2008/2009
3,2008/2009
4,2008/2009
...,...
25974,2015/2016
25975,2015/2016
25976,2015/2016
25977,2015/2016


Con el resultado anterior, es muy difícil responder a la pregunta ¿Cuáles son las temporadas almacenadas en esta base de datos?
Para responderla sin mucho esfuerzo, usamos `SELECT DISTINCT` para consultar la tabla `Match` de la base de datos.

In [None]:
query = """ SELECT DISTINCT season
            FROM Match; """
seasons = pd.read_sql(query, conn)
seasons

Unnamed: 0,season
0,2008/2009
1,2009/2010
2,2010/2011
3,2011/2012
4,2012/2013
5,2013/2014
6,2014/2015
7,2015/2016


##Listar sólo tasas diferentes de valoración general de los jugadores.

En la tabla `Player_Attributes` de la base de datos de Fútbol Europeo hay el campo `overall_rating` que parece contener la valoración de los jugadores. El objetivo es ver sólo tasas diferentes de valoración general de los jugadores.

In [16]:
query = """ SELECT DISTINCT overall_rating
            FROM Player_Attributes; """

overall_rating = pd.read_sql(query, conn)
overall_rating

Unnamed: 0,overall_rating
0,67.0
1,62.0
2,61.0
3,74.0
4,73.0
...,...
57,33.0
58,36.0
59,37.0
60,35.0


##Listar 15 jugadores de la base de datos del fútbol europeo

Queremos listar 15 jugadores de la tabla `Player` de la base de datos de Fútbol Europeo. En la tabla de resultados quiero ver los campos `ìd`,`player_name`, `birthday`, `height` y `weight`. Todos se encuentran en la tabla `Player`

In [17]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM Player
            LIMIT 15; """

players = pd.read_sql(query, conn)
players

Unnamed: 0,id,player_name,birthday,height,weight
0,1,Aaron Appindangoye,1992-02-29 00:00:00,182.88,187
1,2,Aaron Cresswell,1989-12-15 00:00:00,170.18,146
2,3,Aaron Doran,1991-05-13 00:00:00,170.18,163
3,4,Aaron Galindo,1982-05-08 00:00:00,182.88,198
4,5,Aaron Hughes,1979-11-08 00:00:00,182.88,154
5,6,Aaron Hunt,1986-09-04 00:00:00,182.88,161
6,7,Aaron Kuhl,1996-01-30 00:00:00,172.72,146
7,8,Aaron Lennon,1987-04-16 00:00:00,165.1,139
8,9,Aaron Lennox,1993-02-19 00:00:00,190.5,181
9,10,Aaron Meijers,1987-10-28 00:00:00,175.26,170


##Listar 25 equipos del fútbol europeo

Deben listar 25 equipos del fútbol europeo. La tabla de resultados deberá contener los campos `id` y `team_long_name` de la tabla `Team` de la base de datos de Fútbol Europeo.

In [18]:
query = """ SELECT id, team_long_name
            FROM Team
            LIMIT 25; """

teams = pd.read_sql(query, conn)
teams

Unnamed: 0,id,team_long_name
0,1,KRC Genk
1,2,Beerschot AC
2,3,SV Zulte-Waregem
3,4,Sporting Lokeren
4,5,KSV Cercle Brugge
5,6,RSC Anderlecht
6,7,KAA Gent
7,8,RAEC Mons
8,9,FCV Dender EH
9,10,Standard de Liège


##¿Cuántos países diferentes están almacenados en la tabla Country?

Para consultar por el número de países diferentes almacenados en la tabla `Country` y que la tabla de resultados nos muestre únicamente el número con la cantidad de países, necesitamos usar una función agregativa que cuente el número de registros pero además, que cuente sólo los registros distintos.

In [19]:
query = """ SELECT COUNT(DISTINCT name)
            FROM Country; """

count_countries = pd.read_sql(query, conn)
count_countries

Unnamed: 0,COUNT(DISTINCT name)
0,11


##Traer el número de etapas jugadas de la tabla Match

Deben traer el número de etapas `stage` almacenados en la tabla `Match` de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la cantidad de etapas **diferentes**.

In [20]:
query = """ SELECT COUNT(DISTINCT stage)
            FROM Match; """

countdis_stages = pd.read_sql(query, conn)
countdis_stages

Unnamed: 0,COUNT(DISTINCT stage)
0,38


##Traer la suma de goles hechos por los equipos visitantes de la tabla Match

Deben traer la suma de goles hechos por los equipos visitantes `away_team_goal` almacenados en la tabla `Match` de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la suma de goles.

In [21]:
query = """ SELECT SUM(away_team_goal)
            FROM Match; """

sum_awayteam = pd.read_sql(query, conn)
sum_awayteam

Unnamed: 0,SUM(away_team_goal)
0,30160


##Traer el promedio de goles hechos por los equipos locales y el promedio de goles hechos por los visitantes de la tabla Match

Deben traer el promedio de goles hechos por los equipos locales `home_team_goal` y el promedio de goles hechos por los equipos visitantes `away_team_goal` almacenados en la tabla `Match` de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles.

In [22]:
query = """ SELECT AVG(home_team_goal), AVG(away_team_goal)
            FROM Match; """

avg_teamgoals = pd.read_sql(query, conn)
avg_teamgoals

Unnamed: 0,AVG(home_team_goal),AVG(away_team_goal)
0,1.544594,1.160938


##Traer la máxima cantidad de goles que un equipo visitante anotó en los juegos de la tabla Match

Deben traer la máxima cantidad de goles un equipo visitante `away_team_goal` almacenados en la tabla `Match` de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con cantidad de goles.

In [23]:
query = """ SELECT MAX(away_team_goal)
            FROM Match; """

max_teamgoals = pd.read_sql(query, conn)
max_teamgoals

Unnamed: 0,MAX(away_team_goal)
0,9


##Traer el promedio de goles por partido de la tabla Match

Deben traer el promedio de la suma de goles hechos por los equipos locales `home_team_goal` y visitantes `away_team_goal` en todos los juegos almacenados en la tabla `Match` de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles por partido.

In [24]:
query = """ SELECT AVG(home_team_goal+away_team_goal)
            FROM Match; """

avg_sum_goals = pd.read_sql(query, conn)
avg_sum_goals

Unnamed: 0,AVG(home_team_goal+away_team_goal)
0,2.705531


##Listar los jugadores que pesan 165 libras

Queremos listar a los jugadores que cumplan con la condición de pesar 165 libras. En la tabla de resultados quiero ver los campos `id`,`player_name`, `birthday`, `height` y `weight` de los que cumplen la condición. Todos se encuentran en la tabla `Player`

In [25]:
query = """SELECT id, player_name, birthday, height, weight
           FROM Player
           WHERE weight = 165"""

players_weight = pd.read_sql(query, conn)
players_weight

Unnamed: 0,id,player_name,birthday,height,weight
0,27,Abdelmalek Cherrad,1981-01-14 00:00:00,185.42,165
1,44,Abdoulaye Doucoure,1993-01-01 00:00:00,182.88,165
2,46,Abdoulaye Keita,1994-01-05 00:00:00,175.26,165
3,49,Abdoulwahid Sissoko,1990-03-20 00:00:00,182.88,165
4,58,Abdullah Al Hafith,1992-12-25 00:00:00,187.96,165
...,...,...,...,...,...
806,11007,Zainadine Junior,1988-06-24 00:00:00,177.80,165
807,11015,Zakaria M'Sila,1992-04-06 00:00:00,177.80,165
808,11047,Zhi Zheng,1980-08-20 00:00:00,180.34,165
809,11063,Zoltan Gera,1979-04-22 00:00:00,182.88,165


##Listar las temporadas en que un equipo visitante anotó 7 o más goles

Deben listar las temporadas en que algún equipo visitante haya anotado 7 o más goles. La tabla de resultados deberá contener los campos `season`, `home_team_goal`, `away_team_goal` de la tabla `Match` de la base de datos de Fútbol Europeo.

In [26]:
query =  """ SELECT season, home_team_goal, away_team_goal
             FROM Match
             WHERE away_team_goal >= 7; """

away_team_goals = pd.read_sql(query, conn)
away_team_goals

Unnamed: 0,season,home_team_goal,away_team_goal
0,2012/2013,1,7
1,2014/2015,1,7
2,2014/2015,2,7
3,2015/2016,0,9
4,2010/2011,1,8
5,2013/2014,0,7
6,2010/2011,0,7
7,2013/2014,0,7
8,2010/2011,0,8
9,2011/2012,0,7


##Traer el Id de los equipos que desarrollan un dribbling normal y su velocidad de juego es balanceada

Tomando la tabla `Team_Attributes` de la base de datos de Fútbol Europeo, deben obtener el `id`,`buildUpPlayDribblingClass` y `buildUpPlaySpeedClass`  de los equipos que tengan los siguientes atributos:
* `buildUpPlayDribblingClass = 'Normal'`
* `buildUpPlaySpeedClass = 'Balanced'`

In [27]:
query = """ SELECT id, buildUpPlayDribblingClass, buildUpPlaySpeedClass
            FROM Team_Attributes
            WHERE buildUpPlayDribblingClass = 'Normal' AND buildUpPlaySpeedClass = 'Balanced'; """

team_att_and = pd.read_sql(query, conn)
team_att_and

Unnamed: 0,id,buildUpPlayDribblingClass,buildUpPlaySpeedClass
0,2,Normal,Balanced
1,3,Normal,Balanced
2,8,Normal,Balanced
3,9,Normal,Balanced
4,14,Normal,Balanced
...,...,...,...
382,1450,Normal,Balanced
383,1451,Normal,Balanced
384,1452,Normal,Balanced
385,1457,Normal,Balanced


##Traer el Id de los equipos que desarrollan un juego de pase largo o su velocidad de juego es rápida

Tomando la tabla `Team_Attributes` de la base de datos de Fútbol Europeo, deben obtener el `id`,`buildUpPlayPassingClass` y `buildUpPlaySpeedClass`  de los equipos que tengan los siguientes atributos:
* `buildUpPlayPassingClass = 'Long'`
* `buildUpPlaySpeedClass = 'Fast'`

In [28]:
query =  """ SELECT id, buildUpPlayPassingClass, buildUpPlaySpeedClass
             FROM Team_Attributes
             WHERE buildUpPlayPassingClass = 'Long' AND buildUpPlaySpeedClass = 'Fast'; """

team_att_or = pd.read_sql(query, conn)
team_att_or

Unnamed: 0,id,buildUpPlayPassingClass,buildUpPlaySpeedClass
0,4,Long,Fast
1,90,Long,Fast
2,167,Long,Fast
3,179,Long,Fast
4,183,Long,Fast
5,225,Long,Fast
6,289,Long,Fast
7,336,Long,Fast
8,359,Long,Fast
9,419,Long,Fast


##Traer la tabla de países sin Bélgica

Deben filtrar la tabla de países y traerla sin `Belgium`. La tabla de resultados deberá contener los campos `id` y `name` de la tabla `Country` de la base de datos de Fútbol Europeo.

In [29]:
query = """ SELECT id, name
            FROM Country
            WHERE name != 'Belgium'; """

countries_not = pd.read_sql(query, conn)
countries_not

Unnamed: 0,id,name
0,1729,England
1,4769,France
2,7809,Germany
3,10257,Italy
4,13274,Netherlands
5,15722,Poland
6,17642,Portugal
7,19694,Scotland
8,21518,Spain
9,24558,Switzerland


##Traer la tabla de países únicamente con Italia

Deben filtrar la tabla de países y traer únicamente a `Italy`. La tabla de resultados deberá contener los campos `id` y `name` de la tabla `Country` de la base de datos de Fútbol Europeo.

In [30]:
query = """ SELECT id, name
            FROM Country
            WHERE name = 'Italy'; """

countries_equal = pd.read_sql(query, conn)
countries_equal

Unnamed: 0,id,name
0,10257,Italy


##Traer la tabla de países sin Polonia

Deben traer la tabla de países sin `Poland`. La tabla de resultados deberá contener los campos `id` y `name` de la tabla `Country` de la base de datos de Fútbol Europeo. **No se debe utilizar `NOT`**.



In [31]:
query = """ SELECT id, name
            FROM Country
            WHERE name <> 'Poland'; """

countries_dif = pd.read_sql(query, conn)
countries_dif

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,17642,Portugal
7,19694,Scotland
8,21518,Spain
9,24558,Switzerland


##Listar los jugadores que pesen entre 174 y 176 libras

Queremos listar a los jugadores que cumplan con la condición de pesar entre 174 y 176 libras. En la tabla de resultados quiero ver los campos `id`,`player_name`, `birthday`, `height` y `weight` de los que cumplen la condición. Todos se encuentran en la tabla `Player`. Asimismo, debemos limitar la consulta a 30 registros.


In [32]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM Player
            WHERE weight BETWEEN 174 AND 176
            LIMIT 30; """

players_weight = pd.read_sql(query, conn)
players_weight

Unnamed: 0,id,player_name,birthday,height,weight
0,17,Aaron Taylor-Sinclair,1991-04-08 00:00:00,182.88,176
1,34,Abdou Traore,1988-01-17 00:00:00,180.34,174
2,39,Abdoulaye Ba,1991-01-01 00:00:00,198.12,174
3,43,Abdoulaye Diallo,1992-03-30 00:00:00,187.96,174
4,61,Abel Aguilar,1985-01-06 00:00:00,185.42,176
5,68,Abella Perez Damia,1982-04-15 00:00:00,187.96,174
6,74,Abraham Gonzalez,1985-07-16 00:00:00,177.8,176
7,79,Achille Coser,1982-07-14 00:00:00,185.42,174
8,89,Adam Banas,1982-12-25 00:00:00,185.42,174
9,90,Adam Bodzek,1985-09-07 00:00:00,182.88,174


##Listar a los Messi de la base de datos de jugadores

Queremos listar a los jugadores que cumplan con la condición de tener la palabra 'Messi' en su nombre. En la tabla de resultados quiero ver los campos `id`,`player_name`, `birthday`, `height` y `weight` de los que cumplen la condición. Todos se encuentran en la tabla `Player`.

In [33]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM Player
            WHERE player_name LIKE '%Messi%'; """

players_messi = pd.read_sql(query, conn)
players_messi

Unnamed: 0,id,player_name,birthday,height,weight
0,6176,Lionel Messi,1987-06-24 00:00:00,170.18,159


##Listar a los equipos y ordenarlos por nombre


Queremos listar a los equipos de la tabla `Team` y ordenarlos ascedentemente por nombre `team_long_name`. Adicionalmente, vamos a limitar la lista a 25 registros.


In [34]:
query = """ SELECT *
            FROM Team
            ORDER BY team_long_name ASC
            LIMIT 25; """

teams_orderby = pd.read_sql(query, conn)
teams_orderby

Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,16848,8350,29.0,1. FC Kaiserslautern,KAI
1,15624,8722,31.0,1. FC Köln,FCK
2,16239,8165,171.0,1. FC Nürnberg,NUR
3,16243,9905,169.0,1. FSV Mainz 05,MAI
4,11817,8576,614.0,AC Ajaccio,AJA
5,11074,108893,111989.0,AC Arles-Avignon,ARL
6,49116,6493,1714.0,AC Bellinzona,BEL
7,26560,10217,650.0,ADO Den Haag,HAA
8,9537,8583,57.0,AJ Auxerre,AUX
9,9547,9829,69.0,AS Monaco,MON


##Listar la tabla de países en orden descendente

Deben listar la tabla `Country` de forma descendente `DESC` por el campos `name`. La tabla de resultados deberá contener los campos `id` y `name`.

In [35]:
query = """ SELECT id, name
            FROM Country
            ORDER BY name DESC; """

teams_orderdesc = pd.read_sql(query, conn)
teams_orderdesc

Unnamed: 0,id,name
0,24558,Switzerland
1,21518,Spain
2,19694,Scotland
3,17642,Portugal
4,15722,Poland
5,13274,Netherlands
6,10257,Italy
7,7809,Germany
8,4769,France
9,1729,England


##Listar el id de los 15 jugadores con menos peso

Deben listar la tabla `Player` de forma ascendente `ASC` por el campo `weight`. La tabla de resultados deberá contener los campos `id`, `player_name` y `weight`.

In [36]:
query = """ SELECT id, player_name, weight
            FROM Player
            ORDER BY weight ASC
            LIMIT 15; """

player_weightasc = pd.read_sql(query, conn)
player_weightasc

Unnamed: 0,id,player_name,weight
0,5453,Juan Quero,117
1,6853,Mariusz Rybicki,121
2,10954,Yohandry Orozco,121
3,1480,Caetano,123
4,2612,Diego Buonanotte,123
5,317,Aldo Kalulu,126
6,655,Andre Horta,126
7,3446,Fouad Rachid,126
8,7258,Maxi Moralez,126
9,7264,Maxime Blanc,126


##Listar el id de los 10 jugadores con mayor estatura

Deben listar la tabla `Player` de forma descendente `DESC` por el campos `height`. La tabla de resultados deberá contener los campos `id`, `player_name` y `height`.

In [37]:
query = """ SELECT id, player_name, height
            FROM Player
            ORDER BY height DESC
            LIMIT 10; """

player_heightdesc = pd.read_sql(query, conn)
player_heightdesc

Unnamed: 0,id,player_name,height
0,5908,Kristof van Hout,208.28
1,1301,Bogdan Milic,203.2
2,1926,Costel Pantilimon,203.2
3,3274,Fejsal Mulic,203.2
4,5568,Jurgen Wevers,203.2
5,5804,Kevin Vink,203.2
6,5957,Lacina Traore,203.2
7,8016,Nikola Zigic,203.2
8,8285,Paolo Acerbis,203.2
9,8638,Pietro Marino,203.2


##Listar el id de los 10 jugadores con mayor estatura y ordenarlos alfabéticamente pero de forma descendente

Deben listar la tabla `Player` de forma descendente `DESC` por el campos `height` y `player_name`. La tabla de resultados deberá contener los campos `id`, `player_name` y `height`.

In [38]:
query = """ SELECT id, player_name, height
            FROM Player
            ORDER BY height DESC, player_name DESC
            LIMIT 10; """

player_height_name = pd.read_sql(query, conn)
player_height_name

Unnamed: 0,id,player_name,height
0,5908,Kristof van Hout,208.28
1,11043,Zeljko Kalac,203.2
2,10574,Vanja Milinkovic-Savic,203.2
3,9916,Stefan Maierhofer,203.2
4,8638,Pietro Marino,203.2
5,8285,Paolo Acerbis,203.2
6,8016,Nikola Zigic,203.2
7,5957,Lacina Traore,203.2
8,5804,Kevin Vink,203.2
9,5568,Jurgen Wevers,203.2


##Queremos conocer cuántos equipos tienen cada tipo de velocidad de juego

Queremos conocer cuántos equipos de la tabla `Team_Attributes` tienen cada tipo de velocidad juego. Es decir: cuántos tienen `buildUpPlaySpeedClass = 'Fast'`, `buildUpPlaySpeedClass = 'Balanced'` y cuántos `buildUpPlaySpeedClass = 'Slow'`

In [39]:
query = """ SELECT buildUpPlaySpeedClass, COUNT(id)
            FROM Team_Attributes
            GROUP BY buildUpPlaySpeedClass; """

teams_speed = pd.read_sql(query, conn)
teams_speed

Unnamed: 0,buildUpPlaySpeedClass,COUNT(id)
0,Balanced,1184
1,Fast,172
2,Slow,102


##Queremos conocer cuántos equipos tienen cada clase de juego defensivo

Queremos conocer cuantos equipos de la tabla `Team_Attributes` que tienen cada clase de juego defensivo. Es decir: cuántos `defencePressureClass = 'Medium'`, `defencePressureClass = 'Deep'` y `defencePressureClass = 'High'`.

In [40]:
query =  """ SELECT defencePressureClass, COUNT(id)
             FROM Team_Attributes
             GROUP BY defencePressureClass; """

teams_defence = pd.read_sql(query, conn)
teams_defence

Unnamed: 0,defencePressureClass,COUNT(id)
0,Deep,154
1,High,61
2,Medium,1243


##Analítica básica de las temporadas

Queremos realizar un sencillo análisis sobre la tabla `Match`. Se necesita obtener la siguiente información agrupada por  cada `season`:

* Cuantas `stage` distintas tuvo y visualizarlo como `number_of_stages`
* El promedio de los goles de equipos locales `home_team_goal` y visualizarlo como `avg_home_team_goals`
* El promedio de los goles de equipos visitantes `away_team_goal` y visualizarlo como `avg_away_team_goals`
* La suma total de goles realizados por los equipos locales y visitantes en la temporada, visualizandolo como `total_goals`.

Asimismo, se requere ver la información de las temporadas más recientes primero.


In [41]:
query = """ SELECT season,
            COUNT(DISTINCT stage) AS number_of_stages,
            AVG(home_team_goal) AS avg_home_team_goals,
            AVG(away_team_goal) AS avg_away_team_goals,
            SUM(home_team_goal + away_team_goal) AS total_goals
            FROM Match
            GROUP BY season
            ORDER BY season DESC; """

stages_by_season = pd.read_sql(query, conn)
stages_by_season

Unnamed: 0,season,number_of_stages,avg_home_team_goals,avg_away_team_goals,total_goals
0,2015/2016,38,1.543897,1.210764,9162
1,2014/2015,38,1.520301,1.155489,8897
2,2013/2014,38,1.578826,1.187995,8389
3,2012/2013,38,1.55,1.222699,9039
4,2011/2012,38,1.572671,1.143789,8747
5,2010/2011,38,1.548466,1.135276,8749
6,2009/2010,38,1.541176,1.131269,8632
7,2008/2009,38,1.505412,1.101924,8672


##Lista de ligas y su país

Queremos conocer a qué país corresponde cada liga. Para hacerlo, vamos a necesitar la información de las tablas `Country`y `League`, uniendolas por su clave en común: `Country.id = League.country_id`.

In [42]:
query = """ SELECT L.id AS Id_League, L.name AS Nombre_League, C.name AS Pais
            FROM League AS L
            JOIN Country AS C ON C.id = L.country_id; """

country_leagues = pd.read_sql(query, conn)
country_leagues

Unnamed: 0,Id_League,Nombre_League,Pais
0,1,Belgium Jupiler League,Belgium
1,1729,England Premier League,England
2,4769,France Ligue 1,France
3,7809,Germany 1. Bundesliga,Germany
4,10257,Italy Serie A,Italy
5,13274,Netherlands Eredivisie,Netherlands
6,15722,Poland Ekstraklasa,Poland
7,17642,Portugal Liga ZON Sagres,Portugal
8,19694,Scotland Premier League,Scotland
9,21518,Spain LIGA BBVA,Spain


##Comparación de cantidad de partidos jugados en cierta temporada de España y Bélgica

Queremos realizar una comparación de la cantidad de partidos jugados en `season = '2008/2009'` entre los países `'Spain'` y `'Belgium'`. Los datos necesarios se encuentran en las tablas `Match` y `Country`.
Asimismo, la tabla de resultados debe visualizarse de la siguiente manera:
* la columna con el nombre del país debe llamarse `country_name`
* la columna con el conteo de partidos debe llamarse `count_matches`
* debemos visualizar al país con más partidos jugados en primer lugar

In [43]:
query = """ SELECT C.name AS country_name, COUNT(M.id) AS count_matches
            FROM Country AS C
            JOIN Match AS M ON C.id = M.country_id
            WHERE C.name IN ('Spain', 'Belgium') AND season = '2008/2009' """

country_matches = pd.read_sql(query, conn)
country_matches

Unnamed: 0,country_name,count_matches
0,Belgium,686


##Lista detallada de juegos

Queremos un detalle de 10 juegos realizados en el país `Spain`, ordenado de forma ascendente por `date`.

Lo que nos interesa ver es:
* el `id` del encuentro,
* el `Country.name` bajo alias `country_name`,
* el `League.name` bajo alias `league_name`,
* `season`,
* `stage`,
* `date`,
* el `team_long_name` del equipo local bajo alias `home_team`,
* el `team_long_name` del equipo visitante bajo alias `away_team`,
* `home_team_goal` y
* `away_team_goal`

Esta información se encuentra repartida entre las tablas: `Match`, `Country`, `League` y `Team`. Teniendo en cuenta que las claves compartidas entre tablas son estas:

* `Country.id = Match.country_id`

* `League.id = Match.league_id`

* `Team.team_api_id = Match.home_team_api_id`

Algunas pistas o consejos para el ejercicio:
En el ejercicio queremos mostrar sólo las columnas que nos interesan, así que en lugar de `*` usamos los nombres exactos.
Algunas de las columnas tienen el mismo nombre (Ejemplo: `Country.name,League.name`), por lo que las renombramos usando `AS`.

Esta consulta tiene algunos `JOIN`. La razón es que la base de datos utilizada está diseñada en una estructura de estrella. Es decir, tiene una tabla (`Match`) con todo el "rendimiento del encuentro" y métricas, pero sólo IDs como claves foráneas. Mientras que toda la información descriptiva se encuentra almacenada en otras tablas como: `Country`, `League` y `Team`.

Tengan en cuenta que se puede realizar 2 `JOIN` con la tabla `Team`. Esto es un truco, ya que usamos la misma tabla pero básicamente traemos dos copias diferentes de ella, renombrandola con `AS`. Ejemplo: `Team AS HomeTeam` y `Team AS AwayTeam`. La razón es que se necesitaba traer información de goles sobre dos valores diferentes (`home_team_api_id` y `away_team_api_id`), y si unimos a la misma tabla, significaría que son iguales entre sí.

También podrías utilizar `LEFT JOIN` sobre la tabla `Team`. Depende de si prefieres mantener los datos de los juegos en la tabla de resultados, incluso si uno de los equipos no aparece en la tabla `Team`.

`ORDER BY` se podría usar para definir el orden de la tabla de resultados.


In [44]:
query = """SELECT
              M.id AS match_id,
              C.name AS country_name,
              L.name AS league_name,
              M.season,
              M.stage,
              M.date,
              HT.team_long_name AS home_team,
              AT.team_long_name AS away_team,
              M.home_team_goal,
              M.away_team_goal
          FROM
              Match M
          JOIN
              Country C ON C.id = M.country_id
          JOIN
              League L ON L.id = M.league_id
          JOIN
              Team HT ON HT.team_api_id = M.home_team_api_id
          JOIN
              Team AT ON AT.team_api_id = M.away_team_api_id
          WHERE
              C.name = 'Spain'
          ORDER BY
              M.date ASC
          LIMIT 10; """

detailed_matches = pd.read_sql(query, conn)
detailed_matches


Unnamed: 0,match_id,country_name,league_name,season,stage,date,home_team,away_team,home_team_goal,away_team_goal
0,21518,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-30 00:00:00,Valencia CF,RCD Mallorca,3,0
1,21525,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-30 00:00:00,RCD Espanyol,Real Valladolid,1,0
2,21519,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,CA Osasuna,Villarreal CF,1,1
3,21520,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,RC Deportivo de La Coruña,Real Madrid CF,2,1
4,21521,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,CD Numancia,FC Barcelona,1,0
5,21522,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Racing Santander,Sevilla FC,1,1
6,21523,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Real Sporting de Gijón,Getafe CF,1,2
7,21524,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Real Betis Balompié,RC Recreativo,0,1
8,21526,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Athletic Club de Bilbao,UD Almería,1,3
9,21527,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Atlético Madrid,Málaga CF,4,0


##Análisis de goles por temporada en las ligas de España, Francia e Inglaterra.

Queremos saber en qué temporada el promedio de goles de equipos locales estuvo entre 1.4 y 1.6, para las ligas de `Spain`, `France` y `England`.

La tabla de resultados deberá mostrar:
* La temporada `season`,
* el `Country.name` bajo alias `country`,
* el `League.name` bajo alias `league`,
* el promedio de goles hechos por equipos locales, bajo el alias `avg_local_goals`, redondeando con 2 decimales,
* el promedio de goles hechos por equipos visitantes, bajo el alias `avg_visitor_goals`, redondeando con 2 decimales,
* el total de goles por temporada y liga, bajo el alias `total_goals`,

Esta información se encuentra repartida entre las tablas: `Match`, `Country` y `League`. Teniendo en cuenta que las claves compartidas entre tablas son estas:

* `Country.id = Match.country_id`

* `League.id = Match.league_id`

In [45]:
query = """ SELECT season,
            Country.name AS Country,
            League.name AS League,
            ROUND(AVG(Match.home_team_goal),2) AS avg_local_goals,
            ROUND(AVG(Match.away_team_goal),2) AS avg_visitor_goals,
            SUM(home_team_goal+away_team_goal) AS total_goals
            FROM Match
            JOIN Country ON Country.id = Match.country_id
            JOIN League ON League.id = Match.league_id
            WHERE Country.name IN ('Spain', 'France', 'England')
            GROUP BY season, League
            HAVING avg_local_goals BETWEEN 1.4 AND 1.6 AND avg_visitor_goals BETWEEN 1.2 AND 1.6
            ORDER BY season DESC; """

goals_by_season = pd.read_sql(query, conn)
goals_by_season

Unnamed: 0,season,Country,League,avg_local_goals,avg_visitor_goals,total_goals
0,2015/2016,England,England Premier League,1.49,1.21,1026
1,2012/2013,England,England Premier League,1.56,1.24,1063
2,2011/2012,England,England Premier League,1.59,1.22,1066


##Nos basaremos en ejemplo "Lista detallada de juegos", pero eliminaremos la información del partido y fechas, para comparar las ligas por temporadas.


Para las ligas de los paises `Spain`, `Germany`, `France`, `Italy` y `England` que tengan un promedio de goles por partido mayor a 2.5, queremos conocer:
* El nombre del país del equipo como `Country`,
* El nombre de la liga en la que juega como `League`,
* La cantidad de partidos (stages) como `Stages`,
* La temporada como `Season`,
* La cantidad de equipos como `number_of_teams`,
* El promedio de goles realizados por los equipos locales como `avg_local_goals`,redondeando con 2 decimales,
* El promedio de goles realizados por los equipos visitantes como `avg_visitor_goals`,redondeando con 2 decimales,
* El promedio de goles por partido como `avg_goals`,redondeando con 2 decimales,
* El promedio de gol diferencia por partido como `avg_goal_dif`,redondeando con 2 decimales,
* El total de goles realizados en la temporada  como `total_goals`

Esta información se encuentra repartida entre las tablas: `Match`, `Country`, `League` y `Team`. Teniendo en cuenta que las claves compartidas entre tablas son estas:

* `Country.id = Match.country_id`

* `League.id = Match.league_id`

* `Team.team_api_id = Match.home_team_api_id`

In [46]:
query = """SELECT
              M.id AS match_id,
              C.name AS Country,
              L.name AS League,
              COUNT(DISTINCT M.stage) AS Stages,
              M.season AS Season,
              COUNT(DISTINCT HT.team_api_id) AS number_of_teams,
              ROUND(AVG(M.home_team_goal), 2) AS avg_local_goals,
              ROUND(AVG(M.away_team_goal), 2) AS avg_visitor_goals,
              ROUND(AVG(M.home_team_goal + M.away_team_goal), 2) AS avg_goals,
              ROUND(AVG(ABS(M.home_team_goal - M.away_team_goal)), 2) AS avg_goal_dif,
              SUM(M.home_team_goal + M.away_team_goal) AS total_goals
          FROM
              Match M
          JOIN
              Country C ON C.id = M.country_id
          JOIN
              League L ON L.id = M.league_id
          JOIN
              Team HT ON HT.team_api_id = M.home_team_api_id
          JOIN
              Team AT ON AT.team_api_id = M.away_team_api_id
          WHERE
              C.name IN ('Spain', 'Germany', 'France', 'Italy', 'England')
          GROUP BY
              C.name, L.name, M.season
          HAVING
              ROUND(AVG(M.home_team_goal + M.away_team_goal), 2) > 2.5
          ORDER BY
              M.season, C.name, L.name;"""

leages_by_season = pd.read_sql(query, conn)
leages_by_season


Unnamed: 0,match_id,Country,League,Stages,Season,number_of_teams,avg_local_goals,avg_visitor_goals,avg_goals,avg_goal_dif,total_goals
0,7809,Germany,Germany 1. Bundesliga,34,2008/2009,18,1.7,1.22,2.92,1.43,894
1,10257,Italy,Italy Serie A,38,2008/2009,20,1.52,1.08,2.6,1.28,988
2,21518,Spain,Spain LIGA BBVA,38,2008/2009,20,1.66,1.24,2.9,1.38,1101
3,2109,England,England Premier League,38,2009/2010,20,1.7,1.07,2.77,1.47,1053
4,8115,Germany,Germany 1. Bundesliga,34,2009/2010,18,1.51,1.32,2.83,1.35,866
5,10637,Italy,Italy Serie A,38,2009/2010,20,1.54,1.07,2.61,1.17,992
6,21898,Spain,Spain LIGA BBVA,38,2009/2010,20,1.6,1.11,2.71,1.39,1031
7,2489,England,England Premier League,38,2010/2011,20,1.62,1.17,2.8,1.28,1063
8,8421,Germany,Germany 1. Bundesliga,34,2010/2011,18,1.65,1.27,2.92,1.49,894
9,11017,Italy,Italy Serie A,38,2010/2011,20,1.43,1.08,2.51,1.21,955


Análisis sobre los equipos que más goles realizaron jugando como locales


Queremos un detalle de los equipos que jugando como locales en las ligas de `Spain`, `Germany` y `England`, hayan anotado más de 50 goles. Ordenar de forma descendente por temporada y por equipo con más goles realizados. Nos interesa conocer:

* El nombre del país del equipo como `Country`
* El nombre de la liga en la que juega como `League`
* El nombre del equipo como `Team`
* La cantidad de partidos (stages) como `Stages`
* La temporada como `Season`
* La suma de goles realizados en esa temporada, jugando como local bajo el alias `sum_goals`
* El promedio de goles bajo alias `avg_goals`, redondeando con 2 decimales


Esta información se encuentra repartida entre las tablas: `Match`, `Country`, `League` y `Team`. Teniendo en cuenta que las claves compartidas entre tablas son estas:

* `Country.id = Match.country_id`

* `League.id = Match.league_id`

* `Team.team_api_id = Match.home_team_api_id`


In [47]:
query = """ SELECT
                C.name AS Country,
                L.name AS League,
                T.team_long_name AS Team,
                COUNT(DISTINCT M.stage) AS Stages,
                M.season AS Season,
                SUM(M.home_team_goal) AS sum_goals,
                ROUND(AVG(M.home_team_goal), 2) AS avg_goals
            FROM
                Match M
            JOIN
                Country C ON C.id = M.country_id
            JOIN
                League L ON L.id = M.league_id
            JOIN
                Team T ON T.team_api_id = M.home_team_api_id
            WHERE
                C.name IN ('Spain', 'Germany', 'England')
            GROUP BY
                C.name, L.name, T.team_long_name, M.season
            HAVING
                SUM(M.home_team_goal) > 50
            ORDER BY
                M.season DESC, sum_goals DESC;"""

teams_by_season = pd.read_sql(query, conn)
teams_by_season

Unnamed: 0,Country,League,Team,Stages,Season,sum_goals,avg_goals
0,Spain,Spain LIGA BBVA,Real Madrid CF,19,2015/2016,70,3.68
1,Spain,Spain LIGA BBVA,FC Barcelona,19,2015/2016,67,3.53
2,Germany,Germany 1. Bundesliga,FC Bayern Munich,17,2015/2016,51,3.0
3,Spain,Spain LIGA BBVA,Real Madrid CF,19,2014/2015,65,3.42
4,Spain,Spain LIGA BBVA,FC Barcelona,19,2014/2015,64,3.37
5,Spain,Spain LIGA BBVA,FC Barcelona,19,2013/2014,64,3.37
6,England,England Premier League,Manchester City,19,2013/2014,63,3.32
7,Spain,Spain LIGA BBVA,Real Madrid CF,19,2013/2014,63,3.32
8,England,England Premier League,Liverpool,19,2013/2014,53,2.79
9,Spain,Spain LIGA BBVA,Real Madrid CF,19,2012/2013,67,3.53


##Análisis del cambio en overall rating y potential de Cristiano Ronaldo por edad.

Se requiere visualizar el cambio de en `overall_rating` y `potential` de `Cristiano Ronaldo` por edad.

Entonces, la tabla de resultado deberá contener los siguientes campos: `player_name`, la edad nombrada como `Age`, `overall_rating`, `potential` y `date` como `RatingDate`.

Las tablas involucradas son `Player_Attributes` y `Player`. Que tienen una relación a través del campo `player_api_id` con mismo nombre en ambas tablas.



In [51]:
query = """SELECT
              P.player_name,
              strftime('%Y', DATE(PA.date)) - strftime('%Y', DATE(P.birthday)) AS Age,
              PA.overall_rating,
              PA.potential,
              DATE(PA.date) AS RatingDate
          FROM
              Player_Attributes PA
          JOIN
              Player P ON P.player_api_id = PA.player_api_id
          WHERE
              P.player_name = 'Cristiano Ronaldo'
          ORDER BY
              PA.date ASC;"""


ratingCristiano = pd.read_sql(query, conn)
ratingCristiano


Unnamed: 0,player_name,Age,overall_rating,potential,RatingDate
0,Cristiano Ronaldo,22,87,92,2007-02-22
1,Cristiano Ronaldo,22,91,94,2007-08-30
2,Cristiano Ronaldo,23,91,94,2008-08-30
3,Cristiano Ronaldo,24,90,94,2009-02-22
4,Cristiano Ronaldo,24,89,94,2009-08-30
5,Cristiano Ronaldo,25,89,93,2010-02-22
6,Cristiano Ronaldo,25,89,94,2010-08-30
7,Cristiano Ronaldo,26,89,93,2011-02-22
8,Cristiano Ronaldo,26,92,94,2011-08-30
9,Cristiano Ronaldo,27,92,94,2012-02-22


##Queremos una tabla que me indique los partidos jugados por el FC Barcelona, su rival, la fecha de juego y si perdió, ganó o empato.



In [52]:
query= """SELECT DATE(Match.date) as MatchDate,
                Home.team_long_name AS  HomeTeam,
                home_team_goal AS Home_goals,
                Visitor.team_long_name AS VisitorTeam,
                away_team_goal Visitor_goals,
                CASE
                    WHEN Home.team_api_id = 8634 AND home_team_goal < away_team_goal THEN 'Barca lost :('
                    WHEN Home.team_api_id = 8634 AND home_team_goal > away_team_goal THEN 'Barca won'
                    WHEN Visitor.team_api_id = 8634 AND home_team_goal < away_team_goal THEN 'Barca won'
                    WHEN Visitor.team_api_id = 8634 AND home_team_goal > away_team_goal THEN 'Barca lost :('
                    ELSE 'Tie'
                END AS Outcome
        FROM Match
        LEFT JOIN Team AS Home on Home.team_api_id = Match.home_team_api_id
        LEFT JOIN Team AS Visitor on Visitor.team_api_id = Match.away_team_api_id
        WHERE (Visitor.team_api_id = 8634 OR Home.team_api_id = 8634) AND season = "2012/2013"
        Order by MatchDate DESC
        LIMIT 15;"""

Barca_results = pd.read_sql(query, conn)
Barca_results

Unnamed: 0,MatchDate,HomeTeam,Home_goals,VisitorTeam,Visitor_goals,Outcome
0,2013-06-01,FC Barcelona,4,Málaga CF,1,Barca won
1,2013-05-26,RCD Espanyol,0,FC Barcelona,2,Barca won
2,2013-05-19,FC Barcelona,2,Real Valladolid,1,Barca won
3,2013-05-12,Atlético Madrid,1,FC Barcelona,2,Barca won
4,2013-05-05,FC Barcelona,4,Real Betis Balompié,2,Barca won
5,2013-04-27,Athletic Club de Bilbao,2,FC Barcelona,2,Tie
6,2013-04-20,FC Barcelona,1,Levante UD,0,Barca won
7,2013-04-14,Real Zaragoza,0,FC Barcelona,3,Barca won
8,2013-04-06,FC Barcelona,5,RCD Mallorca,0,Barca won
9,2013-03-30,RC Celta de Vigo,2,FC Barcelona,2,Tie


##Queremos una tabla que me indique los partidos jugados por el FC Barcelona como local contra el Real Madrid CF, la fecha de juego y si perdió, ganó o empató.

La información que necesitamos está repartida entre las tablas Match y Team, cuya relación es:
`Team.team_api_id = Match.home_team_api_id`

Queremos ver a la fecha del partido como `MatchDate`, el nombre del equipo local como `HomeTeam` y del visitante como `VisitorTeam`. También queremos ver los goles y el resultado bajo alias `Outcome`.

Datos necesarios:
* FC Barcelona: `team_api_id = 8634`
* Real Madrid CF: `team_api_id = 8633`

In [53]:
query= """SELECT
              DATE(M.date) AS MatchDate,
              HT.team_long_name AS HomeTeam,
              AT.team_long_name AS VisitorTeam,
              M.home_team_goal AS HomeGoals,
              M.away_team_goal AS VisitorGoals,
              CASE
                  WHEN M.home_team_goal > M.away_team_goal THEN 'Win'
                  WHEN M.home_team_goal < M.away_team_goal THEN 'Loss'
                  ELSE 'Draw'
              END AS Outcome
          FROM
              Match M
          JOIN
              Team HT ON HT.team_api_id = M.home_team_api_id -- Home Team (FC Barcelona)
          JOIN
              Team AT ON AT.team_api_id = M.away_team_api_id -- Away Team (Real Madrid CF)
          WHERE
              M.home_team_api_id = 8634 -- FC Barcelona
              AND M.away_team_api_id = 8633 -- Real Madrid CF
          ORDER BY
              M.date ASC;"""

BarcaMadrid_results = pd.read_sql(query, conn)
BarcaMadrid_results

Unnamed: 0,MatchDate,HomeTeam,VisitorTeam,HomeGoals,VisitorGoals,Outcome
0,2008-12-13,FC Barcelona,Real Madrid CF,2,0,Win
1,2009-11-29,FC Barcelona,Real Madrid CF,1,0,Win
2,2010-11-29,FC Barcelona,Real Madrid CF,5,0,Win
3,2012-04-21,FC Barcelona,Real Madrid CF,1,2,Loss
4,2012-10-07,FC Barcelona,Real Madrid CF,2,2,Draw
5,2013-10-26,FC Barcelona,Real Madrid CF,2,1,Win
6,2015-03-22,FC Barcelona,Real Madrid CF,2,1,Win
7,2016-04-02,FC Barcelona,Real Madrid CF,1,2,Loss


##Rating de Cristiano Ronaldo y Lionel Messi versus los demás jugadores.

Se requiere comparar el promedio de `overall_rating` y `potential` de `Cristiano Ronaldo` y `Lionel Messi` contra el promedio de los demás jugadores de la base de datos.

Entonces, la tabla de resultado deberá contener los siguientes campos: `player_name`, el promedio redondeado con 2 decimales de `overall_rating` y el promedio redondeado con 2 decimales de `potential`. Mostrando a los demás jugadores como "Others".

Las tablas involucradas son `Player_Attributes` y `Player`. Que tienen una relación en el campo `player_api_id` que tiene ese nombre en ambas tablas.

In [54]:
query = """SELECT CASE
                   WHEN player_name = 'Cristiano Ronaldo' THEN 'Cristiano Ronaldo'
                   WHEN player_name = 'Lionel Messi' THEN 'Lionel Messi'
                   ELSE 'Others'
                   END AS Player,
           PA_Grouped.avg_overall_rating AS avg_overall_rating,
           PA_Grouped.avg_potential AS avg_potential
           FROM Player
           LEFT JOIN
                    (SELECT Player_Attributes.player_api_id,
                         ROUND(avg(Player_Attributes.overall_rating),2) AS avg_overall_rating,
                         ROUND(avg(Player_Attributes.potential),2) AS avg_potential
                     FROM Player_Attributes
                     GROUP BY Player_Attributes.player_api_id)
                    AS PA_Grouped
           ON Player.player_api_id = PA_Grouped.player_api_id
           GROUP BY Player
           ORDER BY Player;"""

players_rating = pd.read_sql(query, conn)
players_rating

Unnamed: 0,Player,avg_overall_rating,avg_potential
0,Cristiano Ronaldo,91.28,93.48
1,Lionel Messi,92.19,95.23
2,Others,63.6,67.6


##Comparación de tipo de juego entre el FC Barcelona y Real Madrid FC - SUB QUERY

Como práctica del uso de `CASE WHEN`, se requiere simular la asignación de clase de juego de acuerdo a los siguientes ratings.
Para el rating buildUpPlaySpeed que debe ser mostrado como PlaySpeed, se considera lo siguiente:

* `buildUpPlaySpeed >= 70` como `Fast`
* `buildUpPlaySpeed <= 30` como `Slow`
* Sino como `Balanced`

Para el rating buildUpPlayPassing que debe ser mostrado como PlayPassing, se considera lo siguiente:

* `buildUpPlayPassing >= 70` como `Long`
* `buildUpPlayPassing <= 30` como `Short`
* Sino como `Mixed`

Para el rating chanceCreationShooting que debe ser mostrado como CreationShooting, se considera lo siguiente:
* `chanceCreationShooting >= 68` como `Lots`
* `chanceCreationShooting <= 30` como `Little`
* Sino como `Normal`

Las tablas necesarias son: `Team_Attributes` y `Team`, cuya relación se da en `Team_Attributes.team_api_id = Team.team_api_id`.

La tabla de resultados debe mostrar la fecha de rating como `RatingDate`, `team_api_id` como `TeamID` y `team_long_name` como `Team`. Además, debe estar agrupada por fecha de rating y equipo.


In [59]:
query= """SELECT
              DATE(TA.date) AS RatingDate,
              TA.team_api_id AS TeamID,
              T.team_long_name AS Team,

              -- Asignación de PlaySpeed según buildUpPlaySpeed
              CASE
                  WHEN TA.buildUpPlaySpeed >= 70 THEN 'Fast'
                  WHEN TA.buildUpPlaySpeed <= 30 THEN 'Slow'
                  ELSE 'Balanced'
              END AS PlaySpeed,

              -- Asignación de PlayPassing según buildUpPlayPassing
              CASE
                  WHEN TA.buildUpPlayPassing >= 70 THEN 'Long'
                  WHEN TA.buildUpPlayPassing <= 30 THEN 'Short'
                  ELSE 'Mixed'
              END AS PlayPassing,

              -- Asignación de CreationShooting según chanceCreationShooting
              CASE
                  WHEN TA.chanceCreationShooting >= 68 THEN 'Lots'
                  WHEN TA.chanceCreationShooting <= 30 THEN 'Little'
                  ELSE 'Normal'
              END AS CreationShooting

          FROM
              Team_Attributes TA
          JOIN
              Team T ON T.team_api_id = TA.team_api_id

          -- Filtrar solo para FC Barcelona y Real Madrid CF
          WHERE
              TA.team_api_id IN (8634, 8633)

          -- Agrupar por fecha de rating y equipo
          GROUP BY
              TA.date, TA.team_api_id

          ORDER BY
              TA.date ASC;"""

subquery = pd.read_sql(query, conn)
subquery

Unnamed: 0,RatingDate,TeamID,Team,PlaySpeed,PlayPassing,CreationShooting
0,2010-02-22,8633,Real Madrid CF,Balanced,Short,Lots
1,2010-02-22,8634,FC Barcelona,Balanced,Short,Lots
2,2011-02-22,8633,Real Madrid CF,Balanced,Mixed,Normal
3,2011-02-22,8634,FC Barcelona,Balanced,Mixed,Lots
4,2012-02-22,8633,Real Madrid CF,Balanced,Mixed,Lots
5,2012-02-22,8634,FC Barcelona,Slow,Short,Normal
6,2013-09-20,8633,Real Madrid CF,Balanced,Mixed,Lots
7,2013-09-20,8634,FC Barcelona,Balanced,Mixed,Normal
8,2014-09-19,8633,Real Madrid CF,Balanced,Mixed,Lots
9,2014-09-19,8634,FC Barcelona,Balanced,Mixed,Normal


##Comparación de tipo de juego entre el FC Barcelona y Real Madrid FC - WHERE

En esta ocasión se requiere lo mismo que el ejericio anterior, pero mediante el uso de WHERE.

In [60]:
query= """SELECT
              DATE(TA.date) AS RatingDate,
              TA.team_api_id AS TeamID,
              T.team_long_name AS Team,

              -- Asignación de PlaySpeed según buildUpPlaySpeed
              CASE
                  WHEN TA.buildUpPlaySpeed >= 70 THEN 'Fast'
                  WHEN TA.buildUpPlaySpeed <= 30 THEN 'Slow'
                  ELSE 'Balanced'
              END AS PlaySpeed,

              -- Asignación de PlayPassing según buildUpPlayPassing
              CASE
                  WHEN TA.buildUpPlayPassing >= 70 THEN 'Long'
                  WHEN TA.buildUpPlayPassing <= 30 THEN 'Short'
                  ELSE 'Mixed'
              END AS PlayPassing,

              -- Asignación de CreationShooting según chanceCreationShooting
              CASE
                  WHEN TA.chanceCreationShooting >= 68 THEN 'Lots'
                  WHEN TA.chanceCreationShooting <= 30 THEN 'Little'
                  ELSE 'Normal'
              END AS CreationShooting

          FROM
              Team_Attributes TA
          JOIN
              Team T ON T.team_api_id = TA.team_api_id

          -- Filtrar solo para FC Barcelona y Real Madrid CF
          WHERE
              TA.team_api_id IN (8634, 8633)

          -- Agrupar por fecha de rating y equipo
          GROUP BY
              RatingDate, TeamID, Team

          ORDER BY
              RatingDate ASC;"""

subquery2 = pd.read_sql(query, conn)
subquery2

Unnamed: 0,RatingDate,TeamID,Team,PlaySpeed,PlayPassing,CreationShooting
0,2010-02-22,8633,Real Madrid CF,Balanced,Short,Lots
1,2010-02-22,8634,FC Barcelona,Balanced,Short,Lots
2,2011-02-22,8633,Real Madrid CF,Balanced,Mixed,Normal
3,2011-02-22,8634,FC Barcelona,Balanced,Mixed,Lots
4,2012-02-22,8633,Real Madrid CF,Balanced,Mixed,Lots
5,2012-02-22,8634,FC Barcelona,Slow,Short,Normal
6,2013-09-20,8633,Real Madrid CF,Balanced,Mixed,Lots
7,2013-09-20,8634,FC Barcelona,Balanced,Mixed,Normal
8,2014-09-19,8633,Real Madrid CF,Balanced,Mixed,Lots
9,2014-09-19,8634,FC Barcelona,Balanced,Mixed,Normal
