# Link del ejercicio ⬇️

[Data analysis using SQL](https://www.kaggle.com/code/gustavojaramillo/data-analysis-using-sql-espa-ol/)

# **SQL**

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje **SQL**, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

* **SQL** significa Structured Query Language (Lenguaje de consulta estructurado)
* **SQL** permite acceder y manipular bases de datos
* **SQL** es una herramienta simple para el análisis avanzado de datos

In [89]:
import pandas as pd
import sqlite3
from tabulate import tabulate

In [90]:
# se crea una variable llamada conex (conexión) la cual se encargara de tener 'guardada' la base de datos que contendrá muchas tablas
conex = sqlite3.connect('database.sqlite')

# Se crea la consulta SQL
# Select * : Seleccionar todos los atributos de la entidad(tabla), o las tablas de la base de datos
# from sqlite_master : Selecciona todas las tablas de la base de datos maestra o principal
# where type='table' : Se especifica con una condición, que solo queremos escoger archivos tipo tabla, es decir, formato tabular.
query = """select *
                    from sqlite_master
                    where type = 'table';"""

# Se crea una variable que contenga el método de pandas, pd.read_sql; muy similar a leer un archivo csv o excel.
# (query, conex) : Estos son los parámetros que creamnos con anterioridad, el cual índica que el primero (query) hace referencia a la contulta en si, y el segundo (conex), hace alusión a la conexión  que contiene nuestra base de datos.
tablas = pd.read_sql(query, conex)

# Se muestran las tablas contenidas en la base de datos.
print(tablas)

    type               name           tbl_name  rootpage  \
0  table    sqlite_sequence    sqlite_sequence         4   
1  table  Player_Attributes  Player_Attributes        11   
2  table             Player             Player        14   
3  table              Match              Match        18   
4  table             League             League        24   
5  table            Country            Country        26   
6  table               Team               Team        29   
7  table    Team_Attributes    Team_Attributes         2   

                                                 sql  
0             CREATE TABLE sqlite_sequence(name,seq)  
1  CREATE TABLE "Player_Attributes" (\n\t`id`\tIN...  
2  CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...  
3  CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...  
4  CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...  
5  CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...  
6  CREATE TABLE "Team" (\n\t`id`\tINTEGER PRIMARY...  
7  CREATE TABLE `Te

In [91]:
# Obtener la estructura de una tabla en específico, en este caso, la tabla player, manejandola con todos los métodos que podemos usar en una tabla normal
query_player = 'pragma table_info(country)'
columns_player = pd.read_sql(query_player, conex)

print(columns_player.head(4))

   cid  name     type  notnull dflt_value  pk
0    0    id  INTEGER        0       None   1
1    1  name     TEXT        0       None   0


## 2. **Sentencia SELECT**
Esta es la consulta más básica y su estructura es muy simple:

* Se define lo que se quiere ver después del SELECT
* Se eligen las tablas a consultar después del FROM

Las únicas partes imprescindibles de una consulta son el SELECT y el FROM.

In [92]:
# Listar los paises
query = """select *
                    from Country;"""

paises = pd.read_sql_query(query, conex)

print(paises)

       id         name
0       1      Belgium
1    1729      England
2    4769       France
3    7809      Germany
4   10257        Italy
5   13274  Netherlands
6   15722       Poland
7   17642     Portugal
8   19694     Scotland
9   21518        Spain
10  24558  Switzerland


In [93]:
# 2.1.2 Práctica: Listar las ligas del fútbol europeo
query = """select *
                     from League;"""
        
liga = pd.read_sql_query(query, conex)

print(liga)

       id  country_id                      name
0       1           1    Belgium Jupiler League
1    1729        1729    England Premier League
2    4769        4769            France Ligue 1
3    7809        7809     Germany 1. Bundesliga
4   10257       10257             Italy Serie A
5   13274       13274    Netherlands Eredivisie
6   15722       15722        Poland Ekstraklasa
7   17642       17642  Portugal Liga ZON Sagres
8   19694       19694   Scotland Premier League
9   21518       21518           Spain LIGA BBVA
10  24558       24558  Switzerland Super League


In [94]:
# 2.1.3 Práctica: Listar los jugadores del fútbol europeo
query = """select *
                    from player;"""

jugadores = pd.read_sql(query, conex)

print(jugadores)

          id  player_api_id          player_name  player_fifa_api_id  \
0          1         505942   Aaron Appindangoye              218353   
1          2         155782      Aaron Cresswell              189615   
2          3         162549          Aaron Doran              186170   
3          4          30572        Aaron Galindo              140161   
4          5          23780         Aaron Hughes               17725   
...      ...            ...                  ...                 ...   
11055  11071          26357       Zoumana Camara                2488   
11056  11072         111182         Zsolt Laczko              164680   
11057  11073          36491            Zsolt Low              111191   
11058  11074          35506  Zurab Khizanishvili               47058   
11059  11075          39902   Zvjezdan Misimovic              102359   

                  birthday  height  weight  
0      1992-02-29 00:00:00  182.88     187  
1      1989-12-15 00:00:00  170.18     146  


In [95]:
# 2.2 Sentencia SELECT DISTINCT
# #Consulta de solo los jugadores únicos de la tabla Player

query = """select distinct(player_name)
                    from player;"""

jugadoresUnicos = pd.read_sql(query, conex)

print(jugadoresUnicos)

               player_name
0       Aaron Appindangoye
1          Aaron Cresswell
2              Aaron Doran
3            Aaron Galindo
4             Aaron Hughes
...                    ...
10843       Zoumana Camara
10844         Zsolt Laczko
10845            Zsolt Low
10846  Zurab Khizanishvili
10847   Zvjezdan Misimovic

[10848 rows x 1 columns]


In [96]:
# 2.2.1 Ejemplo: Listar las temporadas jugadas de esta Base de Datos
# Consulta de solo los jugadores únicos de la tabla Player
query = """select distinct season 
                    from match; """

#Creo una variable players_distinct que almacene los jugadores únicos
temporadas = pd.read_sql(query, conex)

print(temporadas)

      season
0  2008/2009
1  2009/2010
2  2010/2011
3  2011/2012
4  2012/2013
5  2013/2014
6  2014/2015
7  2015/2016


In [97]:
# 2.2.2 Práctica: Listar sólo tasas diferentes de valoración general de los jugadores.
query = """select distinct overall_rating
                    from player_attributes;"""

calificacionGeneral = pd.read_sql_query(query, conex)

print(calificacionGeneral)

    overall_rating
0             67.0
1             62.0
2             61.0
3             74.0
4             73.0
..             ...
57            33.0
58            36.0
59            37.0
60            35.0
61            94.0

[62 rows x 1 columns]


## 3. **Sentencia LIMIT**

Cuando deseamos poner un límite al resultado o no nos interesa conocer la totalidad de los resultados, podemos limitar la cantidad de registros resultantes mediante la sentencia **LIMIT**

La sintaxis de **LIMIT** es así:

* **SELECT** column1, column2...
* **FROM** table_name
* **LIMIT** number;

In [98]:
# 3.1.1 Ejemplo: Listar 15 jugadores de la base de datos del fútbol europeo

query = """select id, player_name, birthday, height
                    from player
                    limit 15;"""

jugadores15 = pd.read_sql_query(query, conex)

print(jugadores15)

    id         player_name             birthday  height
0    1  Aaron Appindangoye  1992-02-29 00:00:00  182.88
1    2     Aaron Cresswell  1989-12-15 00:00:00  170.18
2    3         Aaron Doran  1991-05-13 00:00:00  170.18
3    4       Aaron Galindo  1982-05-08 00:00:00  182.88
4    5        Aaron Hughes  1979-11-08 00:00:00  182.88
5    6          Aaron Hunt  1986-09-04 00:00:00  182.88
6    7          Aaron Kuhl  1996-01-30 00:00:00  172.72
7    8        Aaron Lennon  1987-04-16 00:00:00  165.10
8    9        Aaron Lennox  1993-02-19 00:00:00  190.50
9   10       Aaron Meijers  1987-10-28 00:00:00  175.26
10  11       Aaron Mokoena  1980-11-25 00:00:00  182.88
11  12          Aaron Mooy  1990-09-15 00:00:00  175.26
12  13      Aaron Muirhead  1990-08-30 00:00:00  187.96
13  14        Aaron Niguez  1989-04-26 00:00:00  170.18
14  15        Aaron Ramsey  1990-12-26 00:00:00  177.80


In [99]:
# 3.1.2 Práctica: Listar 25 equipos del fútbol europeo

#Deben listar 25 equipos del fútbol europeo. La tabla de resultados deberá contener los campos id y team_long_name de la tabla Team de la base de datos de Fútbol Europeo.

query = """select id, team_long_name
                    from team
                    limit 25;"""

equipos25 = pd.read_sql_query(query, conex)

print(equipos25)

      id        team_long_name
0      1              KRC Genk
1      2          Beerschot AC
2      3      SV Zulte-Waregem
3      4      Sporting Lokeren
4      5     KSV Cercle Brugge
5      6        RSC Anderlecht
6      7              KAA Gent
7      8             RAEC Mons
8      9         FCV Dender EH
9     10     Standard de Liège
10    11           KV Mechelen
11    12        Club Brugge KV
12    13         KSV Roeselare
13    14           KV Kortrijk
14    15                Tubize
15    16  Royal Excel Mouscron
16    17          KVC Westerlo
17    18    Sporting Charleroi
18   614     Sint-Truidense VV
19  1034             Lierse SK
20  1042             KAS Eupen
21  1513   Oud-Heverlee Leuven
22  2004      Waasland-Beveren
23  2476           KV Oostende
24  2510  Royal Excel Mouscron


## **4. Funciones agregativas/ Métricas**

Todas las métricas tienen que ser agregadas usando funciones. Las funciones agregativas más comunes son:

* **SUM()** | Sumatoria total de una columna tipo numérica.
* **COUNT()** | Devuelve la cantidad de filas.
* **COUNT(DISTINCT)** | Devuelve la cantidad de filas distintas o diferentes.
* **AVG()** | Promedia los valores de una columna tipo numérica.
* **MIN()** | Menor valor dentro de la columna especificada.
* **MAX()** | Mayor valor dentro de la columna especificada.

In [100]:
# 4.1.1 Ejemplo: ¿Cuántos países diferentes están almacenados en la tabla Country?

query = """select distinct(count(name))
                    from country;"""

paisesUnicos = pd.read_sql(query, conex)

# Obtener solo el valor
total_paises = paisesUnicos.iloc[0,0]

print(f'El número total de paises son: {total_paises}')

El número total de paises son: 11


In [101]:
# 4.1.2 Práctica: Traer el número de etapas jugadas de la tabla Match

#Deben traer el número de etapas stage almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la cantidad de etapas diferentes.

query = """select count(distinct(stage))
                    from match;"""

etapasUnicas = pd.read_sql(query, conex)

# Obtener solo el valor
total_etapas = etapasUnicas.iloc[0,0]

print(f'El ´numero total de etapas son: {total_etapas}')

El ´numero total de etapas son: 38


In [102]:
# 4.1.3 Práctica: Traer la suma de goles hechos por los equipos visitantes de la tabla Match

# Deben traer la suma de goles hechos por los equipos visitantes away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la suma de goles.

query = """select sum(away_team_goal)
                    from match;"""

sumaGoles_visitantes = pd.read_sql_query(query, conex)

# Obtener el valor de la suma de goles
total_goles = sumaGoles_visitantes.iloc[0,0]

print(f'La suma de todos los goles marcados por equipos visitantes son {total_goles}')

La suma de todos los goles marcados por equipos visitantes son 30160


In [103]:
# 4.1.4 Práctica: Traer el promedio de goles hechos por los equipos locales y el promedio de goles hechos por los visitantes de la tabla Match

# Deben traer el promedio de goles hechos por los equipos locales home_team_goal y el promedio de goles hechos por los equipos visitantes away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles.

query = """select avg(home_team_goal), avg(away_team_goal)
                    from match;"""
            
consultaPromedio = pd.read_sql(query, conex)

# Mostrar valores
promedioGoleshome = consultaPromedio.iloc[0,0]
promedioGolesaway = consultaPromedio.iloc[0,1]

print(f'El promedio de goles hechos por los equipos locales es de {promedioGoleshome}')
print(f'El promedio de goles hechos por los equipos visitantes es de {promedioGolesaway}')

El promedio de goles hechos por los equipos locales es de 1.5445937103044767
El promedio de goles hechos por los equipos visitantes es de 1.1609376804341969


In [104]:
# 4.1.5 Práctica: Traer la máxima cantidad de goles que un equipo visitante anotó en los juegos de la tabla Match

# Deben traer la máxima cantidad de goles un equipo visitante away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con cantidad de goles.

query = """select max(away_team_goal)
                    from match;"""

consultaGolesmmaximos = pd.read_sql(query, conex)

# mostrar el valor
golesMaximos = consultaGolesmmaximos.iloc[0,0]

print(f'Los goles máximos que ha anotado un equipo visitante en un partido es de {golesMaximos} goles')

Los goles máximos que ha anotado un equipo visitante en un partido es de 9 goles


## **5. Operaciones matemáticas**

Se pueden realizar operaciones matemáticas como: +, -, *, /, etc. Asimismo, estás operaciones pueden ser usadas en conjunto con las funciones agregativas/ métricas.

La sintaxis en la sentencia SELECT es así:

* (+)
    * SELECT column1+column2
    * FROM table_name

La sintaxis combinando con una métrica en la sentencia SELECT es así:

* AVG(+)
    * SELECT AVG(column1+column2)
    *FROM table_name



In [105]:
# 5.1.1 Práctica: Traer el promedio de goles por partido de la tabla Match

# Deben traer el promedio de la suma de goles hechos por los equipos locales home_team_goal y visitantes away_team_goal en todos los juegos almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles por partido.

query = """select avg(home_team_goal + away_team_goal)
                    from match;"""

consultaPromedio_golesawayhome = pd.read_sql(query, conex)

# mostrar valores
sumaPromedio = consultaPromedio_golesawayhome.iloc[0,0]

print(f'La suma de los promedios de los goles por equipo viitante y local es de {sumaPromedio}')

La suma de los promedios de los goles por equipo viitante y local es de 2.7055313907386735


## **6. Sentencia WHERE**

La sentencia **WHERE** se utiliza para filtrar registros. Mediante esta sentencia, se extraen sólo aquellos registros que cumplen una condición específica.

La sintaxis de **WHERE** es así:

* **SELECT** column1, column2...
* **FROM** table_name
* **WHERE** condition;

#### **6.1 Campos de texto (y fecha) vs campos numéricos**

Ejemplos de sintaxis con campo númerico:

* **SELECT** *
* **FROM** Customers
* **WHERE** CustomerId = 1;

Ejemplos de sintaxis con campo de texto:

* **SELECT** *
* **FROM** Customers
* **WHERE** Country = 'Mexico';

In [106]:
# 6.2.1 Ejemplo: Listar los jugadores que pesan 165 libras

# Queremos listar a los jugadores que cumplan con la condición de pesar 165 libras. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player

query = """select id, player_name, birthday, height, weight
                    from player
                    where weight = 165;"""

consultaJugadores_peso165 = pd.read_sql(query, conex)

print(consultaJugadores_peso165)

        id          player_name             birthday  height  weight
0       27   Abdelmalek Cherrad  1981-01-14 00:00:00  185.42     165
1       44   Abdoulaye Doucoure  1993-01-01 00:00:00  182.88     165
2       46      Abdoulaye Keita  1994-01-05 00:00:00  175.26     165
3       49  Abdoulwahid Sissoko  1990-03-20 00:00:00  182.88     165
4       58   Abdullah Al Hafith  1992-12-25 00:00:00  187.96     165
..     ...                  ...                  ...     ...     ...
806  11007     Zainadine Junior  1988-06-24 00:00:00  177.80     165
807  11015       Zakaria M'Sila  1992-04-06 00:00:00  177.80     165
808  11047            Zhi Zheng  1980-08-20 00:00:00  180.34     165
809  11063          Zoltan Gera  1979-04-22 00:00:00  182.88     165
810  11066      Zoran Josipovic  1995-08-25 00:00:00  187.96     165

[811 rows x 5 columns]


In [107]:
# 6.2.2 Práctica: Listar las temporadas en que un equipo visitante anotó 7 o más goles

# Deben listar las temporadas en que algún equipo visitante haya anotado 7 o más goles. La tabla de resultados deberá contener los campos season, home_team_goal, away_team_goal de la tabla Match de la base de datos de Fútbol Europeo.

query = """select season, home_team_goal, away_team_goal
                    from match
                    where away_team_goal = 7;"""

consultaVIsitante_7 = pd.read_sql_query(query, conex)

print(consultaVIsitante_7)

      season  home_team_goal  away_team_goal
0  2012/2013               1               7
1  2014/2015               1               7
2  2014/2015               2               7
3  2013/2014               0               7
4  2010/2011               0               7
5  2013/2014               0               7
6  2011/2012               0               7
7  2008/2009               1               7
8  2009/2010               1               7
9  2015/2016               0               7


#### 6.3 Operadores lógicos en WHERE

La sentencia **WHERE** puede combinarse con los operadores lógicos: **AND, OR y NOT**. Los operadores **AND** y **OR** se utilizan para filtrar registros basados en más de una condición.

* El operador **AND** muestra un registro si todas las condiciones separadas por **AND** son VERDADERA(s).
    * Sintaxis de **AND**:
        * **SELECT** column1, column2, ...
        * **FROM** table_name
        * **WHERE** condition1 **AND** condition2 **AND** condition3 ...;

* El operador **OR** muestra un registro si alguna de las condiciones separadas por **OR** es VERDADERA(s).
    * Sintaxis de **OR**:
        * **SELECT** column1, column2, ...
        * **FROM** table_name
        * **WHERE** condition1 OR condition2 ...;

* El operador **NOT** muestra un registro si la(s) condición(es) NO es VERDADERA(s).
    * Sintaxis de **NO**T:
        * **SELECT** column1, column2, ...
        * **FROM** table_name
        * **WHERE** NOT condition;







In [108]:
# 6.3.1 Práctica: Traer el Id de los equipos que desarrollan un dribbling normal y su velocidad de juego es balanceada

# Tomando la tabla Team_Attributes de la base de datos de Fútbol Europeo, deben obtener el id,buildUpPlayDribblingClass y buildUpPlaySpeedClass de los equipos que tengan los siguientes atributos:
    # buildUpPlayDribblingClass = 'Normal'
    # buildUpPlaySpeedClass = 'Balanced'

query = """select id, buildupplaydribblingclass, buildupplayspeedclass
                    from team_attributes
                    where  buildUpPlayDribblingClass = 'Normal' and buildUpPlaySpeedClass = 'Balanced';"""

consultaBuild = pd.read_sql(query, conex)

print(consultaBuild)

       id buildUpPlayDribblingClass buildUpPlaySpeedClass
0       2                    Normal              Balanced
1       3                    Normal              Balanced
2       8                    Normal              Balanced
3       9                    Normal              Balanced
4      14                    Normal              Balanced
..    ...                       ...                   ...
382  1450                    Normal              Balanced
383  1451                    Normal              Balanced
384  1452                    Normal              Balanced
385  1457                    Normal              Balanced
386  1458                    Normal              Balanced

[387 rows x 3 columns]


In [109]:
# 6.3.2 Práctica: Traer el Id de los equipos que desarrollan un juego de pase largo o su velocidad de juego es rápida

# Tomando la tabla Team_Attributes de la base de datos de Fútbol Europeo, deben obtener el id,buildUpPlayPassingClass y buildUpPlaySpeedClass de los equipos que tengan los siguientes atributos:
    # buildUpPlayPassingClass = 'Long'
    # buildUpPlaySpeedClass = 'Fast'

query = """select id, buildUpPlayPassingClass, buildUpPlaySpeedClass
                    from team_attributes
                    where buildUpPlayPassingClass = 'Long' and buildUpPlaySpeedClass = 'Fast';"""

consultaBuild2 = pd.read_sql_query(query, conex)

print(consultaBuild2)

      id buildUpPlayPassingClass buildUpPlaySpeedClass
0      4                    Long                  Fast
1     90                    Long                  Fast
2    167                    Long                  Fast
3    179                    Long                  Fast
4    183                    Long                  Fast
5    225                    Long                  Fast
6    289                    Long                  Fast
7    336                    Long                  Fast
8    359                    Long                  Fast
9    419                    Long                  Fast
10   536                    Long                  Fast
11   555                    Long                  Fast
12   564                    Long                  Fast
13   586                    Long                  Fast
14   611                    Long                  Fast
15   612                    Long                  Fast
16   642                    Long                  Fast
17   713  

In [110]:
# 6.3.3 Práctica: Traer la tabla de países sin Bélgica

# Deben filtrar la tabla de países y traerla sin Belgium. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo.

query = """ select id, name
                    from country
                    where not name = 'Belgium';"""
                
consultaNotBelgium = pd.read_sql(query, conex)

print(consultaNotBelgium)

      id         name
0   1729      England
1   4769       France
2   7809      Germany
3  10257        Italy
4  13274  Netherlands
5  15722       Poland
6  17642     Portugal
7  19694     Scotland
8  21518        Spain
9  24558  Switzerland


#### **6.4 Otros operadores que trabajan con la sentencia WHERE**

Los siguientes operadores también pueden ser utilizados en la sentencia WHERE:

* | **=** : Igual

* | **>** :  Mayor que

* | **<** : Menor que

* | **>=** : Mayor o igual que

* | **<=** : Menor o igual que

* | **<>** : No igual. Nota: En algunas versiones de **SQL** este operador puede ser escrito como **!=**

* | **BETWEEN** : Entre cierto rango

* | **LIKE** : Para consultar los datos basados en información parcial, se utiliza el operador LIKE en la sentencia WHERE. Busca un patrón. 
    * El patrón va antes, después o entre un par de % (wildcard). 
        * Ejemplo: 
            * **LIKE** 's%' busca cualquier texto que comience con 's'.
            * **LIKE**  '%er' busca cualquier texto que termine con 'er'. 
            * **LIKE** '%per%' busca cualquier texto que contenga 'per'.

* | **IN** : Para especificar varios valores posibles para una columna o subquery. Ejemplo de sintaxis cuando se especifica varios valores:
    * **SELECT** column1 
    * **FROM** Table_name 
    * **WHERE** column1 IN (value1, value2);.

* Ejemplo se sintaxis cuando se usa IN en una subquery:
    * **SELECT** TrackId, Name, AlbumId 
    * **FROM** Tracks 
    * **WHERE** AlbumId IN 
                                                 (SELECT AlbumId 
                                                 FROM Albums 
                                                 WHERE ArtistId = 12);

In [111]:
# 6.4.1 Práctica: Traer la tabla de países únicamente con Italia

# Deben filtrar la tabla de países y traer únicamente a Italy. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo.

query = """select id, name
                    from country
                    where name = 'Italy';"""

consultaItaly = pd.read_sql(query, conex)

print(consultaItaly)

      id   name
0  10257  Italy


In [112]:
# 6.4.2 Práctica: Traer la tabla de países sin Polonia

# Deben traer la tabla de países sin Poland. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo. No se debe utilizar NOT

query = """select id, name
                    from country
                    where name != 'Poland';"""

consultaPoland_naiita = pd.read_sql(query, conex)

print(consultaPoland_naiita)


      id         name
0      1      Belgium
1   1729      England
2   4769       France
3   7809      Germany
4  10257        Italy
5  13274  Netherlands
6  17642     Portugal
7  19694     Scotland
8  21518        Spain
9  24558  Switzerland


In [113]:
# 6.4.3 Práctica: Listar los jugadores que pesen entre 174 y 176 libras

# Queremos listar a los jugadores que cumplan con la condición de pesar entre 174 y 176 libras. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player. Asimismo, debemos limitar la consulta a 30 registros.

query = """select id, player_name, birthday, height, weight
                    from player
                    where weight between 174 and 176
                    limit 30;"""

consultaJugadoresPeso_174and176 = pd.read_sql_query(query, conex)

print(consultaJugadoresPeso_174and176)

     id            player_name             birthday  height  weight
0    17  Aaron Taylor-Sinclair  1991-04-08 00:00:00  182.88     176
1    34           Abdou Traore  1988-01-17 00:00:00  180.34     174
2    39           Abdoulaye Ba  1991-01-01 00:00:00  198.12     174
3    43       Abdoulaye Diallo  1992-03-30 00:00:00  187.96     174
4    61           Abel Aguilar  1985-01-06 00:00:00  185.42     176
5    68     Abella Perez Damia  1982-04-15 00:00:00  187.96     174
6    74       Abraham Gonzalez  1985-07-16 00:00:00  177.80     176
7    79          Achille Coser  1982-07-14 00:00:00  185.42     174
8    89             Adam Banas  1982-12-25 00:00:00  185.42     174
9    90            Adam Bodzek  1985-09-07 00:00:00  182.88     174
10  102          Adam Dzwigala  1995-09-25 00:00:00  185.42     176
11  133       Adam Waszkiewicz  1993-12-06 00:00:00  182.88     174
12  136         Adama Francois  1989-11-30 00:00:00  193.04     176
13  153         Admir Aganovic  1986-08-25 00:00

In [114]:
# 6.4.4 Práctica: Listar a los Messi de la base de datos de jugadores

# Queremos listar a los jugadores que cumplan con la condición de tener la palabra 'Messi' en su nombre. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player

query = """select id, player_name, birthday, height, weight
                    from player
                    where player_name like '%Messi%';"""

consultaMessi = pd.read_sql_query(query, conex)

print(consultaMessi)

     id   player_name             birthday  height  weight
0  6176  Lionel Messi  1987-06-24 00:00:00  170.18     159


### **Alias AS**

Los alias en **SQ**L se utilizan para dar a una tabla o a una columna, un nombre temporal. Se utilizan a menudo para hacer más legibles los nombres de las columnas. Un alias sólo existe durante la duración de la consulta.

* Sintaxis de **AS**:
    * **SELECT** column_name AS alias_name
    * **FROM** table_name AS other_alias;

## **7. Sentencia ORDER BY**

La sentencia **ORDER BY** se utiliza para ordenar el conjunto de resultados en orden ascendente o descendente. Por defecto, los registros se ordenan en orden ascendente **ASC**. Para ordenar los registros en orden descendente, utilice la palabra **DESC**.

* Sintaxis de **ORDER BY**
    * **SELECT** column1, column2, ...
    * **FROM** table_name
    * **WHERE** condition
    * **ORDER BY** column2 **ASC**|**DESC**;


In [115]:
# 7.1.1 Ejemplo: Listar a los equipos y ordenarlos por nombre

# Queremos listar a los equipos de la tabla Team y ordenarlos ascedentemente por nombre team_long_name. Adicionalmente, vamos a limitar la lista a 25 registros.

query = """select id, team_long_name as team_name
                    from team
                    order by team_name asc;"""

consultaTeam_name = pd.read_sql(query, conex)

print(consultaTeam_name)

        id                 team_name
0    16848      1. FC Kaiserslautern
1    15624                1. FC Köln
2    16239            1. FC Nürnberg
3    16243           1. FSV Mainz 05
4    11817                AC Ajaccio
..     ...                       ...
294  43800      Xerez Club Deportivo
295  31928            Zagłębie Lubin
296  33855         Zawisza Bydgoszcz
297  11822  Évian Thonon Gaillard FC
298  31449             Śląsk Wrocław

[299 rows x 2 columns]


In [116]:
# 7.1.2 Práctica: Listar la tabla de países en orden descendente

# Deben listar la tabla Country de forma descendente DESC por el campos name. La tabla de resultados deberá contener los campos id y name

query = """select id, name
                    from country
                    order by name desc;"""

consultaName = pd.read_sql(query, conex)

print(consultaName)

       id         name
0   24558  Switzerland
1   21518        Spain
2   19694     Scotland
3   17642     Portugal
4   15722       Poland
5   13274  Netherlands
6   10257        Italy
7    7809      Germany
8    4769       France
9    1729      England
10      1      Belgium


In [117]:
# 7.1.3 Práctica: Listar el id de los 15 jugadores con menos peso

# Deben listar la tabla Player de forma ascendente ASC por el campo weight. La tabla de resultados deberá contener los campos id, player_name y weight

query = """select id, player_name, weight
                    from player
                    order by weight  asc;"""

consultaOrder = pd.read_sql(query, conex)

print(consultaOrder)

          id       player_name  weight
0       5453        Juan Quero     117
1       6853   Mariusz Rybicki     121
2      10954   Yohandry Orozco     121
3       1480           Caetano     123
4       2612  Diego Buonanotte     123
...      ...               ...     ...
11055   6772  Marcus Hahnemann     220
11056   4412    Ishmael Miller     225
11057   4884  Jeroen Verhoeven     227
11058   5908  Kristof van Hout     243
11059  10313         Tim Wiese     243

[11060 rows x 3 columns]


In [118]:
# 7.1.4 Práctica: Listar el id de los 10 jugadores con mayor estatura

# Deben listar la tabla Player de forma descendente DESC por el campos height. La tabla de resultados deberá contener los campos id, player_name y height.

query = """select id, player_name, height
                    from  player
                    order by height desc;"""

consultaOrderHeight = pd.read_sql(query, conex)

print(consultaOrderHeight)

         id        player_name  height
0      5908   Kristof van Hout  208.28
1      1301       Bogdan Milic  203.20
2      1926  Costel Pantilimon  203.20
3      3274       Fejsal Mulic  203.20
4      5568      Jurgen Wevers  203.20
...     ...                ...     ...
11055  8686      Quentin Othon  162.56
11056  9441     Samuel Asamoah  162.56
11057  2612   Diego Buonanotte  160.02
11058  7258       Maxi Moralez  160.02
11059  5453         Juan Quero  157.48

[11060 rows x 3 columns]


In [119]:
# 7.1.5 Práctica: Listar el id de los 10 jugadores con mayor estatura y ordenarlos alfabéticamente pero de forma descendente

# Deben listar la tabla Player de forma descendente DESC por el campos height y player_name. La tabla de resultados deberá contener los campos id, player_name y height.

query = """select id, player_name, height
                    from player
                    order by height, player_name desc;"""

consultaOrdertwo = pd.read_sql_query(query, conex)

print(consultaOrdertwo)

         id        player_name  height
0      5453         Juan Quero  157.48
1      7258       Maxi Moralez  160.02
2      2612   Diego Buonanotte  160.02
3      9441     Samuel Asamoah  162.56
4      8686      Quentin Othon  162.56
...     ...                ...     ...
11055  5568      Jurgen Wevers  203.20
11056  3274       Fejsal Mulic  203.20
11057  1926  Costel Pantilimon  203.20
11058  1301       Bogdan Milic  203.20
11059  5908   Kristof van Hout  208.28

[11060 rows x 3 columns]


## **8. Sentencia GROUP BY**

La sentencia **GROUP BY** agrupa las filas que tienen los mismos valores en filas de resumen, como "encontrar el número de clientes en cada país". Se utiliza sobre dimensiones y métricas para agrupar el conjunto de resultados en una o más columnas.

Las dimensiones son todos aquellos valores que estamos describiendo en el **SELECT**. Y las métricas son que se utilizan a menudo con funciones agregativas **(COUNT, MAX, MIN, SUM, AVG)**.

* Sintaxis de **GROUP BY :**
    * **SELECT** column1, column2, ...
    * **FROM** table_name
    * **WHERE** condition
    * **GROUP BY** column1
    * **ORDER** BY column2 ASC|DESC;

Nota: El uso de **WHERE** antes de **GROUP BY** hace que este se ejecute más rápido, ya que el motor de base de datos no se tomará el tiempo de agrupar cosas que no necesita.

Nota2: Es muy importante utilizar las mismas dimensiones tanto en el **SELECT**, como en el **GROUP BY**. De lo contrario, la salida podría ser errónea.

In [120]:
# 8.1.1 Ejemplo: Queremos conocer cuántos equipos tienen cada tipo de velocidad de juego

# Queremos conocer cuántos equipos de la tabla Team_Attributes tienen cada tipo de velocidad juego. Es decir: cuántos tienen buildUpPlaySpeedClass = 'Fast', buildUpPlaySpeedClass = 'Balanced' y cuántos buildUpPlaySpeedClass = 'Slow'

query = """select buildUpPlaySpeedClass, count(id)
                    from team_attributes
                    group by buildUpPlaySpeedClass;"""

consultabuildUpPlaySpeedClass = pd.read_sql(query, conex)

print(consultabuildUpPlaySpeedClass)

  buildUpPlaySpeedClass  count(id)
0              Balanced       1184
1                  Fast        172
2                  Slow        102


In [121]:
#  8.1.2 Práctica: Queremos conocer cuántos equipos tienen cada clase de juego defensivo

# Queremos conocer cuantos equipos de la tabla Team_Attributes que tienen cada clase de juego defensivo. Es decir: cuántos defencePressureClass = 'Medium', defencePressureClass = 'Deep' y defencePressureClass = 'High'

query = """select defencePressureClass, count(defencePressureClass) as conteo
                    from team_attributes
                    group by defencePressureClass;"""


consultadefencePressureClas = pd.read_sql(query,conex)

print(consultadefencePressureClas)

  defencePressureClass  conteo
0                 Deep     154
1                 High      61
2               Medium    1243


In [122]:
# 8.1.3 Práctica: Analítica básica de las temporadas}

# Queremos realizar un sencillo análisis sobre la tabla Match. Se necesita obtener la siguiente información agrupada por cada season:
    # Cuantas stage distintas tuvo y visualizarlo como number_of_stages
    # El promedio de los goles de equipos locales home_team_goal y visualizarlo como avg_home_team_goals
    # El promedio de los goles de equipos visitantes away_team_goal y visualizarlo como avg_away_team_goals
    # La suma total de goles realizados por los equipos locales y visitantes en la temporada, visualizandolo como total_goals.
    # Asimismo, se requere ver la información de las temporadas más recientes primero.

query = """select season, count(distinct(stage)) as number_of_stage, avg(home_team_goal) as avg_home_team_goals, avg(away_team_goal) as avg_away_team_goals, sum(away_team_goal + home_team_goal) as total_goals
                    from match
                    group by season;""" 

consultaGroupby01 = pd.read_sql(query, conex)

print(tabulate(consultaGroupby01, headers='keys', tablefmt='github', showindex=False))

| season    |   number_of_stage |   avg_home_team_goals |   avg_away_team_goals |   total_goals |
|-----------|-------------------|-----------------------|-----------------------|---------------|
| 2008/2009 |                38 |               1.50541 |               1.10192 |          8672 |
| 2009/2010 |                38 |               1.54118 |               1.13127 |          8632 |
| 2010/2011 |                38 |               1.54847 |               1.13528 |          8749 |
| 2011/2012 |                38 |               1.57267 |               1.14379 |          8747 |
| 2012/2013 |                38 |               1.55    |               1.2227  |          9039 |
| 2013/2014 |                38 |               1.57883 |               1.18799 |          8389 |
| 2014/2015 |                38 |               1.5203  |               1.15549 |          8897 |
| 2015/2016 |                38 |               1.5439  |               1.21076 |          9162 |


## **9. Sentencias JOIN**

**JOIN** se usa cuando se quiere conectar dos tablas entre sí. Funciona cuando tienes una clave común en cada una de ellas. Entender el concepto de Claves es crucial para conectar (unir) conjuntos de datos (tablas).

> Recuerden: Una clave es un valor que podemos usar para referirnos a una fila o registro específico de una tabla. Puede consistir en un valor (celda) que generalmente es un ID, o de una combinación de valores que son únicos en la tabla (clave compuesta).

* Sintaxis de JOIN;
    * **SELECT** first_table.column1, firts_table.column2, second_table.columnA, second_table.columnB ...
    * **FROM** first_table (LEFT | RIGHT | FULL) 
    * **JOIN** second_table 
    * **ON** first_table.columnID = second_table.columnID;

### **9.1 Tipos de JOIN**

* **JOIN**: mantiene sólo los registros que coinciden con la condición (después del ON) en ambas tablas, y los registros de ambas tablas que no coincidan, no aparecerían en la tabla de resultado.

* **LEFT JOIN**: devuelve todos los registros de la primera tabla (izquierda), y los registros coincidentes de la segunda tabla (derecha). El resultado es NULL del lado derecho, si no hay coincidencia.

* **RIGHT JOIN**: devuelve todos los registros de la segunda tabla (derecha), y los registros coincidentes de la primera tabla (izquierda). El resultado es NULL del lado izquierdo, si no hay coincidencia.

* **FULL JOIN**: devuelve todos los registros cuando hay una coincidencia en los registros de la primera tabla (izquierda) o segunda tabla (derecha). Nota: FULL JOIN puede potencialmente devolver conjuntos de resultados MUY grandes.

Cuando se quiere unir diferentes tablas, es necesario que pienses en lo siguiente:

1. Decidir qué tipo de unión usar. Las más comunes son: JOIN y LEFT JOIN.
2. Especificar el valor común que se utiliza para conectar las tablas (la clave).
3. Asegurarse de que al menos uno de los valores tiene que ser una clave en su tabla.

Y por último, ¡Paciencia! Usar los JOIN de forma incorrecta, es el error más común (y a veces peligroso) cuando se escriben consultas complicadas.

In [123]:
# 9.2.1 Ejemplo: Lista de ligas y su país

# Queremos conocer a qué país corresponde cada liga. Para hacerlo, vamos a necesitar la información de las tablas Countryy League, uniendolas por su clave en común: Country.id = League.country_id.

query = """select L.id as Id_League, L.name as Nombre_league, c.name as Pais
                    from league as L
                    join country as c
                    on c.id = L.country_id;"""

consultaJoin = pd.read_sql(query, conex)

print(consultaJoin)

    Id_League             Nombre_league         Pais
0           1    Belgium Jupiler League      Belgium
1        1729    England Premier League      England
2        4769            France Ligue 1       France
3        7809     Germany 1. Bundesliga      Germany
4       10257             Italy Serie A        Italy
5       13274    Netherlands Eredivisie  Netherlands
6       15722        Poland Ekstraklasa       Poland
7       17642  Portugal Liga ZON Sagres     Portugal
8       19694   Scotland Premier League     Scotland
9       21518           Spain LIGA BBVA        Spain
10      24558  Switzerland Super League  Switzerland


In [124]:
# 9.2.2 Práctica: Comparación de cantidad de partidos jugados en cierta temporada de España y Bélgica

# Queremos realizar una comparación de la cantidad de partidos jugados en season = '2008/2009' entre los países 'Spain' y 'Belgium'. Los datos necesarios se encuentran en las tablas Match y Country. Asimismo, la tabla de resultados debe visualizarse de la siguiente manera:

query = """ select m.id as id_partido, 
                                m.season as temporada,
                                c.name as pais
                    from match as m
                    join country as c
                    on m.country_id = c.id
                    where m.season = '2008/2009' and c.name in ('Spain', 'Belgium');"""

consultaJoin02 = pd.read_sql_query(query, conex)

print(consultaJoin02)

     id_partido  temporada     pais
0             1  2008/2009  Belgium
1             2  2008/2009  Belgium
2             3  2008/2009  Belgium
3             4  2008/2009  Belgium
4             5  2008/2009  Belgium
..          ...        ...      ...
681       21893  2008/2009    Spain
682       21894  2008/2009    Spain
683       21895  2008/2009    Spain
684       21896  2008/2009    Spain
685       21897  2008/2009    Spain

[686 rows x 3 columns]



**9.2.3 Práctica: Lista detallada de juegos**

Queremos un detalle de 10 juegos realizados en el país Spain, ordenado de forma ascendente por date.

Lo que nos interesa ver es:

* el id del encuentro,
* el Country.name bajo alias country_name,
* el League.name bajo alias league_name,
* season,
* stage,
* date,
* el team_long_name del equipo local bajo alias home_team,
* el team_long_name del equipo visitante bajo alias away_team,
* home_team_goal y
* away_team_goal

Esta información se encuentra repartida entre las tablas: 
* Match 
* Country 
* League 
* Team. 

Teniendo en cuenta que las claves compartidas entre tablas son estas:

* Country.id = Match.country_id
* League.id = Match.league_id
* Team.team_api_id = Match.home_team_api_id

In [125]:
query = """select 
                            m.id                             as Id_encuentro,
                            c.name                        as country_name,
                            l.name                         as league_name,
                            m.season,
                            m.stage,
                            m.date,
                            ht.team_long_name   as home_team,
                            at.team_short_name as away_team,
                            m.home_team_goal,
                            m.away_team_goal
                    from 
                        country as c
                    join 
                        league as l
                                on c.id = l.country_id
                    join 
                        match as m
                                on c.id = m.country_id and l.id = m.league_id
                    join 
                        team as ht
                                on m.home_team_api_id = ht.team_api_id
                    join 
                        team as at
                                on m.away_team_api_id = at.team_api_id
                    where c.name = 'Spain';"""


consultaJoin03 = pd.read_sql(query, conex)

print(consultaJoin03)


      Id_encuentro country_name      league_name     season  stage  \
0            21518        Spain  Spain LIGA BBVA  2008/2009      1   
1            21519        Spain  Spain LIGA BBVA  2008/2009      1   
2            21520        Spain  Spain LIGA BBVA  2008/2009      1   
3            21521        Spain  Spain LIGA BBVA  2008/2009      1   
4            21522        Spain  Spain LIGA BBVA  2008/2009      1   
...            ...          ...              ...        ...    ...   
3035         24553        Spain  Spain LIGA BBVA  2015/2016      9   
3036         24554        Spain  Spain LIGA BBVA  2015/2016      9   
3037         24555        Spain  Spain LIGA BBVA  2015/2016      9   
3038         24556        Spain  Spain LIGA BBVA  2015/2016      9   
3039         24557        Spain  Spain LIGA BBVA  2015/2016      9   

                     date                  home_team away_team  \
0     2008-08-30 00:00:00                Valencia CF       MAL   
1     2008-08-31 00:00:00  

## **10. Sentencia HAVING**

La sentencia **HAVING** fue añadida a **SQL** porque la palabra clave **WHERE** no podía ser usada con funciones agregativas. Entonces, **HAVING** es como el **WHERE** para las funciones agregativas.

La sintaxis de **HAVING** es así:

* **SELECT** column_name(s)
* **FROM** table_name
* **WHERE** condition
* **GROUP BY** column_name(s)
* **HAVING** condition
* **ORDER BY** column_name(s);
* **HAVING** añade otra capa de filtrado a los datos, esta vez sobre el resultado de la tabla después de la agrupación. Muchas veces se utiliza para limpiar la salida.

### **Función ROUND() para redondear**

En **SQLite** La función **ROUND()** se utiliza para redondear un número decimal dado a las posiciones decimales especificadas basándose en un número de decimales dado.

La sintaxis, es la siguiente: 

**ROUND**( number, decimal_value )

* Donde:
    * **number:** Es el número decimal que necesitamos redondear.
    * **decimal_value:** Define el número de decimales a redondear.

Si *decimal_value* es un número positivo significa que el número se redondea hasta cerca de su valor.
En caso de que *decimal_value* se omita o sea negativo, se toma el valor por defecto que es cero (0) y el número se redondeará a cero (0) decimales, pero el número seguirá siendo un valor de punto flotante.

**10.1.1 Ejemplo: Análisis de goles por temporada en las ligas de España, Francia e Inglaterra.**

Queremos saber en qué temporada el promedio de goles de equipos locales estuvo entre 1.4 y 1.6, para las ligas de Spain, France y England.

La tabla de resultados deberá mostrar:

* La temporada season,
* el Country.name bajo alias country,
* el League.name bajo alias league,
* el promedio de goles hechos por equipos locales, bajo el alias avg_local_goals, redondeando con 2 decimales,
* el promedio de goles hechos por equipos visitantes, bajo el alias avg_visitor_goals, redondeando con 2 decimales,
* el total de goles por temporada y liga, bajo el alias total_goals,

Esta información se encuentra repartida entre las tablas: 

* Match 
* Country
* League. 

Teniendo en cuenta que las claves compartidas entre tablas son estas:

* Country.id = Match.country_id
* League.id = Match.league_id

In [126]:
query = """select 
                        m.season,
                        c.name as country,
                        l.name as league,
                        round(avg(m.home_team_goal), 2) as avg_local_goals,
                        round(avg(m.away_team_goal), 2) as avg_visitor_goals,
                        sum(m.home_team_goal + m.away_team_goal) as total_goals
                    from 
                        match as m
                    join
                        country as c
                            on c.id = m.country_id
                    join
                        league as l
                            on l.id = m.league_id and l.country_id = c.id
                    where 
                        c.name in ('Spain', 'France', 'England')
                    group by 
                        m.season, c.name, l.name
                    having
                        round(avg(m.home_team_goal), 2) between 1.4 and 1.6;
"""

consultaHaving = pd.read_sql(query, conex)

print(consultaHaving)

       season  country                  league  avg_local_goals  \
0   2008/2009  England  England Premier League             1.40   
1   2009/2010    Spain         Spain LIGA BBVA             1.60   
2   2011/2012  England  England Premier League             1.59   
3   2011/2012   France          France Ligue 1             1.47   
4   2012/2013  England  England Premier League             1.56   
5   2012/2013   France          France Ligue 1             1.47   
6   2013/2014  England  England Premier League             1.57   
7   2013/2014   France          France Ligue 1             1.42   
8   2014/2015  England  England Premier League             1.47   
9   2014/2015   France          France Ligue 1             1.41   
10  2014/2015    Spain         Spain LIGA BBVA             1.54   
11  2015/2016  England  England Premier League             1.49   
12  2015/2016   France          France Ligue 1             1.44   

    avg_visitor_goals  total_goals  
0                1.08   

**10.1.2 Práctica: Nos basaremos en ejemplo "Lista detallada de juegos", pero eliminaremos la información del partido y fechas, para comparar las ligas por temporadas.**

Para las ligas de los paises *Spain*, *Germany*, *France*, *Italy* y *England* que tengan un promedio de goles por partido mayor a $2.5$, queremos conocer:

* El nombre del país del equipo como Country,
* El nombre de la liga en la que juega como League,
* La cantidad de partidos (stages) como Stages,
* La temporada como Season,
* La cantidad de equipos como number_of_teams,
* El promedio de goles realizados por los equipos locales como avg_local_goals,redondeando con 2 decimales,
* El promedio de goles realizados por los equipos visitantes como avg_visitor_goals,redondeando con 2 decimales,
* El promedio de goles por partido como avg_goals,redondeando con 2 decimales,
* El promedio de gol diferencia por partido como avg_goal_dif,redondeando con 2 decimales,
* El total de goles realizados en la temporada como total_goals

Esta información se encuentra repartida entre las tablas: 

* Match 
* Country 
* League  
* Team 

Teniendo en cuenta que las claves compartidas entre tablas son estas:

* Country.id = Match.country_id
* League.id = Match.league_id
* Team.team_api_id = Match.home_team_api_id



In [127]:
query ="""SELECT 
    c.name AS Country,
    l.name AS League,
    COUNT(DISTINCT m.stage) AS Stages,
    m.season AS Season,
    COUNT(DISTINCT m.home_team_api_id) AS number_of_teams,
    ROUND(AVG(m.home_team_goal), 2) AS avg_local_goals,
    ROUND(AVG(m.away_team_goal), 2) AS avg_visitor_goals,
    ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) AS avg_goals,
    ROUND(AVG(ABS(m.home_team_goal - m.away_team_goal)), 2) AS avg_goal_dif,
    SUM(m.home_team_goal + m.away_team_goal) AS total_goals
FROM 
    match AS m
JOIN 
    country AS c ON c.id = m.country_id
JOIN 
    league AS l ON l.id = m.league_id
JOIN 
    team AS t ON t.team_api_id = m.home_team_api_id
WHERE 
    c.name IN ('Spain', 'Germany', 'France', 'Italy', 'England')
GROUP BY 
    c.name, l.name, m.season
HAVING 
    ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) > 2.5;
"""

consultaHaving02 = pd.read_sql(query, conex)

print(consultaHaving02)

    Country                  League  Stages     Season  number_of_teams  \
0   England  England Premier League      38  2009/2010               20   
1   England  England Premier League      38  2010/2011               20   
2   England  England Premier League      38  2011/2012               20   
3   England  England Premier League      38  2012/2013               20   
4   England  England Premier League      38  2013/2014               20   
5   England  England Premier League      38  2014/2015               20   
6   England  England Premier League      38  2015/2016               20   
7    France          France Ligue 1      38  2011/2012               20   
8    France          France Ligue 1      38  2012/2013               20   
9    France          France Ligue 1      38  2015/2016               20   
10  Germany   Germany 1. Bundesliga      34  2008/2009               18   
11  Germany   Germany 1. Bundesliga      34  2009/2010               18   
12  Germany   Germany 1. 

**10.1.3 Práctica: Análisis sobre los equipos que más goles realizaron jugando como locales**

Queremos un detalle de los equipos que jugando como locales en las ligas de Spain, Germany y England, hayan anotado más de 50 goles. Ordenar de forma descendente por temporada y por equipo con más goles realizados. Nos interesa conocer:

* El nombre del país del equipo como Country
* El nombre de la liga en la que juega como League
* El nombre del equipo como Team
* La cantidad de partidos (stages) como Stages
* La temporada como Season
* La suma de goles realizados en esa temporada, jugando como local bajo el alias sum_goals
* El promedio de goles bajo alias avg_goals, redondeando con 2 decimales

Esta información se encuentra repartida entre las tablas: Match, Country, League y Team. Teniendo en cuenta que las claves compartidas entre tablas son estas:

* Country.id = Match.country_id
* League.id = Match.league_id
* Team.team_api_id = Match.home_team_api_id

In [128]:
query = """
SELECT
    c.name AS Country,
    l.name AS League,
    t.team_long_name AS Team,
    COUNT(DISTINCT m.stage) AS Stages,
    m.season AS Season,
    SUM(m.home_team_goal) AS sum_goals,
    ROUND(AVG(m.home_team_goal), 2) AS avg_goals
FROM 
    match AS m
JOIN 
    country AS c ON c.id = m.country_id
JOIN 
    league AS l ON l.id = m.league_id
JOIN 
    team AS t ON t.team_api_id = m.home_team_api_id
WHERE 
    c.name IN ('Spain', 'Germany', 'England')
GROUP BY 
    c.name, l.name, t.team_long_name, m.season
HAVING 
    SUM(m.home_team_goal) > 50
ORDER BY 
    m.season DESC, sum_goals DESC;
"""

consultaHaving03 = pd.read_sql(query, conex)

print(consultaHaving03)


    Country                  League               Team  Stages     Season  \
0     Spain         Spain LIGA BBVA     Real Madrid CF      19  2015/2016   
1     Spain         Spain LIGA BBVA       FC Barcelona      19  2015/2016   
2   Germany   Germany 1. Bundesliga   FC Bayern Munich      17  2015/2016   
3     Spain         Spain LIGA BBVA     Real Madrid CF      19  2014/2015   
4     Spain         Spain LIGA BBVA       FC Barcelona      19  2014/2015   
5     Spain         Spain LIGA BBVA       FC Barcelona      19  2013/2014   
6   England  England Premier League    Manchester City      19  2013/2014   
7     Spain         Spain LIGA BBVA     Real Madrid CF      19  2013/2014   
8   England  England Premier League          Liverpool      19  2013/2014   
9     Spain         Spain LIGA BBVA     Real Madrid CF      19  2012/2013   
10    Spain         Spain LIGA BBVA       FC Barcelona      19  2012/2013   
11  Germany   Germany 1. Bundesliga   FC Bayern Munich      17  2012/2013   

#### **Función DATE()**

**DATE():** Esta función extrae la parte de fecha de una expresión tipo date o tipo date time y devuelve una cadena de fecha en este formato: AAAA-MM-DD.

Su sintaxis es la siguiente:

**SELECT DATE**(Datetime_field)
**FROM** table;

**10.1.4 Práctica: Análisis del cambio en overall rating y potential de Cristiano Ronaldo por edad.**

Se requiere visualizar el cambio de en **overall_rating** y **potential** de **Cristiano Ronaldo** por edad.

Entonces, la tabla de resultado deberá contener los siguientes campos: **player_name**, la edad nombrada como **Age**, **overall_rating**, **potential** y **date** como **RatingDate**.

Las tablas involucradas son 

* Player_Attributes
* Player

Que tienen una relación a través del campo 

* player_api_id con mismo nombre en ambas tablas.

In [129]:
query = """
SELECT
    p.player_name AS player_name,
    (strftime('%Y', pa.date) - strftime('%Y', p.birthday)) -
    (strftime('%m-%d', pa.date) < strftime('%m-%d', p.birthday)) AS Age,
    pa.overall_rating AS overall_rating,
    pa.potential AS potential,
    pa.date AS RatingDate
FROM
    Player AS p
JOIN
    Player_Attributes AS pa
ON
    p.player_api_id = pa.player_api_id
WHERE
    p.player_name = 'Cristiano Ronaldo'
ORDER BY
    RatingDate;
"""

consultaRonaldo = pd.read_sql(query, conex)

print(consultaRonaldo)


          player_name  Age  overall_rating  potential           RatingDate
0   Cristiano Ronaldo   22              87         92  2007-02-22 00:00:00
1   Cristiano Ronaldo   22              91         94  2007-08-30 00:00:00
2   Cristiano Ronaldo   23              91         94  2008-08-30 00:00:00
3   Cristiano Ronaldo   24              90         94  2009-02-22 00:00:00
4   Cristiano Ronaldo   24              89         94  2009-08-30 00:00:00
5   Cristiano Ronaldo   25              89         93  2010-02-22 00:00:00
6   Cristiano Ronaldo   25              89         94  2010-08-30 00:00:00
7   Cristiano Ronaldo   26              89         93  2011-02-22 00:00:00
8   Cristiano Ronaldo   26              92         94  2011-08-30 00:00:00
9   Cristiano Ronaldo   27              92         94  2012-02-22 00:00:00
10  Cristiano Ronaldo   27              92         94  2012-08-31 00:00:00
11  Cristiano Ronaldo   28              92         94  2013-02-15 00:00:00
12  Cristiano Ronaldo   2

# **11. Orden de ejecución de las consultas**

Ahora que estamos familiarizados con la mayoría de las funcionalidades que se utilizan en una consulta, es muy importante entender el orden en que se ejecuta el código.

Primero, el orden de cómo lo escribimos (recordatorio):

* SELECT
* FROM
* JOIN
* WHERE
* GROUP BY
* HAVING
* ORDER BY
* LIMIT

Ahora, el orden real en que las cosas suceden. Primero, puedes pensar en esta parte como la creación de una nueva tabla temporal en la memoria:

Definir qué tablas usar, y conectarlas (FROM + JOIN)
Mantén sólo las filas que se aplican a las condiciones (WHERE)
Agrupar los datos por el nivel requerido (si es necesario) (GROUP BY)
Elige qué información quieres tener en la nueva tabla (SELECT). Puede tener sólo datos en bruto (si no hay agrupación), o una combinación de dimensiones (de la agrupación), y métricas.

Ahora, tomamos eso para mostrarlo de la siguiente manera:

Ordenar la salida de la nueva tabla (ORDER BY)
Agregar más condiciones que filtrarían la nueva tabla creada (HAVING)
Límite en número de filas (LIMIT)

# **12. Sentencia CASE WHEN en SELECT**

La sentencia CASE WHEN de SQLite evalúa una lista de condiciones y devuelve una expresión basada en el resultado de dicha evaluación.

CASE WHEN es similar a la sentencia IF-THEN-ELSE de otros lenguajes de programación.

Se puede utilizar la sentencia CASE WHEN junto a cualquier sentencia que acepte una validaciones. Por ejemplo, puede utilizar la expresión CASE WHEN en sentencias como WHERE, ORDER BY, HAVING, SELECT y también en UPDATE y DELETE.

La sentencia CASE contiene una expresión opcional seguida de una o más cláusulas WHEN [condition] THEN [expression], terminando con una cláusula opcional ELSE y la cláusula obligatoria END.

Las sintaxis de CASE pueden ser de la siguiente manera:

Sintaxis de Simple CASE
CASE case_expression WHEN when_expression_1 THEN result_1 WHEN when_expression_2 THEN result_2 [...] ELSE result_else END

Sintaxis de Condition CASE CASE WHEN bool_expression_1 THEN result_1 WHEN bool_expression_2 THEN result_2 [...] ELSE result_else END

In [130]:
query = """
SELECT 
    DATE(Match.date) AS MatchDate,
    Home.team_long_name AS HomeTeam,
    Match.home_team_goal AS Home_goals,
    Visitor.team_long_name AS VisitorTeam,
    Match.away_team_goal AS Visitor_goals,
    CASE 
        WHEN Home.team_api_id = 8634 AND Match.home_team_goal < Match.away_team_goal THEN 'Barca lost :('
        WHEN Home.team_api_id = 8634 AND Match.home_team_goal > Match.away_team_goal THEN 'Barca won'
        WHEN Visitor.team_api_id = 8634 AND Match.away_team_goal < Match.home_team_goal THEN 'Barca lost :('
        WHEN Visitor.team_api_id = 8634 AND Match.away_team_goal > Match.home_team_goal THEN 'Barca won'
        ELSE 'Tie' 
    END AS Outcome
FROM 
    Match 
LEFT JOIN 
    Team AS Home ON Home.team_api_id = Match.home_team_api_id
LEFT JOIN 
    Team AS Visitor ON Visitor.team_api_id = Match.away_team_api_id
WHERE 
    (Visitor.team_api_id = 8634 OR Home.team_api_id = 8634) 
    AND season = '2012/2013'
ORDER BY 
    MatchDate DESC
LIMIT 15;
"""

Barca_results = pd.read_sql(query, conex)
print(Barca_results)


     MatchDate                 HomeTeam  Home_goals  \
0   2013-06-01             FC Barcelona           4   
1   2013-05-26             RCD Espanyol           0   
2   2013-05-19             FC Barcelona           2   
3   2013-05-12          Atlético Madrid           1   
4   2013-05-05             FC Barcelona           4   
5   2013-04-27  Athletic Club de Bilbao           2   
6   2013-04-20             FC Barcelona           1   
7   2013-04-14            Real Zaragoza           0   
8   2013-04-06             FC Barcelona           5   
9   2013-03-30         RC Celta de Vigo           2   
10  2013-03-17             FC Barcelona           3   
11  2013-03-09             FC Barcelona           2   
12  2013-03-02           Real Madrid CF           2   
13  2013-02-23             FC Barcelona           2   
14  2013-02-16               Granada CF           1   

                  VisitorTeam  Visitor_goals        Outcome  
0                   Málaga CF              1      Barca w

**12.2 Práctica: Queremos una tabla que me indique los partidos jugados por el FC Barcelona como local contra el Real Madrid CF, la fecha de juego y si perdió, ganó o empató.**

La información que necesitamos está repartida entre las tablas Match y Team, cuya relación es: Team.team_api_id = Match.home_team_api_id

Queremos ver a la fecha del partido como MatchDate, el nombre del equipo local como HomeTeam y del visitante como VisitorTeam. También queremos ver los goles y el resultado bajo alias Outcome.

Datos necesarios:

FC Barcelona: team_api_id = 8634
Real Madrid CF: team_api_id = 8633

In [131]:
query = """
SELECT 
    DATE(Match.date) AS MatchDate,
    Home.team_long_name AS HomeTeam,
    Visitor.team_long_name AS VisitorTeam,
    Match.home_team_goal AS Home_goals,
    Match.away_team_goal AS Visitor_goals,
    CASE 
        WHEN Match.home_team_api_id = 8634 AND Match.home_team_goal < Match.away_team_goal THEN 'Barca lost :('
        WHEN Match.home_team_api_id = 8634 AND Match.home_team_goal > Match.away_team_goal THEN 'Barca won'
        WHEN Match.home_team_api_id = 8634 AND Match.home_team_goal = Match.away_team_goal THEN 'Tie'
        ELSE 'Tie'
    END AS Outcome
FROM 
    Match 
JOIN 
    Team AS Home ON Home.team_api_id = Match.home_team_api_id
JOIN 
    Team AS Visitor ON Visitor.team_api_id = Match.away_team_api_id
WHERE 
    Match.home_team_api_id = 8634
    AND Match.away_team_api_id = 8633
ORDER BY 
    MatchDate DESC;
"""

Barca_vs_RealMadrid = pd.read_sql(query, conex)
print(Barca_vs_RealMadrid)


    MatchDate      HomeTeam     VisitorTeam  Home_goals  Visitor_goals  \
0  2016-04-02  FC Barcelona  Real Madrid CF           1              2   
1  2015-03-22  FC Barcelona  Real Madrid CF           2              1   
2  2013-10-26  FC Barcelona  Real Madrid CF           2              1   
3  2012-10-07  FC Barcelona  Real Madrid CF           2              2   
4  2012-04-21  FC Barcelona  Real Madrid CF           1              2   
5  2010-11-29  FC Barcelona  Real Madrid CF           5              0   
6  2009-11-29  FC Barcelona  Real Madrid CF           1              0   
7  2008-12-13  FC Barcelona  Real Madrid CF           2              0   

         Outcome  
0  Barca lost :(  
1      Barca won  
2      Barca won  
3            Tie  
4  Barca lost :(  
5      Barca won  
6      Barca won  
7      Barca won  


# 13. **SUB QUERIES**

El uso de subconsultas es una herramienta esencial en SQL, ya que permite manipular los datos de formas muy avanzadas sin necesidad de ningún script externo, y es especialmente importante cuando tus tablas están estructuradas de tal forma que no se pueden unir directamente.

**13.1 Ejemplo: Rating de Cristiano Ronaldo y Lionel Messi versus los demás jugadores.**

Se requiere comparar el promedio de overall_rating y potential de Cristiano Ronaldo y Lionel Messi contra el promedio de los demás jugadores de la base de datos.

Entonces, la tabla de resultado deberá contener los siguientes campos: player_name, el promedio redondeado con 2 decimales de overall_rating y el promedio redondeado con 2 decimales de potential. Mostrando a los demás jugadores como "Others".

Las tablas involucradas son Player_Attributes y Player. Que tienen una relación en el campo player_api_id que tiene ese nombre en ambas tablas.

In [132]:
import pandas as pd
import sqlite3

# Establecer la conexión a tu base de datos
conn = sqlite3.connect('tu_base_de_datos.db')

# Definir la consulta SQL
query = """
SELECT 
    CASE
        WHEN player_name = 'Cristiano Ronaldo' THEN 'Cristiano Ronaldo'
        WHEN player_name = 'Lionel Messi' THEN 'Lionel Messi'
        ELSE 'Others'
    END AS Player,
    COALESCE(PA_Grouped.avg_overall_rating, 0) AS avg_overall_rating,
    COALESCE(PA_Grouped.avg_potential, 0) AS avg_potential
FROM 
    Player
LEFT JOIN 
    (SELECT 
        Player_Attributes.player_api_id,
        ROUND(avg(Player_Attributes.overall_rating), 2) AS avg_overall_rating,
        ROUND(avg(Player_Attributes.potential), 2) AS avg_potential  
    FROM 
        Player_Attributes
    GROUP BY 
        Player_Attributes.player_api_id) AS PA_Grouped 
ON 
    Player.player_api_id = PA_Grouped.player_api_id
GROUP BY 
    Player
ORDER BY 
    Player;
"""

# Ejecutar la consulta y almacenar los resultados en un DataFrame de Pandas
players_rating = pd.read_sql(query, conex)

# Cerrar la conexión a la base de datos
conn.close()

# Imprimir los resultados
print(players_rating)


              Player  avg_overall_rating  avg_potential
0  Cristiano Ronaldo               91.28          93.48
1       Lionel Messi               92.19          95.23
2             Others               63.60          67.60
