## Intermediate SQL por Datacamp

~ Para ejecutar SQL desde un notebook de Jupyter, [link en Datacamp](https://www.datacamp.com/community/tutorials/sql-interface-within-jupyterlab).

<img src="1.jpeg"></img>

## Importamos librerías y extensiones

In [1]:
# Importamos la librería sqlalchemy, que nos permite ejecutar código SQL adaptado a sintaxis simple y de forma Pythonica
import sqlalchemy

# Cargamos el módulo sqlite
%load_ext sql

# Cargamos la extensión ipython-sql
%sql sqlite://


## Probemos SQLITE

In [2]:
# Cargamos la base de datos (cambiar directorio, sin especificar el disco duro)
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite

## Seleccionamos y probamos con pandas

In [3]:
# Importamos numpy pandas
import numpy as np
import pandas as pd

In [4]:
# Seleccionamos algunos datos para probar
resultado = %sql SELECT * FROM Crops

# Vemos el tipo de objeto que es "resultado"
print(type(resultado))

# Convertimos el resultado SQL a DataFrame con Pandas
df_resultado = resultado.DataFrame()

# Cinco primeras filas del DataFrame
print(df_resultado.head())

# Vemos el resumen del DataFrame
df_resultado.info()

   sqlite://
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
Done.
<class 'sql.run.ResultSet'>
   Id  plot_Id  crop_Id  D05_times D_curr_crop  D_repeat_times_count
0   1        1        1          1       maize                     1
1   1        2        1          1       maize                     1
2   2        1        1          1       maize                     1
3   2        2        1          1    tomatoes                     1
4   2        3        1          1   vegetable                     1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1044 entries, 0 to 1043
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Id                    1044 non-null   int64 
 1   plot_Id               1044 non-null   int64 
 2   crop_Id               1044 non-null   int64 
 3   D05_times             1044 non-null   int64 
 4   D_curr_crop           1039 non-null   object
 5   D_r

## SQL Intermedio

<img src="2.png"></img>

Bienvenidos a SQL intermedio. SQL es una poderosa herramienta para trabajar con bases de datos relacionales. Con un conocimiento intermedio de SQL, obtendremos la capacidad de acceder y crear conjuntos de datos de varias tablas en una base de datos relacional, para responder a nuestras preguntas sobre ciencia de datos.

En este curso, aprenderemos específicamente a:

- Dar forma, transformar y manipular datos utilizando la instrucción CASE.

- Subconsultas simples.

- Subconsultas correlacionadas.

- Funciones de ventana.

Antes de tomar este curso, deberíamos sentirnos cómodos trabajando con temas introductorios de SQL, como seleccionando datos de una base de datos usando funciones aritméticas, declaraciones GROUP BY y cláusulas WHERE para filtrar datos.

También debe estar familiarizado con la unión de datos con LEFT JOIN, RIGHT JOIN, INNER JOIN y OUTER JOIN. En este curso, utilizaremos y desarrollaremos estos temas para interactuar con nuestra base de datos.

Para este curso, utilizaremos una base de datos del fútbol europeo, 'European soccer database', que es una base de datos relacional que contiene datos sobre más de 25.000 partidos, 300 equipos y 10.000 jugadores en Europa entre 2008 y 2016.

## Carguemos la base de datos que utilizaremos

In [5]:
# Cargamos la base de datos
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite

Los datos están contenidos en 4 tablas: país, liga, equipo y partido.

In [6]:
# Selecting from European Soccer Database
%sql SELECT l.name AS league, COUNT(m.country_id) AS matches \
FROM league AS l \
LEFT JOIN match AS m \
ON l.country_id = m.country_id \
GROUP BY l.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


league,matches
Belgium Jupiler League,1728
England Premier League,3040
France Ligue 1,3040
Germany 1. Bundesliga,2448
Italy Serie A,3017
Netherlands Eredivisie,2448
Poland Ekstraklasa,1920
Portugal Liga ZON Sagres,2052
Scotland Premier League,1824
Spain LIGA BBVA,3040


Seleccionar datos de estas tablas es bastante simple. La consulta que vemos aquí, te da el número de partidos jugados en cada una de las 11 ligas enumeradas en la tabla 'Liga'.

Digamos que queremos comparar la cantidad de victorias del equipo local, victorias del equipo visitante y empates en la temporada 2013/2014.

La tabla 'coincidencia' ahora tiene dos columnas relevantes: home_goal y away_goal.

## Nota

En Datacamp se renombró las columnas, quitando la etiqueta 'team' de las columnas de goles.

In [7]:
%sql SELECT date, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_goal,away_team_goal
2014-03-29 00:00:00,2,0
2014-03-29 00:00:00,0,1
2014-04-05 00:00:00,1,0
2014-04-05 00:00:00,0,0
2014-04-12 00:00:00,2,1
2014-04-12 00:00:00,2,0
2014-04-19 00:00:00,2,4
2014-04-19 00:00:00,0,2
2014-04-26 00:00:00,4,2
2014-04-26 00:00:00,1,1


Potencialmente, podemos agregar filtros a la cláusula WHERE, seleccionando victorias, derrotas y empates por separado, pero eso no es muy eficiente si deseamos comparar estos resultados en un solo conjunto de datos.

In [8]:
%sql SELECT date, id, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014' \
AND home_team_goal > away_team_goal \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,id,home_team_goal,away_team_goal
2014-03-29 00:00:00,1237,2,0
2014-04-05 00:00:00,1239,1,0
2014-04-12 00:00:00,1241,2,1
2014-04-12 00:00:00,1242,2,0
2014-04-26 00:00:00,1245,4,2
2014-05-03 00:00:00,1248,4,0
2013-08-18 00:00:00,3630,2,0
2013-08-17 00:00:00,3632,1,0
2013-08-19 00:00:00,3633,4,0
2013-08-17 00:00:00,3638,2,0


Aquí es donde entra la instrucción CASE. Las declaraciones CASE son la versión de SQL de una declaración condicional de otros lenguajes de programación 'IF'.

Las declaraciones de casos tienen tres partes: una cláusula WHEN, una cláusula THEN y una cláusula ELSE.


In [9]:
print( \
""" 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 
""")

 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 



- La primera parte, la cláusula WHEN, prueba una condición determinada, por ejemplo X = 1, si esta condición es VERDADERA, devuelve el elemento que especifica después de su cláusula WHEN.

- Podemos crear varias condiciones enumerando las declaraciones WHEN y THEN dentro de la misma declaración CASE.

- Luego, la instrucción CASE finaliza con una cláusula ELSE que devuelve un valor especificado si todas sus declaraciones WHEN no son verdaderas.

- Al terminar la declaración, debemos asegurarnos de incluir el término END y de darle un alias.

- La declaración CASE completa se evaluará en una nueva columna en su consulta SQL.



In [10]:
%sql SELECT id, home_team_goal, away_team_goal, CASE WHEN home_team_goal > away_team_goal THEN 'Home Team Win' WHEN home_team_goal < away_team_goal THEN 'Away Team Win' ELSE 'Tie' END AS outcome FROM match WHERE season = '2013/2014' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


id,home_team_goal,away_team_goal,outcome
1237,2,0,Home Team Win
1238,0,1,Away Team Win
1239,1,0,Home Team Win
1240,0,0,Tie
1241,2,1,Home Team Win
1242,2,0,Home Team Win
1243,2,4,Away Team Win
1244,0,2,Away Team Win
1245,4,2,Home Team Win
1246,1,1,Tie


En este ejemplo, usamos una instrucción CASE para crear una nueva variable que identifica partidos como victorias del equipo local, victorias del equipo visitante o empates.

Se crea una nueva columna con el texto apropiado para cada partido dado el resultado.

En la próxima lección, practicaremos más formas de estructurar CASE, utilizando funciones aritméticas como COUNT, SUM y AVG. Por ahora, practicaremos la creación de declaraciones CASE para crear categorías para los datos.

### EX 1° : BASIC CASE statements (1).
Se identificarán partidos jugados entre FC Schalke 04 y FC Bayern Munich.

In [11]:
%sql SELECT team_long_name, team_api_id \
FROM team \
WHERE team_long_name in ('FC Bayern Munich', 'FC Schalke 04')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_long_name,team_api_id
FC Bayern Munich,9823
FC Schalke 04,10189


In [12]:
%sql SELECT CASE WHEN home_team_api_id = 9823 THEN 'Bayern Munich' WHEN home_team_api_id = 10189 THEN 'FC Schalke 04' ELSE 'Other' END AS home_team,  \
count(id) AS total_matches \
FROM match \
GROUP BY home_team

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


home_team,total_matches
Bayern Munich,136
FC Schalke 04,136
Other,25707


### EX 2° : CASE statements comparing column values (1).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [13]:
%sql SELECT date, \
CASE WHEN home_team_goal > away_team_goal THEN 'Home Win :)' WHEN home_team_goal < away_team_goal THEN 'Home loss :(' ELSE 'Tie' END AS outcome \
FROM match \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,outcome
2008-08-17 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-17 00:00:00,Home Win :)
2008-08-16 00:00:00,Home loss :(
2008-09-24 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-16 00:00:00,Home Win :)
2008-11-01 00:00:00,Home Win :)


### EX 2.5° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [14]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal > away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal < away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = away_team_api_id \
WHERE home_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2011-10-29 00:00:00,RCD Mallorca,Barcelona ganó :)
2011-11-19 00:00:00,Real Zaragoza,Barcelona ganó :)
2011-12-03 00:00:00,Levante UD,Barcelona ganó :)
2011-11-29 00:00:00,Rayo Vallecano,Barcelona ganó :)
2012-01-15 00:00:00,Real Betis Balompié,Barcelona ganó :)
2011-08-29 00:00:00,Villarreal CF,Barcelona ganó :)
2012-05-02 00:00:00,Málaga CF,Barcelona ganó :)
2012-02-04 00:00:00,Real Sociedad,Barcelona ganó :)
2012-02-19 00:00:00,Valencia CF,Barcelona ganó :)
2012-03-03 00:00:00,Real Sporting de Gijón,Barcelona ganó :)


## Notas

Notar como, con la coincidencia hecho en el WHERE, basta para tener al FC Barcelona como equipo en casa, de forma que, en la unión a la izquierda en las tablas, se podría obtener menos información colocando:
- ON team_api_id = home_team_api_id

De esta forma, obtendríamos los mismos nombres una y otra vez en la fila. El código utilizado en la celda de arriba obtiene más información (los oponentes).
En las query de SQL siempre optar por la vía que entrega más información.

### EX 3° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo visitante, utilizando la declaración CASE para saber si ganó, perdió o empató de visitante.

In [15]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal < away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal > away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = home_team_api_id \
WHERE away_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2012-01-22 00:00:00,Málaga CF,Barcelona ganó :)
2011-10-25 00:00:00,Granada CF,Barcelona ganó :)
2011-11-06 00:00:00,Athletic Club de Bilbao,Empate
2011-11-26 00:00:00,Getafe CF,Barcelona perdió :(
2011-12-10 00:00:00,Real Madrid CF,Barcelona ganó :)
2012-01-08 00:00:00,RCD Espanyol,Empate
2012-01-28 00:00:00,Villarreal CF,Empate
2012-02-11 00:00:00,CA Osasuna,Barcelona perdió :(
2012-02-26 00:00:00,Atlético Madrid,Barcelona ganó :)
2012-03-11 00:00:00,Racing Santander,Barcelona ganó :)


## Notas

Si bien, se puede realizar un copy paste rápido cambiando los ID, no se debe olvidar cambiar las desigualdades al cambiar de casa a visitante el equipo del FC Barcelona.

## In CASE things get more complex

Ahora que comprendemos algunos conceptos básicos de las declaraciones CASE, configuremos algunas pruebas lógicas más complejas.

## Reviewing CASE WHEN

Anteriormente, cubrimos las declaraciones CASE con una prueba lógica en un WHEN, lo que nos devolvía resultados basados en si esa prueba era VERDADERA o FALSA.

El ejemplo a continuación prueba si los goles en casa o fuera de casa fueron más altos y los identifica como victorias para el equipo que obtuvo una puntuación más alta. Todo lo demás se clasifica como empate.


In [16]:
%sql SELECT date, \
season, \
CASE WHEN home_team_goal > away_team_goal THEN 'Ganó el equipo en casa' \
WHEN home_team_goal < away_team_goal THEN 'Ganó el equipo visitante'\
ELSE 'Tie' END AS outcome \
FROM match \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-08-17 00:00:00,2008/2009,Ganó el equipo en casa
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-09-24 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-08-16 00:00:00,2008/2009,Ganó el equipo en casa
2008-11-01 00:00:00,2008/2009,Ganó el equipo en casa


La tabla resultante tiene una columna que identifica las coincidencias como uno de los 3 posibles resultados.

## CASE WHEN ... AND then some

Si deseamos probar varias condiciones lógicas en una instrucción CASE, se puede usar AND dentro de la cláusula WHEN.

Por ejemplo, veamos si cada partido lo jugó y ganó el equipo Chelsea.

## Nota

Recordar que no somos adivinos, y debemos ir viendo las tablas y columnas que nos sirven o no según la consulta. Podemos guiarnos con [el enlace de Kaggle](https://www.kaggle.com/hugomathien/soccer).

In [17]:
%sql SELECT team_api_id \
FROM Team \
WHERE team_long_name = 'Chelsea'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_api_id
8455


In [18]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' AND (hometeam_id = 8455 OR awayteam_id = 8455) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-08-14 00:00:00,10194,8455,Chelsea perdió/empató
2011-10-29 00:00:00,8455,9825,Chelsea perdió/empató
2011-11-05 00:00:00,8655,8455,Chelsea ganó de visitante
2011-11-20 00:00:00,8455,8650,Chelsea perdió/empató
2011-11-26 00:00:00,8455,8602,Chelsea ganó en casa
2011-12-03 00:00:00,10261,8455,Chelsea ganó de visitante
2011-12-12 00:00:00,8455,8456,Chelsea ganó en casa
2011-12-17 00:00:00,8528,8455,Chelsea perdió/empató
2011-12-22 00:00:00,8586,8455,Chelsea perdió/empató
2011-12-26 00:00:00,8455,9879,Chelsea perdió/empató


Veamos al declaración CASE en la consulta anterior. Cada cláusula WHEN contiene dos pruebas lógicas:

- La primera prueba es, respectivamente, si el equipo en casa o visitante ganó o perdió según la cantidad de goles.

- La segunda prueba es que, efectivamente, el ID del equipo corresponda al Chelsea en casa o visitante.

Si ambas condiciones son VERDADERAS o FALSAS, o una y otra, la nueva columna devuelve los STRINGS de:

- Chelsea ganó en casa.

- Chelsea ganó de visitante.

- Chelsea perdió/empató.

## What ELSE is being excluded?

Al probar condiciones lógicas, es importante considerar cuidadosamente qué filas de los datos son parte de la cláusula ELSE y si están categorizadas correctamente.

A continuación, aquí está la misma instrucción CASE de la diapositiva anterior, pero se ha eliminado el filtro WHERE de los ID.

In [19]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-07-29 00:00:00,1773,8635,Chelsea perdió/empató
2011-07-30 00:00:00,9998,9985,Chelsea perdió/empató
2011-07-30 00:00:00,9987,9993,Chelsea perdió/empató
2011-07-30 00:00:00,9991,9984,Chelsea perdió/empató
2011-07-30 00:00:00,9994,10000,Chelsea perdió/empató
2011-07-30 00:00:00,8571,9989,Chelsea perdió/empató
2011-07-30 00:00:00,8203,9997,Chelsea perdió/empató
2011-07-31 00:00:00,8342,10001,Chelsea perdió/empató
2011-10-16 00:00:00,8342,9991,Chelsea perdió/empató
2011-10-16 00:00:00,8635,9985,Chelsea perdió/empató


Como podemos apreciar, sin el filtro WHERE de los ID, se categorizará TODOS los partidos jugados por cualquiera que no cumpla las primeras condiciones del CASE WHEN:

- Un vistazo rápido a la tabla demuestra que las primeras coincidencias están todas categorizadas como 'Chelsea perdió o empató', pero ni el hometeam_id ni el awayteam_id pertenecen al Chelsea.

## Correctly categorize your data with CASE

La forma más sencilla de corregir esto es asegurarse de agregar filtros específicos en la cláusula WHERE que excluyan a todos los equipos en los que el Chelsea no jugó.

In [20]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' AND (hometeam_id = 8455 OR awayteam_id = 8455) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-08-14 00:00:00,10194,8455,Chelsea perdió/empató
2011-10-29 00:00:00,8455,9825,Chelsea perdió/empató
2011-11-05 00:00:00,8655,8455,Chelsea ganó de visitante
2011-11-20 00:00:00,8455,8650,Chelsea perdió/empató
2011-11-26 00:00:00,8455,8602,Chelsea ganó en casa
2011-12-03 00:00:00,10261,8455,Chelsea ganó de visitante
2011-12-12 00:00:00,8455,8456,Chelsea ganó en casa
2011-12-17 00:00:00,8528,8455,Chelsea perdió/empató
2011-12-22 00:00:00,8586,8455,Chelsea perdió/empató
2011-12-26 00:00:00,8455,9879,Chelsea perdió/empató


En la tabla anterior, especificamos esto usando una declaración OR en WHERE, que solo recupera los resultados en donde el ID 8455 está presente en las columnas hometeam_id o awayteam_id.

Las identificaciones de los equipos especifican, claramente, si el Chelsea estaba en casa o de visitante.

## What's NULL?

También es importante considerar lo que está haciendo nuestra cláusula ELSE.

Las dos consultas a continuación son idénticas, excepto por la instrucción ELSE NULL especificada en la segunda.

In [21]:
# Primera consulta
%sql SELECT date, \
CASE WHEN date > '2015-01-01' THEN 'More Recently' \
WHEN date < '2012-01-01' THEN 'older' \
END AS date_category \
FROM match \
WHERE season IN ('2011/2012') \
LIMIT 100

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,date_category
2011-07-29 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-31 00:00:00,older
2011-10-16 00:00:00,older
2011-10-16 00:00:00,older


In [22]:
# Segunda consulta con ELSE NULL
%sql SELECT date, \
CASE WHEN date > '2015-01-01' THEN 'More Recently' \
WHEN date < '2012-01-01' THEN 'older' \
ELSE NULL END AS date_category \
FROM match \
WHERE season IN ('2011/2012') \
LIMIT 100

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,date_category
2011-07-29 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-31 00:00:00,older
2011-10-16 00:00:00,older
2011-10-16 00:00:00,older


Ambas consultas devuelven resultados idénticos: tablas con algunos resultados nulos. Pero, ¿y si queremos excluirlos?

## What are NULL values doing?

Digamos que solo nos interesa ver los resultados de los partidos en los que ganó el Chelsea, y no nos importa si pierde o empata.

Al igual que en el ejemplo anterior, simplemente eliminando la cláusula ELSE, recuperará esos resultados y muchos valores NULL.

In [23]:
%sql SELECT date, season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' \
END AS outcome \
FROM Match \
WHERE home_team_api_id = 8455 OR away_team_api_id = 8455 \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-22 00:00:00,2008/2009,
2008-11-30 00:00:00,2008/2009,
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-14 00:00:00,2008/2009,
2008-12-22 00:00:00,2008/2009,


## Where to place your CASE?

Para corregir esto, podemos tratar la declaración CASE completa como una columna para filtrar en la cláusula WHERE, como cualquier otra columna.

Para filtrar una consulta por una declaración CASE, debemos modificar la primera consulta a continuación, de forma que quede como en la segunda, es decir:

- Se incluye la instrucción CASE completa, EXCEPTO SU ALIAS, en WHERE.

- A continuación, se especifica lo que se desea incluir o excluir.

En el caso de la segunda consulta, en específico, deseamos mantener todas las filas en donde la declaración CASE NO SEA NULA (END IS NOT NULL).

In [24]:
# Primera consulta
%sql SELECT date, \
season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END AS outcome \
FROM match \
WHERE away_team_api_id = 8455 OR home_team_api_id = 8455 \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-22 00:00:00,2008/2009,
2008-11-30 00:00:00,2008/2009,
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-14 00:00:00,2008/2009,
2008-12-22 00:00:00,2008/2009,


In [25]:
# Segunda consulta
%sql SELECT date, \
season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END AS outcome \
FROM match \
WHERE CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END IS NOT NULL \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-26 00:00:00,2008/2009,Chelsea ganó en casa
2008-08-24 00:00:00,2008/2009,Chelsea ganó de visitante
2009-01-17 00:00:00,2008/2009,Chelsea ganó en casa
2009-01-28 00:00:00,2008/2009,Chelsea ganó en casa


De esta forma, la tabla resultante ahora solo incluye cuando Chelsea estaba en casa o de visitante, ¡y ya no necesitamos filtrar por el ID de equipo!

Bueno, ¡practiquemos algunas declaraciones CASE más complejas!

### EX 4° : In case of rivalry
Haremos una consulta con los partidos jugados entre el FC Barcelona y el Real Madrid (El Clásico).

In [26]:
# Realizamos un query para obtener los ID
%sql SELECT team_long_name AS team_name, team_api_id AS id \
FROM team \
WHERE team_long_name IN ('FC Barcelona', 'Real Madrid CF')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_name,id
Real Madrid CF,8633
FC Barcelona,8634


In [27]:
# Realizamos el query
%sql SELECT date AS fecha, \
CASE WHEN home_team_api_id = 8634 THEN 'FC Barcelona' \
ELSE 'Real Madrid CF' END AS casa, \
CASE WHEN away_team_api_id = 8634 THEN 'FC Barcelona' \
ELSE 'Real Madrid CF' END AS visitante, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8634 THEN 'Ganó el FC Barcelona' \
WHEN home_team_goal < away_team_goal AND home_team_api_id = 8634 THEN 'Ganó el Real Madrid' \
WHEN home_team_goal > away_team_goal AND home_team_api_id = 8633 THEN 'Ganó el Real Madrid' \
WHEN home_team_goal < away_team_goal AND home_team_api_id = 8633 THEN 'Ganó el Barcelona' ELSE 'Empate' END AS resultado \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015') AND (home_team_api_id = 8634 OR away_team_api_id = 8634) AND (home_team_api_id = 8633 OR away_team_api_id = 8633)

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


fecha,casa,visitante,resultado
2011-12-10 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Barcelona
2012-04-21 00:00:00,FC Barcelona,Real Madrid CF,Ganó el Real Madrid
2013-03-02 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Real Madrid
2012-10-07 00:00:00,FC Barcelona,Real Madrid CF,Empate
2013-10-26 00:00:00,FC Barcelona,Real Madrid CF,Ganó el FC Barcelona
2014-03-23 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Barcelona
2015-03-22 00:00:00,FC Barcelona,Real Madrid CF,Ganó el FC Barcelona
2014-10-25 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Real Madrid


### EX 5 : Filtering your CASE statement
Generaremos una lista de partidos ganados por el Bologna de Italia.

In [28]:
# Seleccionamos el ID
%sql SELECT team_long_name, team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_long_name,team_api_id
Bologna,9857


In [29]:
# Realizamos el query probando el por qué utilizar CASE WHEN en WHERE y no en SELECT para utilizar condicionales
%sql SELECT season, \
date, home_team_api_id, away_team_api_id, home_team_goal, away_team_goal, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó de visitante' END IS NOT NULL AS outcome \
FROM match \
WHERE home_team_api_id IN (SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%') OR away_team_api_id IN (SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%') \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal,outcome
2008/2009,2008-08-31 00:00:00,8564,9857,1,2,1
2008/2009,2008-11-02 00:00:00,8529,9857,5,1,0
2008/2009,2008-11-08 00:00:00,9857,8686,1,1,0
2008/2009,2008-11-16 00:00:00,8551,9857,1,1,0
2008/2009,2008-11-23 00:00:00,9857,8540,1,1,0
2008/2009,2008-11-30 00:00:00,10233,9857,1,1,0
2008/2009,2008-12-07 00:00:00,8690,9857,2,2,0
2008/2009,2008-12-13 00:00:00,9857,9804,5,2,1
2008/2009,2008-12-21 00:00:00,9888,9857,0,0,0
2008/2009,2009-01-11 00:00:00,9857,8533,1,1,0


Así es. En 'outcome' tendremos los valores booleanos que, normalmente, SQL utilizaría para obtener los datos deseados. En este caso:

- El valor '1' corresponde al valor deseado para la consulta (positivo).

- El valor '0' corresponde al valor no deseado para la consulta (negativo).

Ahora, si cambiamos el CASE WHEN a la cláusula WHERE, veremos que las fechas y puntuaciones cuyo 'outcome' en la tabla anterior, corresponde a 1, serán las mismas, y dado que no queremos obtener aquellos partidos donde NO HAYA GANADO el Bologna, debemos omitir las filas que no cumplan esa condición (las filas con 0).

In [30]:
# Finalmente
%sql SELECT season, \
date, home_team_api_id, away_team_api_id, home_team_goal, away_team_goal \
FROM match \
WHERE CASE WHEN home_team_goal > away_team_goal AND home_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó de visitante' END IS NOT NULL \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal
2008/2009,2008-08-31 00:00:00,8564,9857,1,2
2008/2009,2008-12-13 00:00:00,9857,9804,5,2
2008/2009,2009-01-18 00:00:00,8530,9857,1,2
2008/2009,2009-01-28 00:00:00,8524,9857,0,1
2008/2009,2009-03-08 00:00:00,9857,9882,3,0
2008/2009,2009-04-26 00:00:00,9857,10233,2,0
2008/2009,2009-05-17 00:00:00,9857,9888,2,1
2008/2009,2009-05-31 00:00:00,9857,8530,3,1
2008/2009,2008-10-19 00:00:00,9857,8543,3,1
2009/2010,2009-10-28 00:00:00,9857,8551,2,1


## CASE WHEN with aggregate functions

Echemos un vistazo a las declaraciones CASE con funciones agregadas.

Las declaraciones CASE se pueden utilizar para:

- Crear columnas categorizadas.

- Filtrar datos en la cláusula WHERE.

- También para agregar datos basados en el resultado de una prueba lógica (aggregating data).

## COUNTing CASES

Supongamos que deseamos preparar una tabla de resumen contando los números de partidos en casa y de visitante en que el Liverpool ganó en cada temporada.

¿Cómo se hace un recuento de las victorias del Liverpool en cada temporada?

Pues sí, con una declaración CASE.

## Case WHEN with COUNT

Las declaraciones CASE son como cualquier otra columna de la consulta, por lo que podemos incluirlas dentro de una función agregada.

Echemos un vistazo a la declaración CASE.

In [31]:
%sql SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Liverpool%'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_api_id
8650


In [32]:
# Ejemplo de consulta con CASE WHEN; los ID únicos de los partidos (es decir, los partidos en sí) son contabilizados en COUNT(), siendo contabilizados y agrupados por temporada; podemos obtener más información con un LEFT JOIN
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN id END) AS home_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins
2008/2009,12
2009/2010,13
2010/2011,12
2011/2012,6
2012/2013,9
2013/2014,16
2014/2015,10
2015/2016,8


In [33]:
# Ejemplo de consulta con LEFT JOIN
%sql SELECT season AS temporada, \
team_long_name AS equipo, \
COUNT(CASE WHEN home_team_goal > away_team_goal THEN match.id END) AS victoria_local, \
COUNT(CASE WHEN home_team_goal < away_team_goal THEN match.id END) AS derrotas_local, \
SUM(home_team_goal) AS goles_favor, \
SUM(away_team_goal) AS goles_contra \
FROM match \
LEFT JOIN team \
ON team_api_id = home_team_api_id \
WHERE team_long_name LIKE '%Liverpool%' \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


temporada,equipo,victoria_local,derrotas_local,goles_favor,goles_contra
2008/2009,Liverpool,12,0,41,13
2009/2010,Liverpool,13,3,43,15
2010/2011,Liverpool,12,3,37,14
2011/2012,Liverpool,6,4,24,16
2012/2013,Liverpool,9,4,33,16
2013/2014,Liverpool,16,2,53,18
2014/2015,Liverpool,10,4,30,20
2015/2016,Liverpool,8,3,33,22


La claúsula WHEN incluye una prueba lógica similar a la lección anterior.

Si el Liverpool juega como local, ¿anotó el equipo local un número de goles más alto que el equipo visitante?

La diferencia comienza en la cláusula THEN. En lugar de devolver una cadena de texto, devuelve la columna que identifica la coincidencia única (ID del partido, siendo cada ID único).

Cuando la instrucción CASE está dentro de la función COUNT, CUENTA cada ID devuelto de cada partido por la instrucción CASE (según la condicionalidad).

## CASE WHEN with COUNT

Luego, agregamos una segunda instrucción CASE para el equipo visitante, y agrupamos la consulta por temporada.

In [34]:
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN id END) AS home_wins, COUNT(CASE WHEN away_team_api_id = 8650 AND home_team_goal < away_team_goal THEN id END) AS away_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins,away_wins
2008/2009,12,13
2009/2010,13,5
2010/2011,12,5
2011/2012,6,8
2012/2013,9,7
2013/2014,16,10
2014/2015,10,8
2015/2016,8,8


Al contar información con COUNT, en una declaración CASE, podemos devolver cualquier cosa que deseemos:

- Un número.

- Una cadena de texto.

- Cualquier columna de la tabla.

Ésto dado que SQL está contando el número de filas devueltas por la instrucción CASE.

In [35]:
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN 'some random text' END) AS home_wins, COUNT(CASE WHEN away_team_api_id = 8650 AND home_team_goal < away_team_goal THEN 2 END) AS away_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins,away_wins
2008/2009,12,13
2009/2010,13,5
2010/2011,12,5
2011/2012,6,8
2012/2013,9,7
2013/2014,16,10
2014/2015,10,8
2015/2016,8,8


## CASE WHEN with SUM

Del mismo modo, podemos utilizar la función SUM para calcular un total de cualquier valor.

Digamos que estamos interesados en la cantidad de goles en casa y fuera que el Liverpool anotó en cada temporada (déjà vu).

Esto es batante simple de configurar: si home_team_api_id es de Liverpool, devuelve el valor de home_team_goal.

Se supone que la condición ELSE es NULL, por lo que la consulta devuelve el total de home_team_goals anotados por Liverpool en cada temporada.

In [36]:
%sql SELECT season, \
SUM(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END) AS home_goals, \
SUM(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,41,36
2009/2010,43,18
2010/2011,37,22
2011/2012,24,23
2012/2013,33,38
2013/2014,53,48
2014/2015,30,22
2015/2016,33,30


## The CASE is fairly AVG

También podemos utilizar la función AVG con CASE de dos formas clave:

- Primero, podemos calcular un promedio de datos. Podemos hacer esto usando CASE de la misma manera en que lo hicimos con SUM. Simplemente debemos modificar SUM por AVG en la consulta, y así obtendremos los goles medios que el Liverpool anotó en cada temporada.

In [37]:
%sql SELECT season, \
AVG(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END) AS home_goals, \
AVG(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,2.1578947368421053,1.894736842105263
2009/2010,2.263157894736842,0.9473684210526316
2010/2011,1.947368421052632,1.1578947368421053
2011/2012,1.263157894736842,1.2105263157894737
2012/2013,1.736842105263158,2.0
2013/2014,2.789473684210526,2.526315789473684
2014/2015,1.5789473684210529,1.1578947368421053
2015/2016,1.736842105263158,1.5789473684210529


## A ROUNDed AVG

Podemos hacer que los resultados sean más fáciles de leer usando ROUND.

ROUND toma dos argumentos:

- Un valor numérico.

- Número de puntos decimales para redondear el valor.

Si lo colocamos por fuera de la declaración CASE, e incluimos el número de puntos decimales al final, tendremos nuestras cifras redondeadas. De esta forma, esto es más fácil de leer.

In [38]:
%sql SELECT season, \
ROUND(AVG(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END), 2) AS home_goals, \
ROUND(AVG(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END), 2) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,2.16,1.89
2009/2010,2.26,0.95
2010/2011,1.95,1.16
2011/2012,1.26,1.21
2012/2013,1.74,2.0
2013/2014,2.79,2.53
2014/2015,1.58,1.16
2015/2016,1.74,1.58


## Percentages with CASE and AVG

La segunda aplicación clave de CASE con AVG es el cálculo de porcentajes. Esto requiere una estructura específica para que el cálculo sea preciso.

La pregunta que estamos respondiendo aquí es

¿Qué porcentaje de los partidos del Liverpool se ganaron en cada temporada?

- El primer componente de la declaración CASE es una cláusula WHEN que identifica qué estamos calculando de porcentaje, en este caso, ¿cuántos juegos se ganaron? Esto se prueba de la misma manera que las diapositivas anteriores, y la cláusula THEN devuelve un 1.

- El segundo componente identifica los juegos del Liverpool que PERDIERON y devuelve el valor 0.

Todos los demás partidos (empates, juegos que no involucren al Liverpool) se excluyen como NULL.

In [39]:
# Asignamos 1 = GANADO y 0 = PERDIDO
%sql SELECT season, \
AVG(CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 1 \
WHEN home_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 0 END) AS pct_homewins, \
AVG(CASE WHEN away_team_api_id = 8455 AND away_team_goal > home_team_goal THEN 1 \
WHEN away_team_api_id = 8455 AND away_team_goal < home_team_goal THEN 0 END) AS pct_awaywins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,pct_homewins,pct_awaywins
2008/2009,0.8461538461538461,0.8235294117647058
2009/2010,0.9444444444444444,0.6666666666666666
2010/2011,0.875,0.5
2011/2012,0.75,0.5
2012/2013,0.8571428571428571,0.6666666666666666
2013/2014,0.9375,0.6666666666666666
2014/2015,1.0,0.7857142857142857
2015/2016,0.5,0.5


In [40]:
# Versión con ROUND más legible
%sql SELECT season, \
ROUND(AVG(CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 1 \
WHEN home_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 0 END), 2) AS pct_homewins, \
ROUND(AVG(CASE WHEN away_team_api_id = 8455 AND away_team_goal > home_team_goal THEN 1 \
WHEN away_team_api_id = 8455 AND away_team_goal < home_team_goal THEN 0 END),2) AS pct_awaywins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,pct_homewins,pct_awaywins
2008/2009,0.85,0.82
2009/2010,0.94,0.67
2010/2011,0.88,0.5
2011/2012,0.75,0.5
2012/2013,0.86,0.67
2013/2014,0.94,0.67
2014/2015,1.0,0.79
2015/2016,0.5,0.5


¡Ahora es nuestro turno de practicar la creación de declaraciones CASE con funciones agregadas!

### EX 6 : COUNT using CASE WHEN (1)

¿El número de partidos jugados de fútbol jugados varía en un país de acuerdo a las temporadas?

In [41]:
# En caso de no incluir GROUP BY
"""%sql SELECT c.name AS country, \
COUNT(CASE WHEN season = '2012/2013' AND c.id = m.country_id THEN m.country_id ELSE NULL END) AS matches_2012_2013 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
LIMIT 10"""

# Correcto
%sql SELECT c.name AS country, \
COUNT(CASE WHEN season = '2012/2013' AND c.id = m.country_id THEN m.country_id ELSE NULL END) AS matches_2012_2013 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country \
ORDER BY matches_2012_2013 DESC \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,matches_2012_2013
England,380
France,380
Italy,380
Spain,380
Germany,306
Netherlands,306
Belgium,240
Poland,240
Portugal,240
Scotland,228


### EX 7 : COUNT using CASE WHEN (2)

In [42]:
%sql SELECT c.name AS country, \
COUNT(CASE WHEN m.season = '2012/2013' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2012_2013, \
COUNT(CASE WHEN m.season = '2013/2014' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2013_2014, \
COUNT(CASE WHEN m.season = '2014/2015' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,240,12,240
England,380,380,380
France,380,380,380
Germany,306,306,306
Italy,380,380,379
Netherlands,306,306,306
Poland,240,240,240
Portugal,240,240,306
Scotland,228,228,228
Spain,380,380,380


### EX 8 : COUNT and CASE WHEN with multiple conditions

Averiguaremos la suma total de partidos ganados en casa por país y temporada.

In [43]:
# No olvidar 'ON' con LEFT JOIN
%sql SELECT c.name AS country, \
    SUM(CASE WHEN m.season = '2012/2013' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2012_2013, \
    SUM(CASE WHEN m.season = '2013/2014' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2013_2014, \
    SUM(CASE WHEN m.season = '2014/2015' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,102,6,106
England,166,179,172
France,170,168,181
Germany,130,145,145
Italy,177,181,152
Netherlands,137,144,138
Poland,97,110,114
Portugal,103,108,137
Scotland,89,102,102
Spain,189,179,171


### EX OPCIONAL: REPETIR EX 7 CON MÉTODO DEL EX 8

In [44]:
%sql SELECT c.name AS country, \
SUM(CASE WHEN m.season = '2012/2013' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2012_2013, \
SUM(CASE WHEN m.season = '2013/2014' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2013_2014, \
SUM(CASE WHEN m.season = '2014/2015' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,240,12,240
England,380,380,380
France,380,380,380
Germany,306,306,306
Italy,380,380,379
Netherlands,306,306,306
Poland,240,240,240
Portugal,240,240,306
Scotland,228,228,228
Spain,380,380,380


### EX OPCIONAL : ALGO INTERESANTE DEBE IR AQUÍ

Averiguaremos la suma total de partidos ganados, perdidos y empatados en casa por país y temporada.

In [45]:
%sql SELECT c.name AS country, \
    COUNT(CASE WHEN m.season = '2012/2013' AND home_team_goal > away_team_goal THEN m.country_id ELSE NULL END) AS 'ganados_local_2012_2013', \
    COUNT(CASE WHEN m.season = '2013/2014' AND home_team_goal < away_team_goal THEN m.country_id ELSE NULL END) AS 'perdidos_local_2012_2013', \
    COUNT(CASE WHEN m.season = '2015/2016' AND home_team_goal = away_team_goal THEN m.country_id ELSE NULL END) AS 'Empate_local_2012_2013' \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,ganados_local_2012_2013,perdidos_local_2012_2013,Empate_local_2012_2013
Belgium,102,4,59
England,166,123,107
France,170,104,108
Germany,130,97,71
Italy,177,109,95
Netherlands,137,78,74
Poland,97,57,74
Portugal,103,72,76
Scotland,89,76,52
Spain,189,115,92


### EX 9 : Calculating percent with CASE and AVG (1)

Averiguaremos la suma total de partidos ganados, perdidos y empatados en casa por país. En Datacamp, ya se tiene filtrada la tabla de partidos 'matches', por lo que debemos agregar una cláusula WHERE para ajustarnos a los resultados del ejercicio.

In [46]:
%sql SELECT c.name AS country, \
    COUNT(CASE WHEN home_team_goal > away_team_goal THEN m.country_id ELSE NULL END) AS 'ganados_local', \
    COUNT(CASE WHEN home_team_goal < away_team_goal THEN m.country_id ELSE NULL END) AS 'perdidos_local', \
    COUNT(CASE WHEN home_team_goal = away_team_goal THEN m.country_id ELSE NULL END) AS 'Empate_local' \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
WHERE season IN ('2013/2014', '2014/2015') \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,ganados_local,perdidos_local,Empate_local
Belgium,112,78,62
England,351,238,171
France,349,215,196
Germany,290,176,146
Italy,333,216,210
Netherlands,282,173,157
Poland,224,117,139
Portugal,245,156,145
Scotland,204,158,94
Spain,350,233,177


### EX 10 : Calculating percent with CASE and AVG (2 y 3)

In [47]:
%sql SELECT c.name AS country, \
ROUND(AVG(CASE WHEN season = '2013/2014' AND m.home_team_goal = m.away_team_goal THEN 1 WHEN season = '2013/2014' AND m.home_team_goal != m.away_team_goal THEN 0 END), 2) AS pct_empates_2013_2014, \
ROUND(AVG(CASE WHEN season = '2014/2015' AND m.home_team_goal = m.away_team_goal THEN 1 WHEN season = '2014/2015' AND m.home_team_goal != m.away_team_goal THEN 0 END), 2) AS pct_empates_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
ON m.country_id = c.id \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,pct_empates_2013_2014,pct_empates_2014_2015
Belgium,0.17,0.25
England,0.21,0.24
France,0.28,0.23
Germany,0.21,0.27
Italy,0.24,0.32
Netherlands,0.27,0.24
Poland,0.3,0.28
Portugal,0.25,0.28
Scotland,0.22,0.19
Spain,0.23,0.24


## ¿Dónde están las subconsultas?

En este capítulo cubriremos el uso de subconsultas simples para extraer y transformar nuestros datos.

Una subconsulta es una consulta anidada dentro de otra consulta.

## ¿Qué es una subconsulta?

Podemos saber que hay una subconsulta en nuestra declaración SQL si tenemos:

- Una instrucción SELECT contenida entre paréntesis, rodeada por otra instrucción SQL completa.

    - SELECT column FROM (SELECT column FROM table) AS subquery

Entonces, ¿por qué esto es importante?

<b>A menudo, para recuperar la información que deseamos, se deben realizar algunas transformaciones intermedias a los datos antes de seleccionar, filtrar o calcular la información</b>.

Las subconsultas son una forma común de realizar esta transformación.

## ¿Qué hacemos con las subconsultas?

Se puede colocar una subconsulta en cualquier parte de otra consulta, como en las cláusulas:

- SELECT.

- FROM.

- WHERE.

- GROUP BY.

El lugar donde coloquemos la subconsulta depende de cómo queramos que se vean los datos finales.

Una subconsulta puede devolver una gran variedad de información:

- Cantidades escalares.

- Cantidades numéricas.

- Una lista para filtrar o unir información.

- Una tabla para extraer y transformar los datos.

## ¿Por qué las subconsultas?

Entonces, ¿por qué podríamos necesitar usar subconsultas?

Las subconsultas nos permiten comparar valores resumidos con datos detallados:

- Por ejemplo, comparar el desempeño del Liverpool con toda la Premier League Inglesa.

Las subconsultas también permiten estructurar o remodelar mejor los datos para múltiples propósitos:

- Como por ejemplo, determinar el promedio mensual más alto de goles marcados en la Bundesliga.

Finalmente, las subconsultas nos permiten combinar datos de tablas en las que no podemos realizar una combinación:

- Un ejemplo sería incluir los nombres del equipo local y visitante en la tabla de resultados.

Discutiremos todas estas preguntas en las próximas lecciones.

## Subconsultas simples

Comencemos con la definición de una subconsulta simple.

Una subconsulta simple es una consulta anidada dentro de otra consulta, que se puede ejecutar por sí sola.

In [48]:
%sql SELECT home_team_goal \
FROM match \
WHERE home_team_goal > (SELECT AVG(home_team_goal) FROM match) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


home_team_goal
5
2
4
2
2
2
2
2
2
3


El ejemplo que vemos aquí tiene una subconsulta en la cláusula WHERE, de forma que, si copiamos todo el interior en dicha consulta, y lo ejecutamos, obtenemos el resultado:

In [49]:
%sql SELECT AVG(home_team_goal) \
FROM match

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


AVG(home_team_goal)
1.544593710304477


Una subconsulta simple también se evalúa una vez en toda la consulta. Esto significa que:

-  SQL primero procesa la información dentro de la subconsulta, con ello obtiene la información que necesita.

- Luego pasa al procesamiento de la información en la consulta de afuera.

A continuación, tenemos la misma consulta que vimos:

In [50]:
%sql SELECT home_team_goal \
FROM match \
WHERE home_team_goal > (SELECT AVG(home_team_goal) FROM match) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


home_team_goal
5
2
4
2
2
2
2
2
2
3


La subconsulta en WHERE se procesa primero, calculando el promedio general de goles en casa anotados.

SQL luego pasa a la consulta principal, tratando la subconsulta como el valor agregado único que acaba de generar.

## Subconsultas en la cláusula WHERE

El primer tipo de subconsulta simple que exploraremos es la subconsulta en la cláusula WHERE.

Estos resultados son útiles para filtrar en función de la información que tendríamos que calcular por separado.

Generemos una lista de coincidencias en la 'Temporada 2012/2013', en la que el número de goles en casa fue superior a la media general. En este sentido:

- Podemos calcular el promedio y luego incluir ese número en la consulta principal.

In [51]:
%sql SELECT avg(home_team_goal) FROM match

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


avg(home_team_goal)
1.544593710304477


In [52]:
%sql SELECT date, \
home_team_api_id, \
away_team_api_id, \
home_team_goal, \
away_team_goal \
FROM match \
WHERE season = '2012/2013' \
AND home_team_goal > 1.544 \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal
2012-07-28 00:00:00,9993,9994,2,4
2012-07-28 00:00:00,9998,1773,5,2
2012-07-28 00:00:00,8203,9986,4,2
2012-07-28 00:00:00,8342,8475,3,1
2012-07-29 00:00:00,9991,9989,2,0
2012-07-29 00:00:00,9987,9984,3,3
2012-10-07 00:00:00,9985,8635,2,1
2012-10-05 00:00:00,9993,9991,2,2
2012-10-06 00:00:00,10000,9984,3,1
2012-10-06 00:00:00,9994,9989,2,2


- O bien, podríamos colocara la consulta directamente en la cláusula WHERE, entre paréntesis.

In [53]:
%sql SELECT date, \
home_team_api_id, \
away_team_api_id, \
home_team_goal, \
away_team_goal \
FROM match \
WHERE season = '2012/2013' \
AND home_team_goal > (SELECT avg(home_team_goal) FROM match) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal
2012-07-28 00:00:00,9993,9994,2,4
2012-07-28 00:00:00,9998,1773,5,2
2012-07-28 00:00:00,8203,9986,4,2
2012-07-28 00:00:00,8342,8475,3,1
2012-07-29 00:00:00,9991,9989,2,0
2012-07-29 00:00:00,9987,9984,3,3
2012-10-07 00:00:00,9985,8635,2,1
2012-10-05 00:00:00,9993,9991,2,2
2012-10-06 00:00:00,10000,9984,3,1
2012-10-06 00:00:00,9994,9989,2,2


De esta forma, podemos obtener un paso manual menos que realizar antes de obtener los resultados que necesitamos.

## Filtrando listas con IN y subconsultas

- ¿Qué equipos son parte de la Liga de Polonia?

In [54]:
%sql SELECT team_long_name, \
team_short_name AS abbr \
FROM team \
WHERE team_api_id IN \
(SELECT home_team_api_id FROM match WHERE country_id = 15722)

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_long_name,abbr
Ruch Chorzów,CHO
Jagiellonia Białystok,BIA
Lech Poznań,POZ
P. Warszawa,PWA
Cracovia,CKR
Górnik Łęczna,LEC
Polonia Bytom,GOR
Zagłębie Lubin,ZAG
Pogoń Szczecin,POG
Widzew Łódź,WID


Esta consulta se responde a la pregunta ¿qué equipos forman parte de la liga de Polonia?

La tabla 'team' no tiene los ID de países, pero la tabla de 'match' tiene los ID de países y equipos.

Consultando una lista de home_team_id's de la coincidencia donde el 'country_id' es 15722 (ID de Polonia), podemos generar una lista para compararla con la columna 'team_api_id' en la cláusula WHERE.

## Ejercicios

¡Excelente! Practiquemos la creación de subconsultas simples en la cláusula WHERE.

### EX 11 : Filtering using scalar subqueries (1)

Notar que tuvimos que añadir la cláusula WHERE con las temporadas '2013/2014' para ajustarnos al ejercicio de Datacamp.

En sí, necesitaremos encontrar aquellos partidos que superaron triplemente la media de goles totales en casa y visitante.

In [55]:
# Select the average of home + away goals multiplied by 3
%sql SELECT 3 * AVG(home_team_goal + away_team_goal) \
FROM match \
WHERE season = '2013/2014'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


3 * AVG(home_team_goal + away_team_goal)
8.300461741424801


### EX 12 : Filtering using scalar subqueries (2)

Ídem.

In [56]:
%sql SELECT \
    date, \
	home_team_goal, \
	away_team_goal \
FROM  match \
WHERE (home_team_goal + away_team_goal) > \
(SELECT 3 * AVG(home_team_goal + away_team_goal) \
FROM match WHERE season = '2013/2014') AND season = '2013/2014'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_goal,away_team_goal
2013-12-14 00:00:00,6,3
2014-03-22 00:00:00,3,6
2013-10-30 00:00:00,7,3


### EX 13 : Filtering using a subquery with a list

El objetivo es encontrar equipos que hayan jugado en su ciudad (en Datacamp, era encontrar partidos que no hayan jugado en su ciudad, pero, al parecer, no hay ningún equipo que cumpla esas condiciones, por lo que probablemente los datos fueron manipulados para poder realizar el ejercicio).

In [57]:
%sql SELECT team_short_name, \
team_long_name \
FROM team \
WHERE team_api_id IN \
(SELECT DISTINCT home_team_api_id FROM match) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_short_name,team_long_name
CHO,Ruch Chorzów
O-H,Oud-Heverlee Leuven
BIA,Jagiellonia Białystok
OLH,S.C. Olhanense
POZ,Lech Poznań
PWA,P. Warszawa
CKR,Cracovia
TUB,Tubize
FEI,Feirense
ETG,Évian Thonon Gaillard FC


### EX 14 : Filtering using a subquery with a list

El objetivo es encontrar equipos que hayan jugado en su ciudad y hayan anotado, a lo menos, 8 o más goles.

In [58]:
%sql SELECT team_short_name, team_long_name \
FROM team \
WHERE team_api_id IN \
(SELECT home_team_api_id \
FROM match \
WHERE home_team_goal >= 8)

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_short_name,team_long_name
CHE,Chelsea
SOU,Southampton
TOT,Tottenham Hotspur
REA,Real Madrid CF
BAR,FC Barcelona
PSV,PSV
BEN,SL Benfica
BMU,FC Bayern Munich
CEL,Celtic
MUN,Manchester United


## Subconsultas en la cláusula FROM

En esta lección cubriremos el uso de subconsultas en la instrucción FROM.

Probablemente hayamos notado que, las subconsultas en WHERE solo pueden devolver una sola columna.

Pero, ¿qué sucede si deseamos devolver un conjunto de resultados más complejo?

## Subconsultas en FROM

Las subconsultas en la declaración FROM son una herramienta sólida para reestructurar y transformar los datos.

A menudo, los datos que necesitamos para responder una pregunta aún no están en el formato necesario para consultarlo directamente, y requiere un procesamiento adicional para prepararse para el análisis.

Por ejemplo, es posible que deseemos transformar los datos en una forma diferente o prefiltrarlos antes de realizar cálculos.

Las subconsultas en una instrucción FROM son una forma común de preparar estos datos:

- Reestructurar y transformar los datos.

    - Transformar los datos desde un formato 'long' a 'wide' antes de seleccionar.

    - Prefiltrar data.

- Las subconsultas en FROM también son útiles para calcular agregados (información agregada).

    - ¿Cuál de los tres equipos obtuvieron la mayor media de goles de local en la temporada 2011/2012?

        1. Primero, calcularíamos el promedio de cada equipo.
        2. Calcularíamos el valor máximo para cualquier equipo en general (obtener los tres mayores promedios).

## FROM subconsultas...

Examinemos el promedio de 'home_team_goal' para cada equipo en la base de datos.

Primero, crearemos la consulta que se convertirá en la subquery (subconsulta):

In [59]:
%sql SELECT t.team_long_name AS team, \
AVG(m.home_team_goal) AS home_avg \
FROM match AS m \
LEFT JOIN team AS t \
ON m.home_team_api_id = t.team_api_id \
WHERE season = '2011/2012' \
GROUP BY team

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team,home_avg
1. FC Kaiserslautern,0.7058823529411765
1. FC Köln,1.1764705882352942
1. FC Nürnberg,1.2941176470588236
1. FSV Mainz 05,1.588235294117647
AC Ajaccio,1.1578947368421053
ADO Den Haag,1.2941176470588236
AJ Auxerre,1.5789473684210529
AS Nancy-Lorraine,1.263157894736842
AS Saint-Étienne,1.4210526315789471
AZ,2.235294117647059


La consulta anterior selecciona el nombre largo de la tabla de equipo, y la media de la columna 'home_Team_goal' de la tabla coincidente.

La tabla de partidos es unida con un LEFT JOIN a la tabla de equipos, usando 'home_team_api_id' que nos dará la identidad del equipo local.

Luego, la consulta se filtra por temporada y se agrupa por equipo.

Los resultados nos entregan un valor promedio de goles de local, calculado para cada equipo en la tabla.

## ¡A consultas principales!

Para obtener solo el mejor equipo como resultado final, debemos la consulta anterior dentro de la instrucción FROM de la consulta externa. Y nos debemos asegurar de darle un <b>ALIAS</b>.

Luego, deberemos agregar el bloque a la consulta principal, seleccionando las columnas 'team' y las columnas 'home_avg' de la subconsulta, tal como lo haríamos con cualquier otra base de datos.

Finalmente, no olvidemos ordenar 'home_avg' de forma descendente y limitar la consulta a 3 resultados.

La consulta final mostrará los 3 mejores equipos en función de los 'home_team_goal' anotados en la temporada '2011/2012'.

In [60]:
%sql SELECT team, ROUND(home_avg, 4) AS home_avg \
FROM (SELECT t.team_long_name AS team, \
AVG(m.home_team_goal) AS home_avg \
FROM team AS t \
LEFT JOIN match AS m \
ON m.home_team_api_id = t.team_api_id \
WHERE season = '2011/2012' \
GROUP BY team) \
ORDER BY home_avg DESC \
LIMIT 3

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team,home_avg
FC Barcelona,3.8421
Real Madrid CF,3.6842
PSV,3.3529


## ¡Cosas que recordar!

Hay algunas cosas clave para recordar al usar subconsultas en la instrucción FROM.

La primera es que tenemos la capacidad de crear más de una subconsulta en la instrucción FROM de cualquier consulta principal. Al hacerlo:

- Se debe asegurar que cada subconsulta tiene un ALIAS.

- Y además, asegurar que ambas se pueden unir entre sí, tal como lo haríamos al consultar una tabla de la base de datos.

Lo segundo, podemos unir una subconsulta a cualquier tabla existente en la base de datos. Una vez más, sin embargo, debemos asegurarnos de tener una columna en la subconsulta que se puede usar con JOIN.

## Ejercicios

Es hora de practicar el uso de subconsultas en la cláusula FROM.

### EX 15 : Uniendo subconsultas en FROM

Uniremos la tabla de países a partidos, contando la cantidad de partidos por país con, al menos, 10 goles en total.

Un subquery en FROM es una forma efectiva de responder preguntas detalladas. Ojo que debimos añadir a la cláusula WHERE el filtro de temporada en orden para ajustarnos a los resultados de Datacamp.

In [61]:
%sql SELECT c.name AS pais, \
COUNT(*) AS partidos_10_goles \
FROM country AS c \
INNER JOIN (SELECT m.id, \
m.country_id \
FROM match AS m \
WHERE (m.home_team_goal + m.away_team_goal) >= 10 AND season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015')) AS subquery \
ON c.id = subquery.country_id \
GROUP BY c.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


pais,partidos_10_goles
England,3
Germany,1
Netherlands,1
Spain,4


### EX 16 : Construyendo subconsultas en FROM

Uniremos la tabla de países a partidos, contando la cantidad de partidos por país con, al menos, 10 goles en total.

Ahora, hallaremos más información sobre esos partidos: dónde fueron jugados, en qué temporadas, y cuántos goles hubo de local y visitante.

In [62]:
# Construyamos la subconsulta
%sql SELECT country_id, \
season AS temporada, \
home_team_goal AS goles_local, \
away_team_goal AS goles_visita \
FROM match \
WHERE (goles_local + goles_visita >= 10)


   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country_id,temporada,goles_local,goles_visita
1729,2009/2010,9,1
1729,2011/2012,8,2
1729,2012/2013,7,3
1729,2012/2013,5,5
4769,2009/2010,5,5
7809,2012/2013,9,2
13274,2010/2011,10,0
13274,2011/2012,6,4
19694,2009/2010,6,6
21518,2013/2014,7,3


In [63]:
%sql SELECT c.name AS country, \
temporada, \
fecha, \
goles_local, \
goles_visita \
FROM country AS c \
LEFT JOIN (SELECT country_id, \
season AS temporada, \
date AS fecha, \
home_team_goal AS goles_local, \
away_team_goal AS goles_visita \
FROM match \
WHERE (goles_local + goles_visita >= 10)) AS m \
ON m.country_id = c.id \
WHERE goles_local + goles_visita >= 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,temporada,fecha,goles_local,goles_visita
England,2009/2010,2009-11-22 00:00:00,9,1
England,2011/2012,2011-08-28 00:00:00,8,2
England,2012/2013,2012-12-29 00:00:00,7,3
England,2012/2013,2013-05-19 00:00:00,5,5
France,2009/2010,2009-11-08 00:00:00,5,5
Germany,2012/2013,2013-03-30 00:00:00,9,2
Netherlands,2010/2011,2010-10-24 00:00:00,10,0
Netherlands,2011/2012,2011-11-06 00:00:00,6,4
Scotland,2009/2010,2010-05-05 00:00:00,6,6
Spain,2013/2014,2013-10-30 00:00:00,7,3


## Subconsultas en SELECT

Hasta ahora, hemos cubierto el uso de subconsultas simples en declaraciones FROM y WHERE. Las subconsultas también se pueden incluir en una instrucción SELECT, para traer valores de resumen a un conjunto de datos detallado.

## ¿SELEC-T-cionando qué?

Las subconsultas en SELECT se utilizan para devolver un único valor agregado:

- Esto puede resultar bastante útil, ya que, como recordaremos, no podemos incluir un valor agregado en una consulta SQL no agrupada. Las subconsultas en SELECT son una forma de solucionarlo.

- Las subconsultas en SELECT también son utilizadas para cálculos matemáticos sobre la información del conjunto de datos. Por ejemplo, es posible que deseemos ver cuánto se desvía una puntuación individual de la media, digamos, ¿qué tan alto es el promedio de un puntaje individual?

## Subconsultas en SELECT

Incluir una subconsulta en SELECT es bastante simple, y está configurado de la misma manera que configuramos las subconsultas en las cláusulas WHERE y FROM.

Digamos que queremos crear una columna para comparar el número total de partidos jugados en cada temporada al número total de partidos jugados EN GENERAL:

- En este sentido, podemos calcular primero el recuento total de partidos en todas las temporadas.

## Nota

Se debe añadir la cláusula WHERE para ajustarse a el resultado de Datacamp.

In [64]:
%sql SELECT COUNT(id) \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


COUNT(id)
12837


Luego, podemos agregar ese único número a la instrucción SELECT, lo que produce los siguientes resultados.

In [65]:
%sql SELECT season, \
COUNT(id) AS matches, \
12837 AS total_matches \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015') \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,matches,total_matches
2011/2012,3220,12837
2012/2013,3260,12837
2013/2014,3032,12837
2014/2015,3325,12837


O, podemos omitir ese paso y agregar la subconsulta directamente a la instrucción SELECT para obtener el mismo resultado.

In [66]:
%sql SELECT season, \
COUNT(id) AS matches, \
(SELECT COUNT(id) \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015')) AS total_matches \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015') \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,matches,total_matches
2011/2012,3220,12837
2012/2013,3260,12837
2013/2014,3032,12837
2014/2015,3325,12837


## Subconsultas en SELECT para cálculos matemáticos

Las subconsultas en SELECT también son increíblemente útiles para los cálculos con los datos que está consultando.

En este sentido, se puede utilizar el valor único devuelto por una subconsulta en SELECT para calcular información basada en datos existentes.

Por ejemplo, el promedio general de goles marcados en un partido, en todas las temporadas es un poco menos de 3 goles.

In [67]:
%sql SELECT AVG(home_team_goal + away_team_goal) \
FROM match \
WHERE season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


AVG(home_team_goal + away_team_goal)
2.7164596273291925


Si deseamos calcular la diferencia con el promedio en cualquier coincidencia, podemos calcular este número con anticipación en una consulta separada, e ingresar el valor en la instrucción SELECT.

In [68]:
%sql SELECT date, \
(home_team_goal + away_team_goal) AS goals, \
(home_team_goal + away_team_goal) - 2.72 AS diff \
FROM match \
WHERE season = '2011/2012' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,goals,diff
2011-07-29 00:00:00,3,0.2799999999999998
2011-07-30 00:00:00,2,-0.7200000000000002
2011-07-30 00:00:00,4,1.2799999999999998
2011-07-30 00:00:00,1,-1.7200000000000002
2011-07-30 00:00:00,0,-2.72
2011-07-30 00:00:00,2,-0.7200000000000002
2011-07-30 00:00:00,3,0.2799999999999998
2011-07-31 00:00:00,5,2.28
2011-10-16 00:00:00,2,-0.7200000000000002
2011-10-16 00:00:00,5,2.28


O bien, podemos utilizar una subconsulta que calcule este valor por nosotros en nuestra declaración SELECT, y restarlo del total de goles del partido.

In [69]:
%sql SELECT date, \
(home_team_goal + away_team_goal) AS goals, \
(home_team_goal + away_team_goal) - (SELECT AVG(home_team_goal + away_team_goal) \
FROM match \
WHERE season = '2011/2012') AS diff \
FROM match \
WHERE season = '2011/2012' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,goals,diff
2011-07-29 00:00:00,3,0.2835403726708074
2011-07-30 00:00:00,2,-0.7164596273291925
2011-07-30 00:00:00,4,1.2835403726708077
2011-07-30 00:00:00,1,-1.7164596273291923
2011-07-30 00:00:00,0,-2.7164596273291925
2011-07-30 00:00:00,2,-0.7164596273291925
2011-07-30 00:00:00,3,0.2835403726708074
2011-07-31 00:00:00,5,2.2835403726708075
2011-10-16 00:00:00,2,-0.7164596273291925
2011-10-16 00:00:00,5,2.2835403726708075


En general, esta segunda opción, puede ahorrar mucho tiempo y errores en el trabajo, y los resultados aquí son idénticos a calcular el resultado manualmente.

Hay algunas consideraciones únicas al trabajar con subconsultas en SELECT.

## Subconsultas SELECT, cosas que tener en cuenta

Hay algunas consideraciones únicas al trabajar con subconsultas en SELECT:

- La primera es que la subconsulta debe devolver un solo valor. Si el resultado de la subconsulta devuelve varias filas, toda la consulta generará un error.

    - Ésto se debe a que la información recuperada en una consulta SELECT se aplica de manera idéntica a cada fila en el conjunto de datos, y eso no es posible si hay más de una unidad de información.

- Lo segundo a tener en cuenta es la ubicación correcta de los filtros de los datos, tanto en la consulta principal como en la subconsulta.

    - A continuación, está la consulta de la celda anterior. Dado que la subconsulta se procesa antes que la consulta principal, necesitaremos incluir filtros relevantes en la subconsulta, así como en la consulta principal. Sin la cláusula WHERE en la subconsulta, el númer devuelto sería el promedio general en todas las temporadas en lugar de la temporada 2011/2012.

In [70]:
%sql SELECT date, \
(home_team_goal + away_team_goal) AS goals, \
(home_team_goal + away_team_goal) - (SELECT AVG(home_team_goal + away_team_goal) \
FROM match \
WHERE season = '2011/2012') AS diff \
FROM match \
WHERE season = '2011/2012' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,goals,diff
2011-07-29 00:00:00,3,0.2835403726708074
2011-07-30 00:00:00,2,-0.7164596273291925
2011-07-30 00:00:00,4,1.2835403726708077
2011-07-30 00:00:00,1,-1.7164596273291923
2011-07-30 00:00:00,0,-2.7164596273291925
2011-07-30 00:00:00,2,-0.7164596273291925
2011-07-30 00:00:00,3,0.2835403726708074
2011-07-31 00:00:00,5,2.2835403726708075
2011-10-16 00:00:00,2,-0.7164596273291925
2011-10-16 00:00:00,5,2.2835403726708075


## Ejercicios

¡A practicar algunos ejemplos de subconsultas en la declaración SELECT!

### EX 17 : Añadiendo una subconsulta a la declaración SELECT

En el ejercicio a continuación, construiremos una consulta capaz de calcular la media de goles por partidos en:

- Cada liga.
- Todos los partidos.

En la temporada 2013/2014.

In [71]:
# Construimos primero la subconsulta para sacar la media de todos los partidos

%sql SELECT ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) \
FROM match AS m \
WHERE season = '2013/2014'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


"ROUND(AVG(m.home_team_goal + m.away_team_goal), 2)"
2.77


In [72]:
%sql SELECT l.name AS liga, \
ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) AS media_liga, \
(SELECT ROUND(AVG(home_team_goal + away_team_goal), 2) \
FROM match \
WHERE season = '2013/2014') AS media_general \
FROM league AS l \
LEFT JOIN match AS m \
ON l.id = m.league_id \
WHERE m.season = '2013/2014' \
GROUP BY l.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


liga,media_liga,media_general
Belgium Jupiler League,2.5,2.77
England Premier League,2.77,2.77
France Ligue 1,2.46,2.77
Germany 1. Bundesliga,3.16,2.77
Italy Serie A,2.72,2.77
Netherlands Eredivisie,3.2,2.77
Poland Ekstraklasa,2.64,2.77
Portugal Liga ZON Sagres,2.37,2.77
Scotland Premier League,2.75,2.77
Spain LIGA BBVA,2.75,2.77


### EX 18 : Subconsultas en declaración CASE para cálculos

En el ejercicio a continuación, construiremos una consulta capaz de calcular la media de goles por partidos en:

- Cada liga.
- La diferencia de cada liga en torno al promedio de goles de todos los partidos.

En la temporada 2013/2014.

In [73]:
# Construimos primero la subconsulta

%sql SELECT ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) \
FROM match AS m \
WHERE season = '2013/2014'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


"ROUND(AVG(m.home_team_goal + m.away_team_goal), 2)"
2.77


In [74]:
%sql SELECT l.name AS liga, \
ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) AS promedio_liga, \
ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) - (SELECT ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) \
FROM match AS m \
WHERE season = '2013/2014') AS diff_media \
FROM league AS l \
LEFT JOIN match AS m \
ON l.id = m.league_id \
WHERE season = '2013/2014' \
GROUP BY liga

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


liga,promedio_liga,diff_media
Belgium Jupiler League,2.5,-0.27
England Premier League,2.77,0.0
France Ligue 1,2.46,-0.31
Germany 1. Bundesliga,3.16,0.3900000000000001
Italy Serie A,2.72,-0.0499999999999998
Netherlands Eredivisie,3.2,0.4300000000000001
Poland Ekstraklasa,2.64,-0.1299999999999999
Portugal Liga ZON Sagres,2.37,-0.3999999999999999
Scotland Premier League,2.75,-0.02
Spain LIGA BBVA,2.75,-0.02


Podemos apreciar como la liga de Países Bajos tiende a tener una media mayor de goles por partido que el resto de las ligas.

## ¡Subconsultas en todos lados! ¡Y mejores prácticas!

Ahora que hemos cubierto las formas en las que podemos utilizar subconsultas en SELECT, desde las cláusulas FROM y WHERE, ahora veremos:
    
- El uso de múltiples subconsultas en una consulta.

- Algunas prácticas recomendadas para asegurarse de que las consultas sean lo más legibles posibles.

En SQL, podemos incluir tantas subconsultas simples como necesitamos dentro de las múltiples cláusulas posibles. Sin embargo, las consultas pueden volverse:
    
- Largas y difíciles de leer rápidamente.


Por ejemplo, algunas consultas pueden incluir subconsultas en:

- SELECT.

- FROM.

- WHERE.

Si suponemos un código extenso, las consultas SQL pueden suponer un dolor de cabeza a la hora de leerlas. En este sentido, veremos algunas de las mejores prácticas para leer y escribir consultas grandes.

## Añadiendo formato a las consultas

La mejor práctica que podemos comenzar al principio de nuestro viaje en SQL es formatear correctamente las consultas:
    
- Es importante alinear correctamente nuestros SELECT, FROM, WHERE y GROUP BY, como también toda la información contenida en ellas.

De esta forma, nosotros y otras personas con las que trabajamos, podemos volver a una consulta guardada y saber fácilmente si estas declaraciones son parte de una consulta principal o una subconsulta.

## Anotar consultas con comentarios

También se considera una buena práctica anotar nuestras consultas con comentarios, en orden para decirle al usuario que la lee de qué trata, su sintaxis, etc. Esto lo podemos realizar con un bloque de comentario, con '/* */'.

In [75]:
%sql /* Veremos la cantidad de partidos por país con más de 10 goles */ \
SELECT c.name AS pais, \
COUNT(m.id) AS cantidad_partidos \
FROM country AS c \
LEFT JOIN match AS m \
ON m.country_id = c.id \
LEFT JOIN team AS t \
ON t.team_api_id = m.home_team_api_id \
WHERE (m.away_team_goal + m.home_team_goal >= 10) AND \
(t.team_api_id = m.home_team_api_id) \
GROUP BY pais



   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


pais,cantidad_partidos
England,4
France,1
Germany,1
Netherlands,2
Scotland,1
Spain,5


También, podemos utilizar comentarios en línea con dos guiones. Se vería así:
    
SELECT col1,
col2,
col3
FROM df -- ejemplo de comentario

Cada pieza de información después de los '--' se trataría como un texto, incluso si es un comando SQL.

## Nota

Con la librería que estamos utilizando para leer SQL en Python no es posible realizarlo, pero se vería así una pieza de código SQL normal:
    
SELECT c.name AS pais, 
COUNT(m.id) AS cantidad_partidos 
FROM country AS c 
LEFT JOIN match AS m 
ON m.country_id = c.id -- coincidencia en id de países 
LEFT JOIN team AS t 
ON t.team_api_id = m.home_team_api_id -- coincidencia en id de equipo local
WHERE (m.away_team_goal + m.home_team_goal >= 10) AND 
(t.team_api_id = m.home_team_api_id) 
GROUP BY pais

En vez de utilizar '--', nos limitamos a utilizar '/* */' para que se logre leer:

In [76]:
%sql /* Veremos la cantidad de partidos por país con más de 10 goles */ \
SELECT c.name AS pais, \
COUNT(m.id) AS cantidad_partidos \
FROM country AS c \
LEFT JOIN match AS m \
ON m.country_id = c.id /* coincidencia en id de países */ \
LEFT JOIN team AS t \
ON t.team_api_id = m.home_team_api_id /* coincidencia en id de equipo local */ \
WHERE (m.away_team_goal + m.home_team_goal >= 10) AND \
(t.team_api_id = m.home_team_api_id) \
GROUP BY pais

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


pais,cantidad_partidos
England,4
France,1
Germany,1
Netherlands,2
Scotland,1
Spain,5


## Indentar las consultas

Además, debemos asegurarnos de sangrar correctamente, toda la información contenida en una subconsulta. De esta forma, podemos volver fácilmente a la consulta y comprender:
    
- Qué información es procesa primero.

- Dónde necesitamos aplicar cambios.

- Qué esperar de los cambios.

En este sentido, debemos sangrar correctamente toda la información que forma parte de una columna única, como una declaración CASE larga, o una subconsulta complicada en SELECT. 

Por ejemplo:

In [77]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' AND (hometeam_id = 8455 OR awayteam_id = 8455) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-08-14 00:00:00,10194,8455,Chelsea perdió/empató
2011-10-29 00:00:00,8455,9825,Chelsea perdió/empató
2011-11-05 00:00:00,8655,8455,Chelsea ganó de visitante
2011-11-20 00:00:00,8455,8650,Chelsea perdió/empató
2011-11-26 00:00:00,8455,8602,Chelsea ganó en casa
2011-12-03 00:00:00,10261,8455,Chelsea ganó de visitante
2011-12-12 00:00:00,8455,8456,Chelsea ganó en casa
2011-12-17 00:00:00,8528,8455,Chelsea perdió/empató
2011-12-22 00:00:00,8586,8455,Chelsea perdió/empató
2011-12-26 00:00:00,8455,9879,Chelsea perdió/empató


Así, podemos realizar un mejor seguimiento de todas las condiciones necesarias para configurar cada clausula WHEN, cada cláusula THEN, y como crean el resultado de la columna. Por ello, es importante sangrar o identar claramente, cada pieza de información en la declaración.

En general, la instructora recomienda leer 'Guía de estilo SQL de Holywell', en inglés, 'Holywell's SQL Style Guide' para obtener una idea de todas las convenciones de formato cuando trabajemos con consultas SQL.

## ¿Es la subconsulta necesaria?

Para decidir si necesitamos o no una subconsulta, es importante saber que:

- Cada subconsulta que agreguemos requiere potencia de cálculo adicional para generar sus resultados.

    - Dependiendo del tamaño de la base de datos y la cantidad de registros que extraigamos en la consulta, puede aumentar significativamente la cantidad de tiempo que lleva ejecutarla. Por lo tanto, siempre vale la pena preguntar si es necesaria o no una subconsulta específica para obtener los resultados que necesitamos.
    
## Filtrar apropiadamente cada subconsulta

Finalmente, el construir una consulta principal con múltiples subconsultas, debemos asegurarnos de que:

- Nuestros filtros están colocados correctamente en cada subconsulta y, también, en la consulta principal, para generar resultados precisos.

La consulta de la celda de abajo, por ejemplo, filtra la temporada 2013/2014 en dos lugares:

- Una vez en la subconsulta SELECT.

- Una vez en la consulta principal.

Esto asegura que, todos los datos devueltos, sean solo sobre los partidos de la temporada 2013/2014.

In [78]:
%sql SELECT c.name, \
ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) AS avg_goals, \
(SELECT ROUND(AVG(home_team_goal + away_team_goal), 2) \
FROM match WHERE season = '2013/2014') AS overall_avg \
FROM match AS m \
LEFT JOIN country AS c \
ON c.id = m.country_id \
WHERE (m.season = '2013/2014') \
GROUP BY c.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


name,avg_goals,overall_avg
Belgium,2.5,2.77
England,2.77,2.77
France,2.46,2.77
Germany,3.16,2.77
Italy,2.72,2.77
Netherlands,3.2,2.77
Poland,2.64,2.77
Portugal,2.37,2.77
Scotland,2.75,2.77
Spain,2.75,2.77


## Ejercicios

¡Es hora de practicar la creación de consultas complejas con múltiples subconsultas!

### EX 19 : Las subconsultas en todas partes

En este ejercicio, obtendremos los goles, en promedio, por etapa (recordemos que en las ligas de fútbol, los equipos van avanzando de etapa a medida obtienen puntos). Y además, los goles, en promedio:

- Todo lo anterior, en torno a la temporada 2012/2013.

- Recordar que, siempre, las subconsultas se deben colocar entre paréntesis.

In [98]:
%sql SELECT m.stage AS etapa, \
ROUND(AVG(m.home_team_goal + m.away_team_goal), 2) AS media_etapa, \
ROUND((SELECT AVG(home_team_goal + away_team_goal) FROM match WHERE season = '2012/2013'), 2) AS media_partidos \
FROM match AS m \
WHERE m.season = '2012/2013' \
GROUP BY etapa \
ORDER BY etapa ASC \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


etapa,media_etapa,media_partidos
1,2.68,2.77
2,2.65,2.77
3,2.83,2.77
4,2.8,2.77
5,2.61,2.77
6,2.78,2.77
7,2.69,2.77
8,3.09,2.77
9,2.7,2.77
10,2.96,2.77


### EX 20 : Añadiendo una subconsulta en FROM

En este ejercicio, obtendremos la etapa y goles por etapa, que, en promedio, sobrepasen a la media global de la base de datos.

- Todo lo anterior, en torno a la temporada 2012/2013.

- Recordar que, siempre, las subconsultas se deben colocar entre paréntesis.

In [101]:
# Realicemos primero la subconsulta para obtener los goles por etapa
%sql SELECT stage AS etapa, ROUND(AVG(home_team_goal + away_team_goal),2) AS media_etapa_goles \
FROM match \
WHERE season = '2012/2013' \
GROUP BY stage

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


etapa,media_etapa_goles
1,2.68
2,2.65
3,2.83
4,2.8
5,2.61
6,2.78
7,2.69
8,3.09
9,2.7
10,2.96


In [102]:
# Finalicamos colocando la subconsulta en el query final
%sql SELECT s.etapa, \
s.media_etapa_goles \
FROM (SELECT stage AS etapa, ROUND(AVG(home_team_goal + away_team_goal),2) AS media_etapa_goles \
FROM match \
WHERE season = '2012/2013' \
GROUP BY stage) AS s \
WHERE s.media_etapa_goles > (SELECT ROUND(AVG(home_team_goal + away_team_goal), 2) \
FROM match \
WHERE season = '2012/2013')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


etapa,media_etapa_goles
3,2.83
4,2.8
6,2.78
8,3.09
10,2.96
11,2.92
12,3.23
17,2.85
20,2.96
21,2.9


### EX 21 : Añadiendo una subconsulta en SELECT

En el ejercicio anterior, obtuvimos una subconsulta en la declaración FROM, obteniendo las etapas, como también, la media de goles por etapa que excedían el promedio global de goles en la temporada 2012/2013:

- Crear una subconsulta en SELECT que obtenga la media de goles hechos en la temporada del 2012/2013.

- Crear una subconsulta en FROM que calcule la media de goles hechos en cada etapa en la temporada 2012/2013.

- Filtrar la consulta principal con aquellas medias de goles de etapas en las que dicha media excedió la media global de goles en la temporada 2012/2013.

### Nota

Se deben generar tres subconsultas en la respuesta de Datacamp, en ese sentido, esta respuesta es más corta, y en caso de introducirla, no funcionará.

In [103]:
# Primera subconsulta
%sql SELECT ROUND(AVG(home_team_goal + away_team_goal), 2) AS media_global FROM match WHERE season = '2012/2013'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


"ROUND(AVG(home_team_goal + away_team_goal), 2)"
2.77


In [104]:
# Segunda subconsulta
%sql SELECT stage, \
ROUND(AVG(home_team_goal + away_team_goal), 2) AS media_etapa FROM match GROUP BY stage

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


stage,media_global
1,2.59
2,2.72
3,2.61
4,2.74
5,2.58
6,2.68
7,2.74
8,2.94
9,2.58
10,2.79


In [117]:
# Query final
%sql SELECT \
 s1.etapa, \
s1.media_etapa, \
(SELECT ROUND(AVG(home_team_goal + away_team_goal), 2) FROM match WHERE season = '2012/2013') AS media_global \
FROM (SELECT stage AS etapa, season AS temporada, \
ROUND(AVG(home_team_goal + away_team_goal), 2) AS media_etapa FROM match WHERE temporada = '2012/2013' GROUP BY stage) AS s1 \
WHERE (s1.media_etapa > media_global) AND (s1.temporada = '2012/2013')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


etapa,media_etapa,media_global
3,2.83,2.77
4,2.8,2.77
6,2.78,2.77
8,3.09,2.77
10,2.96,2.77
11,2.92,2.77
12,3.23,2.77
17,2.85,2.77
20,2.96,2.77
21,2.9,2.77
