## Intermediate SQL por Datacamp

~ Para ejecutar SQL desde un notebook de Jupyter, [link en Datacamp](https://www.datacamp.com/community/tutorials/sql-interface-within-jupyterlab).

<img src="1.jpeg"></img>

## Importamos librerías y extensiones

In [1]:
# Importamos la librería sqlalchemy, que nos permite ejecutar código SQL adaptado a sintaxis simple y de forma Pythonica
import sqlalchemy

# Cargamos el módulo sqlite
%load_ext sql

# Cargamos la extensión ipython-sql
%sql sqlite://


## Probemos SQLITE

In [2]:
# Cargamos la base de datos (cambiar directorio, sin especificar el disco duro)
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite

## Seleccionamos y probamos con pandas

In [3]:
# Importamos numpy pandas
import numpy as np
import pandas as pd

In [4]:
# Seleccionamos algunos datos para probar
resultado = %sql SELECT * FROM Crops

# Vemos el tipo de objeto que es "resultado"
print(type(resultado))

# Convertimos el resultado SQL a DataFrame con Pandas
df_resultado = resultado.DataFrame()

# Cinco primeras filas del DataFrame
print(df_resultado.head())

# Vemos el resumen del DataFrame
df_resultado.info()

   sqlite://
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
Done.
<class 'sql.run.ResultSet'>
   Id  plot_Id  crop_Id  D05_times D_curr_crop  D_repeat_times_count
0   1        1        1          1       maize                     1
1   1        2        1          1       maize                     1
2   2        1        1          1       maize                     1
3   2        2        1          1    tomatoes                     1
4   2        3        1          1   vegetable                     1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1044 entries, 0 to 1043
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Id                    1044 non-null   int64 
 1   plot_Id               1044 non-null   int64 
 2   crop_Id               1044 non-null   int64 
 3   D05_times             1044 non-null   int64 
 4   D_curr_crop           1039 non-null   object
 5   D_r

## SQL Intermedio

<img src="2.png"></img>

Bienvenidos a SQL intermedio. SQL es una poderosa herramienta para trabajar con bases de datos relacionales. Con un conocimiento intermedio de SQL, obtendremos la capacidad de acceder y crear conjuntos de datos de varias tablas en una base de datos relacional, para responder a nuestras preguntas sobre ciencia de datos.

En este curso, aprenderemos específicamente a:

- Dar forma, transformar y manipular datos utilizando la instrucción CASE.

- Subconsultas simples.

- Subconsultas correlacionadas.

- Funciones de ventana.

Antes de tomar este curso, deberíamos sentirnos cómodos trabajando con temas introductorios de SQL, como seleccionando datos de una base de datos usando funciones aritméticas, declaraciones GROUP BY y cláusulas WHERE para filtrar datos.

También debe estar familiarizado con la unión de datos con LEFT JOIN, RIGHT JOIN, INNER JOIN y OUTER JOIN. En este curso, utilizaremos y desarrollaremos estos temas para interactuar con nuestra base de datos.

Para este curso, utilizaremos una base de datos del fútbol europeo, 'European soccer database', que es una base de datos relacional que contiene datos sobre más de 25.000 partidos, 300 equipos y 10.000 jugadores en Europa entre 2008 y 2016.

## Carguemos la base de datos que utilizaremos

In [5]:
# Cargamos la base de datos
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite

Los datos están contenidos en 4 tablas: país, liga, equipo y partido.

In [6]:
# Selecting from European Soccer Database
%sql SELECT l.name AS league, COUNT(m.country_id) AS matches \
FROM league AS l \
LEFT JOIN match AS m \
ON l.country_id = m.country_id \
GROUP BY l.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


league,matches
Belgium Jupiler League,1728
England Premier League,3040
France Ligue 1,3040
Germany 1. Bundesliga,2448
Italy Serie A,3017
Netherlands Eredivisie,2448
Poland Ekstraklasa,1920
Portugal Liga ZON Sagres,2052
Scotland Premier League,1824
Spain LIGA BBVA,3040


Seleccionar datos de estas tablas es bastante simple. La consulta que vemos aquí, te da el número de partidos jugados en cada una de las 11 ligas enumeradas en la tabla 'Liga'.

Digamos que queremos comparar la cantidad de victorias del equipo local, victorias del equipo visitante y empates en la temporada 2013/2014.

La tabla 'coincidencia' ahora tiene dos columnas relevantes: home_goal y away_goal.

## Nota

En Datacamp se renombró las columnas, quitando la etiqueta 'team' de las columnas de goles.

In [7]:
%sql SELECT date, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_goal,away_team_goal
2014-03-29 00:00:00,2,0
2014-03-29 00:00:00,0,1
2014-04-05 00:00:00,1,0
2014-04-05 00:00:00,0,0
2014-04-12 00:00:00,2,1
2014-04-12 00:00:00,2,0
2014-04-19 00:00:00,2,4
2014-04-19 00:00:00,0,2
2014-04-26 00:00:00,4,2
2014-04-26 00:00:00,1,1


Potencialmente, podemos agregar filtros a la cláusula WHERE, seleccionando victorias, derrotas y empates por separado, pero eso no es muy eficiente si deseamos comparar estos resultados en un solo conjunto de datos.

In [8]:
%sql SELECT date, id, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014' \
AND home_team_goal > away_team_goal \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,id,home_team_goal,away_team_goal
2014-03-29 00:00:00,1237,2,0
2014-04-05 00:00:00,1239,1,0
2014-04-12 00:00:00,1241,2,1
2014-04-12 00:00:00,1242,2,0
2014-04-26 00:00:00,1245,4,2
2014-05-03 00:00:00,1248,4,0
2013-08-18 00:00:00,3630,2,0
2013-08-17 00:00:00,3632,1,0
2013-08-19 00:00:00,3633,4,0
2013-08-17 00:00:00,3638,2,0


Aquí es donde entra la instrucción CASE. Las declaraciones CASE son la versión de SQL de una declaración condicional de otros lenguajes de programación 'IF'.

Las declaraciones de casos tienen tres partes: una cláusula WHEN, una cláusula THEN y una cláusula ELSE.


In [9]:
print( \
""" 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 
""")

 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 



- La primera parte, la cláusula WHEN, prueba una condición determinada, por ejemplo X = 1, si esta condición es VERDADERA, devuelve el elemento que especifica después de su cláusula WHEN.

- Podemos crear varias condiciones enumerando las declaraciones WHEN y THEN dentro de la misma declaración CASE.

- Luego, la instrucción CASE finaliza con una cláusula ELSE que devuelve un valor especificado si todas sus declaraciones WHEN no son verdaderas.

- Al terminar la declaración, debemos asegurarnos de incluir el término END y de darle un alias.

- La declaración CASE completa se evaluará en una nueva columna en su consulta SQL.



In [10]:
%sql SELECT id, home_team_goal, away_team_goal, CASE WHEN home_team_goal > away_team_goal THEN 'Home Team Win' WHEN home_team_goal < away_team_goal THEN 'Away Team Win' ELSE 'Tie' END AS outcome FROM match WHERE season = '2013/2014' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


id,home_team_goal,away_team_goal,outcome
1237,2,0,Home Team Win
1238,0,1,Away Team Win
1239,1,0,Home Team Win
1240,0,0,Tie
1241,2,1,Home Team Win
1242,2,0,Home Team Win
1243,2,4,Away Team Win
1244,0,2,Away Team Win
1245,4,2,Home Team Win
1246,1,1,Tie


En este ejemplo, usamos una instrucción CASE para crear una nueva variable que identifica partidos como victorias del equipo local, victorias del equipo visitante o empates.

Se crea una nueva columna con el texto apropiado para cada partido dado el resultado.

En la próxima lección, practicaremos más formas de estructurar CASE, utilizando funciones aritméticas como COUNT, SUM y AVG. Por ahora, practicaremos la creación de declaraciones CASE para crear categorías para los datos.

### EX 1° : BASIC CASE statements (1).
Se identificarán partidos jugados entre FC Schalke 04 y FC Bayern Munich.

In [11]:
%sql SELECT team_long_name, team_api_id \
FROM team \
WHERE team_long_name in ('FC Bayern Munich', 'FC Schalke 04')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_long_name,team_api_id
FC Bayern Munich,9823
FC Schalke 04,10189


In [12]:
%sql SELECT CASE WHEN home_team_api_id = 9823 THEN 'Bayern Munich' WHEN home_team_api_id = 10189 THEN 'FC Schalke 04' ELSE 'Other' END AS home_team,  \
count(id) AS total_matches \
FROM match \
GROUP BY home_team

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


home_team,total_matches
Bayern Munich,136
FC Schalke 04,136
Other,25707


### EX 2° : CASE statements comparing column values (1).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [13]:
%sql SELECT date, \
CASE WHEN home_team_goal > away_team_goal THEN 'Home Win :)' WHEN home_team_goal < away_team_goal THEN 'Home loss :(' ELSE 'Tie' END AS outcome \
FROM match \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,outcome
2008-08-17 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-17 00:00:00,Home Win :)
2008-08-16 00:00:00,Home loss :(
2008-09-24 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-16 00:00:00,Home Win :)
2008-11-01 00:00:00,Home Win :)


### EX 2.5° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [14]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal > away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal < away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = away_team_api_id \
WHERE home_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2011-10-29 00:00:00,RCD Mallorca,Barcelona ganó :)
2011-11-19 00:00:00,Real Zaragoza,Barcelona ganó :)
2011-12-03 00:00:00,Levante UD,Barcelona ganó :)
2011-11-29 00:00:00,Rayo Vallecano,Barcelona ganó :)
2012-01-15 00:00:00,Real Betis Balompié,Barcelona ganó :)
2011-08-29 00:00:00,Villarreal CF,Barcelona ganó :)
2012-05-02 00:00:00,Málaga CF,Barcelona ganó :)
2012-02-04 00:00:00,Real Sociedad,Barcelona ganó :)
2012-02-19 00:00:00,Valencia CF,Barcelona ganó :)
2012-03-03 00:00:00,Real Sporting de Gijón,Barcelona ganó :)


## Notas

Notar como, con la coincidencia hecho en el WHERE, basta para tener al FC Barcelona como equipo en casa, de forma que, en la unión a la izquierda en las tablas, se podría obtener menos información colocando:
- ON team_api_id = home_team_api_id

De esta forma, obtendríamos los mismos nombres una y otra vez en la fila. El código utilizado en la celda de arriba obtiene más información (los oponentes).
En las query de SQL siempre optar por la vía que entrega más información.

### EX 3° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo visitante, utilizando la declaración CASE para saber si ganó, perdió o empató de visitante.

In [15]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal < away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal > away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = home_team_api_id \
WHERE away_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2012-01-22 00:00:00,Málaga CF,Barcelona ganó :)
2011-10-25 00:00:00,Granada CF,Barcelona ganó :)
2011-11-06 00:00:00,Athletic Club de Bilbao,Empate
2011-11-26 00:00:00,Getafe CF,Barcelona perdió :(
2011-12-10 00:00:00,Real Madrid CF,Barcelona ganó :)
2012-01-08 00:00:00,RCD Espanyol,Empate
2012-01-28 00:00:00,Villarreal CF,Empate
2012-02-11 00:00:00,CA Osasuna,Barcelona perdió :(
2012-02-26 00:00:00,Atlético Madrid,Barcelona ganó :)
2012-03-11 00:00:00,Racing Santander,Barcelona ganó :)


## Notas

Si bien, se puede realizar un copy paste rápido cambiando los ID, no se debe olvidar cambiar las desigualdades al cambiar de casa a visitante el equipo del FC Barcelona.

## In CASE things get more complex

Ahora que comprendemos algunos conceptos básicos de las declaraciones CASE, configuremos algunas pruebas lógicas más complejas.

## Reviewing CASE WHEN

Anteriormente, cubrimos las declaraciones CASE con una prueba lógica en un WHEN, lo que nos devolvía resultados basados en si esa prueba era VERDADERA o FALSA.

El ejemplo a continuación prueba si los goles en casa o fuera de casa fueron más altos y los identifica como victorias para el equipo que obtuvo una puntuación más alta. Todo lo demás se clasifica como empate.


In [16]:
%sql SELECT date, \
season, \
CASE WHEN home_team_goal > away_team_goal THEN 'Ganó el equipo en casa' \
WHEN home_team_goal < away_team_goal THEN 'Ganó el equipo visitante'\
ELSE 'Tie' END AS outcome \
FROM match \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-08-17 00:00:00,2008/2009,Ganó el equipo en casa
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-09-24 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Tie
2008-08-16 00:00:00,2008/2009,Ganó el equipo visitante
2008-08-16 00:00:00,2008/2009,Ganó el equipo en casa
2008-11-01 00:00:00,2008/2009,Ganó el equipo en casa


La tabla resultante tiene una columna que identifica las coincidencias como uno de los 3 posibles resultados.

## CASE WHEN ... AND then some

Si deseamos probar varias condiciones lógicas en una instrucción CASE, se puede usar AND dentro de la cláusula WHEN.

Por ejemplo, veamos si cada partido lo jugó y ganó el equipo Chelsea.

## Nota

Recordar que no somos adivinos, y debemos ir viendo las tablas y columnas que nos sirven o no según la consulta. Podemos guiarnos con [el enlace de Kaggle](https://www.kaggle.com/hugomathien/soccer).

In [17]:
%sql SELECT team_api_id \
FROM Team \
WHERE team_long_name = 'Chelsea'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_api_id
8455


In [18]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' AND (hometeam_id = 8455 OR awayteam_id = 8455) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-08-14 00:00:00,10194,8455,Chelsea perdió/empató
2011-10-29 00:00:00,8455,9825,Chelsea perdió/empató
2011-11-05 00:00:00,8655,8455,Chelsea ganó de visitante
2011-11-20 00:00:00,8455,8650,Chelsea perdió/empató
2011-11-26 00:00:00,8455,8602,Chelsea ganó en casa
2011-12-03 00:00:00,10261,8455,Chelsea ganó de visitante
2011-12-12 00:00:00,8455,8456,Chelsea ganó en casa
2011-12-17 00:00:00,8528,8455,Chelsea perdió/empató
2011-12-22 00:00:00,8586,8455,Chelsea perdió/empató
2011-12-26 00:00:00,8455,9879,Chelsea perdió/empató


Veamos al declaración CASE en la consulta anterior. Cada cláusula WHEN contiene dos pruebas lógicas:

- La primera prueba es, respectivamente, si el equipo en casa o visitante ganó o perdió según la cantidad de goles.

- La segunda prueba es que, efectivamente, el ID del equipo corresponda al Chelsea en casa o visitante.

Si ambas condiciones son VERDADERAS o FALSAS, o una y otra, la nueva columna devuelve los STRINGS de:

- Chelsea ganó en casa.

- Chelsea ganó de visitante.

- Chelsea perdió/empató.

## What ELSE is being excluded?

Al probar condiciones lógicas, es importante considerar cuidadosamente qué filas de los datos son parte de la cláusula ELSE y si están categorizadas correctamente.

A continuación, aquí está la misma instrucción CASE de la diapositiva anterior, pero se ha eliminado el filtro WHERE de los ID.

In [19]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-07-29 00:00:00,1773,8635,Chelsea perdió/empató
2011-07-30 00:00:00,9998,9985,Chelsea perdió/empató
2011-07-30 00:00:00,9987,9993,Chelsea perdió/empató
2011-07-30 00:00:00,9991,9984,Chelsea perdió/empató
2011-07-30 00:00:00,9994,10000,Chelsea perdió/empató
2011-07-30 00:00:00,8571,9989,Chelsea perdió/empató
2011-07-30 00:00:00,8203,9997,Chelsea perdió/empató
2011-07-31 00:00:00,8342,10001,Chelsea perdió/empató
2011-10-16 00:00:00,8342,9991,Chelsea perdió/empató
2011-10-16 00:00:00,8635,9985,Chelsea perdió/empató


Como podemos apreciar, sin el filtro WHERE de los ID, se categorizará TODOS los partidos jugados por cualquiera que no cumpla las primeras condiciones del CASE WHEN:

- Un vistazo rápido a la tabla demuestra que las primeras coincidencias están todas categorizadas como 'Chelsea perdió o empató', pero ni el hometeam_id ni el awayteam_id pertenecen al Chelsea.

## Correctly categorize your data with CASE

La forma más sencilla de corregir esto es asegurarse de agregar filtros específicos en la cláusula WHERE que excluyan a todos los equipos en los que el Chelsea no jugó.

In [20]:
%sql SELECT date, \
home_team_api_id AS hometeam_id, \
away_team_api_id AS awayteam_id, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8455 THEN 'Chelsea ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id = 8455 THEN 'Chelsea ganó de visitante' \
ELSE 'Chelsea perdió/empató' END AS outcome \
FROM Match \
WHERE season = '2011/2012' AND (hometeam_id = 8455 OR awayteam_id = 8455) \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,hometeam_id,awayteam_id,outcome
2011-08-14 00:00:00,10194,8455,Chelsea perdió/empató
2011-10-29 00:00:00,8455,9825,Chelsea perdió/empató
2011-11-05 00:00:00,8655,8455,Chelsea ganó de visitante
2011-11-20 00:00:00,8455,8650,Chelsea perdió/empató
2011-11-26 00:00:00,8455,8602,Chelsea ganó en casa
2011-12-03 00:00:00,10261,8455,Chelsea ganó de visitante
2011-12-12 00:00:00,8455,8456,Chelsea ganó en casa
2011-12-17 00:00:00,8528,8455,Chelsea perdió/empató
2011-12-22 00:00:00,8586,8455,Chelsea perdió/empató
2011-12-26 00:00:00,8455,9879,Chelsea perdió/empató


En la tabla anterior, especificamos esto usando una declaración OR en WHERE, que solo recupera los resultados en donde el ID 8455 está presente en las columnas hometeam_id o awayteam_id.

Las identificaciones de los equipos especifican, claramente, si el Chelsea estaba en casa o de visitante.

## What's NULL?

También es importante considerar lo que está haciendo nuestra cláusula ELSE.

Las dos consultas a continuación son idénticas, excepto por la instrucción ELSE NULL especificada en la segunda.

In [21]:
# Primera consulta
%sql SELECT date, \
CASE WHEN date > '2015-01-01' THEN 'More Recently' \
WHEN date < '2012-01-01' THEN 'older' \
END AS date_category \
FROM match \
WHERE season IN ('2011/2012') \
LIMIT 100

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,date_category
2011-07-29 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-31 00:00:00,older
2011-10-16 00:00:00,older
2011-10-16 00:00:00,older


In [22]:
# Segunda consulta con ELSE NULL
%sql SELECT date, \
CASE WHEN date > '2015-01-01' THEN 'More Recently' \
WHEN date < '2012-01-01' THEN 'older' \
ELSE NULL END AS date_category \
FROM match \
WHERE season IN ('2011/2012') \
LIMIT 100

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,date_category
2011-07-29 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-30 00:00:00,older
2011-07-31 00:00:00,older
2011-10-16 00:00:00,older
2011-10-16 00:00:00,older


Ambas consultas devuelven resultados idénticos: tablas con algunos resultados nulos. Pero, ¿y si queremos excluirlos?

## What are NULL values doing?

Digamos que solo nos interesa ver los resultados de los partidos en los que ganó el Chelsea, y no nos importa si pierde o empata.

Al igual que en el ejemplo anterior, simplemente eliminando la cláusula ELSE, recuperará esos resultados y muchos valores NULL.

In [23]:
%sql SELECT date, season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' \
END AS outcome \
FROM Match \
WHERE home_team_api_id = 8455 OR away_team_api_id = 8455 \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-22 00:00:00,2008/2009,
2008-11-30 00:00:00,2008/2009,
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-14 00:00:00,2008/2009,
2008-12-22 00:00:00,2008/2009,


## Where to place your CASE?

Para corregir esto, podemos tratar la declaración CASE completa como una columna para filtrar en la cláusula WHERE, como cualquier otra columna.

Para filtrar una consulta por una declaración CASE, debemos modificar la primera consulta a continuación, de forma que quede como en la segunda, es decir:

- Se incluye la instrucción CASE completa, EXCEPTO SU ALIAS, en WHERE.

- A continuación, se especifica lo que se desea incluir o excluir.

En el caso de la segunda consulta, en específico, deseamos mantener todas las filas en donde la declaración CASE NO SEA NULA (END IS NOT NULL).

In [24]:
# Primera consulta
%sql SELECT date, \
season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END AS outcome \
FROM match \
WHERE away_team_api_id = 8455 OR home_team_api_id = 8455 \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-22 00:00:00,2008/2009,
2008-11-30 00:00:00,2008/2009,
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-14 00:00:00,2008/2009,
2008-12-22 00:00:00,2008/2009,


In [25]:
# Segunda consulta
%sql SELECT date, \
season, \
CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END AS outcome \
FROM match \
WHERE CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 'Chelsea ganó en casa' \
WHEN away_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 'Chelsea ganó de visitante' END IS NOT NULL \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,season,outcome
2008-08-17 00:00:00,2008/2009,Chelsea ganó en casa
2008-10-29 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-01 00:00:00,2008/2009,Chelsea ganó en casa
2008-11-09 00:00:00,2008/2009,Chelsea ganó de visitante
2008-11-15 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-06 00:00:00,2008/2009,Chelsea ganó de visitante
2008-12-26 00:00:00,2008/2009,Chelsea ganó en casa
2008-08-24 00:00:00,2008/2009,Chelsea ganó de visitante
2009-01-17 00:00:00,2008/2009,Chelsea ganó en casa
2009-01-28 00:00:00,2008/2009,Chelsea ganó en casa


De esta forma, la tabla resultante ahora solo incluye cuando Chelsea estaba en casa o de visitante, ¡y ya no necesitamos filtrar por el ID de equipo!

Bueno, ¡practiquemos algunas declaraciones CASE más complejas!

### EX 4° : In case of rivalry
Haremos una consulta con los partidos jugados entre el FC Barcelona y el Real Madrid (El Clásico).

In [26]:
# Realizamos un query para obtener los ID
%sql SELECT team_long_name AS team_name, team_api_id AS id \
FROM team \
WHERE team_long_name IN ('FC Barcelona', 'Real Madrid CF')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_name,id
Real Madrid CF,8633
FC Barcelona,8634


In [27]:
# Realizamos el query
%sql SELECT date AS fecha, \
CASE WHEN home_team_api_id = 8634 THEN 'FC Barcelona' \
ELSE 'Real Madrid CF' END AS casa, \
CASE WHEN away_team_api_id = 8634 THEN 'FC Barcelona' \
ELSE 'Real Madrid CF' END AS visitante, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id = 8634 THEN 'Ganó el FC Barcelona' \
WHEN home_team_goal < away_team_goal AND home_team_api_id = 8634 THEN 'Ganó el Real Madrid' \
WHEN home_team_goal > away_team_goal AND home_team_api_id = 8633 THEN 'Ganó el Real Madrid' \
WHEN home_team_goal < away_team_goal AND home_team_api_id = 8633 THEN 'Ganó el Barcelona' ELSE 'Empate' END AS resultado \
FROM match \
WHERE season IN ('2011/2012', '2012/2013', '2013/2014', '2014/2015') AND (home_team_api_id = 8634 OR away_team_api_id = 8634) AND (home_team_api_id = 8633 OR away_team_api_id = 8633)

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


fecha,casa,visitante,resultado
2011-12-10 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Barcelona
2012-04-21 00:00:00,FC Barcelona,Real Madrid CF,Ganó el Real Madrid
2013-03-02 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Real Madrid
2012-10-07 00:00:00,FC Barcelona,Real Madrid CF,Empate
2013-10-26 00:00:00,FC Barcelona,Real Madrid CF,Ganó el FC Barcelona
2014-03-23 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Barcelona
2015-03-22 00:00:00,FC Barcelona,Real Madrid CF,Ganó el FC Barcelona
2014-10-25 00:00:00,Real Madrid CF,FC Barcelona,Ganó el Real Madrid


### EX 5 : Filtering your CASE statement
Generaremos una lista de partidos ganados por el Bologna de Italia.

In [None]:
# Seleccionamos el ID
%sql SELECT team_long_name, team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%'

In [28]:
# Realizamos el query probando el por qué utilizar CASE WHEN en WHERE y no en SELECT para utilizar condicionales
%sql SELECT season, \
date, home_team_api_id, away_team_api_id, home_team_goal, away_team_goal, \
CASE WHEN home_team_goal > away_team_goal AND home_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó de visitante' END IS NOT NULL AS outcome \
FROM match \
WHERE home_team_api_id IN (SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%') OR away_team_api_id IN (SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Bologna%') \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal,outcome
2008/2009,2008-08-31 00:00:00,8564,9857,1,2,1
2008/2009,2008-11-02 00:00:00,8529,9857,5,1,0
2008/2009,2008-11-08 00:00:00,9857,8686,1,1,0
2008/2009,2008-11-16 00:00:00,8551,9857,1,1,0
2008/2009,2008-11-23 00:00:00,9857,8540,1,1,0
2008/2009,2008-11-30 00:00:00,10233,9857,1,1,0
2008/2009,2008-12-07 00:00:00,8690,9857,2,2,0
2008/2009,2008-12-13 00:00:00,9857,9804,5,2,1
2008/2009,2008-12-21 00:00:00,9888,9857,0,0,0
2008/2009,2009-01-11 00:00:00,9857,8533,1,1,0


Así es. En 'outcome' tendremos los valores booleanos que, normalmente, SQL utilizaría para obtener los datos deseados. En este caso:

- El valor '1' corresponde al valor deseado para la consulta (positivo).

- El valor '0' corresponde al valor no deseado para la consulta (negativo).

Ahora, si cambiamos el CASE WHEN a la cláusula WHERE, veremos que las fechas y puntuaciones cuyo 'outcome' en la tabla anterior, corresponde a 1, serán las mismas, y dado que no queremos obtener aquellos partidos donde NO HAYA GANADO el Bologna, debemos omitir las filas que no cumplan esa condición (las filas con 0).

In [29]:
# Finalmente
%sql SELECT season, \
date, home_team_api_id, away_team_api_id, home_team_goal, away_team_goal \
FROM match \
WHERE CASE WHEN home_team_goal > away_team_goal AND home_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó en casa' \
WHEN home_team_goal < away_team_goal AND away_team_api_id IN (SELECT team_api_id FROM team WHERE team_long_name LIKE '%Bologna%') THEN 'Bologna ganó de visitante' END IS NOT NULL \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,date,home_team_api_id,away_team_api_id,home_team_goal,away_team_goal
2008/2009,2008-08-31 00:00:00,8564,9857,1,2
2008/2009,2008-12-13 00:00:00,9857,9804,5,2
2008/2009,2009-01-18 00:00:00,8530,9857,1,2
2008/2009,2009-01-28 00:00:00,8524,9857,0,1
2008/2009,2009-03-08 00:00:00,9857,9882,3,0
2008/2009,2009-04-26 00:00:00,9857,10233,2,0
2008/2009,2009-05-17 00:00:00,9857,9888,2,1
2008/2009,2009-05-31 00:00:00,9857,8530,3,1
2008/2009,2008-10-19 00:00:00,9857,8543,3,1
2009/2010,2009-10-28 00:00:00,9857,8551,2,1


## CASE WHEN with aggregate functions

Echemos un vistazo a las declaraciones CASE con funciones agregadas.

Las declaraciones CASE se pueden utilizar para:

- Crear columnas categorizadas.

- Filtrar datos en la cláusula WHERE.

- También para agregar datos basados en el resultado de una prueba lógica (aggregating data).

## COUNTing CASES

Supongamos que deseamos preparar una tabla de resumen contando los números de partidos en casa y de visitante en que el Liverpool ganó en cada temporada.

¿Cómo se hace un recuento de las victorias del Liverpool en cada temporada?

Pues sí, con una declaración CASE.

## Case WHEN with COUNT

Las declaraciones CASE son como cualquier otra columna de la consulta, por lo que podemos incluirlas dentro de una función agregada.

Echemos un vistazo a la declaración CASE.

In [30]:
%sql SELECT team_api_id \
FROM team \
WHERE team_long_name LIKE '%Liverpool%'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_api_id
8650


In [89]:
# Ejemplo de consulta con CASE WHEN; los ID únicos de los partidos (es decir, los partidos en sí) son contabilizados en COUNT(), siendo contabilizados y agrupados por temporada; podemos obtener más información con un LEFT JOIN
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN id END) AS home_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins
2008/2009,12
2009/2010,13
2010/2011,12
2011/2012,6
2012/2013,9
2013/2014,16
2014/2015,10
2015/2016,8


In [85]:
# Ejemplo de consulta con LEFT JOIN
%sql SELECT season AS temporada, \
team_long_name AS equipo, \
COUNT(CASE WHEN home_team_goal > away_team_goal THEN match.id END) AS victoria_local, \
COUNT(CASE WHEN home_team_goal < away_team_goal THEN match.id END) AS derrotas_local, \
SUM(home_team_goal) AS goles_favor, \
SUM(away_team_goal) AS goles_contra \
FROM match \
LEFT JOIN team \
ON team_api_id = home_team_api_id \
WHERE team_long_name LIKE '%Liverpool%' \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


temporada,equipo,victoria_local,derrotas_local,goles_favor,goles_contra
2008/2009,Liverpool,12,0,41,13
2009/2010,Liverpool,13,3,43,15
2010/2011,Liverpool,12,3,37,14
2011/2012,Liverpool,6,4,24,16
2012/2013,Liverpool,9,4,33,16
2013/2014,Liverpool,16,2,53,18
2014/2015,Liverpool,10,4,30,20
2015/2016,Liverpool,8,3,33,22


La claúsula WHEN incluye una prueba lógica similar a la lección anterior.

Si el Liverpool juega como local, ¿anotó el equipo local un número de goles más alto que el equipo visitante?

La diferencia comienza en la cláusula THEN. En lugar de devolver una cadena de texto, devuelve la columna que identifica la coincidencia única (ID del partido, siendo cada ID único).

Cuando la instrucción CASE está dentro de la función COUNT, CUENTA cada ID devuelto de cada partido por la instrucción CASE (según la condicionalidad).

## CASE WHEN with COUNT

Luego, agregamos una segunda instrucción CASE para el equipo visitante, y agrupamos la consulta por temporada.

In [90]:
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN id END) AS home_wins, COUNT(CASE WHEN away_team_api_id = 8650 AND home_team_goal < away_team_goal THEN id END) AS away_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins,away_wins
2008/2009,12,13
2009/2010,13,5
2010/2011,12,5
2011/2012,6,8
2012/2013,9,7
2013/2014,16,10
2014/2015,10,8
2015/2016,8,8


Al contar información con COUNT, en una declaración CASE, podemos devolver cualquier cosa que deseemos:

- Un número.

- Una cadena de texto.

- Cualquier columna de la tabla.

Ésto dado que SQL está contando el número de filas devueltas por la instrucción CASE.

In [91]:
%sql SELECT season, \
COUNT(CASE WHEN home_team_api_id = 8650 AND home_team_goal > away_team_goal THEN 'some random text' END) AS home_wins, COUNT(CASE WHEN away_team_api_id = 8650 AND home_team_goal < away_team_goal THEN 2 END) AS away_wins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_wins,away_wins
2008/2009,12,13
2009/2010,13,5
2010/2011,12,5
2011/2012,6,8
2012/2013,9,7
2013/2014,16,10
2014/2015,10,8
2015/2016,8,8


## CASE WHEN with SUM

Del mismo modo, podemos utilizar la función SUM para calcular un total de cualquier valor.

Digamos que estamos interesados en la cantidad de goles en casa y fuera que el Liverpool anotó en cada temporada (déjà vu).

Esto es batante simple de configurar: si home_team_api_id es de Liverpool, devuelve el valor de home_team_goal.

Se supone que la condición ELSE es NULL, por lo que la consulta devuelve el total de home_team_goals anotados por Liverpool en cada temporada.

In [95]:
%sql SELECT season, \
SUM(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END) AS home_goals, \
SUM(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,41,36
2009/2010,43,18
2010/2011,37,22
2011/2012,24,23
2012/2013,33,38
2013/2014,53,48
2014/2015,30,22
2015/2016,33,30


## The CASE is fairly AVG

También podemos utilizar la función AVG con CASE de dos formas clave:

- Primero, podemos calcular un promedio de datos. Podemos hacer esto usando CASE de la misma manera en que lo hicimos con SUM. Simplemente debemos modificar SUM por AVG en la consulta, y así obtendremos los goles medios que el Liverpool anotó en cada temporada.

In [96]:
%sql SELECT season, \
AVG(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END) AS home_goals, \
AVG(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,2.1578947368421053,1.894736842105263
2009/2010,2.263157894736842,0.9473684210526316
2010/2011,1.947368421052632,1.1578947368421053
2011/2012,1.263157894736842,1.2105263157894737
2012/2013,1.736842105263158,2.0
2013/2014,2.789473684210526,2.526315789473684
2014/2015,1.5789473684210529,1.1578947368421053
2015/2016,1.736842105263158,1.5789473684210529


## A ROUNDed AVG

Podemos hacer que los resultados sean más fáciles de leer usando ROUND.

ROUND toma dos argumentos:

- Un valor numérico.

- Número de puntos decimales para redondear el valor.

Si lo colocamos por fuera de la declaración CASE, e incluimos el número de puntos decimales al final, tendremos nuestras cifras redondeadas. De esta forma, esto es más fácil de leer.

In [99]:
%sql SELECT season, \
ROUND(AVG(CASE WHEN home_team_api_id = 8650 THEN home_team_goal END), 2) AS home_goals, \
ROUND(AVG(CASE WHEN away_team_api_id = 8650 THEN away_team_goal END), 2) AS away_goals \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,home_goals,away_goals
2008/2009,2.16,1.89
2009/2010,2.26,0.95
2010/2011,1.95,1.16
2011/2012,1.26,1.21
2012/2013,1.74,2.0
2013/2014,2.79,2.53
2014/2015,1.58,1.16
2015/2016,1.74,1.58


## Percentages with CASE and AVG

La segunda aplicación clave de CASE con AVG es el cálculo de porcentajes. Esto requiere una estructura específica para que el cálculo sea preciso.

La pregunta que estamos respondiendo aquí es

¿Qué porcentaje de los partidos del Liverpool se ganaron en cada temporada?

- El primer componente de la declaración CASE es una cláusula WHEN que identifica qué estamos calculando de porcentaje, en este caso, ¿cuántos juegos se ganaron? Esto se prueba de la misma manera que las diapositivas anteriores, y la cláusula THEN devuelve un 1.

- El segundo componente identifica los juegos del Liverpool que PERDIERON y devuelve el valor 0.

Todos los demás partidos (empates, juegos que no involucren al Liverpool) se excluyen como NULL.

In [116]:
# Asignamos 1 = GANADO y 0 = PERDIDO
%sql SELECT season, \
AVG(CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 1 \
WHEN home_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 0 END) AS pct_homewins, \
AVG(CASE WHEN away_team_api_id = 8455 AND away_team_goal > home_team_goal THEN 1 \
WHEN away_team_api_id = 8455 AND away_team_goal < home_team_goal THEN 0 END) AS pct_awaywins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,pct_homewins,pct_awaywins
2008/2009,0.8461538461538461,0.8235294117647058
2009/2010,0.9444444444444444,0.6666666666666666
2010/2011,0.875,0.5
2011/2012,0.75,0.5
2012/2013,0.8571428571428571,0.6666666666666666
2013/2014,0.9375,0.6666666666666666
2014/2015,1.0,0.7857142857142857
2015/2016,0.5,0.5


In [119]:
# Versión con ROUND más legible
%sql SELECT season, \
ROUND(AVG(CASE WHEN home_team_api_id = 8455 AND home_team_goal > away_team_goal THEN 1 \
WHEN home_team_api_id = 8455 AND home_team_goal < away_team_goal THEN 0 END), 2) AS pct_homewins, \
ROUND(AVG(CASE WHEN away_team_api_id = 8455 AND away_team_goal > home_team_goal THEN 1 \
WHEN away_team_api_id = 8455 AND away_team_goal < home_team_goal THEN 0 END),2) AS pct_awaywins \
FROM match \
GROUP BY season

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


season,pct_homewins,pct_awaywins
2008/2009,0.85,0.82
2009/2010,0.94,0.67
2010/2011,0.88,0.5
2011/2012,0.75,0.5
2012/2013,0.86,0.67
2013/2014,0.94,0.67
2014/2015,1.0,0.79
2015/2016,0.5,0.5


¡Ahora es nuestro turno de practicar la creación de declaraciones CASE con funciones agregadas!

### EX 6 : COUNT using CASE WHEN (1)

¿El número de partidos jugados de fútbol jugados varía en un país de acuerdo a las temporadas?

In [132]:
# En caso de no incluir GROUP BY
"""%sql SELECT c.name AS country, \
COUNT(CASE WHEN season = '2012/2013' AND c.id = m.country_id THEN m.country_id ELSE NULL END) AS matches_2012_2013 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
LIMIT 10"""

# Correcto
%sql SELECT c.name AS country, \
COUNT(CASE WHEN season = '2012/2013' AND c.id = m.country_id THEN m.country_id ELSE NULL END) AS matches_2012_2013 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country \
ORDER BY matches_2012_2013 DESC \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,matches_2012_2013
England,380
France,380
Italy,380
Spain,380
Germany,306
Netherlands,306
Belgium,240
Poland,240
Portugal,240
Scotland,228


### EX 7 : COUNT using CASE WHEN (2)

In [134]:
%sql SELECT c.name AS country, \
COUNT(CASE WHEN m.season = '2012/2013' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2012_2013, \
COUNT(CASE WHEN m.season = '2013/2014' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2013_2014, \
COUNT(CASE WHEN m.season = '2014/2015' AND c.id = m.country_id THEN c.id ELSE NULL END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,240,12,240
England,380,380,380
France,380,380,380
Germany,306,306,306
Italy,380,380,379
Netherlands,306,306,306
Poland,240,240,240
Portugal,240,240,306
Scotland,228,228,228
Spain,380,380,380


### EX 8 : COUNT and CASE WHEN with multiple conditions

Averiguaremos la suma total de partidos ganados en casa por país y temporada.

In [137]:
# No olvidar 'ON' con LEFT JOIN
%sql SELECT c.name AS country, \
    SUM(CASE WHEN m.season = '2012/2013' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2012_2013, \
    SUM(CASE WHEN m.season = '2013/2014' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2013_2014, \
    SUM(CASE WHEN m.season = '2014/2015' AND m.home_team_goal > away_team_goal THEN 1 ELSE 0 END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,102,6,106
England,166,179,172
France,170,168,181
Germany,130,145,145
Italy,177,181,152
Netherlands,137,144,138
Poland,97,110,114
Portugal,103,108,137
Scotland,89,102,102
Spain,189,179,171


### EX OPCIONAL: REPETIR EX 7 CON MÉTODO DEL EX 8

In [138]:
%sql SELECT c.name AS country, \
SUM(CASE WHEN m.season = '2012/2013' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2012_2013, \
SUM(CASE WHEN m.season = '2013/2014' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2013_2014, \
SUM(CASE WHEN m.season = '2014/2015' AND c.id = m.country_id THEN 1 ELSE 0 END) AS partidos_2014_2015 \
FROM country AS c \
LEFT JOIN match AS m \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,partidos_2012_2013,partidos_2013_2014,partidos_2014_2015
Belgium,240,12,240
England,380,380,380
France,380,380,380
Germany,306,306,306
Italy,380,380,379
Netherlands,306,306,306
Poland,240,240,240
Portugal,240,240,306
Scotland,228,228,228
Spain,380,380,380


### EX OPCIONAL : ALGO INTERESANTE DEBE IR AQUÍ

Averiguaremos la suma total de partidos ganados, perdidos y empatados en casa por país y temporada.

In [140]:
%sql SELECT c.name AS country, \
    COUNT(CASE WHEN m.season = '2012/2013' AND home_team_goal > away_team_goal THEN m.country_id ELSE NULL END) AS 'ganados_local_2012_2013', \
    COUNT(CASE WHEN m.season = '2013/2014' AND home_team_goal < away_team_goal THEN m.country_id ELSE NULL END) AS 'perdidos_local_2012_2013', \
    COUNT(CASE WHEN m.season = '2015/2016' AND home_team_goal = away_team_goal THEN m.country_id ELSE NULL END) AS 'Empate_local_2012_2013' \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,ganados_local_2012_2013,perdidos_local_2012_2013,Empate_local_2012_2013
Belgium,102,4,59
England,166,123,107
France,170,104,108
Germany,130,97,71
Italy,177,109,95
Netherlands,137,78,74
Poland,97,57,74
Portugal,103,72,76
Scotland,89,76,52
Spain,189,115,92


### EX 9 : Calculating percent with CASE and AVG

Averiguaremos la suma total de partidos ganados, perdidos y empatados en casa por país. En Datacamp, ya se tiene filtrada la tabla de partidos 'matches', por lo que debemos agregar una cláusula WHERE para ajustarnos a los resultados del ejercicio.

In [150]:
%sql SELECT c.name AS country, \
    COUNT(CASE WHEN home_team_goal > away_team_goal THEN m.country_id ELSE NULL END) AS 'ganados_local', \
    COUNT(CASE WHEN home_team_goal < away_team_goal THEN m.country_id ELSE NULL END) AS 'perdidos_local', \
    COUNT(CASE WHEN home_team_goal = away_team_goal THEN m.country_id ELSE NULL END) AS 'Empate_local' \
FROM country AS c \
LEFT JOIN match AS m \
ON c.id = m.country_id \
WHERE season IN ('2013/2014', '2014/2015') \
GROUP BY country

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


country,ganados_local,perdidos_local,Empate_local
Belgium,112,78,62
England,351,238,171
France,349,215,196
Germany,290,176,146
Italy,333,216,210
Netherlands,282,173,157
Poland,224,117,139
Portugal,245,156,145
Scotland,204,158,94
Spain,350,233,177
