## Intermediate SQL por Datacamp

~ Para ejecutar SQL desde un notebook de Jupyter, [link en Datacamp](https://www.datacamp.com/community/tutorials/sql-interface-within-jupyterlab).

<img src="1.jpeg"></img>

## Importamos librerías y extensiones

In [5]:
# Importamos la librería sqlalchemy, que nos permite ejecutar código SQL adaptado a sintaxSSis simple y de forma Pythonica
import sqlalchemy

# Cargamos el módulo sqlite
%load_ext sql

# Cargamos la extensión ipython-sql
%sql sqlite://


## Probemos SQLITE

In [6]:
# Cargamos la base de datos (cambiar directorio, sin especificar el disco duro)
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite

## Seleccionamos y probamos con pandas

In [7]:
# Importamos numpy pandas
import numpy as np
import pandas as pd

In [14]:
# Seleccionamos algunos datos para probar
resultado = %sql SELECT * FROM Crops

# Vemos el tipo de objeto que es "resultado"
print(type(resultado))

# Convertimos el resultado SQL a DataFrame con Pandas
df_resultado = resultado.DataFrame()

# Cinco primeras filas del DataFrame
print(df_resultado.head())

# Vemos el resumen del DataFrame
df_resultado.info()

   sqlite://
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
Done.
<class 'sql.run.ResultSet'>
   Id  plot_Id  crop_Id  D05_times D_curr_crop  D_repeat_times_count
0   1        1        1          1       maize                     1
1   1        2        1          1       maize                     1
2   2        1        1          1       maize                     1
3   2        2        1          1    tomatoes                     1
4   2        3        1          1   vegetable                     1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1044 entries, 0 to 1043
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Id                    1044 non-null   int64 
 1   plot_Id               1044 non-null   int64 
 2   crop_Id               1044 non-null   int64 
 3   D05_times             1044 non-null   int64 
 4   D_curr_crop           1039 non-null   object
 5   D_r

## SQL Intermedio

<img src="2.png"></img>

Bienvenidos a SQL intermedio. SQL es una poderosa herramienta para trabajar con bases de datos relacionales. Con un conocimiento intermedio de SQL, obtendremos la capacidad de acceder y crear conjuntos de datos de varias tablas en una base de datos relacional, para responder a nuestras preguntas sobre ciencia de datos.

En este curso, aprenderemos específicamente a:

- Dar forma, transformar y manipular datos utilizando la instrucción CASE.

- Subconsultas simples.

- Subconsultas correlacionadas.

- Funciones de ventana.

Antes de tomar este curso, deberíamos sentirnos cómodos trabajando con temas introductorios de SQL, como seleccionando datos de una base de datos usando funciones aritméticas, declaraciones GROUP BY y cláusulas WHERE para filtrar datos.

También debe estar familiarizado con la unión de datos con LEFT JOIN, RIGHT JOIN, INNER JOIN y OUTER JOIN. En este curso, utilizaremos y desarrollaremos estos temas para interactuar con nuestra base de datos.

Para este curso, utilizaremos una base de datos del fútbol europeo, 'European soccer database', que es una base de datos relacional que contiene datos sobre más de 25.000 partidos, 300 equipos y 10.000 jugadores en Europa entre 2008 y 2016.

## Carguemos la base de datos que utilizaremos

In [8]:
# Cargamos la base de datos
%sql sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite

Los datos están contenidos en 4 tablas: país, liga, equipo y partido.

In [9]:
# Selecting from European Soccer Database
%sql SELECT l.name AS league, COUNT(m.country_id) AS matches \
FROM league AS l \
LEFT JOIN match AS m \
ON l.country_id = m.country_id \
GROUP BY l.name

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


league,matches
Belgium Jupiler League,1728
England Premier League,3040
France Ligue 1,3040
Germany 1. Bundesliga,2448
Italy Serie A,3017
Netherlands Eredivisie,2448
Poland Ekstraklasa,1920
Portugal Liga ZON Sagres,2052
Scotland Premier League,1824
Spain LIGA BBVA,3040


Seleccionar datos de estas tablas es bastante simple. La consulta que vemos aquí, te da el número de partidos jugados en cada una de las 11 ligas enumeradas en la tabla 'Liga'.

Digamos que queremos comparar la cantidad de victorias del equipo local, victorias del equipo visitante y empates en la temporada 2013/2014.

La tabla 'coincidencia' ahora tiene dos columnas relevantes: home_goal y away_goal.

## Nota

En Datacamp se renombró las columnas, quitando la etiqueta 'team' de las columnas de goles.

In [19]:
%sql SELECT date, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,home_team_goal,away_team_goal
2014-03-29 00:00:00,2,0
2014-03-29 00:00:00,0,1
2014-04-05 00:00:00,1,0
2014-04-05 00:00:00,0,0
2014-04-12 00:00:00,2,1
2014-04-12 00:00:00,2,0
2014-04-19 00:00:00,2,4
2014-04-19 00:00:00,0,2
2014-04-26 00:00:00,4,2
2014-04-26 00:00:00,1,1


Potencialmente, podemos agregar filtros a la cláusula WHERE, seleccionando victorias, derrotas y empates por separado, pero eso no es muy eficiente si deseamos comparar estos resultados en un solo conjunto de datos.

In [66]:
%sql SELECT date, id, home_team_goal, away_team_goal \
FROM match \
WHERE season = '2013/2014' \
AND home_team_goal > away_team_goal \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,id,home_team_goal,away_team_goal
2014-03-29 00:00:00,1237,2,0
2014-04-05 00:00:00,1239,1,0
2014-04-12 00:00:00,1241,2,1
2014-04-12 00:00:00,1242,2,0
2014-04-26 00:00:00,1245,4,2
2014-05-03 00:00:00,1248,4,0
2013-08-18 00:00:00,3630,2,0
2013-08-17 00:00:00,3632,1,0
2013-08-19 00:00:00,3633,4,0
2013-08-17 00:00:00,3638,2,0


Aquí es donde entra la instrucción CASE. Las declaraciones CASE son la versión de SQL de una declaración condicional de otros lenguajes de programación 'IF'.

Las declaraciones de casos tienen tres partes: una cláusula WHEN, una cláusula THEN y una cláusula ELSE.


In [25]:
print( \
""" 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 
""")

 
CASE WHEN x = 1 THEN 'a'
    WHEN x = 2 THEN 'b'
    ELSE 'c' END AS new_column 



- La primera parte, la cláusula WHEN, prueba una condición determinada, por ejemplo X = 1, si esta condición es VERDADERA, devuelve el elemento que especifica después de su cláusula WHEN.

- Podemos crear varias condiciones enumerando las declaraciones WHEN y THEN dentro de la misma declaración CASE.

- Luego, la instrucción CASE finaliza con una cláusula ELSE que devuelve un valor especificado si todas sus declaraciones WHEN no son verdaderas.

- Al terminar la declaración, debemos asegurarnos de incluir el término END y de darle un alias.

- La declaración CASE completa se evaluará en una nueva columna en su consulta SQL.



In [67]:
%sql SELECT id, home_team_goal, away_team_goal, CASE WHEN home_team_goal > away_team_goal THEN 'Home Team Win' WHEN home_team_goal < away_team_goal THEN 'Away Team Win' ELSE 'Tie' END AS outcome FROM match WHERE season = '2013/2014' \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


id,home_team_goal,away_team_goal,outcome
1237,2,0,Home Team Win
1238,0,1,Away Team Win
1239,1,0,Home Team Win
1240,0,0,Tie
1241,2,1,Home Team Win
1242,2,0,Home Team Win
1243,2,4,Away Team Win
1244,0,2,Away Team Win
1245,4,2,Home Team Win
1246,1,1,Tie


In [None]:
En este ejemplo, usamos una instrucción CASE para crear una nueva variable que identifica partidos como victorias del equipo local, victorias del equipo visitante o empates.

Se crea una nueva columna con el texto apropiado para cada partido dado el resultado.

En la próxima lección, practicaremos más formas de estructurar CASE, utilizando funciones aritméticas como COUNT, SUM y AVG. Por ahora, practicaremos la creación de declaraciones CASE para crear categorías para los datos.

### EX 1° : BASIC CASE statements (1).
Se identificarán partidos jugados entre FC Schalke 04 y FC Bayern Munich.

In [35]:
%sql SELECT team_long_name, team_api_id \
FROM team \
WHERE team_long_name in ('FC Bayern Munich', 'FC Schalke 04')

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


team_long_name,team_api_id
FC Bayern Munich,9823
FC Schalke 04,10189


In [68]:
%sql SELECT CASE WHEN home_team_api_id = 9823 THEN 'Bayern Munich' WHEN home_team_api_id = 10189 THEN 'FC Schalke 04' ELSE 'Other' END AS home_team,  \
count(id) AS total_matches \
FROM match \
GROUP BY home_team

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


home_team,total_matches
Bayern Munich,136
FC Schalke 04,136
Other,25707


### EX 2° : CASE statements comparing column values (1).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [69]:
%sql SELECT date, \
CASE WHEN home_team_goal > away_team_goal THEN 'Home Win :)' WHEN home_team_goal < away_team_goal THEN 'Home loss :(' ELSE 'Tie' END AS outcome \
FROM match \
LIMIT 10

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,outcome
2008-08-17 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-17 00:00:00,Home Win :)
2008-08-16 00:00:00,Home loss :(
2008-09-24 00:00:00,Tie
2008-08-16 00:00:00,Tie
2008-08-16 00:00:00,Home loss :(
2008-08-16 00:00:00,Home Win :)
2008-11-01 00:00:00,Home Win :)


### EX 2.5° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo en casa, utilizando la declaración CASE para saber si ganó, perdió o empató en casa.

In [63]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal > away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal < away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = away_team_api_id \
WHERE home_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2011-10-29 00:00:00,RCD Mallorca,Barcelona ganó :)
2011-11-19 00:00:00,Real Zaragoza,Barcelona ganó :)
2011-12-03 00:00:00,Levante UD,Barcelona ganó :)
2011-11-29 00:00:00,Rayo Vallecano,Barcelona ganó :)
2012-01-15 00:00:00,Real Betis Balompié,Barcelona ganó :)
2011-08-29 00:00:00,Villarreal CF,Barcelona ganó :)
2012-05-02 00:00:00,Málaga CF,Barcelona ganó :)
2012-02-04 00:00:00,Real Sociedad,Barcelona ganó :)
2012-02-19 00:00:00,Valencia CF,Barcelona ganó :)
2012-03-03 00:00:00,Real Sporting de Gijón,Barcelona ganó :)


## Notas

Notar como, con la coincidencia hecho en el WHERE, basta para tener al FC Barcelona como equipo en casa, de forma que, en la unión a la izquierda en las tablas, se podría obtener menos información colocando:
- ON team_api_id = home_team_api_id

De esta forma, obtendríamos los mismos nombres una y otra vez en la fila. El código utilizado en la celda de arriba obtiene más información (los oponentes).
En las query de SQL siempre optar por la vía que entrega más información.

### EX 3° : CASE statements comparing column values (2).
En este ejercicio, crearemos una lista de partidos de la temporada del 2011/2012 donde el Barcelona fue el equipo visitante, utilizando la declaración CASE para saber si ganó, perdió o empató de visitante.

In [65]:
%sql SELECT date, team_long_name AS opponent, CASE WHEN home_team_goal < away_team_goal THEN 'Barcelona ganó :)' WHEN home_team_goal > away_team_goal THEN 'Barcelona perdió :(' ELSE 'Empate' END AS outcome \
FROM match LEFT JOIN team ON team_api_id = home_team_api_id \
WHERE away_team_api_id = 8634 AND season = '2011/2012'

   sqlite://
   sqlite:////Universidad/DataCamp/Python/intermediate_sql/SQL_SAFI.sqlite
 * sqlite:////Universidad/DataCamp/Python/intermediate_sql/european_soccer.sqlite
Done.


date,opponent,outcome
2012-01-22 00:00:00,Málaga CF,Barcelona ganó :)
2011-10-25 00:00:00,Granada CF,Barcelona ganó :)
2011-11-06 00:00:00,Athletic Club de Bilbao,Empate
2011-11-26 00:00:00,Getafe CF,Barcelona perdió :(
2011-12-10 00:00:00,Real Madrid CF,Barcelona ganó :)
2012-01-08 00:00:00,RCD Espanyol,Empate
2012-01-28 00:00:00,Villarreal CF,Empate
2012-02-11 00:00:00,CA Osasuna,Barcelona perdió :(
2012-02-26 00:00:00,Atlético Madrid,Barcelona ganó :)
2012-03-11 00:00:00,Racing Santander,Barcelona ganó :)


## Notas

Si bien, se puede realizar un copy paste rápido cambiando los ID, no se debe olvidar cambiar las desigualdades al cambiar de casa a visitante el equipo del FC Barcelona.