<a href="https://colab.research.google.com/github/ErikaDivantoque/Talento_Tech/blob/main/Modulo_2_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## INTRODUCCIÓN
Usaré esta notebook para proporcionar una introducción a SQL, lenguaje imprescindible para todo analista de datos.

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje SQL, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

SQL significa Structured Query Language (Lenguaje de consulta estructurado)
SQL permite acceder y manipular bases de datos
SQL es una herramienta simple para el análisis avanzado de datos
SQL no se usa sólo para manipular datos, sino también para administrar la misma base de datos, crear y modificar el diseño de objetos de la base de datos, como tablas. El elemento de SQL que se usa para crear y modificar objetos de base de datos se denomina lenguaje de definición de datos (DDL). Este curso no trata DDL.

En esta notebook veremos cómo trabajar/manipular tablas. Aprenderemos a usar SQL para interactuar con una base de datos de fútbol europeo y generar información interesante con sus datos.

La base de datos utilizada, pueder ser encontrada [aquí](https://www.kaggle.com/datasets/hugomathien/soccer)

Este ejercicio esta basado en el repositorio de (https://www.kaggle.com/code/gustavojaramillo/data-analysis-using-sql-espa-ol)

In [1]:
  # Importar librerías
import pandas as pd
import sqlite3 # SQLite

In [2]:
# Lectura
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Los datos de entrada están disponibles en el directorio "drive"
# Se sugiere establecer la conexión con su drive personal

path = "/content/drive/MyDrive/Colab Notebooks/DA_Talento/data/db/" # Debo revisar que la ruta este correcta, sin incluir el nombre del archivo

database = path + 'database.sqlite'

# Creamos la conexión con la BD y listaremos las tablas con las que contamos

conn = sqlite3.connect(database)
print ("Conexión exitosa")

print (database)

tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables

#Tarea: consultar que el * funcione para dataframe pandas

Conexión exitosa
/content/drive/MyDrive/Colab Notebooks/DA_Talento/data/db/database.sqlite


Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


####**ORDEN DE CONSULTA**

SELECT    lista de Seleccion ⬇

➡FROM      origen de datos ⬇

➡WHERE     condicion de seleccion ⬇

➡GROUP BY  columnas de agrupacion ⬇

➡HAVING    condicion de seleccion ⬇

➡ORDER BY  columnas de ordenacion ⬇

##**1. Sentencia SELECT**

Esta es la consulta mas basica y su estructura es muy simple:

Se define lo que se quiere ver despues del SELECT. Se eligen las tablas a consultar despues del FROM las unicas partes imprecindibles de una consulta son el SELECT y el FROM.

La sintaxis de esta consulta es asi:

    SELECT column1, column2...
    FROM table_name;

Para consultar por todos los campos es una tabla sin tener que escribir uno por uno el nombre de cada campo se utiliza *SELECT* *

*SELECT*  * :significa que quieres obtener todas las columnas posibles de la tabla consultada. Los datos devueltos se almacenan en una tabla de resultados, denominada conjunto de resultados.


*Es una buena práctica terminar la consulta con un punto **y** coma para indicar que la consulta está completa. Las palabras clave se escriben en mayúsculas y los nombres de tablas y campos se escriben en minúsculas.*





In [4]:
query = 'SELECT * FROM \'Country\';'

countries = pd.read_sql(query, conn)
countries

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


In [5]:
#Consulta todas las ligas del futbol europeo
query = """SELECT *
           FROM League; """

#No modificar lo siguiente:
leagues = pd.read_sql(query, conn)
leagues

Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


In [6]:
# Consulta de solo los jugadores unicos de la tabla Player
query = """SELECT DISTINCT player_name
           FROM Player;"""

#Creo una variable players_distinct que almacene los jugadores unicos
players_distinct= pd.read_sql(query,conn)
players_distinct

Unnamed: 0,player_name
0,Aaron Appindangoye
1,Aaron Cresswell
2,Aaron Doran
3,Aaron Galindo
4,Aaron Hughes
...,...
10843,Zoumana Camara
10844,Zsolt Laczko
10845,Zsolt Low
10846,Zurab Khizanishvili


In [7]:
query = """ SELECT *
            FROM Match"""

seasons_2 = pd.read_sql(query, conn)
seasons_2

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,...,4.00,1.65,3.40,4.50,1.78,3.25,4.00,1.73,3.40,4.20
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,...,3.80,2.00,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.60
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,...,2.50,2.35,3.25,2.65,2.50,3.20,2.50,2.30,3.20,2.75
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,...,7.50,1.45,3.75,6.50,1.50,3.75,5.50,1.44,3.75,6.50
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,...,1.73,4.50,3.40,1.65,4.50,3.50,1.65,4.75,3.30,1.67
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25974,25975,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992091,10190,10191,1,...,,,,,,,,,,
25975,25976,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992092,9824,10199,1,...,,,,,,,,,,
25976,25977,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992093,9956,10179,2,...,,,,,,,,,,
25977,25978,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992094,7896,10243,0,...,,,,,,,,,,


##**2. Sentencia SELECT DISTINCT**

La sentencia SELECT DISTINCT se utiliza para devolver sólo valores distintos (diferentes).

Dentro de una tabla, una columna a menudo contiene muchos valores duplicados y a veces sólo se desea listar los diferentes valores (distintos).

La sintaxis de SELECT DISTINCT es así:

    SELECT DISTINCT column1
    FROM table_name;

In [8]:
# Seleccionamos cuales son las temporadas de Futbol Europeo almacenadas en la base de datos

query = """ SELECT DISTINCT season
            FROM Match"""

seasons = pd.read_sql(query, conn)
seasons

#Las temporadas de analisis son 8, comprendidas entre los anos 2008 y 2016

Unnamed: 0,season
0,2008/2009
1,2009/2010
2,2010/2011
3,2011/2012
4,2012/2013
5,2013/2014
6,2014/2015
7,2015/2016


In [12]:
# Lista sólo tasas diferentes de valoración general de los jugadores

query = """ SELECT DISTINCT overall_rating
            FROM Player_Attributes;"""

overall_rating = pd.read_sql(query, conn)
overall_rating

Unnamed: 0,overall_rating
0,67.0
1,62.0
2,61.0
3,74.0
4,73.0
...,...
57,33.0
58,36.0
59,37.0
60,35.0


##**3. Sentencia LIMIT**

Cuando deseamos poner un límite al resultado o no nos interesa conocer la totalidad de los resultados, podemos limitar la cantidad de registros resultantes mediante la sentencia LIMIT

La sintaxis de LIMIT es así:

    SELECT column1, column2...
    FROM table_name
    LIMIT number;


In [9]:
# Listar 15 jugadores de la base de datos del futbol europeo

query = """ SELECT id, player_name, birthday, height, weight
            FROM Player
            LIMIT 15;"""

players = pd.read_sql(query, conn)
players

Unnamed: 0,id,player_name,birthday,height,weight
0,1,Aaron Appindangoye,1992-02-29 00:00:00,182.88,187
1,2,Aaron Cresswell,1989-12-15 00:00:00,170.18,146
2,3,Aaron Doran,1991-05-13 00:00:00,170.18,163
3,4,Aaron Galindo,1982-05-08 00:00:00,182.88,198
4,5,Aaron Hughes,1979-11-08 00:00:00,182.88,154
5,6,Aaron Hunt,1986-09-04 00:00:00,182.88,161
6,7,Aaron Kuhl,1996-01-30 00:00:00,172.72,146
7,8,Aaron Lennon,1987-04-16 00:00:00,165.1,139
8,9,Aaron Lennox,1993-02-19 00:00:00,190.5,181
9,10,Aaron Meijers,1987-10-28 00:00:00,175.26,170


In [10]:
# Listar 25 equipos del futbol europeo

query = """SELECT id, team_long_name
            FROM Team
            LIMIT 25;"""

teams= pd.read_sql(query,conn)
teams

Unnamed: 0,id,team_long_name
0,1,KRC Genk
1,2,Beerschot AC
2,3,SV Zulte-Waregem
3,4,Sporting Lokeren
4,5,KSV Cercle Brugge
5,6,RSC Anderlecht
6,7,KAA Gent
7,8,RAEC Mons
8,9,FCV Dender EH
9,10,Standard de Liège


##**4. Funciones agregativas/ Métricas**

Todas las métricas tienen que ser agregadas usando funciones. Las funciones agregativas más comunes son:

* SUM() | Sumatoria total de una columna tipo numérica.

      SELECT SUM(column1), column2...
      FROM table_name

* COUNT() | Devuelve la cantidad de filas.

      SELECT COUNT(column1), column2...
      FROM table_name

* COUNT(DISTINCT) | Devuelve la cantidad de filas distintas o diferentes.

      SELECT COUNT(DISTINCT column1), column2...
      FROM table_name

* AVG() | Promedia los valores de una columna tipo numérica.

      SELECT AVG(column1), column2...
      FROM table_name

* MIN() | Menor valor dentro de la columna especificada.

      SELECT MIN(column1), column2...
      FROM table_name

* MAX() | Mayor valor dentro de la columna especificada.

      SELECT MAX(column1), column2...
      FROM table_name



In [11]:
# Cuantos paises diferentes estan almacenados en la tabla Country

query = """ SELECT COUNT(DISTINCT name)
            FROM Country;"""

count_countries = pd.read_sql(query,conn)
count_countries

Unnamed: 0,COUNT(DISTINCT name)
0,11


In [12]:
# Traer la suma de goles hechos por los equipos visitantes de la tabla Match

query = """SELECT SUM(away_team_goal)
           FROM Match;"""

sum_awayteam = pd.read_sql(query, conn)
sum_awayteam

Unnamed: 0,SUM(away_team_goal)
0,30160


In [13]:
# Traer el promedio de goles hechos por los equipos locales y
# el promedio de goles hechos por los visitantes de la tabla Match

query = """ SELECT AVG(home_team_goal), AVG(away_team_goal)
            FROM Match; """

avg_teamgoals = pd.read_sql(query, conn)
avg_teamgoals

Unnamed: 0,AVG(home_team_goal),AVG(away_team_goal)
0,1.544594,1.160938


In [14]:
# Traer la maxima cantidad de goles que un equipo visitante anoto en los juegos de la tabla Match

query = """ SELECT MAX(away_team_goal)
            FROM Match;"""

max_teamgoals = pd.read_sql(query, conn)
max_teamgoals

Unnamed: 0,MAX(away_team_goal)
0,9


##**5. Operaciones matemáticas**
Se pueden realizar operaciones matemáticas como: +, -, *, /, etc. Asimismo, estás operaciones pueden ser usadas en conjunto con las funciones agregativas/ métricas.

La sintaxis en la sentencia SELECT es así:

* +

      SELECT column1+column2
      FROM table_name

La sintaxis combinando con una métrica en la sentencia SELECT es así:

* AVG(+)

      SELECT AVG(column1+column2)
      FROM table_name

In [15]:
# Traer el promedio de goles por partido de la tabla Match

query = """SELECT AVG(home_team_goal+away_team_goal)
           FROM Match; """

avg_sum_goals = pd.read_sql(query,conn)
avg_sum_goals

Unnamed: 0,AVG(home_team_goal+away_team_goal)
0,2.705531


##**6. Sentencia WHERE**

La sentencia WHERE se utiliza para filtrar registros. Mediante esta sentencia, se extraen sólo aquellos registros que cumplen una condición específica.

La sintaxis de WHERE es así:

    SELECT column1, column2...
    FROM table_name
    WHERE condition;

###6.1 Campo de texto (y fecha) vs campos numericos

SQL requiere comillas simples alrededor de los valores del texto y fecha (la mayoría de los sistemas de bases de datos también permiten comillas dobles). Sin embargo, los campos numéricos no deben incluirse entre comillas.

Ejemplos de sintaxis con campo númerico:

    SELECT *
    FROM Customers
    WHERE CustomerId = 1;

Ejemplos de sintaxis con campo de texto:

    SELECT *
    FROM Customers
    WHERE Country = 'Mexico';



In [16]:
# Listar los jugadores que pesan 165 libras

query = """ SELECT id, player_name, birthday, height, weight
            FROM Player
            WHERE weight = 165
            LIMIT 15;"""

players_weight = pd.read_sql(query, conn)
players_weight

Unnamed: 0,id,player_name,birthday,height,weight
0,27,Abdelmalek Cherrad,1981-01-14 00:00:00,185.42,165
1,44,Abdoulaye Doucoure,1993-01-01 00:00:00,182.88,165
2,46,Abdoulaye Keita,1994-01-05 00:00:00,175.26,165
3,49,Abdoulwahid Sissoko,1990-03-20 00:00:00,182.88,165
4,58,Abdullah Al Hafith,1992-12-25 00:00:00,187.96,165
5,62,Abel Gomez,1982-02-20 00:00:00,182.88,165
6,67,Abel,1978-12-22 00:00:00,177.8,165
7,69,Abiola Dauda,1988-02-03 00:00:00,180.34,165
8,78,Abraham Paz Cruz,1979-03-14 00:00:00,177.8,165
9,84,Aco Stojkov,1983-04-29 00:00:00,177.8,165


In [17]:
# Listar las temporadas en que un equipo visitante anoto 7 o mas goles

query = """SELECT season, home_team_goal, away_team_goal
           FROM Match
           WHERE away_team_goal >= 7; """

away_team_goals = pd.read_sql(query, conn)
away_team_goals


Unnamed: 0,season,home_team_goal,away_team_goal
0,2012/2013,1,7
1,2014/2015,1,7
2,2014/2015,2,7
3,2015/2016,0,9
4,2010/2011,1,8
5,2013/2014,0,7
6,2010/2011,0,7
7,2013/2014,0,7
8,2010/2011,0,8
9,2011/2012,0,7


###6.3 Operadores logicos en WHERE

La sentencia WHERE puede combinarse con los operadores lógicos: **AND**, **OR** y **NOT**. Los operadores *AND* y *OR* se utilizan para filtrar registros basados en más de una condición.

* El operador **AND** muestra un registro si todas las condiciones separadas por AND son VERDADERA(s).

      SELECT column1, column2, ...
      FROM table_name
      WHERE condition1 AND condition2 AND condition3 ...;

* El operador **OR** muestra un registro si alguna de las condiciones separadas por OR es VERDADERA(s).

      SELECT column1, column2, ...
      FROM table_name
      WHERE condition1 OR condition2 ...;

* El operador **NOT** muestra un registro si la(s) condición(es) NO es VERDADERA(s).

      SELECT column1, column2, ...
      FROM table_name
      WHERE NOT condition;




In [19]:
# 6.3.1 Traer el Id de los equipos que desarrollan un dribbling normal y su velocidad de juego es balanceada

query = """SELECT id, buildUpPlayDribblingClass, buildUpPlaySpeedClass
           FROM Team_Attributes
           WHERE buildUpPlayDribblingClass = 'Normal' AND buildUpPlaySpeedClass = 'Balanced';"""

team_att_and = pd.read_sql(query, conn)
team_att_and


Unnamed: 0,id,buildUpPlayDribblingClass,buildUpPlaySpeedClass
0,2,Normal,Balanced
1,3,Normal,Balanced
2,8,Normal,Balanced
3,9,Normal,Balanced
4,14,Normal,Balanced
...,...,...,...
382,1450,Normal,Balanced
383,1451,Normal,Balanced
384,1452,Normal,Balanced
385,1457,Normal,Balanced


In [20]:
# 6.3.2 Traer el Id de los equipos que desarrollan un juego de pase largo o su velocidad de juego es rápida

query = """ SELECT id, buildUpPlayPassingClass, buildUpPlaySpeedClass
            FROM Team_Attributes
            WHERE buildUpPlayPassingClass = 'Long' OR buildUpPlaySpeedClass = 'Fast';"""

team_att_or = pd.read_sql(query, conn)
team_att_or


Unnamed: 0,id,buildUpPlayPassingClass,buildUpPlaySpeedClass
0,4,Long,Fast
1,42,Long,Balanced
2,69,Mixed,Fast
3,72,Mixed,Fast
4,77,Mixed,Fast
...,...,...,...
226,1420,Mixed,Fast
227,1421,Long,Fast
228,1423,Long,Fast
229,1436,Long,Balanced


In [22]:
# 6.3.3 Traer la tabla de países sin Bélgica

query = """SELECT id, name
           FROM Country
           WHERE NOT name ="Belgium";"""

countries_not = pd.read_sql(query, conn)
countries_not

Unnamed: 0,id,name
0,1729,England
1,4769,France
2,7809,Germany
3,10257,Italy
4,13274,Netherlands
5,15722,Poland
6,17642,Portugal
7,19694,Scotland
8,21518,Spain
9,24558,Switzerland


###6.4 Otros operadores que trabajan con la sentencia WHERE

Los siguientes operadores también pueden ser utilizados en la sentencia WHERE:

| **=** | Igual

| **>** | Mayor que

| **<** | Menor que

| **>=** | Mayor o igual que

| **<=** | Menor o igual que

| **<>** | No igual. Nota: En algunas versiones de SQL este operador puede ser escrito como !=

| **BETWEEN** | Entre cierto rango

| **LIKE** | Para consultar los datos basados en información parcial, se utiliza el operador LIKE en la sentencia WHERE. Busca un patrón. El patrón va antes, después o entre un par de % (wildcard).

  *Ejemplo*: LIKE 's%' busca cualquier texto que comience con 's'. LIKE '%er' busca cualquier texto que termine con 'er'. Y LIKE '%per%' busca cualquier texto que contenga 'per'.

| **IN** | Para especificar varios valores posibles para una columna o subquery. Ejemplo de sintaxis cuando se especifica varios valores:

    SELECT column1
    FROM Table_name
    WHERE column1 IN (value1, value2);

* Uso de IN en una Subquery

      SELECT TrackId, Name, AlbumId
      FROM Tracks
      WHERE AlbumId IN
        (SELECT AlbumId
        FROM Albums
        WHERE ArtistId = 12);



In [23]:
# 6.4.1 Traer la tabla de países únicamente con Italia

query = """SELECT id, name
           FROM Country
           WHERE name='Italy';"""

countries_equal = pd.read_sql(query, conn)
countries_equal


Unnamed: 0,id,name
0,10257,Italy


In [34]:
# 6.4.2  Traer la tabla de países sin Polonia¶

query = """ SELECT id, name
            FROM Country
            WHERE name <> 'Poland';"""

countries_dif = pd.read_sql(query, conn)
countries_dif


Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,17642,Portugal
7,19694,Scotland
8,21518,Spain
9,24558,Switzerland


In [28]:
# 6.4.3 Listar los jugadores que pesen entre 174 y 176 libras

query = """SELECT id, player_name, birthday, height, weight
           FROM Player
           WHERE weight BETWEEN 174 AND 176;"""

players_weight = pd.read_sql(query, conn)
players_weight


Unnamed: 0,id,player_name,birthday,height,weight
0,17,Aaron Taylor-Sinclair,1991-04-08 00:00:00,182.88,176
1,34,Abdou Traore,1988-01-17 00:00:00,180.34,174
2,39,Abdoulaye Ba,1991-01-01 00:00:00,198.12,174
3,43,Abdoulaye Diallo,1992-03-30 00:00:00,187.96,174
4,61,Abel Aguilar,1985-01-06 00:00:00,185.42,176
...,...,...,...,...,...
1180,11056,Zlatan Bajramovic,1979-08-12 00:00:00,182.88,174
1181,11058,Zlatan Ljubijankic,1983-12-15 00:00:00,185.42,176
1182,11065,Zoltan Szelesi,1981-11-22 00:00:00,182.88,176
1183,11072,Zsolt Laczko,1986-12-18 00:00:00,182.88,176


In [31]:
# 6.4.4 Listar a los Messi de la base de datos de jugadores

query = """SELECT id, player_name, birthday, height, weight
           FROM Player
           WHERE player_name LIKE '%Messi%'; """

players_messi = pd.read_sql(query, conn)
players_messi


Unnamed: 0,id,player_name,birthday,height,weight
0,6176,Lionel Messi,1987-06-24 00:00:00,170.18,159


### Alias AS

Los alias en SQL se utilizan para dar a una tabla o a una columna, un nombre temporal. Se utilizan a menudo para hacer más legibles los nombres de las columnas. Un alias sólo existe durante la duración de la consulta.

    SELECT column_name AS alias_name
    FROM table_name AS other_alias;



##**7. Sentencia ORDER BY**

La sentencia ORDER BY se utiliza para ordenar el conjunto de resultados en orden ascendente o descendente. Por defecto, los registros se ordenan en orden ascendente ASC. Para ordenar los registros en orden descendente, utilice la palabra DESC.

    SELECT column1, column2, ...
    FROM table_name
    WHERE condition
    ORDER BY column2 ASC|DESC;


In [33]:
# 7.1.1 Listar a los equipos y ordenarlos por nombre

query = """SELECT id, team_long_name AS team_name
        FROM Team
        ORDER BY team_long_name ASC
        LIMIT 250;"""

teams_orderby = pd.read_sql(query, conn)
teams_orderby


Unnamed: 0,id,team_name
0,16848,1. FC Kaiserslautern
1,15624,1. FC Köln
2,16239,1. FC Nürnberg
3,16243,1. FSV Mainz 05
4,11817,AC Ajaccio
...,...,...
245,6504,Southampton
246,18079,SpVgg Greuther Fürth
247,26559,Sparta Rotterdam
248,35285,Sporting CP


In [35]:
# 7.1.2 Listar la tabla de países en orden descendente

query = """ SELECT id, name
            FROM Country
            ORDER BY name DESC;"""

teams_orderdesc = pd.read_sql(query, conn)
teams_orderdesc

Unnamed: 0,id,name
0,24558,Switzerland
1,21518,Spain
2,19694,Scotland
3,17642,Portugal
4,15722,Poland
5,13274,Netherlands
6,10257,Italy
7,7809,Germany
8,4769,France
9,1729,England


In [39]:
# 7.1.3 Listar el id de los 15 jugadores con menos peso

query = """ SELECT id, player_name, weight
            FROM Player
            ORDER BY weight ASC
            LIMIT 15;"""

player_weightasc = pd.read_sql(query, conn)
player_weightasc

Unnamed: 0,id,player_name,weight
0,5453,Juan Quero,117
1,6853,Mariusz Rybicki,121
2,10954,Yohandry Orozco,121
3,1480,Caetano,123
4,2612,Diego Buonanotte,123
5,317,Aldo Kalulu,126
6,655,Andre Horta,126
7,3446,Fouad Rachid,126
8,7258,Maxi Moralez,126
9,7264,Maxime Blanc,126


In [42]:
# 7.1.4 Listar el id de los 10 jugadores con mayor estatura

query = """SELECT id, player_name, height
           FROM Player
           ORDER BY height DESC
           LIMIT 10;"""

player_heightdesc = pd.read_sql(query, conn)
player_heightdesc

Unnamed: 0,id,player_name,height
0,5908,Kristof van Hout,208.28
1,1301,Bogdan Milic,203.2
2,1926,Costel Pantilimon,203.2
3,3274,Fejsal Mulic,203.2
4,5568,Jurgen Wevers,203.2
5,5804,Kevin Vink,203.2
6,5957,Lacina Traore,203.2
7,8016,Nikola Zigic,203.2
8,8285,Paolo Acerbis,203.2
9,8638,Pietro Marino,203.2


In [44]:
# 7.1.5 Listar el id de los 10 jugadores con mayor estatura y ordenarlos alfabéticamente pero de forma descendente¶

query = """ SELECT id, player_name, height
            FROM Player
            ORDER BY height, player_name DESC;"""

player_height_name = pd.read_sql(query, conn)
player_height_name


Unnamed: 0,id,player_name,height
0,5453,Juan Quero,157.48
1,7258,Maxi Moralez,160.02
2,2612,Diego Buonanotte,160.02
3,9441,Samuel Asamoah,162.56
4,8686,Quentin Othon,162.56
...,...,...,...
11055,5568,Jurgen Wevers,203.20
11056,3274,Fejsal Mulic,203.20
11057,1926,Costel Pantilimon,203.20
11058,1301,Bogdan Milic,203.20


##**8. Sentencia GROUP BY**

La sentencia GROUP BY agrupa las filas que tienen los mismos valores en filas de resumen, como "encontrar el número de clientes en cada país". Se utiliza sobre dimensiones y métricas para agrupar el conjunto de resultados en una o más columnas.

Las dimensiones son todos aquellos valores que estamos describiendo en el SELECT. Y las métricas son que se utilizan a menudo con funciones agregativas (COUNT, MAX, MIN, SUM, AVG).

    SELECT column1, column2, ...
    FROM table_name
    WHERE condition
    GROUP BY column1
    ORDER BY column2 ASC|DESC;

**Nota**: *El uso de WHERE antes de GROUP BY hace que este se ejecute más rápido, ya que el motor de base de datos no se tomará el tiempo de agrupar cosas que no necesita.*

**Nota2**: *Es muy importante utilizar las mismas dimensiones tanto en el SELECT, como en el GROUP BY. De lo contrario, la salida podría ser errónea.*


In [46]:
# 8.1.1 Queremos conocer cuántos equipos tienen cada tipo de velocidad de juego

query = """SELECT buildUpPlaySpeedClass, COUNT(id)
           FROM Team_Attributes
          GROUP BY buildUpPlaySpeedClass;"""

teams_speed = pd.read_sql(query, conn)
teams_speed

Unnamed: 0,buildUpPlaySpeedClass,COUNT(id)
0,Balanced,1184
1,Fast,172
2,Slow,102


In [49]:
# 8.1.2 Queremos conocer cuántos equipos tienen cada clase de juego defensivo

query = """ SELECT defencePressureClass, COUNT(id)
            FROM Team_Attributes
            GROUP BY defencePressureClass;"""

teams_defence = pd.read_sql(query, conn)
teams_defence

Unnamed: 0,defencePressureClass,COUNT(id)
0,Deep,154
1,High,61
2,Medium,1243


In [None]:
# 8.1.3 Analítica básica de las temporadas

Queremos realizar un sencillo análisis sobre la tabla Match. Se necesita obtener la siguiente información agrupada por cada season:

* Cuantas stage distintas tuvo y visualizarlo como number_of_stages
* El promedio de los goles de equipos locales home_team_goal y visualizarlo como avg_home_team_goals
* El promedio de los goles de equipos visitantes away_team_goal y visualizarlo como avg_away_team_goals
* La suma total de goles realizados por los equipos locales y visitantes en la temporada, visualizandolo como total_goals.
Asimismo, se requere ver la información de las temporadas más recientes primero.


In [54]:
query = """ SELECT season, COUNT(DISTINCT stage) AS 'number_of_stages', AVG(home_team_goal) AS 'avg_home_team_goals', AVG(away_team_goal) AS 'avg_away_team_goals', SUM(home_team_goal + away_team_goal) AS 'total_goals'
            FROM Match
            GROUP BY Match
            ORDER BY season DESC;"""

stages_by_season = pd.read_sql(query, conn)
stages_by_season



Unnamed: 0,season,number_of_stages,avg_home_team_goals,avg_away_team_goals,total_goals
0,2015/2016,38,1.543897,1.210764,9162
1,2014/2015,38,1.520301,1.155489,8897
2,2013/2014,38,1.578826,1.187995,8389
3,2012/2013,38,1.55,1.222699,9039
4,2011/2012,38,1.572671,1.143789,8747
5,2010/2011,38,1.548466,1.135276,8749
6,2009/2010,38,1.541176,1.131269,8632
7,2008/2009,38,1.505412,1.101924,8672


##**9. Sentencias JOIN**

*JOIN* se usa cuando se quiere conectar dos tablas entre sí. Funciona cuando tienes una clave común en cada una de ellas. Entender el concepto de Claves es crucial para conectar (unir) conjuntos de datos (tablas).

***Recuerden***: *Una clave es un valor que podemos usar para referirnos a una fila o registro específico de una tabla. Puede consistir en un valor (celda) que generalmente es un ID, o de una combinación de valores que son únicos en la tabla (clave compuesta).*

    SELECT first_table.column1, firts_table.column2, second_table.columnA, second_table.columnB ...
    FROM first_table (LEFT | RIGHT | FULL) JOIN second_table ON first_table.columnID = second_table.columnID;


### 9.1 Tipos de JOIN

* **JOIN**: mantiene sólo los registros que coinciden con la condición (después del ON) en ambas tablas, y los registros de ambas tablas que no coincidan, no aparecerían en la tabla de resultado.
* **LEFT JOIN**: devuelve todos los registros de la primera tabla (izquierda), y los registros coincidentes de la segunda tabla (derecha). El resultado es NULL del lado derecho, si no hay coincidencia.
* **RIGHT JOIN**: devuelve todos los registros de la segunda tabla (derecha), y los registros coincidentes de la primera tabla (izquierda). El resultado es NULL del lado izquierdo, si no hay coincidencia.
* **FULL JOIN**: devuelve todos los registros cuando hay una coincidencia en los registros de la primera tabla (izquierda) o segunda tabla (derecha). Nota: FULL JOIN puede potencialmente devolver conjuntos de resultados MUY grandes.

Cuando se quiere unir diferentes tablas, es necesario que pienses en lo siguiente:

Decidir qué tipo de unión usar. Las más comunes son: JOIN y LEFT JOIN.
Especificar el valor común que se utiliza para conectar las tablas (la clave).

Asegurarse de que al menos uno de los valores tiene que ser una clave en su tabla.

Y por último, ¡Paciencia! Usar los JOIN de forma incorrecta, es el error más común (y a veces peligroso) cuando se escriben consultas complicadas.


In [55]:
# 9.2.1 Lista de ligas y su país

query = """SELECT L.id AS Id_League, L.name AS Nombre_League, C.name AS Pais
        FROM League AS L
        JOIN Country AS C ON C.id = L.country_id;"""

country_leagues = pd.read_sql(query, conn)
country_leagues

Unnamed: 0,Id_League,Nombre_League,Pais
0,1,Belgium Jupiler League,Belgium
1,1729,England Premier League,England
2,4769,France Ligue 1,France
3,7809,Germany 1. Bundesliga,Germany
4,10257,Italy Serie A,Italy
5,13274,Netherlands Eredivisie,Netherlands
6,15722,Poland Ekstraklasa,Poland
7,17642,Portugal Liga ZON Sagres,Portugal
8,19694,Scotland Premier League,Scotland
9,21518,Spain LIGA BBVA,Spain


In [161]:
# 9.2.2 Comparación de cantidad de partidos jugados en cierta temporada de España y Bélgica

query = """SELECT C.name AS country_name, COUNT(*) AS count_matches
           FROM Match AS M
           JOIN Country AS C ON C.id = M.country_id
           WHERE (country_name = 'Spain' OR country_name = 'Belgium') AND M.season = '2008/2009'
           GROUP BY country_name
           ORDER BY count_matches DESC;"""
# ORDER BY country_matches DESC

country_matches = pd.read_sql(query, conn)
country_matches


Unnamed: 0,country_name,count_matches
0,Spain,380
1,Belgium,306


In [184]:
# 9.2.3 Lista detallada de juegos - Queremos un detalle de 10 juegos realizados en el país Spain, ordenado de forma ascendente por date.

query = """ SELECT M.id, C.name AS Country_name, L.name AS league_name, season, stage,
                  date, HT.team_long_name AS home_team, AT.team_long_name AS away_team, home_team_goal, away_team_goal
            FROM Match AS M
            JOIN Country AS C
            ON M.country_id = C.id
            JOIN League AS L
            ON L.id = M.league_id
            JOIN Team AS HT
            ON HT.team_api_id = M.home_team_api_id
            JOIN Team AS AT
            ON AT.team_api_id = M.away_team_api_id
            WHERE Country_name = 'Spain'
            ORDER BY date ASC
            LIMIT 10;"""

detailed_matches = pd.read_sql(query, conn)
detailed_matches

Unnamed: 0,id,Country_name,league_name,season,stage,date,home_team,away_team,home_team_goal,away_team_goal
0,21518,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-30 00:00:00,Valencia CF,RCD Mallorca,3,0
1,21525,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-30 00:00:00,RCD Espanyol,Real Valladolid,1,0
2,21519,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,CA Osasuna,Villarreal CF,1,1
3,21520,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,RC Deportivo de La Coruña,Real Madrid CF,2,1
4,21521,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,CD Numancia,FC Barcelona,1,0
5,21522,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Racing Santander,Sevilla FC,1,1
6,21523,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Real Sporting de Gijón,Getafe CF,1,2
7,21524,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Real Betis Balompié,RC Recreativo,0,1
8,21526,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Athletic Club de Bilbao,UD Almería,1,3
9,21527,Spain,Spain LIGA BBVA,2008/2009,1,2008-08-31 00:00:00,Atlético Madrid,Málaga CF,4,0
