<a href="https://colab.research.google.com/github/miemguri/Talentotech2024/blob/main/4TallerSQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#TALLER SQL

INTRODUCCIÓN
Usaré esta notebook para proporcionar una introducción a SQL, lenguaje imprescindible para todo analista de datos.

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje SQL, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

SQL significa Structured Query Language (Lenguaje de consulta estructurado)
SQL permite acceder y manipular bases de datos
SQL es una herramienta simple para el análisis avanzado de datos
SQL no se usa sólo para manipular datos, sino también para administrar la misma base de datos, crear y modificar el diseño de objetos de la base de datos, como tablas. El elemento de SQL que se usa para crear y modificar objetos de base de datos se denomina lenguaje de definición de datos (DDL). Este curso no trata DDL.

En esta notebook veremos cómo trabajar/manipular tablas. Aprenderemos a usar SQL para interactuar con una base de datos de fútbol europeo y generar información interesante con sus datos.

La base de datos utilizada se encuentra en https://www.kaggle.com/datasets/hugomathien/soccer/data

1.1 Definiciones importantes
Aunque SQL es un estándar ANSI/ISO, existen diferentes versiones del lenguaje SQL. Sin embargo, para cumplir con el estándar del American National Standards Institute (ANSI), todas las versiones deben soportar al menos los comandos principales (como SELECT, UPDATE, DELETE, INSERT, WHERE) de forma similar.

En este caso, vamos a trabajar con SQLite que es una implementación específica. La mayoría de los lenguajes SQL comparten todas las capacidades de este notebook. Las diferencias suelen estar en el rendimiento y en las funcionalidades analíticas avanzadas (y a veces en los errores, por supuesto).

1.2 ¿Qué es SQLite?
SQLite es una biblioteca de software que proporciona un sistema de gestión de bases de datos relacionales que se puede utilizar en casi todos los lenguajes de programación, incluido Python.

El lite en SQLite significa facilidad en términos de configuración, administración de la base de datos y recursos necesarios. Las siguientes son sus características más importantes: es autónomo, sin servidor y transaccional.

Más información acerca de SQLite: https://www.sqlitetutorial.net/

1.2.1 Configuraciones previas
SQLite se puede utilizar en casi todos los lenguajes de programación, incluido Python. Esta notebook corre en Python, por lo que vamos a importar la librería de SQLite y otras que nos pueden ser de utilidad más adelante.

Asimismo, crearemos la conexión con la BD y listaremos las tablas con las que contamos.

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo



#Taller SQL
En este taller  vamos a analizar UnicodeError dataset  de la liga europea de futbol

In [51]:
# Importacion de librerías
import pandas as pd
import sqlite3 # SQLite

In [52]:
#lectura
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [53]:
# Los datos de entrada están disponibles en el directorio "Drive".
path = '/content/drive/MyDrive/Colab Notebooks/data/db/'
database = path + 'database.sqlite'

In [54]:
# Creamos la conexión con la BD
conn = sqlite3.connect(database)
print ("Conexión exitosa")

Conexión exitosa


In [55]:
print(database)

/content/drive/MyDrive/Colab Notebooks/data/db/database.sqlite


2. Sentencia SELECT
Esta es la consulta más básica y su estructura es muy simple:

Se define lo que se quiere ver después del SELECT
Se eligen las tablas a consultar después del FROM
Las únicas partes imprescindibles de una consulta son el SELECT y el FROM.

La sintaxis de esta consulta es así:

SELECT column1, column2, ...

FROM table_name;

Para consultar por todos los campos en una tabla sin tener que escribir uno por uno el nombre de cada campo, se utiliza SELECT *

SELECT * significa que quieres obtener todas las columnas posibles de la tabla consultada. Los datos devueltos se almacenan en una tabla de resultados, denominada conjunto de resultados.

La sintaxis de esta consulta es así:

SELECT *

FROM table_name;

Es una buena práctica terminar la consulta con un punto y coma para indicar que la consulta está completa. Las palabras clave se escriben en mayúsculas y los nombres de tablas y campos se escriben en minúsculas.

In [56]:
#listaremos las tablas con las que contamos:
tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


In [57]:
#Listar todos los partidos
query = """SELECT *
            FROM Match; """
matchs = pd.read_sql(query, conn)
matchs

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,...,4.00,1.65,3.40,4.50,1.78,3.25,4.00,1.73,3.40,4.20
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,...,3.80,2.00,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.60
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,...,2.50,2.35,3.25,2.65,2.50,3.20,2.50,2.30,3.20,2.75
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,...,7.50,1.45,3.75,6.50,1.50,3.75,5.50,1.44,3.75,6.50
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,...,1.73,4.50,3.40,1.65,4.50,3.50,1.65,4.75,3.30,1.67
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25974,25975,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992091,10190,10191,1,...,,,,,,,,,,
25975,25976,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992092,9824,10199,1,...,,,,,,,,,,
25976,25977,24558,24558,2015/2016,9,2015-09-23 00:00:00,1992093,9956,10179,2,...,,,,,,,,,,
25977,25978,24558,24558,2015/2016,9,2015-09-22 00:00:00,1992094,7896,10243,0,...,,,,,,,,,,


2.1.1 Ejemplo: Listar los países

Queremos consultar qué países se encuentran en la tabla Country de la base de datos del fútbol europeo.

Importante: La estructura y el orden de las secciones son importantes, mientras que los espacios, las nuevas líneas, las mayúsculas y las sangrías están ahí para facilitar la lectura del código.

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [58]:
#Listar los paises que se encuentran en la tabla Country de la base de datos del fútbol europeo.
query = """SELECT *
            FROM Country; """
countries = pd.read_sql(query, conn)
countries
#11 paises se encuentran en la tabla country

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


2.1.2 Práctica: Listar las ligas del fútbol europeo

Deben listar todas las ligas que estén en la tabla League de la base de datos de fútbol europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" justo después de la palabra query =

Una vez que estén lo tengan listo, ejecuten haciendo clic en ejecutar (o Shift+Enter) el códido de abajo

In [59]:
#Consultar todas las ligas del fútbol europeo.

query = """SELECT *
            FROM league; """

leagues = pd.read_sql(query, conn)
leagues
#Son 11 ligas de futbol

Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


2.1.3 Práctica: Listar los jugadores del fútbol europeo

Deben listar los campos id,player_name, birthday, height y weight que estan en la tabla Player de la base de datos de Fútbol Europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [60]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM player;
            """
players = pd.read_sql(query,conn)
players
# Se observa el id, nombre, fecha de nacimiento, altura y peso de 11.059 jugadores,
#incluyendo los nombres que no tienen un apellido

Unnamed: 0,id,player_name,birthday,height,weight
0,1,Aaron Appindangoye,1992-02-29 00:00:00,182.88,187
1,2,Aaron Cresswell,1989-12-15 00:00:00,170.18,146
2,3,Aaron Doran,1991-05-13 00:00:00,170.18,163
3,4,Aaron Galindo,1982-05-08 00:00:00,182.88,198
4,5,Aaron Hughes,1979-11-08 00:00:00,182.88,154
...,...,...,...,...,...
11055,11071,Zoumana Camara,1979-04-03 00:00:00,182.88,168
11056,11072,Zsolt Laczko,1986-12-18 00:00:00,182.88,176
11057,11073,Zsolt Low,1979-04-29 00:00:00,180.34,154
11058,11074,Zurab Khizanishvili,1981-10-06 00:00:00,185.42,172


In [61]:
#Listar jugadores del fútbol europeo
query = """ SELECT DISTINCT player_name
              FROM player; """
players = pd.read_sql(query, conn)
players
#Son 10.848 nombres de los jugadores con valores unicos en la tabla player.

Unnamed: 0,player_name
0,Aaron Appindangoye
1,Aaron Cresswell
2,Aaron Doran
3,Aaron Galindo
4,Aaron Hughes
...,...
10843,Zoumana Camara
10844,Zsolt Laczko
10845,Zsolt Low
10846,Zurab Khizanishvili


2.2 Sentencia SELECT DISTINCT
La sentencia SELECT DISTINCT se utiliza para devolver sólo valores distintos (diferentes).

Dentro de una tabla, una columna a menudo contiene muchos valores duplicados y a veces sólo se desea listar los diferentes valores (distintos).

La sintaxis de SELECT DISTINCT es así:    
SELECT DISTINCT column1  
FROM table_name;



2.2.1 Ejemplo: Listar las temporadas jugadas de esta Base de Datos

Si consultamos por todas las temporadas que se almacenaron en la tabla Matchde la base de datos de Fútbol Europeo, vamos a tener el siguiente resultado.

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

Con el resultado anterior, es muy difícil responder a la pregunta ¿Cuáles son las temporadas almacenadas en esta base de datos? Para responderla sin mucho esfuerzo, usamos SELECT DISTINCT para consultar la tabla Match de la base de datos.

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [62]:
query = """ SELECT DISTINCT season
            FROM Match; """
seasons = pd.read_sql(query, conn)
seasons
#las distintas temporadas son 8 comprendidas entre los años 2008 y 2016

Unnamed: 0,season
0,2008/2009
1,2009/2010
2,2010/2011
3,2011/2012
4,2012/2013
5,2013/2014
6,2014/2015
7,2015/2016


In [63]:
 # CONTAR temporadas de los partidos
query = """ SELECT COUNT(season)
            FROM Match; """
seasons = pd.read_sql(query, conn)
seasons
# En total son 25.979 temporadas de juego

Unnamed: 0,COUNT(season)
0,25979


In [64]:
 # Listar temporadas de los partidos
query = """ SELECT season
            FROM Match; """
seasons = pd.read_sql(query, conn)
seasons

Unnamed: 0,season
0,2008/2009
1,2008/2009
2,2008/2009
3,2008/2009
4,2008/2009
...,...
25974,2015/2016
25975,2015/2016
25976,2015/2016
25977,2015/2016


2.2.2 Práctica:

Listar sólo tasas diferentes de valoración general de los jugadores.

En la tabla Player_Attributes de la base de datos de Fútbol Europeo hay el campo overall_rating que parece contener la valoración de los jugadores. El objetivo es ver sólo tasas diferentes de valoración general de los jugadores.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [65]:
query = """ SELECT DISTINCT overall_rating
FROM player_attributes; """
overall_rating = pd.read_sql(query,conn)
overall_rating
# Tasas diferentes de valoración general de los jugadores

Unnamed: 0,overall_rating
0,67.0
1,62.0
2,61.0
3,74.0
4,73.0
...,...
57,33.0
58,36.0
59,37.0
60,35.0


In [66]:
# Campo overall_rating contiene la valoración de la totalidad de jugadores
query = """ SELECT id, overall_rating
FROM player_attributes; """
overall_rating = pd.read_sql(query,conn)
overall_rating
# se observa la valoracion de todos los jugadores por id y clasificacion

Unnamed: 0,id,overall_rating
0,1,67.0
1,2,67.0
2,3,62.0
3,4,61.0
4,5,61.0
...,...,...
183973,183974,83.0
183974,183975,78.0
183975,183976,77.0
183976,183977,78.0


3. Sentencia LIMIT
Cuando deseamos poner un límite al resultado o no nos interesa conocer la totalidad de los resultados, podemos limitar la cantidad de registros resultantes mediante la sentencia LIMIT

La sintaxis de LIMIT es así:

SELECT column1, column2...

FROM table_name

LIMIT number;

3.1.1 Ejemplo:

Listar 15 jugadores de la base de datos del fútbol europeo¶

Queremos listar 15 jugadores de la tabla Player de la base de datos de Fútbol Europeo. En la tabla de resultados quiero ver los campos ìd,player_name, birthday, height y weight. Todos se encuentran en la tabla Player

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [67]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM player
            LIMIT 15; """
players = pd.read_sql(query,conn)
players
# Se puede observar el id, nombre,fecha de nacimiento, altura y peso de 15 jugadores.

Unnamed: 0,id,player_name,birthday,height,weight
0,1,Aaron Appindangoye,1992-02-29 00:00:00,182.88,187
1,2,Aaron Cresswell,1989-12-15 00:00:00,170.18,146
2,3,Aaron Doran,1991-05-13 00:00:00,170.18,163
3,4,Aaron Galindo,1982-05-08 00:00:00,182.88,198
4,5,Aaron Hughes,1979-11-08 00:00:00,182.88,154
5,6,Aaron Hunt,1986-09-04 00:00:00,182.88,161
6,7,Aaron Kuhl,1996-01-30 00:00:00,172.72,146
7,8,Aaron Lennon,1987-04-16 00:00:00,165.1,139
8,9,Aaron Lennox,1993-02-19 00:00:00,190.5,181
9,10,Aaron Meijers,1987-10-28 00:00:00,175.26,170


3.1.2 Práctica:

Deben listar 25 equipos del fútbol europeo. La tabla de resultados deberá contener los campos id y team_long_name de la tabla Team de la base de datos de Fútbol Europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [68]:
# SELECT column1, column2, ...FROM table_name;
query = """ SELECT id, team_long_name
            FROM team LIMIT 25; """

teams = pd.read_sql(query, conn)
teams
# Se observa el id y nombre de 25 equipos de futbol

Unnamed: 0,id,team_long_name
0,1,KRC Genk
1,2,Beerschot AC
2,3,SV Zulte-Waregem
3,4,Sporting Lokeren
4,5,KSV Cercle Brugge
5,6,RSC Anderlecht
6,7,KAA Gent
7,8,RAEC Mons
8,9,FCV Dender EH
9,10,Standard de Liège


In [69]:
# SELECT column1, column2, ...FROM table_name;
query = """ SELECT *
            FROM team; """
teams = pd.read_sql(query, conn)
teams
# Muestra el nombre de todos 298 equipos

Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,1,9987,673.0,KRC Genk,GEN
1,2,9993,675.0,Beerschot AC,BAC
2,3,10000,15005.0,SV Zulte-Waregem,ZUL
3,4,9994,2007.0,Sporting Lokeren,LOK
4,5,9984,1750.0,KSV Cercle Brugge,CEB
...,...,...,...,...,...
294,49479,10190,898.0,FC St. Gallen,GAL
295,49837,10191,1715.0,FC Thun,THU
296,50201,9777,324.0,Servette FC,SER
297,50204,7730,1862.0,FC Lausanne-Sports,LAU


4. Funciones agregativas/ Métricas

Todas las métricas tienen que ser agregadas usando funciones. Las funciones agregativas más comunes son:

SUM()| Sumatoria total de una columna tipo numérica.

COUNT()| Devuelve la cantidad de filas.

COUNT(DISTINCT)| Devuelve la cantidad de filas distintas o diferentes.

AVG() | Promedia los valores de una columna tipo numérica.

MIN() | Menor valor dentro de la columna especificada.

MAX() | Mayor valor dentro de la columna especificada.

La sintaxis de las métricas en la sentencia SELECT es así:

SUM()

SELECT SUM(column1), column2...
FROM table_name

COUNT()

SELECT COUNT(column1), column2...
FROM table_name

COUNT(DISTINCT)

SELECT COUNT(DISTINCT column1), column2...
FROM table_name

AVG()

SELECT AVG(column1), column2...

FROM table_name

MIN()

SELECT MIN(column1), column2...

FROM table_name

MAX()

SELECT MAX(column1), column2...

FROM table_name

4.1.1 Ejemplo:

¿Cuántos países diferentes están almacenados en la tabla Country?
Para consultar por el número de países diferentes almacenados en la tabla Country y que la tabla de resultados nos muestre únicamente el número con la cantidad de países, necesitamos usar una función agregativa que cuente el número de registros pero además, que cuente sólo los registros distintos. Esa función es COUNT(DISTINCT )

Ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [70]:
query = """ SELECT COUNT(DISTINCT name)
            FROM country; """
countries = pd.read_sql(query, conn)
countries

Unnamed: 0,COUNT(DISTINCT name)
0,11


4.1.2 Práctica:


Deben traer el número de etapas stage almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la cantidad de etapas diferentes.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [71]:
#Traer el número de etapas jugadas de la tabla Match
query = """ SELECT COUNT(DISTINCT stage) AS conteo_temporadas
        FROM match; """
stages = pd.read_sql(query, conn)
stages
# En todas las ligas europeas em el periodo de tiempo entre 2008 al 2016 se jugaron 38 temporadas

Unnamed: 0,conteo_temporadas
0,38


4.1.3 Práctica:

Traer la suma de goles hechos por los equipos visitantes de la tabla Match

Deben traer la suma de goles hechos por los equipos visitantes away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con la suma de goles.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [72]:
query = """SELECT SUM(away_team_goal)
            FROM match; """
sum_awayteam = pd.read_sql(query, conn)
sum_awayteam
#Los equipos visitantes hicieron un total de 30.160 goles

Unnamed: 0,SUM(away_team_goal)
0,30160


Ejercicios personales otras funciones:


In [73]:
#Mostrar las temporadas(seasons) 2015- 2016
query = """ SELECT * FROM Match
            WHERE stage = 1 AND SEASON ='2015/2016'; """
Matchs = pd.read_sql(query,conn)
Matchs

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1489,1,1,2015/2016,1,2015-07-24 00:00:00,1979832,9997,8342,2,...,,4.4,4.0,1.75,,,,,,
1,1490,1,1,2015/2016,1,2015-07-25 00:00:00,1979833,8571,9985,2,...,,2.7,3.4,2.63,,,,,,
2,1491,1,1,2015/2016,1,2015-07-25 00:00:00,1979834,9987,1773,3,...,,1.6,4.1,5.50,,,,,,
3,1492,1,1,2015/2016,1,2015-07-25 00:00:00,1979835,8573,8203,3,...,,2.5,3.3,2.88,,,,,,
4,1493,1,1,2015/2016,1,2015-07-25 00:00:00,1979836,10000,9994,3,...,,2.3,3.4,3.10,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
89,25800,24558,24558,2015/2016,1,2015-07-18 00:00:00,1992052,10199,10179,2,...,,,,,,,,,,
90,25801,24558,24558,2015/2016,1,2015-07-19 00:00:00,1992053,9931,9824,2,...,,,,,,,,,,
91,25802,24558,24558,2015/2016,1,2015-07-19 00:00:00,1992054,10191,9956,3,...,,,,,,,,,,
92,25803,24558,24558,2015/2016,1,2015-07-19 00:00:00,1992055,10190,7896,2,...,,,,,,,,,,


In [74]:
#Mostrar temporadas diferentes a 2015 y 2016
query = """ SELECT * FROM Match
            WHERE NOT season ='2015/2016'; """
Matchs = pd.read_sql(query,conn)
Matchs

Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,...,4.00,1.65,3.40,4.50,1.78,3.25,4.00,1.73,3.40,4.20
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,...,3.80,2.00,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.60
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,...,2.50,2.35,3.25,2.65,2.50,3.20,2.50,2.30,3.20,2.75
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,...,7.50,1.45,3.75,6.50,1.50,3.75,5.50,1.44,3.75,6.50
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,...,1.73,4.50,3.40,1.65,4.50,3.50,1.65,4.75,3.30,1.67
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22648,25795,24558,24558,2014/2015,9,2014-09-23 00:00:00,1717254,9931,9824,3,...,,,,,,,,,,
22649,25796,24558,24558,2014/2015,9,2014-09-23 00:00:00,1717255,10191,10199,3,...,,,,,,,,,,
22650,25797,24558,24558,2014/2015,9,2014-09-24 00:00:00,1717256,10190,9956,3,...,,,,,,,,,,
22651,25798,24558,24558,2014/2015,9,2014-09-24 00:00:00,1717257,10243,9930,0,...,,,,,,,,,,


In [75]:
query = """ SELECT AVG (height) AS altura
             FROM player; """
jugadores= pd.read_sql(query,conn)
jugadores
#la altura promedio es de 181.86

Unnamed: 0,altura
0,181.867445


4.1.4 Práctica:

Traer el promedio de goles hechos por los equipos locales y el promedio de goles hechos por los visitantes de la tabla Match

Deben traer el promedio de goles hechos por los equipos locales home_team_goal y el promedio de goles hechos por los equipos visitantes away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo



4.1.5 Práctica: Traer la máxima cantidad de goles que un equipo visitante anotó en los juegos de la tabla Match

Deben traer la máxima cantidad de goles un equipo visitante away_team_goal almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con cantidad de goles.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =



In [76]:
query = """ SELECT MAX(away_team_goal)AS MAX_goles_equipo_visitante
           FROM match"""
max_teamgoals = pd.read_sql(query,conn)
max_teamgoals
#La cantidad maxima de goles que un equipo visitante anoto fue 9 goles.

Unnamed: 0,MAX_goles_equipo_visitante
0,9


5. Operaciones matemáticas

Se pueden realizar operaciones matemáticas como: +, -, *, /, etc. Asimismo, estás operaciones pueden ser usadas en conjunto con las funciones agregativas/ métricas.

La sintaxis en la sentencia SELECT es así:

+
SELECT column1+column2

FROM table_name

La sintaxis combinando con una métrica en la sentencia SELECT es así:

AVG(+)
SELECT AVG(column1+column2)

FROM table_name

5.1.1 Práctica: Traer el promedio de suma de goles por partido de la tabla Match
Deben traer el promedio de la suma de goles hechos por los equipos locales home_team_goal y visitantes away_team_goal en todos los juegos almacenados en la tabla Match de la base de datos de Fútbol Europeo. La tabla de resultados deberá mostrar únicamente el número con el promedio de goles por partido.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =



In [77]:
query = """SELECT AVG(home_team_goal + away_team_goal) AS promedio_goles
            FROM Match; """
prom_average_goals = pd.read_sql(query, conn)
prom_average_goals
# El numero promedio de goles por equipo fue de 2.70


Unnamed: 0,promedio_goles
0,2.705531


In [78]:
query = """ SELECT SUM (home_team_goal), SUM (away_team_goal)
             FROM match; """
prom_average_goals = pd.read_sql(query, conn)
prom_average_goals


Unnamed: 0,SUM (home_team_goal),SUM (away_team_goal)
0,40127,30160


6. Sentencia WHERE

La sentencia WHERE se utiliza para filtrar registros. Mediante esta sentencia, se extraen sólo aquellos registros que cumplen una condición específica.

La sintaxis de WHERE es así:

SELECT column1, column2...

FROM table_name

WHERE condition;

6.1 Campos de texto (y fecha) vs campos numéricos
SQL requiere comillas simples alrededor de los valores del texto y fecha (la mayoría de los sistemas de bases de datos también permiten comillas dobles). Sin embargo, los campos numéricos no deben incluirse entre comillas.

Ejemplos de sintaxis con campo númerico:

SELECT *

FROM Customers

WHERE CustomerId = 1;

Ejemplos de sintaxis con campo de texto:

SELECT *

FROM Customers

WHERE Country = 'Mexico';

6.2.1 Ejemplo: Listar los jugadores que pesan 165 libras
Queremos listar a los jugadores que cumplan con la condición de pesar 165 libras. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player

Ejecuta (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

query = """SELECT id, player_name, birthday, height, weight
        FROM Player
        WHERE weight = 165
        LIMIT 15;"""

players_weight = pd.read_sql(query, conn)
players_weight



In [79]:
query = """SELECT id, player_name, birthday, height, weight
            FROM Player WHERE weight = 165 LIMIT 15;"""

players_weight = pd.read_sql(query, conn)
players_weight

Unnamed: 0,id,player_name,birthday,height,weight
0,27,Abdelmalek Cherrad,1981-01-14 00:00:00,185.42,165
1,44,Abdoulaye Doucoure,1993-01-01 00:00:00,182.88,165
2,46,Abdoulaye Keita,1994-01-05 00:00:00,175.26,165
3,49,Abdoulwahid Sissoko,1990-03-20 00:00:00,182.88,165
4,58,Abdullah Al Hafith,1992-12-25 00:00:00,187.96,165
5,62,Abel Gomez,1982-02-20 00:00:00,182.88,165
6,67,Abel,1978-12-22 00:00:00,177.8,165
7,69,Abiola Dauda,1988-02-03 00:00:00,180.34,165
8,78,Abraham Paz Cruz,1979-03-14 00:00:00,177.8,165
9,84,Aco Stojkov,1983-04-29 00:00:00,177.8,165


6.2.2 Práctica: Listar las temporadas en que un equipo visitante anotó 7 o más goles

Deben listar las temporadas en que algún equipo visitante haya anotado 7 o más goles. La tabla de resultados deberá contener los campos season, home_team_goal, away_team_goal de la tabla Match de la base de datos de Fútbol Europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [80]:
query = """SELECT season, home_team_goal, away_team_goal
            FROM match WHERE away_team_goal >= 7;"""
away_team_goals = pd.read_sql(query, conn)
away_team_goals

Unnamed: 0,season,home_team_goal,away_team_goal
0,2012/2013,1,7
1,2014/2015,1,7
2,2014/2015,2,7
3,2015/2016,0,9
4,2010/2011,1,8
5,2013/2014,0,7
6,2010/2011,0,7
7,2013/2014,0,7
8,2010/2011,0,8
9,2011/2012,0,7



6.3 Operadores lógicos en WHERE
La sentencia WHERE puede combinarse con los operadores lógicos: AND, OR y NOT. Los operadores AND y OR se utilizan para filtrar registros basados en más de una condición.

El operador AND muestra un registro si todas las condiciones separadas por AND son VERDADERA(s).
El operador OR muestra un registro si alguna de las condiciones separadas por OR es VERDADERA(s).
El operador NOT muestra un registro si la(s) condición(es) NO es VERDADERA(s).

Sintaxis de AND:

SELECT column1, column2, ...

FROM table_name

WHERE condition1 AND condition2 AND condition3 ...;

Sintaxis de OR

SELECT column1, column2, ...

FROM table_name

WHERE condition1 OR condition2 ...;

Sintaxis de NOT

SELECT column1, column2, ...

FROM table_name WHERE NOT condition;

6.3.1 Práctica: Traer el Id de los equipos que desarrollan un dribbling normal y su velocidad de juego es balanceada

Tomando la tabla Team_Attributes de la base de datos de Fútbol Europeo, deben obtener el id,buildUpPlayDribblingClass y buildUpPlaySpeedClass de los equipos que tengan los siguientes atributos:

buildUpPlayDribblingClass = 'Normal'
buildUpPlaySpeedClass = 'Balanced'

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [81]:
query = """SELECT id, buildUpPlayDribblingClass, buildUpPlaySpeedClass
            FROM Team_Attributes WHERE buildUpPlayDribblingClass = 'Normal'AND buildUpPlaySpeedClass = 'Balanced'; """
team_att_or = pd.read_sql(query, conn)
team_att_or

Unnamed: 0,id,buildUpPlayDribblingClass,buildUpPlaySpeedClass
0,2,Normal,Balanced
1,3,Normal,Balanced
2,8,Normal,Balanced
3,9,Normal,Balanced
4,14,Normal,Balanced
...,...,...,...
382,1450,Normal,Balanced
383,1451,Normal,Balanced
384,1452,Normal,Balanced
385,1457,Normal,Balanced


6.3.3 Práctica:
Traer la tabla de países sin Bélgica

Deben filtrar la tabla de países y traerla sin Belgium. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [82]:
# Mostrar todos los paises de la BD de Futbol europeo excepto Belgica
query = """ SELECT id, name

            FROM country WHERE NOT name= 'Belgium'; """
countries_not = pd.read_sql(query, conn)
countries_not

Unnamed: 0,id,name
0,1729,England
1,4769,France
2,7809,Germany
3,10257,Italy
4,13274,Netherlands
5,15722,Poland
6,17642,Portugal
7,19694,Scotland
8,21518,Spain
9,24558,Switzerland


6.4 Otros operadores que trabajan con la sentencia WHERE

Los siguientes operadores también pueden ser utilizados en la sentencia WHERE:

| = | Igual

| > | Mayor que

| < | Menor que

| >= | Mayor o igual que

| <= | Menor o igual que

| <> | No igual. Nota: En algunas versiones de SQL este operador puede ser escrito como !=

| BETWEEN | Entre cierto rango

| LIKE | Para consultar los datos basados en información parcial, se utiliza el operador LIKE en la sentencia WHERE. Busca un patrón. El patrón va antes, después o entre un par de % (wildcard). Ejemplo: LIKE 's%' busca cualquier texto que comience con 's'. LIKE '%er' busca cualquier texto que termine con 'er'. Y LIKE '%per%' busca cualquier texto que contenga 'per'.

| IN | Para especificar varios valores posibles para una columna o subquery. Ejemplo de sintaxis cuando se especifica varios valores:

SELECT column1
FROM Table_name
WHERE column1 IN (value1, value2);.

Ejemplo se sintaxis cuando se usa IN en una subquery:

SELECT TrackId, Name, AlbumId
FROM Tracks
WHERE AlbumId IN
    (SELECT AlbumId
    FROM Albums
    WHERE ArtistId = 12);.

6.4.1 Práctica:
Traer la tabla de países únicamente con Italia

Deben filtrar la tabla de países y traer únicamente a Italy. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [83]:
#Muestra solamente el id y nombre de Italia
query = """SELECT id, name
        FROM Country WHERE name = 'Italy'; """
countries_not = pd.read_sql(query,conn)
countries_not

Unnamed: 0,id,name
0,10257,Italy


6.4.2 Práctica:

Traer la tabla de países sin Polonia¶
Deben traer la tabla de países sin Poland. La tabla de resultados deberá contener los campos id y name de la tabla Country de la base de datos de Fútbol Europeo. No se debe utilizar NOT.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [84]:
query = """ SELECT name As country
            FROM country WHERE country <> 'Polonia';"""
country_not= pd.read_sql(query, conn)
country_not
# Hay 11 paises diferentes a Polonia en la liga de futbol europeo

Unnamed: 0,country
0,Belgium
1,England
2,France
3,Germany
4,Italy
5,Netherlands
6,Poland
7,Portugal
8,Scotland
9,Spain


6.4.3 Práctica:

Listar los jugadores que pesen entre 174 y 176 libras
Queremos listar a los jugadores que cumplan con la condición de pesar entre 174 y 176 libras. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player. Asimismo, debemos limitar la consulta a 30 registros.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [85]:
query = """ SELECT id,player_name, birthday, height, weight
            FROM player WHERE weight BETWEEN 174 AND 176; """
players_weightweight = pd.read_sql(query, conn)
players_weight

Unnamed: 0,id,player_name,birthday,height,weight
0,27,Abdelmalek Cherrad,1981-01-14 00:00:00,185.42,165
1,44,Abdoulaye Doucoure,1993-01-01 00:00:00,182.88,165
2,46,Abdoulaye Keita,1994-01-05 00:00:00,175.26,165
3,49,Abdoulwahid Sissoko,1990-03-20 00:00:00,182.88,165
4,58,Abdullah Al Hafith,1992-12-25 00:00:00,187.96,165
5,62,Abel Gomez,1982-02-20 00:00:00,182.88,165
6,67,Abel,1978-12-22 00:00:00,177.8,165
7,69,Abiola Dauda,1988-02-03 00:00:00,180.34,165
8,78,Abraham Paz Cruz,1979-03-14 00:00:00,177.8,165
9,84,Aco Stojkov,1983-04-29 00:00:00,177.8,165


6.4.4 Práctica:
Listar a los Messi de la base de datos de jugadores

Queremos listar a los jugadores que cumplan con la condición de tener la palabra 'Messi' en su nombre. En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición. Todos se encuentran en la tabla Player.

Para ello deberán escribir la consulta SQL entre un par de 3 comillas dobles: """consulta SQL""" después de la palabra query =

Una vez que estén lo tengan listo, ejecuten (haciendo clic en ejecutar o Shift+Enter) el códido de abajo

In [92]:
query = """ SELECT id, player_name, birthday, height, weight
            FROM player WHERE player_name LIKE "%Messi%"; """
player_messi = pd.read_sql(query, conn)
player_messi

Unnamed: 0,id,player_name,birthday,height,weight
0,6176,Lionel Messi,1987-06-24 00:00:00,170.18,159
