<a href="https://colab.research.google.com/github/CharlieHndz/Talento-Tech-2024-Carlos-Hdez/blob/main/Practica_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#*INTRODUCCIÓN*

Usaré esta notebook para proporcionar una introducción a SQL, lenguaje imprescindible para todo analista de datos.

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje SQL, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

* SQL significa Structured Query Language (Lenguaje de consulta estructurado)
* SQL permite acceder y manipular bases de datos
* SQL es una herramienta simple para el análisis avanzado de datos

SQL no se usa sólo para manipular datos, sino también para administrar la misma base de datos, crear y modificar el diseño de objetos de la base de datos, como tablas. El elemento de SQL que se usa para crear y modificar objetos de base de datos se denomina lenguaje de definición de datos (DDL). Este curso no trata DDL.

En esta notebook veremos cómo trabajar/manipular tablas. Aprenderemos a usar SQL para interactuar con una base de datos de fútbol europeo y generar información interesante con sus datos.

#*1.1 Definiciones importantes*

Aunque SQL es un estándar ANSI/ISO, existen diferentes versiones del lenguaje SQL. Sin embargo, para cumplir con el estándar del American National Standards Institute (ANSI), todas las versiones deben soportar al menos los comandos principales (como SELECT, UPDATE, DELETE, INSERT, WHERE) de forma similar.

En este caso, vamos a trabajar con SQLite que es una implementación específica. La mayoría de los lenguajes SQL comparten todas las capacidades de este notebook. Las diferencias suelen estar en el rendimiento y en las funcionalidades analíticas avanzadas (y a veces en los errores, por supuesto).



#*1.2 ¿Qué es SQLite?*

SQLite es una biblioteca de software que proporciona un sistema de gestión de bases de datos relacionales que se puede utilizar en casi todos los lenguajes de programación, incluido Python.

El lite en SQLite significa facilidad en términos de configuración, administración de la base de datos y recursos necesarios. Las siguientes son sus características más importantes: es autónomo, sin servidor y transaccional.

Más información acerca de SQLite: https://www.sqlitetutorial.net/

## *1.2.1 Configuraciones previas*

SQLite se puede utilizar en casi todos los lenguajes de programación, incluido Python. Esta notebook corre en Python, por lo que vamos a importar la librería de SQLite y otras que nos pueden ser de utilidad más adelante.

Asimismo, crearemos la conexión con la BD y listaremos las tablas con las que contamos.

In [1]:
#1.1.Importación de librerías
import pandas as pd   # libreria de python para manipulacion de datos
import sqlite3        # libreria de SQLite (Liviana)

In [None]:
#1.2. Lectura del Drive
from google.colab import drive
drive.mount('/content/drive')

In [3]:
#1.3. # Los datos de entrada están disponibles en la ruta del Drive personal de Carlos Hernandez
database = "/content/drive/MyDrive/Talento_Tech_Archivos/database.sqlite"

In [None]:
#1.4. Conectamos con el origen de datos, creamos la conexión con la BD
conn = sqlite3.connect(database)
print ("Conexión exitosa")

##*2. Sentencia SELECT*

Esta es la consulta más básica y su estructura es muy simple:

* Se define lo que se quiere ver después del SELECT
* Se eligen las tablas a consultar después del FROM

Las únicas partes imprescindibles de una consulta son el SELECT y el FROM.

La sintaxis de esta consulta es así:

SELECT column1, column2, ... FROM table_name;

Para consultar por todos los campos en una tabla sin tener que escribir uno por uno el nombre de cada campo, se utiliza SELECT *

SELECT * significa que quieres obtener todas las columnas posibles de la tabla consultada. Los datos devueltos se almacenan en una tabla de resultados, denominada conjunto de resultados.

La sintaxis de esta consulta es así:

SELECT * FROM table_name;

Es una buena práctica terminar la consulta con un punto y coma para indicar que la consulta está completa. Las palabras clave se escriben en mayúsculas y los nombres de tablas y campos se escriben en minúsculas.

In [None]:
#2.1.1 Listaremos las tablas con las que contamos
tables = pd.read_sql("""select * from sqlite_master WHERE type='table';""", conn)
tables

In [None]:
#2.1.2 Se va listar los paises, selecionando todas las columnas de la tabla Country

query = """select * from Country"""
Countries = pd.read_sql(query, conn)
Countries

In [None]:
#2.1.3 Se va listar Listar las ligas del fútbol europeo,  selecionando todas las columnas de la tabla League

query = """select * from League"""
Leagues = pd.read_sql(query, conn)
Leagues

In [None]:
#2.1.4 Listar los jugadores del fútbol europeo, selecionando todas las columnas de la tabla Player

query ="""select * from Player"""
Players = pd.read_sql(query, conn)
Players


In [None]:
 #2.1.5 Listar los juegos del fútbol europeo, selecionando todas las columnas de la tabla Match

query ="""select * from Match"""
Matches = pd.read_sql(query, conn)
Matches

In [None]:
 #2.1.6 Listar los juegos equipos del fútbol europeo, selecionando todas las columnas de la tabla Team

query ="""select * from Team"""
Team = pd.read_sql(query, conn)
Team

In [None]:
 #2.1.7 Listar los atributos de jugador, selecionando todas las columnas de la tabla Player_Attributes

query ="""select * from Player_Attributes"""
Player_Attributes = pd.read_sql(query, conn)
Player_Attributes

In [None]:
#2.1.8 Listar los atributos de equipo, selecionando todas las columnas de la tabla Team_Attributes

query ="""select * from Team_Attributes"""
Team_Attributes = pd.read_sql(query, conn)
Team_Attributes

##*2.2 Sentencia SELECT DISTINCT*

La sentencia SELECT DISTINCT se utiliza para devolver sólo valores distintos (diferentes).

Dentro de una tabla, una columna a menudo contiene muchos valores duplicados y a veces sólo se desea listar los diferentes valores (distintos).

La sintaxis de SELECT DISTINCT es así:

SELECT DISTINCT column1 FROM table_name;

In [None]:
#2.2.1 Función Ditinct, Listar las temporadas jugadas de esta Base de Datos
# desde la tabla Match, selecionamos la columna season y eliminamos valores repetidos.

query = """select distinct season from Match"""
seasons = pd.read_sql(query, conn)
seasons

In [None]:
#2.2.2 Listar sólo tasas diferentes de valoración general de los jugadores.
# desde la tabla Player_Attributes, seleccionamos la columna overall_rating

query = """select distinct overall_rating from Player_Attributes"""
valoracion = pd.read_sql(query, conn)
valoracion


##*3. Sentencia LIMIT*

Cuando deseamos poner un límite al resultado o no nos interesa conocer la totalidad de los resultados, podemos limitar la cantidad de registros resultantes mediante la sentencia LIMIT

La sintaxis de LIMIT es así:

SELECT column1, column2... FROM table_name LIMIT number;

In [None]:
#3.1.1 Listar 15 jugadores de la base de datos del fútbol europeo

query =  """select 	id, player_name, birthday, height, weight from Player limit 15"""
Los_15jugadores = pd.read_sql(query ,conn)
Los_15jugadores


In [None]:
#3.1.2 Listar 25 equipos del fútbol europeo

query = """select id, team_long_name from Team limit 25"""
Los_25equipos = pd.read_sql(query, conn)
Los_25equipos

##*4. Funciones agregativas/ Métricas*

Todas las métricas tienen que ser agregadas usando funciones. Las funciones agregativas más comunes son:

* SUM() | Sumatoria total de una columna tipo numérica.
* COUNT() | Devuelve la cantidad de filas.
* COUNT(DISTINCT) | Devuelve la cantidad de filas distintas o diferentes.
* AVG() | Promedia los valores de una columna tipo numérica.
* MIN() | Menor valor dentro de la columna especificada.
* MAX() | Mayor valor dentro de la columna especificada.

La sintaxis de las métricas en la sentencia SELECT es así:

* SUM() SELECT SUM(column1), column2... FROM table_name
* COUNT() SELECT COUNT(column1), column2...  FROM table_name
* COUNT(DISTINCT) SELECT COUNT(DISTINCT column1), column2... FROM table_name
* AVG() SELECT AVG(column1), column2... FROM table_name
* MIN() SELECT MIN(column1), column2... FROM table_name
* MAX() SELECT MAX(column1), column2... FROM table_name

In [None]:
#4.1.1 ¿Cuántos países diferentes están almacenados en la tabla Country?

query = """select count(distinct name) as Numero_Paises from Country"""
coumt_countries = pd.read_sql(query,conn)
coumt_countries

In [None]:
#4.1.2 Traer el número de etapas jugadas de la tabla Match
#Deben traer el número de etapas "stage" almacenados en la tabla "Match"
#La tabla de resultados deberá mostrar únicamente el número con la cantidad de etapas diferentes.

query = """ select count(DISTINCT stage) as Etapas from Match"""
count_stages = pd.read_sql(query, conn)
count_stages


In [None]:
#4.1.3 Traer la suma de goles hechos por los equipos visitantes de la tabla Match
#Deben traer la suma de goles hechos por los equipos visitantes "away_team_goal" almacenados en la tabla "Match"
#La tabla de resultados deberá mostrar únicamente el número con la suma de goles.

query = """ select sum(away_team_goal) as Goles_Visit from Match"""
count_goles_visitante = pd.read_sql(query, conn)
count_goles_visitante

In [None]:
#4.1.4 Traer el promedio de goles hechos por los equipos locales y el promedio de goles hechos por los visitantes de la tabla Match
#Deben traer el promedio de goles hechos por los equipos locales "home_team_goal" y el promedio de goles hechos por los equipos visitantes "away_team_goal" almacenados en la tabla "Match"
#La tabla de resultados deberá mostrar únicamente el número con el promedio de goles.

query = """select avg(home_team_goal) as Avg_Goles_Local,avg(away_team_goal) as Avg_Goles_Visit from Match"""
avg_goles_plazas = pd.read_sql(query, conn)
avg_goles_plazas



In [None]:
#4.1.5 Traer la máxima cantidad de goles que un equipo visitante anotó en los juegos de la tabla Match
#Deben traer la máxima cantidad de goles un equipo visitante "away_team_goal" almacenados en la tabla "Match"
#La tabla de resultados deberá mostrar únicamente el número con cantidad de goles.

query = """select max(away_team_goal) as Max_Goles_Visitante from Match"""
max_goles_visit = pd.read_sql(query, conn)
max_goles_visit



In [None]:
#Ejercicio en Clase. Cual es la estatura promedio de los futbolistas

query = """ select avg(height) as Est_Prom_Jug  from Player"""
Estatura_promedio_jugadores = pd.read_sql(query,conn)
Estatura_promedio_jugadores

In [None]:
#Ejercicio en Clase. Cual es el total de goles de equipos locales

query = """select sum(home_team_goal) as goles_local from Match"""
Goles_local = pd.read_sql(query,conn)
Goles_local

#*5. Operaciones matemáticas*
Se pueden realizar operaciones matemáticas como: +, -, *, /, etc. Asimismo, estás operaciones pueden ser usadas en conjunto con las funciones agregativas/ métricas.

* La sintaxis en la sentencia SELECT es así:

  * (+)

    SELECT column1+column2 FROM table_name
  

* La sintaxis combinando con una métrica en la sentencia SELECT es así:

  * AVG(+)
  
    SELECT AVG(column1+column2) FROM table_name

In [None]:
#5.1.1 Traer el promedio de goles por partido de la tabla Match
#Deben traer el promedio de la suma de goles hechos por los equipos locales "home_team_goal" y visitantes "away_team_goal" en todos los juegos almacenados en la tabla Match
#La tabla de resultados deberá mostrar únicamente el número con el promedio de goles por partido.

query = """select avg(home_team_goal + away_team_goal) as Avg_Goles_Partido from Match"""
Avg_goles_partido = pd.read_sql(query, conn)
Avg_goles_partido

#*6. Sentencia WHERE*

La sentencia WHERE se utiliza para filtrar registros. Mediante esta sentencia, se extraen sólo aquellos registros que cumplen una condición específica.

La sintaxis de WHERE es así:

SELECT column1, column2...

FROM table_name

WHERE condition;

##*6.1 Campos de texto (y fecha) vs campos numéricos*

SQL requiere comillas simples alrededor de los valores del texto y fecha (la mayoría de los sistemas de bases de datos también permiten comillas dobles). Sin embargo, los campos numéricos no deben incluirse entre comillas.

Ejemplos de sintaxis con campo númerico:

SELECT *

FROM Customers

WHERE CustomerId = 1;

Ejemplos de sintaxis con campo de texto:

SELECT *

FROM Customers

WHERE Country = 'Mexico';

In [None]:
#6.2.1 Listar los jugadores que pesan 165 libras
#Queremos listar a los jugadores que cumplan con la condición de pesar 165 libras.
#En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición.
#Todos se encuentran en la tabla Player

query = """Select id, player_name, birthday, height, weight from Player where weight = 165;"""
Jugadores_165_lbs = pd.read_sql(query,conn);
Jugadores_165_lbs

In [None]:
#6.2.2 Listar las temporadas en que un equipo visitante anotó 7 o más goles
#Deben listar las temporadas en que algún equipo visitante haya anotado 7 o más goles.
#La tabla de resultados deberá contener los campos season, home_team_goal, away_team_goal de la tabla Match

query = """select season, home_team_goal, away_team_goal from Match where away_team_goal >= 7;"""
Visitante_7Goles = pd.read_sql(query,conn);
Visitante_7Goles

#*6.3 Operadores lógicos en WHERE*
La sentencia WHERE puede combinarse con los operadores lógicos: AND, OR y NOT. Los operadores AND y OR se utilizan para filtrar registros basados en más de una condición.

El operador AND muestra un registro si todas las condiciones separadas por AND son VERDADERA(s).

El operador OR muestra un registro si alguna de las condiciones separadas por OR es VERDADERA(s).

El operador NOT muestra un registro si la(s) condición(es) NO es VERDADERA(s).

Sintaxis deAND:

SELECT column1, column2, ...

FROM table_name

WHERE condition1 AND condition2 AND condition3 ...;

Sintaxis de OR

SELECT column1, column2, ...

FROM table_name

WHERE condition1 OR condition2 ...;

Sintaxis de NOT

SELECT column1, column2, ...

FROM table_name

WHERE NOT condition;

In [None]:
#6.3.1 Traer el Id de los equipos que desarrollan un dribbling normal y su velocidad de juego es balanceada
#Tomando la tabla "Team_Attributes", deben obtener el id, buildUpPlayDribblingClass y buildUpPlaySpeedClass de los equipos que tengan los siguientes atributos:
#buildUpPlayDribblingClass = 'Normal'
#buildUpPlaySpeedClass = 'Balanced'

query = """select id from Team_Attributes where buildUpPlayDribblingClass = 'Normal' and buildUpPlaySpeedClass = 'Balanced' """
Dribling_Velocidad = pd.read_sql(query, conn);
Dribling_Velocidad

In [None]:
#6.3.2 Traer el Id de los equipos que desarrollan un juego de pase largo o su velocidad de juego es rápida
#Tomando la tabla Team_Attributes, deben obtener el id, buildUpPlayPassingClass y buildUpPlaySpeedClass de los equipos que tengan los siguientes atributos:
buildUpPlayPassingClass = 'Long'
buildUpPlaySpeedClass = 'Fast'

query = """select id from Team_Attributes where buildUpPlayPassingClass = 'Long' and buildUpPlaySpeedClass = 'Fast' """
PaseLargo_Velocidad = pd.read_sql(query, conn);
PaseLargo_Velocidad

In [None]:
#6.3.3 Traer la tabla de países sin Bélgica
#Deben filtrar la tabla de países y traerla sin Belgium.
#La tabla de resultados deberá contener los campos id y name de la tabla Country

query = """select id, name from Country where not name = 'Belgium'"""
Sin_Belgica = pd.read_sql(query, conn);
Sin_Belgica

#*6.4 Otros operadores que trabajan con la sentencia WHERE*

Los siguientes operadores también pueden ser utilizados en la sentencia WHERE:

* | = | Igual
* | > | Mayor que
* | < | Menor que
* | >= | Mayor o igual que
* | <= | Menor o igual que
* | <> | No igual. Nota: En algunas versiones de SQL este operador puede ser escrito como !=
* | BETWEEN | Entre cierto rango
* | LIKE | Para consultar los datos basados en información parcial, se utiliza el operador LIKE en la sentencia WHERE. Busca un patrón. El patrón va antes, después o entre un par de % (wildcard). Ejemplo: LIKE 's%' busca cualquier texto que comience con 's'. LIKE '%er' busca cualquier texto que termine con 'er'. Y LIKE '%per%' busca cualquier texto que contenga 'per'.
* | IN | Para especificar varios valores posibles para una columna o subquery. Ejemplo de sintaxis cuando se especifica varios valores:

SELECT column1 FROM Table_name WHERE column1 IN (value1, value2);.

Ejemplo de sintaxis cuando se usa IN en una subquery:

SELECT TrackId, Name, AlbumId FROM Tracks WHERE AlbumId IN (SELECT AlbumId FROM Albums WHERE ArtistId = 12);.

In [None]:
#6.4.1 Traer la tabla de países únicamente con Italia
#Deben filtrar la tabla de países y traer únicamente a Italy.
#La tabla de resultados deberá contener los campos id y name de la tabla Country

query = """select id, name from Country where name = 'Italy'"""
Solo_Italia = pd.read_sql(query, conn);
Solo_Italia

In [None]:
#6.4.2 Traer la tabla de países sin Polonia
#Deben traer la tabla de países sin Poland.
#La tabla de resultados deberá contener los campos id y name de la tabla Country. No se debe utilizar NOT.

query = """select id, name from Country where name <> 'Poland'"""
Sin_Polonia = pd.read_sql(query, conn);
Sin_Polonia

In [None]:
#6.4.3 Listar los jugadores que pesen entre 174 y 176 libras
#Queremos listar a los jugadores que cumplan con la condición de pesar entre 174 y 176 libras.
#En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición.
#Todos se encuentran en la tabla Player. Asimismo, debemos limitar la consulta a 30 registros.

query = """select id, player_name, birthday, height, weight from Player where weight between 174 and 176 limit 30"""
Jugadores_174_176lbs = pd.read_sql(query, conn);
Jugadores_174_176lbs

In [None]:
#6.4.4 Listar a los Messi de la base de datos de jugadores
#Queremos listar a los jugadores que cumplan con la condición de tener la palabra 'Messi' en su nombre.
#En la tabla de resultados quiero ver los campos id,player_name, birthday, height y weight de los que cumplen la condición.
#Todos se encuentran en la tabla Player.

query = """select id, player_name, birthday, height, weight from Player where player_name like '%Messi%' """
Nombre_Messi = pd.read_sql(query, conn);
Nombre_Messi

#*Alias AS*
Los alias en SQL se utilizan para dar a una tabla o a una columna, un nombre temporal. Se utilizan a menudo para hacer más legibles los nombres de las columnas. Un alias sólo existe durante la duración de la consulta.

Sintaxis de AS:

SELECT column_name AS alias_name FROM table_name AS other_alias;