<a href="https://colab.research.google.com/github/DeisyW/Talento_Tech/blob/main/Taller_SQL_DWR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## INTRODUCCIÓN
Usaré esta notebook para proporcionar una introducción a SQL, lenguaje imprescindible para todo analista de datos.

Los sistemas gestores de bases de datos interpretan consultas escritas en lenguaje SQL, y así es como interactuamos y obtenemos datos de las bases de datos y aplicaciones.

SQL significa Structured Query Language (Lenguaje de consulta estructurado)
SQL permite acceder y manipular bases de datos
SQL es una herramienta simple para el análisis avanzado de datos
SQL no se usa sólo para manipular datos, sino también para administrar la misma base de datos, crear y modificar el diseño de objetos de la base de datos, como tablas. El elemento de SQL que se usa para crear y modificar objetos de base de datos se denomina lenguaje de definición de datos (DDL). Este curso no trata DDL.

En esta notebook veremos cómo trabajar/manipular tablas. Aprenderemos a usar SQL para interactuar con una base de datos de fútbol europeo y generar información interesante con sus datos.

La base de datos utilizada, pueder ser encontrada [aquí](https://www.kaggle.com/datasets/hugomathien/soccer)

Este ejercicio esta basado en el repositorio de (https://www.kaggle.com/code/gustavojaramillo/data-analysis-using-sql-espa-ol)

In [1]:
# Importar librerías
import pandas as pd
import sqlite3 # SQLite para gestión de BD

In [3]:
# Lectura
from google.colab import drive
drive.mount('/content/drive')



Mounted at /content/drive


In [4]:
# se conecta con mi  drive

path = "/content/drive/MyDrive/Colab Notebooks/"
#/content/drive/MyDrive/database.sqlite
#/content/drive/MyDrive/Colab Notebooks/database.sqlite
#path = "/content/drive/MyDrive/"
database = path + 'database.sqlite'

# Creamos la conexión con la BD y listaremos las tablas con las que contamos

conn = sqlite3.connect(database)
print ("Conexión exitosa")

print (database)

# pd --> usando la libreria pandas, utilizando la funcion read_sql
# en tables queda el dataframe con el diccionario de datos de la BD

tables = pd.read_sql("""SELECT *
                        FROM sqlite_master
                        WHERE type='table';""", conn)
tables


#Tarea: consultar que el * funcione para dataframe pandas

Conexión exitosa
/content/drive/MyDrive/Colab Notebooks/database.sqlite


Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,sqlite_sequence,sqlite_sequence,4,"CREATE TABLE sqlite_sequence(name,seq)"
1,table,Player_Attributes,Player_Attributes,11,"CREATE TABLE ""Player_Attributes"" (\n\t`id`\tIN..."
2,table,Player,Player,14,CREATE TABLE `Player` (\n\t`id`\tINTEGER PRIMA...
3,table,Match,Match,18,CREATE TABLE `Match` (\n\t`id`\tINTEGER PRIMAR...
4,table,League,League,24,CREATE TABLE `League` (\n\t`id`\tINTEGER PRIMA...
5,table,Country,Country,26,CREATE TABLE `Country` (\n\t`id`\tINTEGER PRIM...
6,table,Team,Team,29,"CREATE TABLE ""Team"" (\n\t`id`\tINTEGER PRIMARY..."
7,table,Team_Attributes,Team_Attributes,2,CREATE TABLE `Team_Attributes` (\n\t`id`\tINTE...


In [5]:
query = 'SELECT * FROM \'Country\';'

# utilizando la libreria pd, con la función read_sql para ejecutar el SQL, genera el dataframe countries
countries = pd.read_sql(query, conn)
countries

Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy
5,13274,Netherlands
6,15722,Poland
7,17642,Portugal
8,19694,Scotland
9,21518,Spain


In [6]:
#Consulta todas las ligas del futbol europeo
query = """SELECT id as Id_liga, country_id as id_pais, name as nom_liga
            FROM League; """

# ejecuta el query y queda en el dataframe
leagues = pd.read_sql(query, conn)
leagues

Unnamed: 0,Id_liga,id_pais,nom_liga
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A
5,13274,13274,Netherlands Eredivisie
6,15722,15722,Poland Ekstraklasa
7,17642,17642,Portugal Liga ZON Sagres
8,19694,19694,Scotland Premier League
9,21518,21518,Spain LIGA BBVA


In [7]:
#Consulta de solo los jugadores únicos de la tabla Player
query = """SELECT DISTINCT player_name FROM Player; """

#Creo una variable players_distinct que almacene los jugadores únicos
players_distinct = pd.read_sql(query, conn)
players_distinct

Unnamed: 0,player_name
0,Aaron Appindangoye
1,Aaron Cresswell
2,Aaron Doran
3,Aaron Galindo
4,Aaron Hughes
...,...
10843,Zoumana Camara
10844,Zsolt Laczko
10845,Zsolt Low
10846,Zurab Khizanishvili


In [8]:
query = """SELECT DISTINCT season
           FROM Match;"""

seasons = pd.read_sql(query, conn)
seasons

#Las temporadas de análisis son 8, comprendidas entre los años 2008 y 2016

Unnamed: 0,season
0,2008/2009
1,2009/2010
2,2010/2011
3,2011/2012
4,2012/2013
5,2013/2014
6,2014/2015
7,2015/2016


In [9]:
query = """SELECT DISTINCT overall_rating
           FROM Player_Attributes;"""
# presenta las diferentes calificaciones de los jugadores
overall_rating = pd.read_sql(query, conn)
overall_rating

Unnamed: 0,overall_rating
0,67.0
1,62.0
2,61.0
3,74.0
4,73.0
...,...
57,33.0
58,36.0
59,37.0
60,35.0


In [14]:
query = """SELECT id, player_name, birthday, height, weight
           FROM Player
           LIMIT 15;"""
# presenta los primeros 15 jugadores

jugadores = pd.read_sql(query, conn)
jugadores

Unnamed: 0,id,player_name,birthday,height,weight
0,1,Aaron Appindangoye,1992-02-29 00:00:00,182.88,187
1,2,Aaron Cresswell,1989-12-15 00:00:00,170.18,146
2,3,Aaron Doran,1991-05-13 00:00:00,170.18,163
3,4,Aaron Galindo,1982-05-08 00:00:00,182.88,198
4,5,Aaron Hughes,1979-11-08 00:00:00,182.88,154
5,6,Aaron Hunt,1986-09-04 00:00:00,182.88,161
6,7,Aaron Kuhl,1996-01-30 00:00:00,172.72,146
7,8,Aaron Lennon,1987-04-16 00:00:00,165.1,139
8,9,Aaron Lennox,1993-02-19 00:00:00,190.5,181
9,10,Aaron Meijers,1987-10-28 00:00:00,175.26,170


In [17]:
# relacion entre tablas JOIN
# presenta las ligas y sus respectivos países mediante JOIN, los que coinciden

query = """Select L.id as Id_Liga, L.name as Nom_Liga, C.name as Nom_Pais
             from League as L
             join Country as C
             on C.id = L.country_id;"""

paises_liga = pd.read_sql(query, conn)
paises_liga


Unnamed: 0,Id_Liga,Nom_Liga,Nom_Pais
0,1,Belgium Jupiler League,Belgium
1,1729,England Premier League,England
2,4769,France Ligue 1,France
3,7809,Germany 1. Bundesliga,Germany
4,10257,Italy Serie A,Italy
5,13274,Netherlands Eredivisie,Netherlands
6,15722,Poland Ekstraklasa,Poland
7,17642,Portugal Liga ZON Sagres,Portugal
8,19694,Scotland Premier League,Scotland
9,21518,Spain LIGA BBVA,Spain
