# SQL en python

Para empezar y poder acceder a nuestrar primeras BBDD (Bases de datos) **utilizaremos el módulo `sqlite3`**. 


In [1]:
import sqlite3
import pandas as pd

Además otras librerías y módulos que te permiten acceso a otros gestores son:
* SQL Server: `pyodbc`
* Oracle: `cx_Oracle`
* PostgreSQL: `psycopg2`

In [2]:
# Conectamos con la base de datos chinook.db
connection = sqlite3.connect("./data/chinook.db")

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_clase = connection.cursor()

### Configuración del entorno: Cursor

El cursor tiene varios métodos que nos interesa conocer:

* `execute`
* `fetchall`
* `fetchone`
* `fetcmany`

### execute

El método `execute` es el que emplearemos para enviarle una sentencia SQL a la base de datos. A modo de ejemplo vamos a ejecutar un "SELECT * FROM table" que recordarás que nos devolvía todas las columnas y filas de una tabla. Pero claro ¿qué tabla? En nada veremos como obtener las tablas que hay en una base de datos tipo Sqlite3, ahora usemos "employees" que es una tabla que tiene ese base de datos que hemos leído:


In [3]:
query = "SELECT * FROM employees"

cursor_clase.execute(query)

<sqlite3.Cursor at 0x27c11682ec0>

Muy bien, para eso sirve `execute` para decirle al cursor lo que tiene que hacer, pero hasta que no usemos los otros métodos no vamos a ver nada. 

### fecthone

Este método nos devuelve el primer registro que un cursor haya obtenido al ejecutar una sentencia sql:

In [4]:
cursor_clase.fetchone()

(1,
 'Adams',
 'Andrew',
 'General Manager',
 None,
 '1962-02-18 00:00:00',
 '2002-08-14 00:00:00',
 '11120 Jasper Ave NW',
 'Edmonton',
 'AB',
 'Canada',
 'T5K 2N1',
 '+1 (780) 428-9482',
 '+1 (780) 428-3457',
 'andrew@chinookcorp.com')

### fetchmany

Este método nos permite recuperar un número determinado de filas, pasándole el valor por parámetro


In [5]:
cursor_clase.fetchmany(3)

[(2,
  'Edwards',
  'Nancy',
  'Sales Manager',
  1,
  '1958-12-08 00:00:00',
  '2002-05-01 00:00:00',
  '825 8 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 2T3',
  '+1 (403) 262-3443',
  '+1 (403) 262-3322',
  'nancy@chinookcorp.com'),
 (3,
  'Peacock',
  'Jane',
  'Sales Support Agent',
  2,
  '1973-08-29 00:00:00',
  '2002-04-01 00:00:00',
  '1111 6 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5M5',
  '+1 (403) 262-3443',
  '+1 (403) 262-6712',
  'jane@chinookcorp.com'),
 (4,
  'Park',
  'Margaret',
  'Sales Support Agent',
  2,
  '1947-09-19 00:00:00',
  '2003-05-03 00:00:00',
  '683 10 Street SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5G3',
  '+1 (403) 263-4423',
  '+1 (403) 263-4289',
  'margaret@chinookcorp.com')]

### fetchall

Este método nos devuelve de primeras todas las posibles filas capturadas con nuestra sentencia sql (ahora que estamos ejecutando SELECT)

In [6]:
cursor_clase.fetchall()

[(5,
  'Johnson',
  'Steve',
  'Sales Support Agent',
  2,
  '1965-03-03 00:00:00',
  '2003-10-17 00:00:00',
  '7727B 41 Ave',
  'Calgary',
  'AB',
  'Canada',
  'T3B 1Y7',
  '1 (780) 836-9987',
  '1 (780) 836-9543',
  'steve@chinookcorp.com'),
 (6,
  'Mitchell',
  'Michael',
  'IT Manager',
  1,
  '1973-07-01 00:00:00',
  '2003-10-17 00:00:00',
  '5827 Bowness Road NW',
  'Calgary',
  'AB',
  'Canada',
  'T3B 0C5',
  '+1 (403) 246-9887',
  '+1 (403) 246-9899',
  'michael@chinookcorp.com'),
 (7,
  'King',
  'Robert',
  'IT Staff',
  6,
  '1970-05-29 00:00:00',
  '2004-01-02 00:00:00',
  '590 Columbia Boulevard West',
  'Lethbridge',
  'AB',
  'Canada',
  'T1K 5N8',
  '+1 (403) 456-9986',
  '+1 (403) 456-8485',
  'robert@chinookcorp.com'),
 (8,
  'Callahan',
  'Laura',
  'IT Staff',
  6,
  '1968-01-09 00:00:00',
  '2004-03-04 00:00:00',
  '923 7 ST NW',
  'Lethbridge',
  'AB',
  'Canada',
  'T1H 1Y8',
  '+1 (403) 467-3351',
  '+1 (403) 467-8772',
  'laura@chinookcorp.com')]

Sí, ha devuelto una lista vacía, porque los métodos fetch no reejecutan la query ni vuelven al principio de los resutados, cada método fetch "quita" los resultados del total, y como con fetchmany ya lo habíamos alcanzado no quedaba ninguno. Repitamos la ejecución y "fetchemos" todos los valores

In [7]:
cursor_clase.execute(query)
cursor_clase.fetchall()

[(1,
  'Adams',
  'Andrew',
  'General Manager',
  None,
  '1962-02-18 00:00:00',
  '2002-08-14 00:00:00',
  '11120 Jasper Ave NW',
  'Edmonton',
  'AB',
  'Canada',
  'T5K 2N1',
  '+1 (780) 428-9482',
  '+1 (780) 428-3457',
  'andrew@chinookcorp.com'),
 (2,
  'Edwards',
  'Nancy',
  'Sales Manager',
  1,
  '1958-12-08 00:00:00',
  '2002-05-01 00:00:00',
  '825 8 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 2T3',
  '+1 (403) 262-3443',
  '+1 (403) 262-3322',
  'nancy@chinookcorp.com'),
 (3,
  'Peacock',
  'Jane',
  'Sales Support Agent',
  2,
  '1973-08-29 00:00:00',
  '2002-04-01 00:00:00',
  '1111 6 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5M5',
  '+1 (403) 262-3443',
  '+1 (403) 262-6712',
  'jane@chinookcorp.com'),
 (4,
  'Park',
  'Margaret',
  'Sales Support Agent',
  2,
  '1947-09-19 00:00:00',
  '2003-05-03 00:00:00',
  '683 10 Street SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5G3',
  '+1 (403) 263-4423',
  '+1 (403) 263-4289',
  'margaret@chinookcorp.com'),
 (5,


### Atributo description

Para obtener los nombres de las columnas tenemos el atributo description.


In [8]:
cursor_clase.description

(('EmployeeId', None, None, None, None, None, None),
 ('LastName', None, None, None, None, None, None),
 ('FirstName', None, None, None, None, None, None),
 ('Title', None, None, None, None, None, None),
 ('ReportsTo', None, None, None, None, None, None),
 ('BirthDate', None, None, None, None, None, None),
 ('HireDate', None, None, None, None, None, None),
 ('Address', None, None, None, None, None, None),
 ('City', None, None, None, None, None, None),
 ('State', None, None, None, None, None, None),
 ('Country', None, None, None, None, None, None),
 ('PostalCode', None, None, None, None, None, None),
 ('Phone', None, None, None, None, None, None),
 ('Fax', None, None, None, None, None, None),
 ('Email', None, None, None, None, None, None))

Para quedarnos con el nombre de las columnas podemos hacer algo como:

In [9]:
names_col = [descript[0] for descript in cursor_clase.description]
names_col

['EmployeeId',
 'LastName',
 'FirstName',
 'Title',
 'ReportsTo',
 'BirthDate',
 'HireDate',
 'Address',
 'City',
 'State',
 'Country',
 'PostalCode',
 'Phone',
 'Fax',
 'Email']

### Convirtiendo a pandas las salida

Para terminar la sesión veamos como convertir a Pandas la salida, tan sencillo como pasar la tupla obtenida y como columnas los nombres que hemos sacado de description

In [10]:
cursor_clase.execute(query)
resultado = cursor_clase.fetchall()
df = pd.DataFrame(resultado, columns = names_col)
df

Unnamed: 0,EmployeeId,LastName,FirstName,Title,ReportsTo,BirthDate,HireDate,Address,City,State,Country,PostalCode,Phone,Fax,Email
0,1,Adams,Andrew,General Manager,,1962-02-18 00:00:00,2002-08-14 00:00:00,11120 Jasper Ave NW,Edmonton,AB,Canada,T5K 2N1,+1 (780) 428-9482,+1 (780) 428-3457,andrew@chinookcorp.com
1,2,Edwards,Nancy,Sales Manager,1.0,1958-12-08 00:00:00,2002-05-01 00:00:00,825 8 Ave SW,Calgary,AB,Canada,T2P 2T3,+1 (403) 262-3443,+1 (403) 262-3322,nancy@chinookcorp.com
2,3,Peacock,Jane,Sales Support Agent,2.0,1973-08-29 00:00:00,2002-04-01 00:00:00,1111 6 Ave SW,Calgary,AB,Canada,T2P 5M5,+1 (403) 262-3443,+1 (403) 262-6712,jane@chinookcorp.com
3,4,Park,Margaret,Sales Support Agent,2.0,1947-09-19 00:00:00,2003-05-03 00:00:00,683 10 Street SW,Calgary,AB,Canada,T2P 5G3,+1 (403) 263-4423,+1 (403) 263-4289,margaret@chinookcorp.com
4,5,Johnson,Steve,Sales Support Agent,2.0,1965-03-03 00:00:00,2003-10-17 00:00:00,7727B 41 Ave,Calgary,AB,Canada,T3B 1Y7,1 (780) 836-9987,1 (780) 836-9543,steve@chinookcorp.com
5,6,Mitchell,Michael,IT Manager,1.0,1973-07-01 00:00:00,2003-10-17 00:00:00,5827 Bowness Road NW,Calgary,AB,Canada,T3B 0C5,+1 (403) 246-9887,+1 (403) 246-9899,michael@chinookcorp.com
6,7,King,Robert,IT Staff,6.0,1970-05-29 00:00:00,2004-01-02 00:00:00,590 Columbia Boulevard West,Lethbridge,AB,Canada,T1K 5N8,+1 (403) 456-9986,+1 (403) 456-8485,robert@chinookcorp.com
7,8,Callahan,Laura,IT Staff,6.0,1968-01-09 00:00:00,2004-03-04 00:00:00,923 7 ST NW,Lethbridge,AB,Canada,T1H 1Y8,+1 (403) 467-3351,+1 (403) 467-8772,laura@chinookcorp.com


# SQL en Python: Primeras Queries

### Tablas y Schema

In [11]:
# Conectamos con la base de datos chinook.db
connection = sqlite3.connect("data/chinook.db")

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_bootcamp = connection.cursor()

Para ver las tablas que hay en una base de datos con la que hemos establecido conexión en el caso de sqlite3:

In [12]:
res = cursor_bootcamp.execute("SELECT name FROM sqlite_master WHERE type = 'table'")
tablas = []
for name in res:
    print(name[0])
    tablas.append(name[0])

albums
sqlite_sequence
artists
customers
employees
genres
invoices
invoice_items
media_types
playlists
playlist_track
tracks
sqlite_stat1
films


### Modelo de datos
Antes de empezar a atacar una base de datos, tendremos que saber qué hay dentro, y para ello lo mejor es ver cómo es su **modelo de datos**. Como he comentado podríamos intentar sacarlo de los nombres de los campos de las tablas o bien utilizar otros módulos externos o herramientas externas, pero dado que nosotros seremos principalmente consumidores, lo más efectivo será preguntar por él.


<img src="./data/Modelo_BBDD_Chinook.png" alt= “BBDD” width="1000" height="600">

### Primeras queries con SELECT

De la sesión de introducción recordarás que la sintáxis básica de una sentencia o query SELECT tiene esta pinta:
```SQL
SELECT campo1, campo2, campo3...
FROM tabla
WHERE condiciones
ORDER BY campo1, campo2 (DESC)
LIMIT num_filas
```

Por supuesto, hay más sentencias propias de SQL que iremos viendo a lo largo de la unidad, y del bootcamp. Fíjate que las **palabras reservadas en SQL se suelen poner en mayúsculas**, para diferenciarlas del resto. No da error si se pone de otra manera, ya que SQL **no es *case sensitive***, pero sí se suele hacer así.

#### SELECT *
Ya la hicimos sobre la tabla `employees` en la sesión anterior provemos ahora con otras tablas

In [13]:
query = '''
SELECT *
FROM tracks
'''

In [14]:
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns = col)
df

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99
...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99


### Selección de campos

Seleccionemos ahora algunos campos únicamente y además cambiémosle el nombre al vuelo, mediante la sintaxis `campo as nuevo_nombre`. **Si quieres poner espacios en el nombre del campo, tendrás que rodear el string con comillas dobles**

Y recuerda: SQL no es sensible a mayusculas y minusculas. ("este_CampO" == "ESTE_CAMPO")

In [15]:
query = '''
SELECT Name AS "Nombre Cancion", composer as "Compositor"
FROM tracks
'''
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns = col)
df

Unnamed: 0,Nombre Cancion,Compositor
0,For Those About To Rock (We Salute You),"Angus Young, Malcolm Young, Brian Johnson"
1,Balls to the Wall,
2,Fast As a Shark,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,Restless and Wild,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Princess of the Dawn,Deaffy & R.A. Smith-Diesel
...,...,...
3498,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,
3499,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",Franz Schubert
3500,"L'orfeo, Act 3, Sinfonia (Orchestra)",Claudio Monteverdi
3501,"Quintet for Horn, Violin, 2 Violas, and Cello ...",Wolfgang Amadeus Mozart


### LIMIT y DISTINCT
Veamos como usar dos modicadores LIMIT (que ya vimos en la introducción teórica) y DISTINCT (que es el equivalete del método `unique` en pandas)

#### LIMIT
Se usa para acotar el número de registros de la query. Va siempre al final. Por ejemplo `LIMIT 10`

In [16]:
query = '''
SELECT Name as "Nombre Cancion"
FROM tracks
LIMIT 10
'''
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns = col)
df

Unnamed: 0,Nombre Cancion
0,For Those About To Rock (We Salute You)
1,Balls to the Wall
2,Fast As a Shark
3,Restless and Wild
4,Princess of the Dawn
5,Put The Finger On You
6,Let's Get It Up
7,Inject The Venom
8,Snowballed
9,Evil Walks


#### DISTINCT
Se usa para obtener todos los registros únicos, es decir, sin duplicados. Lo podremos emplear para eliminar dupicados (aunque te recomiendo que no modifiques los datos de las bases de datos, vuelcalo a pandas y modifica ahí), como para ver todas las casuísticas de un campo en concreto.

**Mucho cuidado con esta sentencia ya que si la tabla tiene miles o millones de registros, puede ralentizar mucho la query.**

In [17]:
query = '''
SELECT DISTINCT Composer
FROM tracks
'''
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns= col)
df

Unnamed: 0,Composer
0,"Angus Young, Malcolm Young, Brian Johnson"
1,
2,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Deaffy & R.A. Smith-Diesel
...,...
848,Carl Nielsen
849,Niccolò Paganini
850,Pietro Antonio Locatelli
851,Claudio Monteverdi


# SQL en Python: WHERE

Si te fijaste en la sesión anterior repetíamos siempre el mismo código y esquema para hacer una query y luego llevarla a un dataframe. Es en esos casos en los que una función se hace necesaria... por ejemplo:

In [18]:
# Con esta función leemos los datos y lo pasamos a un DataFrame de Pandas
def sql_query(query):

    # Ejecuta la query
    cursor_bootcamp.execute(query) # Recuerda que sólo funcionará si has llamado cursor_bootcamp
                                    # a tu cursor, si no, cambia el nombre en todo el código de la función

    # Almacena los datos de la query 
    ans = cursor_bootcamp.fetchall()

    # Obtenemos los nombres de las columnas de la tabla
    names = [description[0] for description in cursor_bootcamp.description]

    return pd.DataFrame(ans,columns=names)

In [19]:
query = '''
SELECT composer
FROM tracks
'''
sql_query(query)

Unnamed: 0,Composer
0,"Angus Young, Malcolm Young, Brian Johnson"
1,
2,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Deaffy & R.A. Smith-Diesel
...,...
3498,
3499,Franz Schubert
3500,Claudio Monteverdi
3501,Wolfgang Amadeus Mozart


### WHERE

Se usa para filtrar filas como ya sabes, veamos algunos ejemplos de uso:
#### Filtros numéricos

* **Un valor numérico**
    * UnitPrice = 0.99
    * UnitPrice >= 0.99
    * UnitPrice < 0.99


In [20]:
# Escogiendo la tabla tracks canciones que duren más de 6 minutos (360000 milisegundos)
minutos = 6
query = f'''
SELECt name "Nombre Cancion", Milliseconds "Duracion"
FROM TRACKS
WHERE Milliseconds >{minutos * 60 * 1000}
'''
sql_query(query)

Unnamed: 0,Nombre Cancion,Duracion
0,Princess of the Dawn,375418
1,Let There Be Rock,366654
2,Overdose,369319
3,Livin' On The Edge,381231
4,You Oughta Know (Alternate),491885
...,...,...
618,Symphony No. 3 Op. 36 for Orchestra and Sopran...,567494
619,"Act IV, Symphony",364296
620,"3 Gymnopédies: No.1 - Lent Et Grave, No.3 - Le...",385506
621,Symphony No. 2: III. Allegro vivace,376510


In [21]:
#Se puede operar directamente en el campo SELECT:

minutos = 6
query = f'''
SELECt name "Nombre Cancion", Milliseconds/1000 "Duracion"
FROM TRACKS
WHERE Milliseconds > {minutos * 60 * 1000}
'''
sql_query(query)

Unnamed: 0,Nombre Cancion,Duracion
0,Princess of the Dawn,375
1,Let There Be Rock,366
2,Overdose,369
3,Livin' On The Edge,381
4,You Oughta Know (Alternate),491
...,...,...
618,Symphony No. 3 Op. 36 for Orchestra and Sopran...,567
619,"Act IV, Symphony",364
620,"3 Gymnopédies: No.1 - Lent Et Grave, No.3 - Le...",385
621,Symphony No. 2: III. Allegro vivace,376


#### Filtros sobre campos de texto
* **Un valor string**: Name = 'Restless and Wild'
* **string contenido**:
    * strings que empiecen por 'A': Name like 'A%'
    * strings que acaben en 'A': Name like '%A'
    * strings que lleven 'A' en algun punto: Name like '%A%'


  

In [22]:
# Compositores que se llamen Brian:

query = '''
SELECT * 
FROM tracks
WHERE composer LIKE "Brian%"
'''
sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,115,Please Mr. Postman,12,1,5,Brian Holland/Freddie Gorman/Georgia Dobbins/R...,137639,2206986,0.99
1,427,Who Wants To Live Forever,36,1,1,Brian May,297691,9577577,0.99
2,432,Hammer To Fall,36,1,1,Brian May,220316,7255404,0.99
3,1776,You've Been A Long Time Coming,146,1,14,Brian Holland/Eddie Holland/Lamont Dozier,137221,4437949,0.99
4,2125,United Colours,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",330266,10939131,0.99
5,2126,Slug,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",281469,9295950,0.99
6,2127,Your Blue Room,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",328228,10867860,0.99
7,2128,Always Forever Now,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",383764,12727928,0.99
8,2129,A Different Kind Of Blue,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",120816,3884133,0.99
9,2130,Beach Sequence,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",212297,6928259,0.99


#### Filtros varios
  
* **Varios valores**: GenreId in (1, 5, 12)  
* **Distinto de**: UnitPrice <> 0.99


In [23]:
# Clientes que vivan en Berlin, Londres o París

query = '''
SELECT FirstName "Nombre", LastName "Apellido", City "Ciudad"
FROM Customers
WHERE City in ("Berlin", "London", "Paris")
'''
sql_query(query)


Unnamed: 0,Nombre,Apellido,Ciudad
0,Hannah,Schneider,Berlin
1,Niklas,Schröder,Berlin
2,Camille,Bernard,Paris
3,Dominique,Lefebvre,Paris
4,Emma,Jones,London
5,Phil,Hughes,London


In [24]:
# Busquemos las canciones que cuesten más de 0.99 o duren menos de 3 minutos y además de eso en su nombre aparezca la palabra Fire

query = '''
SELECT *
FROM tracks
WHERE (unitprice > 0.99 or Milliseconds < 3*60*1000) and Name LIKE "%fire%"
'''
sql_query(query)


Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1486,Fire,120,1,1,Jimi Hendrix,164989,5383075,0.99
1,1948,Fire Fire,160,1,3,Clarke/Kilmister/Taylor,164675,5416114,0.99
2,2666,Play With Fire,216,1,1,Nanker Phelge,132022,4265297,0.99
3,2892,Fire + Water,231,3,21,,2600333,488458695,1.99
4,3181,The Fire,250,3,19,,1288166,266856017,1.99
5,3239,Fire In Space,253,3,20,,2926593,536784757,1.99
6,3449,"Music for the Royal Fireworks, HWV351 (1749): ...",315,2,24,George Frideric Handel,120000,2193734,0.99


### ORDER BY
Podemos **ordenar la tabla por el campo/s que queramos**. Por defecto ordena alfabéticamente los strings y de menor a mayor los tipos numéricos. Si quieres que ordene al revés, tienes que poner `DESC` de la forma `ORDER BY campo DESC` (como el `ascending = False` del `sort_values` de pandas,o el `reverse = True` en el caso de `sort` de listas)

In [25]:
# Obtengamos los datos de la tabla "tracks" ordenados por nombre de forma descendente

query = ''' 
SELECT *
FROM tracks
ORDER BY name DESC
'''

sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1077,Último Pau-De-Arara,85,1,10,Corumbá/José Gumarães/Venancio,200437,6638563,0.99
1,1073,Óia Eu Aqui De Novo,85,1,10,,219454,7469735,0.99
2,2078,Óculos,169,1,7,,219271,7262419,0.99
3,3496,"Étude 1, In C Major - Preludio (Presto) - Liszt",340,4,24,,51780,2229617,0.99
4,333,É que Nessa Encarnação Eu Nasci Manga,29,1,9,Lucina/Luli,196519,6568081,0.99
...,...,...,...,...,...,...,...,...,...
3498,3254,#9 Dream,255,2,9,,278312,4506425,0.99
3499,109,#1 Zero,11,1,4,"Cornell, Commerford, Morello, Wilk",299102,9731988,0.99
3500,3412,"""Eine Kleine Nachtmusik"" Serenade In G, K. 525...",281,2,24,Wolfgang Amadeus Mozart,348971,5760129,0.99
3501,2918,"""?""",231,3,19,,2782333,528227089,1.99


In [26]:

# Obtengamos el nombre de los clientes norteamericanos ordenados por apellido

query = '''
SELECT FirstName "Nombre", LastName "Apellido", Country "País"
FROM Customers
Where Country in ("USA", "Canaeda")
ORDER BY LastName
'''
sql_query(query)

Unnamed: 0,Nombre,Apellido,País
0,Julia,Barnett,USA
1,Michelle,Brooks,USA
2,Kathy,Chase,USA
3,Richard,Cunningham,USA
4,John,Gordon,USA
5,Tim,Goyer,USA
6,Patrick,Gray,USA
7,Frank,Harris,USA
8,Heather,Leacock,USA
9,Dan,Miller,USA


### Agregaciones
Como ocurre cuando trabajamos con datos en ocasiones nos interesa obtener algún estadístico como el máximo de un campo, su desviación estándar o simplemente un conteo de registros no nulos. Para ello podemos usar funciones como `MAX`, `COUNT` o `AVG`. En [esta página](https://www.sqlservertutorial.net/sql-server-aggregate-functions/) encontrarás un resumen con las principales funciones.

In [27]:
# Obtener el número de canciones que contienen la palabra love
query = '''
SELECT COUNT(*)
FROM tracks
WHERE name LIKE "%love%"
'''
sql_query(query)

Unnamed: 0,COUNT(*)
0,114


In [28]:
# Encontrar la media del precio de las canciones compradas
query = '''
SELECT AVG(unitprice)
FROM invoice_items
'''
sql_query(query)

Unnamed: 0,AVG(unitprice)
0,1.039554


In [29]:
# Obtener la duración máxima de las canciones
query ='''
SELECT MAX(Milliseconds)/1000
FROM tracks
'''
sql_query(query)


Unnamed: 0,MAX(Milliseconds)/1000
0,5286


### Agrupaciones (GROUP BY):
Para terminar veamos como se hacen agrupaciones empleando GROUP BY, y de forma muy similar a como se hace con pandas.


In [30]:
# Selección del precio unitario en funcion del género
query = '''
SELECT GenreID, SUM(unitprice) as TOT_PRICE
FROM tracks
GROUP BY GenreId
ORDER BY TOT_PRICE DESC
LIMIT 10
'''
sql_query(query)


Unnamed: 0,GenreId,TOT_PRICE
0,1,1284.03
1,7,573.21
2,3,370.26
3,4,328.68
4,19,185.07
5,2,128.7
6,21,127.36
7,6,80.19
8,24,73.26
9,14,60.39


In [31]:
#calcular cuantas canciones hay por compositor
query = '''
SELECT composer, COUNT(trackid)
FROM tracks
WHERE Composer IS NOT NULL
GROUP BY composer
ORDER BY 2 DESC
LIMIT 20
'''
sql_query(query)

Unnamed: 0,Composer,COUNT(trackid)
0,Steve Harris,80
1,U2,44
2,Jagger/Richards,35
3,Billy Corgan,31
4,Kurt Cobain,26
5,Bill Berry-Peter Buck-Mike Mills-Michael Stipe,25
6,The Tea Party,24
7,Miles Davis,23
8,Gilberto Gil,23
9,Chris Cornell,23


# SQL con Python: JOIN 
Hasta ahora hemos hecho queries sobre una única tabla, pero **¿y si queremos juntar datos de varias tablas?** Para eso están los `JOIN`s. Para ello **necesitas tener uno o varios campos comunes entre ambas tablas, que se denominan CLAVES**.

**¿Cuándo usarlos?** Por ejemplo, si tenemos una tabla con un conjunto de clientes y necesitamos añadirles campos nuevos, tendremos que acudir a otras tablas donde esté ese identificador de cliente y aplicar un `JOIN`. Es lo que se conoce como *pegar campos* a otra tabla.

O imagina que tienes una tabla con todos tus pedidos, con muchos campos(ciudad, dirección, cliente...) y en otra tabla únicamente los números de pedido que no se llegaron a entregar. Si quieres filtrar dentro de tu tabla total de pedidos los que no se llegaron a entregar, podrías aplicar lo que se llama un `INNER JOIN` de manera que te quedes con lo común en ambas tablas, siendo tu clave el identificativo del pedido... 

Veamos la teoría sobre los JOIN que existe, pero no te agobies con los nombres, no necesitas saber si estás haciend in inner, un outter o un left inner outter simpatetic join, lo que necesitas es saber como quieres juntar tus tablas y luego aplicar el concepto adecuado. 



### Tipos de JOINS

**Tabla 1: Empleados**

| id_empleado | nombre     | id_departamento |
|-------------|------------|-----------------|
| 1           | Ana        | 10              |
| 2           | Carlos     | 20              |
| 3           | Diana      | 10              |
| 4           | Eduardo    | 30              |
| 5           | Luis       | -1               |

(El -1 quiere decir por ejemplo que todavía no tiene departamento asignado)

**Tabla 2: Departamentos**

| id_departamento | nombre_departamento |
|-----------------|---------------------|
| 10              | Marketing           |
| 20              | Ventas              |
| 30              | IT                  |
| 40              | Recursos Humanos    |

Como puedes ver tienen dos columnas que comparten valores y que (en este caso) se llaman igual: `id_departamento`

Supongamos ahora que queremos unirlas usando esa columna común y que llamamos tabla de la izquierda a la tabla 1 y tabla de la derecha a la tabla_2, cuántas formas hay de hacerlo...:


### Left (Outer) Join

1. Podemos hacerlo considerando únicamente la tabla_1 como directora es decir unimos a cada empleado los datos del departamento que corresponda con el id_departamento. El resultado sería:


| id_empleado | nombre     | id_departamento | nombre_departamento|
|-------------|------------|-----------------|-|
| 1           | Ana        | 10              |Marketing|
| 2           | Carlos     | 20              |Ventas|
| 3           | Diana      | 10              |Marketing
| 4           | Eduardo    | 30              |IT|
| 5           | Luis       | -1               |NaN/Null|

Hemos pegado el nombre del departamento correspondiente y a Luis un NaN o Null porque su departamento no existe en la tabla 2.


Bien a este JOIN en el que manda la tabla de la IZQUIERDA o primera tabla mencioanda se le llama LEFT JOIN (que curioso verdad) y también LEFT OUTTER JOIN.

Su sintaxis en SLQ sería algo como:

```SQL
SELECT A.id_empleado, A.nombre, A.id_departamento, B.nombre_departamento 
FROM Empleados AS A
LEFT JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento
```

Lo primero que te llamará la atención son los alias es decir eso que aparece como `as A` o `as B` detrás del nombre de las tablas. Sí podemos ponerle alias a las tablas para luego referirnos a sus campos con la **notación \<alias\>.\<campo\>**. Ojo podemos prescindir de los alias y **usar \<nombre_tabla\>.\<campo\>** pero cuando los nombres son largos se suelen alias.

Superado el tema del alias, ves que la tabla de la izquierda es la primera que aparece (la que está detrás del `FROM`) y la de la derecha la que aparece en tras la palabra `JOIN`. 

Finalmente se usa `ON` para anticipar la parte de las claves que deben coincidir usando la notación \<alias\>.\<campo\> (o \<nombre tabla\>.\<campo\>)

### Right (outer) join

2. De igual manera, aunque quizás más contraintuitivo, podemos pegar a cada departamento los datos de los empleados que tengan igual id_departamento y NaN si no hay empleados en ese departamento. Quedaría así:

| id_empleado | nombre     | id_departamento | nombre_departamento|
|-------------|------------|-----------------|-|
| 1           | Ana        | 10              |Marketing|
| 2           | Carlos     | 20              |Ventas|
| 3           | Diana      | 10              |Marketing
| 4           | Eduardo    | 30              |IT|
|NaN          | NaN      | 40                |Recursos Humanos|

Antes aparecían todos los elementos de la izquierda y no necesariamente todos los elementos de la derecha y ahora es al contrario aparecen todos los elementos/filas de la tabla de la Çderecha y no todos los de la izquierda. Las tablas en ambos casos se completan con NaN/Nulls para los valores faltantes.


Es decir, aquí manda la tabla de la derecha. Es por eso que se denomina Right (outter) join.

Su sintáxis.

```SQL
SELECT A.id_empleado, A.nombre, A.id_departamento, B.nombre_departamento
FROM Empleados AS A
RIGHT JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento
```

Y las secciones y alias tienen la misma explicación que en el caso anterior.

### Inner Join

3. Un tercer caso, quizá más intuitivo que los dos anteriores, es quedarme solo con los datos de una y otra tabla que tienen id en las dos. Es decir la intersección por id_departamento en este caso, y quedaría algo así como:


| id_empleado | nombre     | id_departamento | nombre_departamento|
|-------------|------------|-----------------|-|
| 1           | Ana        | 10              |Marketing|
| 2           | Carlos     | 20              |Ventas|
| 3           | Diana      | 10              |Marketing
| 4           | Eduardo    | 30              |IT|

Fíjate que Luis que no tiene departamento o su id_departamento no aparece en Departamentos y Recursos Humanos el departamento que no aparece en los id_departamento de los empleados, se quedan fuera de la tabla resultante.

A esta ntersección se le llama INNER JOIN y su sintaxis es

```SQL 
SELECT A.id_empleado,A.nombre,A.id_departamento, B.nombre_departamento 
FROM Empleados AS A
INNER JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento
```

### Full Outer Join

4. Igual que consideramos sólo las coincidencias podemos considerar unas y otras y hacer la unión de las salidas del left join y del right join:

| id_empleado | nombre     | id_departamento | nombre_departamento|
|-------------|------------|-----------------|-|
| 1           | Ana        | 10              |Marketing|
| 2           | Carlos     | 20              |Ventas|
| 3           | Diana      | 10              |Marketing
| 4           | Eduardo    | 30              |IT|
| 5           | Luis       | -1               |NaN/Null|
|NaN/Null     | Nan/Null   | 40              | Recursos Humanos|

En esta tabla ya aparecen los empleados sin departamento y los departamentos sin empleados eso sí con sus correspondientes campos a NaN

La sintaxis es similar a las anteriores pero ahora usan `FULL OUTTER JOIN`:

```SQL 
SELECT A.id_empleado,A.nombre,A.id_departamento, B.nombre_departamento 
FROM Empleados AS A
FULL OUTER JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento
```

### Otros Joins
Existen otros joins como el producto cartesiano y los joins que se combinan con cláusulas where pero no los vamos a ver [aquí](https://www.dataquest.io/blog/sql-joins-tutorial/) y [aqui](https://www.freecodecamp.org/news/sql-joins-tutorial/) tienes un par de tutoriales donde se amplia lo que hemos visto. 



### Lo importante

Lo importante es lo que uno quiera hacer con las tablas: 
* Que tengo una tabla que "manda" y quiero completarla en lo posible y con nulos si no hay datos en las otras tablas de las que quiero sacar información: Necesitas un LEFT o un RIGHT JOIN dependiendo del orden en el que pongas la tabla "directora" (la que quieres completar), si la pones en el FROM, entonces LEFT JOIN si no, RIGHT JOIN
* Que quieres quedarte solo con las filas que no vayan a tener nulos: INNER JOIN (sólo te quedaras con las filas o información de una y otra tabla que coincidan, las que producen nulos se quitan)
* Que quieres mezclar las dos tablas al completo independientemente de donde se generen Nulos: FULL JOIN.

# SQL con Python: JOIN Ejemplos

Recuperemos nuestra base de datos de ventas online de música y juguemos con ella para ver un par de ejemplos del JOIN que más me gusta que es el LEFT, pero que sus matices aplican al resto.


In [32]:
connection = sqlite3.connect("./data/chinook_joins.db")
cursor_bootcamp = connection.cursor()

In [33]:
def sql_query(query):
    cursor_bootcamp.execute(query)
    if query.lower().strip().startswith("select"):
        ans = cursor_bootcamp.fetchall()
        names = [d[0] for d in cursor_bootcamp.description]
        return pd.DataFrame(ans, columns= names)

<img src="./data/Modelo_BBDD_Chinook.png" alt= “BBDD” width="1000" height="600">

### Left Join

In [34]:
# Uno bastante claro: Queremos pegar a las canciones el nombre del album al que pertenecen
# Manda la tabla de canciones (tracks) 
# sobre el de álbumes (albums)
# Si te fijas en el modelo de datos la columna o clave de cruce es AlbumId (Foreing_Key en tracks, Primary_Key en albums)
query = '''
SELECT a.*, b.title as album_title -- Nos quedamos con todos los campos de a, esto es muy típico y sólo con el de b que nos interese
FROM tracks AS a -- track la ponemos la primera, es la de la "izquierda", y como queremos que mande (todas sus filas) entonces es un LEFT JOIN
LEFT JOIN albums AS b -- album está detrás del JOIN, es la de la "derecha"
ON a.albumid = b.albumid
'''

df_lj = sql_query(query)
df_lj.head(4)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,album_title
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,For Those About To Rock We Salute You
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,Balls to the Wall
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,Restless and Wild
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,Restless and Wild


In [35]:
df_lj.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3503 entries, 0 to 3502
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   TrackId       3503 non-null   int64  
 1   Name          3503 non-null   object 
 2   AlbumId       3503 non-null   int64  
 3   MediaTypeId   3503 non-null   int64  
 4   GenreId       3503 non-null   int64  
 5   Composer      2525 non-null   object 
 6   Milliseconds  3503 non-null   int64  
 7   Bytes         3503 non-null   int64  
 8   UnitPrice     3503 non-null   float64
 9   album_title   3316 non-null   object 
dtypes: float64(1), int64(6), object(3)
memory usage: 273.8+ KB


Observa que al llamar al método `info`, el campo que hemos llamado contiene nulos. Es decir que algunos de los valores de `albumid` de la tabla tracks (la de la "izquierda") no están presentes en la tabla albums y por eso rellena ese campo con NaN. Recuerda es un LEFT join manda la tabla de la izquierda, es decir se mantienen todos los registros de la izquierda (con los campos que hayamos seleccionado, en este caso todos) y si no encuentra correspondencia en la derecha rellena con nulos.

Obtengamos los valores de albumid que no tienen correspondencia para comprobarlo:


In [36]:
faltan = df_lj.loc[df_lj.album_title.isna(),"AlbumId"].to_list() # SQL no es case-sensitive pero Pandas sí, por eso AlbumId
print(faltan) #---> Repetidos porque son varias canciones del mismo album 

[27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141]


In [37]:
faltan = list(set(faltan))

# Lo convertimos a una lista de strings (porque lo vamos a necesitar a continuación)
faltan = [str(elemento) for elemento in faltan]
faltan

['162', '67', '39', '73', '202', '141', '215', '27']

Y ahora hagamos un SELECT de la tabla album con esos ids para ver que no existen, es decir nuestra función nos devolverá un dataframe vacío 

In [38]:
query = f'''
SELECT title 
FROM albums
WHERE albumid in ({",".join(faltan)}) -- el ",".join(faltan) devuelve un string con los ids separada por comas, que es lo que espera SQL
'''

sql_query(query)

Unnamed: 0,Title


Comprobado, hay discos que tienen id para su album pero este falta, por lo que sea, de la tabla albums y por eso el LEFT JOIN devuelve un null para el valor "title_album", pero conserva todas las filas de la tabla tracks. 

Hagamos, para terminar, otro ejemplo de left join. Supón que queremos saber los canciones que hemos vendido. Sabiendo que la tabla que nos dice las ventas es *invoice_items*, hagamos un select para ver sus campos y si tenemos el dato del título

In [39]:
query = '''
SELECT *
FROM invoice_items
'''
df_invoices = sql_query(query)
df_invoices

Unnamed: 0,InvoiceLineId,InvoiceId,TrackId,UnitPrice,Quantity
0,1,1,2,0.99,1
1,2,1,4,0.99,1
2,3,2,6,0.99,1
3,4,2,8,0.99,1
4,5,2,10,0.99,1
...,...,...,...,...,...
2235,2236,411,3136,0.99,1
2236,2237,411,3145,0.99,1
2237,2238,411,3154,0.99,1
2238,2239,411,3163,0.99,1


Nos falta, así que queremos recuperarlo de... ¿dónde? Si miras el modelo de datos, de la tabla tracks, pero ahora manda Invoice_Items, así que usando un LEFT JOIN, haríamos algo como:

In [40]:
query = '''
SELECT a.*, tracks.name 
FROM Invoice_Items AS a
LEFT JOIN tracks
ON a.TrackId = tracks.TrackId
'''

df_invoices_with_names = sql_query(query)
df_invoices_with_names

Unnamed: 0,InvoiceLineId,InvoiceId,TrackId,UnitPrice,Quantity,Name
0,1,1,2,0.99,1,Balls to the Wall
1,2,1,4,0.99,1,Restless and Wild
2,3,2,6,0.99,1,Put The Finger On You
3,4,2,8,0.99,1,Inject The Venom
4,5,2,10,0.99,1,Evil Walks
...,...,...,...,...,...,...
2235,2236,411,3136,0.99,1,Looking For Love
2236,2237,411,3145,0.99,1,Sweet Lady Luck
2237,2238,411,3154,0.99,1,Feirinha da Pavuna/Luz do Repente/Bagaço da La...
2238,2239,411,3163,0.99,1,Samba pras moças


Perfecto, y ahora si quisieramos saber el top de ventas y sus ventas, podemos recurrir a Pandas:

In [41]:
df_invoices_with_names.Name.value_counts().nlargest(3)

Name
The Trooper                5
The Number Of The Beast    4
Sure Know Something        4
Name: count, dtype: int64

### Right Join

Este es el JOIN en el que manda la tabla de la "derecha", la que ponemos detrás del  `JOIN`. Es la tabla de la que queremos mantener todas las filas y pegarle campos de otra tabla aunque no haya cruce, en cuyo caso se rellenarán con nulos (NULL o NaN si lo pasamos a Pandas)

+ Hagamos el inverso del anterior pero por la derecha: Queremos pegar a cada disco las canciones
+ Manda la tabla de álbumes (albums) 
+ sobre el de canciones (tracks)
+ Como en la sesión anterior la clave de cruce es AlbumId (Foreing_Key en tracks, Primary_Key en albums)


In [42]:
query = '''
SELECT b.*, a.name
FROM tracks AS a
RIGHT JOIN albums AS b
ON a.albumid = b.albumid
'''
df_rj = sql_query(query)
df_rj

Unnamed: 0,AlbumId,Title,ArtistId,Name
0,1,For Those About To Rock We Salute You,1,For Those About To Rock (We Salute You)
1,2,Balls to the Wall,2,Balls to the Wall
2,3,Restless and Wild,2,Fast As a Shark
3,3,Restless and Wild,2,Restless and Wild
4,3,Restless and Wild,2,Princess of the Dawn
...,...,...,...,...
3311,343,Respighi:Pines of Rome,226,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...
3312,344,Schubert: The Late String Quartets & String Qu...,272,"String Quartet No. 12 in C Minor, D. 703 ""Quar..."
3313,345,Monteverdi: L'Orfeo,273,"L'orfeo, Act 3, Sinfonia (Orchestra)"
3314,346,Mozart: Chamber Music,274,"Quintet for Horn, Violin, 2 Violas, and Cello ..."


In [43]:
df_rj.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3316 entries, 0 to 3315
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   AlbumId   3316 non-null   int64 
 1   Title     3316 non-null   object
 2   ArtistId  3316 non-null   int64 
 3   Name      3316 non-null   object
dtypes: int64(2), object(2)
memory usage: 103.8+ KB


Aquí las puntualizaciones son dos:
1. Aquí no hay albumid que sí esté en albums y no esté en tracks por eso no hay nulos en el campo `name`
2. Como ahora comprobaremos el número de regitros ha crecido porque ahora hay tantas lineas por album como canciones tenga el album, mientras que la tabla anterior de albums el campo AlbumId era único.

In [44]:
query = '''
SELECT *
FROM albums
'''
df_albums = sql_query(query)
df_albums.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 339 entries, 0 to 338
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   AlbumId   339 non-null    int64 
 1   Title     339 non-null    object
 2   ArtistId  339 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.1+ KB


In [45]:
print(df_albums.AlbumId.is_unique)
print(df_rj.AlbumId.is_unique)

True
False


### Inner Join
Veamos ahora un ejemplo de Inner Join, es decir aquel en el que sólo quiero quedarme con las filas que tengan valores comunes en las dos tablas (aquellas filas de una tabla cuyo identificador no aparezca en la clave de la otra no se tendrán en cuenta)

In [46]:
# Vamos a quedarnos ahora con las canciones para las cuales si haya disco
query = '''
SELECT tracks.*, albums.title
FROM tracks
INNER JOIN albums
ON tracks.AlbumId = albums.AlbumId
'''
df_inner = sql_query(query)
df_inner.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3316 entries, 0 to 3315
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   TrackId       3316 non-null   int64  
 1   Name          3316 non-null   object 
 2   AlbumId       3316 non-null   int64  
 3   MediaTypeId   3316 non-null   int64  
 4   GenreId       3316 non-null   int64  
 5   Composer      2367 non-null   object 
 6   Milliseconds  3316 non-null   int64  
 7   Bytes         3316 non-null   int64  
 8   UnitPrice     3316 non-null   float64
 9   Title         3316 non-null   object 
dtypes: float64(1), int64(6), object(3)
memory usage: 259.2+ KB


Aquí lo que podemos observar es:
1. No hay nulos, claro se cojen filas que existen en una y otra tabla.
2. Se ha reducido el número de salidas respecto al left join que hicimos (aunque no te des cuenta ahora si te haces una select de tracks podrás comprobar que tiene  3503 cacniones). Ha quitado las canciones que no tienen album.

### Full join
El full join es el que se queda todos los cruces posibles (por valores existentes) aunque haya nulos. En el caso de sqlite3 no admite Full Join por lo que hay que simularlo. Como te dejo a continuación, pero dado que es un caso excepcional (trabajar con LEFT JOIN es casi lo más que vamos a hacer), no vamos a entrar en mucho más detalle

In [47]:
#FULL JOIN
#FULL JOIN isn't supported in sqlite, 
#so we use a LEFT JOIN + RIGHT JOIN(inverse LEFT JOIN) as a workaround

query = '''
SELECT * 
FROM invoice_items AS a
LEFT JOIN tracks AS b
ON a.trackid = b.trackid
UNION ALL -- usa el union all que permite unir  la salida de dos queries por separado, no es una subquery una dentro de otra.
SELECT *
FROM tracks AS a
LEFT JOIN invoice_items AS b
ON a.trackid =b.trackid;
'''

sql_query(query)

Unnamed: 0,InvoiceLineId,InvoiceId,TrackId,UnitPrice,Quantity,TrackId.1,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice.1
0,1,1,2,0.99,1,2,Balls to the Wall,2,2.00,1.0,,342562.0,5510424.00,0.99
1,2,1,4,0.99,1,4,Restless and Wild,3,2.00,1.0,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051.0,4331779.00,0.99
2,3,2,6,0.99,1,6,Put The Finger On You,1,1.00,1.0,"Angus Young, Malcolm Young, Brian Johnson",205662.0,6713451.00,0.99
3,4,2,8,0.99,1,8,Inject The Venom,1,1.00,1.0,"Angus Young, Malcolm Young, Brian Johnson",210834.0,6852860.00,0.99
4,5,2,10,0.99,1,10,Evil Walks,1,1.00,1.0,"Angus Young, Malcolm Young, Brian Johnson",263497.0,8611245.00,0.99
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5994,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2.00,24,Franz Schubert,139200,2283131,0.99,578.0,108,3500.0,0.99,1.00
5995,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2.00,24,Franz Schubert,139200,2283131,0.99,1727.0,319,3500.0,0.99,1.00
5996,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2.00,24,Claudio Monteverdi,66639,1189062,0.99,,,,,
5997,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2.00,24,Wolfgang Amadeus Mozart,221331,3665114,0.99,,,,,


# SQL en Python: Gestion BD (I)

La gestión de Bases de Datos es un mundo muy amplio que no podemos abarcar en un sprint y mucho menos en un par de píldoras, pero sí es bueno por lo menos que conozcas cómo con SQL (y para el gestor Sqlite3) se pueden hacer acciones tales como:  
* Insertes, Updates y Deletes en las tablas
* Crear y Tirar Tablas
* Usar vistas

Que son los puntos que vamos a tratar aunque no necesariamente en ese orden, de hecho empezaremos creando nuestra base de datos y luego las tablas dentro de ellas

### Creación de Bases de Datos y tablas
Podemos crear nuestras propias bases de datos utilizando SQLite (que no es directamente trasladable a otros gestores) y luego dentro crearemos tablas usando ya sí sintaxis SQL.

In [48]:
connection = sqlite3.connect("base_de_datos_i.db") #---> Al ser una base de datos que no existe, la crea.
cursor_gestion = connection.cursor()

Y ahora ya podemos crear una tabla siguiendo la siguiente sintaxis:

```SQL
CREATE TABLE nombre_tabla (
    columna1 tipo_de_dato restricciones,
    columna2 tipo_de_dato restricciones,
    ...
    columnaN tipo_de_dato restricciones
);
```

- **nombre_tabla:** Es el nombre de la tabla que queremos crear.
- **columna1, columna2, ..., columnaN:** Son los nombres de las columnas de la tabla.
- **tipo_de_dato:** Es el tipo de dato de cada columna (por ejemplo, `INT` para enteros, `VARCHAR` o `CHAR` para cadenas de texto, `DATE` para fechas, etc.).
- **restricciones:** Son las restricciones o reglas para cada columna (opcional). Algunas restricciones comunes incluyen `PRIMARY KEY`, `NOT NULL`, `UNIQUE`, `FOREIGN KEY`, etc. (que corresponden a un índice único, a que no puede dejarse vacío el campo, a que no puede repetirse o a que tendrá que enlazarse con la clave en otra tabla)


Creemos una tabla sencilla de alumnos de un Master: (te lo doy hecho)

In [49]:
query_create = '''
CREATE TABLE Master_Class (
ID       INT PRIMARY KEY, -- nombre tipo_de_dato restricción como hemos visto antes
NOMBRE   TEXT NOT NULL,
EDAD     INT NOT NULL,
CIUDAD   CHARS(50), -- Le decimos que este campo siempre tiene 50 caracteres, y los que no llene los rellenará con espacios
NOTAS    FLOAT
)
'''
cursor_gestion.execute(query_create)

OperationalError: table Master_Class already exists

Y una vez la tenemos, podemos buscarla en la tabla maestra:

In [50]:
query = "SELECT * FROM sqlite_master WHERE type =='table'"
cursor_gestion.execute(query)
cursor_gestion.fetchall()

[('table',
  'Master_Class',
  'Master_Class',
  2,
  'CREATE TABLE Master_Class (\nID       INT PRIMARY KEY, -- nombre tipo_de_dato restricción como hemos visto antes\nNOMBRE   TEXT NOT NULL,\nEDAD     INT NOT NULL,\nCIUDAD   CHARS(50), -- Le decimos que este campo siempre tiene 50 caracteres, y los que no llene los rellenará con espacios\nNOTAS    FLOAT\n)')]

### Insert
Ahora que tenemos una tabla podemos ingestar registros (nombre técnico), modificarlos y borrarlos tal como vimos de forma teórica hace ya unas cuantas sesiones. En esta píldora trataremos el insert y dejaremos update y delete para la próxima.

```SQL
INSERT INTO nombre_tabla (columna1, columna2, columna3, ...)
VALUES (valor1, valor2, valor3, ...);
```
- **nombre_tabla:** Nombre de la tabla donde se insertarán los datos.
- **columna1, columna2, ... :** Las columnas de la tabla en las que se insertarán los datos. No es necesario incluir todas las columnas, especialmente si algunas tienen valores predeterminados o son autoincrementables.
- **valor1, valor2, ... :** Los valores correspondientes a las columnas especificadas. Deben estar en el mismo orden que las columnas y deben ser del tipo de dato adecuado para cada columna.

Insertemos unos cuantos valores:

- Luis, 24, Madrid, 8.5
- Ana, 32, Lugo, 6.25
- Juan, 35, Bilbao, 5.55
- Nuria, 41, Alicante, 9.75


In [51]:
# Usa este diccionario para no ir valor a valor:
datos = {
    "Luis": (24,"Madrid", 8.5),
    "Ana": (32,"Lugo", 6.25),
    "Juan": (35, "Bilbao", 5.55),
    "Nuria": (51, "Alicante", 9.75)
}


In [54]:
for indice,(nombre, valores) in enumerate(datos.items()):
    edad = valores[0]
    ciudad = valores[1]
    nota = valores[2]
    query = f"INSERT INTO Master_class (ID, NOMBRE, EDAD, CIUDAD, NOTAS) VALUES ({indice}, '{nombre}', {edad}, '{ciudad}', {nota})" # Si son strings han de ir entre '', los INT no
    cursor_gestion.execute(query)

IntegrityError: UNIQUE constraint failed: Master_Class.ID

Y, esto es importante, ahora es necesario hacer algo que no habíamos hecho hasta ahora, y que se parece a lo que hacemos con los repos, hay que confirmarle a nuestro gestor que queremos hacer los cambios:

In [55]:
connection.commit()

Para comprobar que realmente se han hecho los cambios haríamos nuestra consulta y podríamos pasarlo a un `DataFrame` pero vaya, no tenemos nuestra función, no importa porque ya es hora de que te enseñe otra cosa:

In [56]:
query = '''
SELECT *
FROM Master_Class
'''
df = pd.read_sql(query, connection)
df

Unnamed: 0,ID,NOMBRE,EDAD,CIUDAD,NOTAS
0,0,Luis,24,Madrid,8.5
1,1,Ana,32,Lugo,6.25
2,2,Juan,35,Bilbao,5.55
3,3,Nuria,51,Alicante,9.75


### IMPORTANTE:
CERRAR CONEXIÓN

In [57]:
connection.close()

In [58]:
connection = sqlite3.connect("gestion_sesion.db")
cursor_gestion = connection.cursor()
query_create = '''
CREATE TABLE Master_Class (
ID       INT PRIMARY KEY, -- nombre tipo_de_dato restricción como hemos visto antes
NOMBRE   TEXT NOT NULL,
EDAD     INT NOT NULL,
CIUDAD   CHARS(50), -- Le decimos que este campo siempre tiene 50 caracteres, y los que no llene los rellenará con espacios
NOTAS    FLOAT
)
'''
cursor_gestion.execute(query_create)
# Usa este diccionario para no ir valor a valor:
datos = {
    "Luis": (24,"Madrid", 8.5),
    "Ana": (32,"Lugo", 6.25),
    "Juan": (35, "Bilbao", 5.55),
    "Nuria": (51, "Alicante", 9.75)
}
for indice,(nombre,valores) in enumerate(datos.items()):
    edad = valores[0]
    ciudad = valores[1]
    notas = valores[2]
    query = f"INSERT INTO Master_Class (ID,NOMBRE,EDAD,CIUDAD,NOTAS) VALUES ({indice},'{nombre}',{edad},'{ciudad}',{notas})"
    cursor_gestion.execute(query)


OperationalError: table Master_Class already exists

### Update

La sintaxis general de UPDATE es:

```sql
UPDATE nombre_tabla
SET columna1 = valor1, columna2 = valor2, ...
WHERE condicion;
```

- **nombre_tabla:** Es el nombre de la tabla donde se realizarán las modificaciones.
- **SET columna1 = valor1, columna2 = valor2, ... :** Aquí se listan las columnas que se van a actualizar y los nuevos valores que se les asignarán. Puedes actualizar una o varias columnas a la vez.
- **WHERE condicion:** Especifica qué registros deben ser actualizados. La condición puede ser cualquier expresión lógica válida. Si omites la cláusula WHERE, todos los registros en la tabla serán actualizados, lo cual puede tener consecuencias no deseadas.  
Modifiquemos en nuestra tabla la edad de Nuria por 48 y comprobemos el resultado utlizando `read_sql`

In [59]:
query = '''
UPDATE Master_class
SET edad = 48
WHERE nombre = "Nuria"
'''
cursor_gestion.execute(query)
pd.read_sql("SELECT * FROM Master_Class", connection)

OperationalError: no such column: edad

In [60]:
connection.commit() #--->Para que el cambio se quede guardado

### Delete
DELETE nos permite borrar filas de las tablas, y sigue esta sintaxis:  
```sql
DELETE FROM nombre_tabla WHERE condicion;
```

- **nombre_tabla:** Es el nombre de la tabla de la cual se eliminarán los registros.
- **condicion:** Especifica qué registros deben ser eliminados. Puede ser cualquier expresión lógica válida.

Si omites la cláusula WHERE en una instrucción DELETE, todos los registros de la tabla especificada serán eliminados, lo cual debe hacerse con precaución.  
Borremos las filas de los alumnos con menos de un 7:

In [61]:
query = '''
DELETE FROM Master_Class
'''
cursor_gestion.execute(query)
pd.read_sql("SELECT * FROM Master_Class", connection)

Unnamed: 0,ID,NOMBRE,CIUDAD,NOTAS


Eh, que susto, tranquilidad, como con `INSERT` y `UPDATE` es necesario hacer el commit para que los cambios se hagan efectivos. En este caso cierra la conexión a la base de datos y abre una nueva.

In [62]:
connection.close()
connection = sqlite3.connect("gestion_sesion.db")
cursor_gestion = connection.cursor()
pd.read_sql("SELECT * FROM Master_Class", connection)

Unnamed: 0,ID,NOMBRE,CIUDAD,NOTAS
0,0,Luis,Madrid,8.5
1,3,Nuria,Alicante,9.75


In [63]:
# Y ahora sí borremos esas filas:
query = '''
DELETE FROM Master_Class
WHERE notas < 7
'''
cursor_gestion.execute(query)

pd.read_sql("SELECT * FROM Master_Class", connection)

Unnamed: 0,ID,NOMBRE,CIUDAD,NOTAS
0,0,Luis,Madrid,8.5
1,3,Nuria,Alicante,9.75


In [64]:
connection.commit()

### Borrado de columnas  
Igual que en pandas tenemos el método `drop` con su argumento columns para borrar columnas en SQL tenemos:  

```sql
ALTER TABLE nombre_tabla DROP COLUMN nombre_columna;
```

- **nombre_tabla:** Es el nombre de la tabla de la que deseas eliminar una columna.
- **nombre_columna:** Es el nombre de la columna que deseas eliminar.



**Nota Importante:**
- Algunos sistemas de bases de datos pueden requerir modificadores adicionales o tener restricciones específicas para eliminar columnas. Por ejemplo, si otras tablas dependen de la columna que estás intentando eliminar (a través de claves foráneas, por ejemplo), es posible que necesites modificar o eliminar esas dependencias antes de poder eliminar la columna.
- Siempre es una buena práctica hacer una copia de seguridad de tu base de datos antes de realizar cambios estructurales como eliminar columnas.

In [65]:
# Probemos a borrar la columna "edad":
query = '''
ALTER TABLE Master_Class
DROP COLUMN edad
'''

cursor_gestion.execute(query)



OperationalError: no such column: "edad"

In [67]:
pd.read_sql("SELECT * FROM Master_Class", connection)
connection.commit()

### Borrado de tablas  

```sql
DROP TABLE nombre_tabla;
```

**Algunas consideraciones importantes:**

1. **Cuidado con los Datos:** Al usar `DROP TABLE`, la tabla y todos sus datos se eliminan permanentemente. No hay forma de deshacer esta acción en la mayoría de los sistemas de gestión de bases de datos. Asegúrate de que realmente deseas eliminar la tabla y de que has realizado una copia de seguridad de los datos si es necesario.

2. **Dependencias:** Si la tabla está referenciada por otras tablas a través de claves foráneas u otros mecanismos de integridad referencial, es posible que primero debas eliminar o modificar estas dependencias.

3. **Sintaxis Específica del SGBD:** La sintaxis básica de `DROP TABLE` es bastante uniforme en los diferentes sistemas de gestión de bases de datos (SGBD), pero algunos pueden ofrecer opciones adicionales. Por ejemplo, en algunos SGBD puedes usar `DROP TABLE IF EXISTS nombre_tabla;` para evitar errores si la tabla no existe.

4. **Permisos:** Necesitas tener los permisos adecuados en la base de datos para eliminar tablas. Si no tienes los permisos necesarios, la operación fallará.

In [69]:
query = '''
DROP TABLE Master_Class
'''
cursor_gestion.execute(query)
pd.read_sql("SELECT Name FORM sqlite_master WHERE type = 'table'", connection)

OperationalError: no such table: Master_Class