# SQL en Python: Preparativos

Como comentamos en la sesión anterior podrás atacar a una base de datos SQL desde muchas plataformas/lenguajes. Por supuesto, Python es uno de ellos. Para empezar y poder acceder a nuestrar primeras BBDD (Bases de datos) **utilizaremos el módulo sqlite3**.

## Configuración del entorno: Conexión

Lo primero será importarnos sqlite3 y luego nuestro querido pandas. El objetivo de esta unidad y no sólo de esta sesión es que aprendas a extraer datos de una base de datos con SQL, llevarlos a pandas y luego todo lo demás es igual hasta lo visto hasta ahora: Análisis preliminar, duplicados, limpieza, datos faltantes, transformaciones y generación de nuevos datos que puedan servirnos y dejarlo todo preparado para el verdadero análisis o la creación de modelos.

In [1]:
import pandas as pd
import sqlite3

Recordemos los pasos que vimos en la sesión anterior:

1. Conexión a la base de datos  
2. Extracción de los datos  
3. Volcado en Pandas  
4. Procesado (E)T(L) *(la E la hemos hecho en 2. y la L. la veremos al final de la unidad)*  

Como se indica lo primero que haríamos es **establecer conexión con la base de datos** (en concreto con el gestor de bases de datos que contiene la base de datos o bases de datos a la que queramos acceder).

En esta sesión y en las siguientes vamos a leer directamente de un archivo que contiene la base de datos, pero lo normal es que tengamos que configurar la conexión a una base de datos de la empresa. En la última parte de la unidad y en algunos ejercicios sí que usaremos una librería de Python (pymysql) para conectarnos a un gestor MySQL externo.

In [2]:
## Conectamos la BDD chinook.db

connection = sqlite3.connect("C:/Users/david/Downloads/chinook.db")

## Obtenemos un cursor que utilizaremos para hacer las queries

cursor_clase=connection.cursor()

El cursor es un elemento común a los gestores de bases de datos y para nosotros es como un intermediario al que vamos a pasar las queries y comandos en SQL y del que obtendremos los resultados de estas queries y comandos. En general los pasos son: conexión, creación del cursor, interacción a través del cursor.

En un entorno de gestor, todo esto es transparente para el usuario que accede al intérprete de SQL (normalmente gráfico con cajitas) e interactúa directamente.

Veamos un poco más sobre el cursor y cómo interactuar con él.

### Configuración del entorno: Cursor

El cursor tiene varios métodos que nos interesa conocer:

- `execute`  
- `fetchall`  
- `fetchone`  
- `fetchmany`  

### execute

El método `execute` es el que emplearemos para enviarle una sentencia SQL a la base de datos.  

A modo de ejemplo vamos a ejecutar un `SELECT * FROM table` que recordarás que nos devolvía todas las columnas y filas de una tabla. Pero claro ¿qué tabla? En nada veremos cómo obtener las tablas que hay en una base de datos tipo SQLite3, ahora usemos `employees` que es una tabla que tiene esa base de datos que hemos leído:

In [3]:
query = "SELECT * FROM employees"

cursor_clase.execute(query)

<sqlite3.Cursor at 0x279392dfec0>

Muy bien, para eso sirve `execute`: para decirle al cursor lo que tiene que hacer, pero hasta que no usemos los otros métodos no vamos a ver nada.

### fetchone

Este método nos devuelve el primer registro que un cursor haya obtenido al ejecutar una sentencia SQL:

In [4]:
cursor_clase.fetchone()

(1,
 'Adams',
 'Andrew',
 'General Manager',
 None,
 '1962-02-18 00:00:00',
 '2002-08-14 00:00:00',
 '11120 Jasper Ave NW',
 'Edmonton',
 'AB',
 'Canada',
 'T5K 2N1',
 '+1 (780) 428-9482',
 '+1 (780) 428-3457',
 'andrew@chinookcorp.com')

### fetchmany

Este método nos permite recuperar un número determinado de filas, pasándole el valor como parámetro:

In [5]:
cursor_clase.fetchmany(13)

[(2,
  'Edwards',
  'Nancy',
  'Sales Manager',
  1,
  '1958-12-08 00:00:00',
  '2002-05-01 00:00:00',
  '825 8 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 2T3',
  '+1 (403) 262-3443',
  '+1 (403) 262-3322',
  'nancy@chinookcorp.com'),
 (3,
  'Peacock',
  'Jane',
  'Sales Support Agent',
  2,
  '1973-08-29 00:00:00',
  '2002-04-01 00:00:00',
  '1111 6 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5M5',
  '+1 (403) 262-3443',
  '+1 (403) 262-6712',
  'jane@chinookcorp.com'),
 (4,
  'Park',
  'Margaret',
  'Sales Support Agent',
  2,
  '1947-09-19 00:00:00',
  '2003-05-03 00:00:00',
  '683 10 Street SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5G3',
  '+1 (403) 263-4423',
  '+1 (403) 263-4289',
  'margaret@chinookcorp.com'),
 (5,
  'Johnson',
  'Steve',
  'Sales Support Agent',
  2,
  '1965-03-03 00:00:00',
  '2003-10-17 00:00:00',
  '7727B 41 Ave',
  'Calgary',
  'AB',
  'Canada',
  'T3B 1Y7',
  '1 (780) 836-9987',
  '1 (780) 836-9543',
  'steve@chinookcorp.com'),
 (6,
  'Mitche

### fetchall

Este método nos devuelve **todas las filas** capturadas por nuestra sentencia SQL (especialmente útil al ejecutar consultas `SELECT`).

In [6]:
cursor_clase.execute(query)
cursor_clase.fetchall()

[(1,
  'Adams',
  'Andrew',
  'General Manager',
  None,
  '1962-02-18 00:00:00',
  '2002-08-14 00:00:00',
  '11120 Jasper Ave NW',
  'Edmonton',
  'AB',
  'Canada',
  'T5K 2N1',
  '+1 (780) 428-9482',
  '+1 (780) 428-3457',
  'andrew@chinookcorp.com'),
 (2,
  'Edwards',
  'Nancy',
  'Sales Manager',
  1,
  '1958-12-08 00:00:00',
  '2002-05-01 00:00:00',
  '825 8 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 2T3',
  '+1 (403) 262-3443',
  '+1 (403) 262-3322',
  'nancy@chinookcorp.com'),
 (3,
  'Peacock',
  'Jane',
  'Sales Support Agent',
  2,
  '1973-08-29 00:00:00',
  '2002-04-01 00:00:00',
  '1111 6 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5M5',
  '+1 (403) 262-3443',
  '+1 (403) 262-6712',
  'jane@chinookcorp.com'),
 (4,
  'Park',
  'Margaret',
  'Sales Support Agent',
  2,
  '1947-09-19 00:00:00',
  '2003-05-03 00:00:00',
  '683 10 Street SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5G3',
  '+1 (403) 263-4423',
  '+1 (403) 263-4289',
  'margaret@chinookcorp.com'),
 (5,


### Atributo description

Para obtener los nombres de las columnas tenemos el atributo description


In [7]:
cursor_clase.description

(('EmployeeId', None, None, None, None, None, None),
 ('LastName', None, None, None, None, None, None),
 ('FirstName', None, None, None, None, None, None),
 ('Title', None, None, None, None, None, None),
 ('ReportsTo', None, None, None, None, None, None),
 ('BirthDate', None, None, None, None, None, None),
 ('HireDate', None, None, None, None, None, None),
 ('Address', None, None, None, None, None, None),
 ('City', None, None, None, None, None, None),
 ('State', None, None, None, None, None, None),
 ('Country', None, None, None, None, None, None),
 ('PostalCode', None, None, None, None, None, None),
 ('Phone', None, None, None, None, None, None),
 ('Fax', None, None, None, None, None, None),
 ('Email', None, None, None, None, None, None))

Para poder quedarnos con el nombre de las columnas:

In [8]:
names_col = [descript[0] for descript in cursor_clase.description]
names_col

['EmployeeId',
 'LastName',
 'FirstName',
 'Title',
 'ReportsTo',
 'BirthDate',
 'HireDate',
 'Address',
 'City',
 'State',
 'Country',
 'PostalCode',
 'Phone',
 'Fax',
 'Email']

### Convirtiendo a pandas la salida

Para terminar la sesión, veamos cómo convertir a Pandas la salida. Es tan sencillo como:
1. Pasar la tupla de datos obtenida
2. Usar como columnas los nombres extraídos de la descripción

In [9]:
cursor_clase.execute(query)
resultado = cursor_clase.fetchall()
df= pd.DataFrame(resultado,columns=names_col)
df

Unnamed: 0,EmployeeId,LastName,FirstName,Title,ReportsTo,BirthDate,HireDate,Address,City,State,Country,PostalCode,Phone,Fax,Email
0,1,Adams,Andrew,General Manager,,1962-02-18 00:00:00,2002-08-14 00:00:00,11120 Jasper Ave NW,Edmonton,AB,Canada,T5K 2N1,+1 (780) 428-9482,+1 (780) 428-3457,andrew@chinookcorp.com
1,2,Edwards,Nancy,Sales Manager,1.0,1958-12-08 00:00:00,2002-05-01 00:00:00,825 8 Ave SW,Calgary,AB,Canada,T2P 2T3,+1 (403) 262-3443,+1 (403) 262-3322,nancy@chinookcorp.com
2,3,Peacock,Jane,Sales Support Agent,2.0,1973-08-29 00:00:00,2002-04-01 00:00:00,1111 6 Ave SW,Calgary,AB,Canada,T2P 5M5,+1 (403) 262-3443,+1 (403) 262-6712,jane@chinookcorp.com
3,4,Park,Margaret,Sales Support Agent,2.0,1947-09-19 00:00:00,2003-05-03 00:00:00,683 10 Street SW,Calgary,AB,Canada,T2P 5G3,+1 (403) 263-4423,+1 (403) 263-4289,margaret@chinookcorp.com
4,5,Johnson,Steve,Sales Support Agent,2.0,1965-03-03 00:00:00,2003-10-17 00:00:00,7727B 41 Ave,Calgary,AB,Canada,T3B 1Y7,1 (780) 836-9987,1 (780) 836-9543,steve@chinookcorp.com
5,6,Mitchell,Michael,IT Manager,1.0,1973-07-01 00:00:00,2003-10-17 00:00:00,5827 Bowness Road NW,Calgary,AB,Canada,T3B 0C5,+1 (403) 246-9887,+1 (403) 246-9899,michael@chinookcorp.com
6,7,King,Robert,IT Staff,6.0,1970-05-29 00:00:00,2004-01-02 00:00:00,590 Columbia Boulevard West,Lethbridge,AB,Canada,T1K 5N8,+1 (403) 456-9986,+1 (403) 456-8485,robert@chinookcorp.com
7,8,Callahan,Laura,IT Staff,6.0,1968-01-09 00:00:00,2004-03-04 00:00:00,923 7 ST NW,Lethbridge,AB,Canada,T1H 1Y8,+1 (403) 467-3351,+1 (403) 467-8772,laura@chinookcorp.com


## Primeras Queries

## Conexión a base de datos y exploración de tablas

En la sesión anterior vimos:
- Cómo conectarnos a una base de datos (o archivo)
- Cómo crear y usar un cursor para consultar datos

**Pendiente por cubrir:**
Cómo identificar las tablas disponibles en la base de datos para trabajar prácticamente con SQL.

**Objetivo de esta sesión:**
Resolver esta necesidad explorando la estructura de la base de datos.

**Primeros pasos:**
1. Realizar los imports necesarios
2. Cargar la base de datos

In [10]:
import pandas as pd
import sqlite3

## Tablas y Schema

Para ver las tablas que hay en una base de datos con las que hemos establecido conexión en el caso de sqlite3:

In [11]:
cursor_bootcamp=cursor_clase
res = cursor_bootcamp.execute("SELECT name FROM sqlite_master WHERE type = 'table'")
tablas = []
for name in res:
    print(name[0])
    tablas.append(name[0])

albums
sqlite_sequence
artists
customers
employees
genres
invoices
invoice_items
media_types
playlists
playlist_track
tracks
sqlite_stat1
films


Fíjate que hemos empleado una consulta (SELECT) sql sobre una tabla, que se denomina maestra, y le hemos pasado la query al gestor a través del cursor.

Ahora podríamos recorrer todas las tablas y sacar sus nombres de columnas o podríamos investigar las columnas de esa tabla maestra y de ahí obtener el modelo de datos. Recuerda que el modelo de datos de una Base de Datos relacional es el mapa de todas las tablas de esa Base de Datos con el nombre de sus campos, el tipo de valores que guardan esos campos y las relaciones que hay entre las tablas.

### Modelo de datos

Antes de empezar a atacar una base de datos, tendremos que saber qué hay dentro, y para ello lo mejor es ver cómo es su **modelo de datos**. Como he comentado podríamos intentar sacarlo de los nombres de los campos de las tablas o bien utilizar otros módulos externos o herramientas externas, pero dado que nosotros seremos principalmente consumidores, lo más efectivo será preguntar por él.

### SELECT

In [12]:
query = '''
SELECT *
FROM tracks
'''

Como puedes ver se suele utilizar las triple comillas y la consulta en varias líneas según la parte del SELECT que corresponda, pero no es imperativo, puedes poner toda la sentencia en una sola línea tal y como hemos hecho al consultar el nombre de todas las tablas contenidas en la base de datos. Completemos la ejecución y volquemos a un DataFrame tal y como vimos:

In [13]:
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado,columns=col)
df

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99
...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99


# Selección de campos

Seleccionemos ahora algunos campos únicamente y además cambiémosle el nombre al vuelo, mediante la sintaxis `campo AS nuevo_nombre`. **Si quieres poner espacios en el nombre del campo, tendrás que rodear el string con comillas dobles**.

Y recuerda: SQL no es sensible a mayúsculas y minúsculas. (`"este_CampO" == "ESTE_CAMPO"`)



In [14]:
query = '''
SELECT Name AS "Nombre Canción", composer AS "Compositor"
FROM tracks
'''

In [15]:
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns=col)
df

Unnamed: 0,Nombre Canción,Compositor
0,For Those About To Rock (We Salute You),"Angus Young, Malcolm Young, Brian Johnson"
1,Balls to the Wall,
2,Fast As a Shark,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,Restless and Wild,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Princess of the Dawn,Deaffy & R.A. Smith-Diesel
...,...,...
3498,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,
3499,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",Franz Schubert
3500,"L'orfeo, Act 3, Sinfonia (Orchestra)",Claudio Monteverdi
3501,"Quintet for Horn, Violin, 2 Violas, and Cello ...",Wolfgang Amadeus Mozart


## LIMIT y DISTINCT

Para terminar la sesión veamos cómo usar dos modificadores: LIMIT (que ya vimos en la introducción teórica) y DISTINCT (que es el equivalente del método `unique()` en pandas).

### LIMIT

Se usa para acotar el número de registros de la query. Va siempre al final. Por ejemplo: `LIMIT 10`

In [16]:

query = '''
SELECT Name AS "Nombre Canción"
FROM tracks
LIMIT 10
'''

In [17]:
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns=col)
df

Unnamed: 0,Nombre Canción
0,For Those About To Rock (We Salute You)
1,Balls to the Wall
2,Fast As a Shark
3,Restless and Wild
4,Princess of the Dawn
5,Put The Finger On You
6,Let's Get It Up
7,Inject The Venom
8,Snowballed
9,Evil Walks


## DISTINCT

Se usa para obtener todos los registros únicos, es decir, sin duplicados. Lo podremos emplear:
- Para eliminar duplicados (aunque te recomiendo que no modifiques los datos de las bases de datos, vuelca a pandas y modifica ahí)
- Para ver todas las casuísticas de un campo en concreto

**⚠️ Mucho cuidado con esta sentencia** ya que si la tabla tiene miles o millones de registros, puede ralentizar mucho la query.

In [18]:

query = '''
SELECT DISTINCT Composer
FROM tracks
'''

In [19]:
cursor_bootcamp.execute(query)
resultado = cursor_bootcamp.fetchall()
col = [d[0] for d in cursor_bootcamp.description]
df = pd.DataFrame(resultado, columns=col)
df

Unnamed: 0,Composer
0,"Angus Young, Malcolm Young, Brian Johnson"
1,
2,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Deaffy & R.A. Smith-Diesel
...,...
848,Carl Nielsen
849,Niccolò Paganini
850,Pietro Antonio Locatelli
851,Claudio Monteverdi


SQL en Python: WHERE

Bueno, pues ya empezamos con las clausulas WHERE aunque por ahora serán relativamente sencillas. Vamos haciendo las cargas de rigor:


In [20]:
import pandas as pd
import sqlite3

# Conectamos con la base de datos chinook.db
connection = sqlite3.connect("C:/Users/david/Downloads/chinook.db")

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_booleanp = connection.cursor()

## Una función muy práctica  

Si te fijaste en la sesión anterior repetíamos siempre el mismo código y esquema para hacer una query y luego llevarla a un dataframe. Es en esos casos en los que una función se hace necesaria... por ejemplo:  

In [21]:
# Con esta función Leemos Los datos y lo pasamos a un DataFrame de Pandas  

def sql_query(query):
    # Ejecuta la query  
    cursor_bootcamp.execute(query) # Recuerda que sólo funcionará si has llamado cursor_  
        # a tu cursor.

    # Almacena Los datos de la query  
    ans = cursor_bootcamp.fetchall()

    # Obtenemos los nombres de las columnas de la tabla  
    names = [description[0] for description in cursor_bootcamp.description]

    return pd.DataFrame(ans, columns=names)

In [22]:
query =  '''
SELECT composer
FROM tracks
'''
sql_query(query)

Unnamed: 0,Composer
0,"Angus Young, Malcolm Young, Brian Johnson"
1,
2,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho..."
3,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D..."
4,Deaffy & R.A. Smith-Diesel
...,...
3498,
3499,Franz Schubert
3500,Claudio Monteverdi
3501,Wolfgang Amadeus Mozart


### WHERE  

Se usa para filtrar filas como ya sabes, veamos algunos ejemplos de uso:  

### Filtros numéricos  

**Un valor numérico**  
- `UnitPrice = 0.99`  
- `UnitPrice >= 0.99`  
- `UnitPrice < 0.99`  

In [23]:
# Escogiendo La tabla tracks: canciones que duren más de 6 minutos (360000 milisegundos)
minutos = 6
query = f'''
SELECT name AS "Nombre Canción", 
       Milliseconds AS "Duración"
FROM tracks
WHERE Milliseconds > {minutos * 60 * 1000}
'''

sql_query(query)

Unnamed: 0,Nombre Canción,Duración
0,Princess of the Dawn,375418
1,Let There Be Rock,366654
2,Overdose,369319
3,Livin' On The Edge,381231
4,You Oughta Know (Alternate),491885
...,...,...
618,Symphony No. 3 Op. 36 for Orchestra and Sopran...,567494
619,"Act IV, Symphony",364296
620,"3 Gymnopédies: No.1 - Lent Et Grave, No.3 - Le...",385506
621,Symphony No. 2: III. Allegro vivace,376510


In [24]:
minutos = 6
query = f'''
SELECT name AS "Nombre Canción", 
       Milliseconds/1000 AS "Duración"
FROM tracks
WHERE Milliseconds > {minutos * 60 * 1000}
'''

sql_query(query)

Unnamed: 0,Nombre Canción,Duración
0,Princess of the Dawn,375
1,Let There Be Rock,366
2,Overdose,369
3,Livin' On The Edge,381
4,You Oughta Know (Alternate),491
...,...,...
618,Symphony No. 3 Op. 36 for Orchestra and Sopran...,567
619,"Act IV, Symphony",364
620,"3 Gymnopédies: No.1 - Lent Et Grave, No.3 - Le...",385
621,Symphony No. 2: III. Allegro vivace,376


### Filtros sobre campos de texto

- **Un valor string**: Name = 'Restless and Wild'

- **string contenido**:
  - strings que empiecen por 'A': Name like 'A%'
  - strings que acaben en 'A': Name like '%/L'
  - strings que lleven 'A' en algun punto: Name like '%A%

In [25]:
query = '''
SELECT * 
FROM tracks
WHERE composer LIKE "Brian%"
'''

sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,115,Please Mr. Postman,12,1,5,Brian Holland/Freddie Gorman/Georgia Dobbins/R...,137639,2206986,0.99
1,427,Who Wants To Live Forever,36,1,1,Brian May,297691,9577577,0.99
2,432,Hammer To Fall,36,1,1,Brian May,220316,7255404,0.99
3,1776,You've Been A Long Time Coming,146,1,14,Brian Holland/Eddie Holland/Lamont Dozier,137221,4437949,0.99
4,2125,United Colours,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",330266,10939131,0.99
5,2126,Slug,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",281469,9295950,0.99
6,2127,Your Blue Room,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",328228,10867860,0.99
7,2128,Always Forever Now,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",383764,12727928,0.99
8,2129,A Different Kind Of Blue,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",120816,3884133,0.99
9,2130,Beach Sequence,176,1,10,"Brian Eno, Bono, Adam Clayton, The Edge & Larr...",212297,6928259,0.99


In [26]:
query = '''
SELECT * 
FROM tracks
WHERE composer LIKE "%Brian%"
'''

sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,6,Put The Finger On You,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",205662,6713451,0.99
2,7,Let's Get It Up,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",233926,7636561,0.99
3,8,Inject The Venom,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",210834,6852860,0.99
4,9,Snowballed,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",203102,6599424,0.99
5,10,Evil Walks,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",263497,8611245,0.99
6,11,C.O.D.,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",199836,6566314,0.99
7,12,Breaking The Rules,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",263288,8596840,0.99
8,13,Night Of The Long Knives,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",205688,6706347,0.99
9,14,Spellbound,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",270863,8817038,0.99


## Filtros varios

- **Varios valores**: Genred in (1, 5, 12)
- **Distinto de**: UnitPrice <> 0.99

In [27]:
## Clientes que viven en Berlin, Londres o París

query = '''
SELECT FirstName "Nombre", LastName "Apellido", City "Ciudad"
FROM Customers
WHERE City in ("Berlin", "London", "Paris")
'''

In [28]:
sql_query(query)

Unnamed: 0,Nombre,Apellido,Ciudad
0,Hannah,Schneider,Berlin
1,Niklas,Schröder,Berlin
2,Camille,Bernard,Paris
3,Dominique,Lefebvre,Paris
4,Emma,Jones,London
5,Phil,Hughes,London


## Combinaciones booleanas de condiciones

Por supuesto podemos combinar los filtros ya que no dejan de ser condiciones booleanas al igual que hacemos con los DataFrame de pandas. Complicando un poco más el WHERE

In [29]:
# Busquemos las canciones que cuesten más de 0.99 o duren menos de 3 minutos y además de query = ...**
query = '''
SELECT *
FROM tracks
WHERE (unitprice > 0.99 OR Milliseconds < 3*60*1000) AND Name LIKE "%fire%"
'''
sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1486,Fire,120,1,1,Jimi Hendrix,164989,5383075,0.99
1,1948,Fire Fire,160,1,3,Clarke/Kilmister/Taylor,164675,5416114,0.99
2,2666,Play With Fire,216,1,1,Nanker Phelge,132022,4265297,0.99
3,2892,Fire + Water,231,3,21,,2600333,488458695,1.99
4,3181,The Fire,250,3,19,,1288166,266856017,1.99
5,3239,Fire In Space,253,3,20,,2926593,536784757,1.99
6,3449,"Music for the Royal Fireworks, HWV351 (1749): ...",315,2,24,George Frideric Handel,120000,2193734,0.99


## SQL con Python: Ordenación, agregación y agrupación

Vamos con una sesión con varios aspectos interesantes: ordenar la salida y agregar valores.  
Antes carguemos nuestros datos, librerías y la función tan util para ejecutar queries:

In [30]:
import pandas as pd
import sqlite3

# Conectamos con la base de datos chinook.db
connection = sqlite3.connect("C:/Users/david/Downloads/chinook.db")

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_bootcamp = connection.cursor()

## ORDER BY

Podemos **ordenar la tabla por el campo/s que queramos**. Por defecto ordena alfabéticamente los strings y de menor a mayor los tipos numéricos. Si quieres que ordene al revés, tienes que poner DESC de la forma ORDER BY campo DESC (como el ascending = False del sort_values de pandas, o el reverse = True en el caso de sort de listas)

In [31]:
#Obtengamos los datos de la tabla "tracks" ordenados por nombre de forma descendente

query = '''
SELECT *
FROM tracks
ORDER BY name DESC'''

In [32]:
sql_query(query)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1077,Último Pau-De-Arara,85,1,10,Corumbá/José Gumarães/Venancio,200437,6638563,0.99
1,1073,Óia Eu Aqui De Novo,85,1,10,,219454,7469735,0.99
2,2078,Óculos,169,1,7,,219271,7262419,0.99
3,3496,"Étude 1, In C Major - Preludio (Presto) - Liszt",340,4,24,,51780,2229617,0.99
4,333,É que Nessa Encarnação Eu Nasci Manga,29,1,9,Lucina/Luli,196519,6568081,0.99
...,...,...,...,...,...,...,...,...,...
3498,3254,#9 Dream,255,2,9,,278312,4506425,0.99
3499,109,#1 Zero,11,1,4,"Cornell, Commerford, Morello, Wilk",299102,9731988,0.99
3500,3412,"""Eine Kleine Nachtmusik"" Serenade In G, K. 525...",281,2,24,Wolfgang Amadeus Mozart,348971,5760129,0.99
3501,2918,"""?""",231,3,19,,2782333,528227089,1.99


In [33]:
# Obtengamos el nombre de los clientes norteamericanos ordenados por apellido

query = '''
SELECT FirstName "Nombre", LastName "Apellido", Country "País"
FROM Customers
WHERE Country in ("USA","Canada")
ORDER BY LastName
'''

In [34]:
sql_query(query)

Unnamed: 0,Nombre,Apellido,País
0,Julia,Barnett,USA
1,Michelle,Brooks,USA
2,Robert,Brown,Canada
3,Kathy,Chase,USA
4,Richard,Cunningham,USA
5,Edward,Francis,Canada
6,John,Gordon,USA
7,Tim,Goyer,USA
8,Patrick,Gray,USA
9,Frank,Harris,USA


## Agregaciones

Como ocurre cuando trabajamos con datos en ocasiones nos interesa obtener algún estadístico como el máximo de un campo, su desviación estándar o simplemente un conteo de registros no nulos. Para ello podemos usar funciones como MAX, COUNT o AVG. En esta página encontrarás un resumen con las principales funciones.



In [42]:
## Obtener el número de canciones que contienen La palabra Love

query = '''
SELECT COUNT(*)
FROM tracks
WHERE name LIKE "%love%"
'''
sql_query(query)

### Encontrar la media del precio de las canciones compradas

query = '''
SELECT AVG(unitprice)
FROM invoice_items
'''
sql_query(query)


#### Obtener La duración máxima de las canciones

query = '''
SELECT MAX(Milliseconds)/1000
FROM tracks
'''
sql_query(query)

Unnamed: 0,MAX(Milliseconds)/1000
0,5286


## Agrupaciones (GROUP BY):

Para terminar veamos como se hacen agrupaciones empleando GROUP BY, y de forma muy similar a como se hace con pandas.

In [45]:
## Selección del precio unitario en función del género

query = '''
SELECT GenreId, SUM(unitprice) as TOT_PRICE
FROM tracks
GROUP BY GenreId
ORDER BY TOT_PRICE DESC
LIMIT 10
'''

sql_query(query)

Unnamed: 0,GenreId,TOT_PRICE
0,1,1284.03
1,7,573.21
2,3,370.26
3,4,328.68
4,19,185.07
5,2,128.7
6,21,127.36
7,6,80.19
8,24,73.26
9,14,60.39


Calcular cuantas canciones hay por compositor

In [52]:
query = '''
SELECT composer, COUNT(trackid)
FROM tracks
WHERE composer IS NOT NULL
GROUP BY composer
ORDER BY 2 DESC
LIMIT 20
'''

In [53]:
sql_query(query)

Unnamed: 0,Composer,COUNT(trackid)
0,Steve Harris,80
1,U2,44
2,Jagger/Richards,35
3,Billy Corgan,31
4,Kurt Cobain,26
5,Bill Berry-Peter Buck-Mike Mills-Michael Stipe,25
6,The Tea Party,24
7,Miles Davis,23
8,Gilberto Gil,23
9,Chris Cornell,23


Aquí las puntualizaciones son dos:

1. Aquí no hay albumid que sí esté en albums y no esté en tracks por eso no hay nulos en el campo  name  
2. Como ahora comprobaremos el número de registros ha crecido porque ahora hay tantas líneas por album como canciones tenga el album, mientras que la tabla anterior de albums el campo Albumid era único.

In [1]:
query = '''
SELECT *
FROM albums
'''
df_albums = sql_query(query)
df_albums.info()

NameError: name 'sql_query' is not defined