## Introduccción
SQL (Structured Query Language, pronounced "sequel" or ess-cue-ell) es un lenguaje específico de dominio utilizado en la programación y diseñado para la gestión de datos mantenidos en un sistema de gestión de bases de datos relacionales (RDBMS), o para el procesamiento de flujos en un sistema de gestión de flujos de datos relacionales (RDSMS). Es especialmente útil para manejar datos estructurados en los que existen relaciones entre diferentes entidades/variables de los datos. SQL es una herramienta muy importante que los científicos de datos deben tener en su repertorio.

Una base de datos relacional es, sencillamente, una base de datos que almacena información relacionada en varias tablas y permite consultar la información de más de una tabla al mismo tiempo. Dentro de una tabla, los datos que se almacenan se organizan en un formato tabular con filas y columnas. Cada fila dentro de una tabla representa un registro distinto y los títulos de las columnas especifican el tipo de datos almacenados correspondiente. El software que se utiliza para gestionar una base de datos digital se denomina Sistema de Gestión de Bases de Datos (SGBD). Existen bastantes sistemas de bases de datos (como MySQL, PostgreSQL, IBM Db2 y Oracle Database, etc.). El sitio web DB-Engines recoge y presenta información sobre los SGBD y ofrece un listado mensual de los mismos, clasificados según su popularidad actual. Es probable que a lo largo de tu formación y tu trabajo te encuentres con muchos tipos diferentes de bases de datos. Sin embargo, todas ellas hablan SQL, por lo que una vez que hayas aprendido la sintaxis básica de SQL podrás trabajar con cualquiera de ellas.

Para simplificar las cosas, utilizaremos un sistema de base de datos llamado SQLite para practicar la sintaxis SQL. SQLite es una biblioteca en proceso que implementa un motor de base de datos SQL transaccional autónomo, sin servidor y sin configuración. A diferencia de la mayoría de las bases de datos SQL, SQLite no tiene un proceso de servidor separado. SQLite lee y escribe directamente en archivos de disco normales. Una base de datos SQL completa, con múltiples tablas, índices, triggers y vistas, está contenida en un único archivo de disco. Es la base de datos más extendida en el mundo. Pero toda tecnología tiene una contrapartida. Al no tener un servidor que gestione el acceso a la misma, falla en entornos multiusuario donde varias personas pueden editar simultáneamente el archivo SQLite.

Hay varias formas de consultar una base de datos SQLite con python, como sqlite3 y SQLAlchemy. Sin embargo, utilizamos las funciones mágicas de ipython-sql para consultar una base de datos sqllite ya que es más sencillo y conciso. ipython-sql introduce una magia %sql (o %%sql) a los cuadernos que le permite conectarse a una base de datos, utilizando las cadenas de conexión de SQLAlchemy, y luego emitir comandos SQL dentro de IPython o Jupyter/IPython Notebook. Sin embargo, si no utilizas la magia %%sql en tu cuaderno Jupyter, la salida de tus consultas SQL será una simple lista de tuplas. Una mejor manera de trabajar con los conjuntos de resultados devueltos es dibujarlos como una tabla con las cabeceras. Aquí es donde la magia de IPython SQL se vuelve muy útil.

Puedes instalarlo usando pip install ipython-sql o conda install ipython-sql. La librería ipython-sql se carga usando %load_ext al igual que la sintaxis de otras extensiones de iPython.

## Ventajas del uso de SQL (Rahul, 2018)
- Está estandarizado

    - no importa qué base de datos relacional elijas, tendrá un intérprete de consultas SQL incorporado. La gran popularidad de SQL hace que valga la pena el tiempo de todos los que interactúan con un sistema de datos.

- Tiene una sintaxis razonable en inglés.

    - No hay que especificar ninguno de los minuciosos detalles de los lenguajes de programación como C o Java cuando se utiliza SQL. Es conciso, fácil de entender y fácil de escribir consultas a la base de datos. Es de naturaleza declarativa, lo que significa que sólo hay que declarar lo que se quiere conseguir en lugar de repasar los pasos para conseguir los resultados.

- Permite una forma uniforme de consultar y administrar una base de datos relacional.
    - Muchos de los comandos de administración de bases de datos son comandos SQL estándar, lo que facilita la transferencia de conocimientos.

- Es estable/robusto/maduro: SQL lleva más de 35 años en el mercado.
    - Aunque se le han añadido muchas funciones nuevas, el núcleo de SQL ha permanecido prácticamente inalterado. Puede ser muy útil conocer algunos conceptos y comandos básicos de SQL, que le servirán en el futuro.

Sin embargo, ten en cuenta que, aunque es similar en todos los SGBD, existen sutiles diferencias. Estas diferencias son el resultado de diferentes interpretaciones del estándar, diferentes estilos de desarrollo o diferentes arquitecturas subyacentes. En la práctica, consulte sus documentos técnicos para conocer los detalles.

## Referencias

SQL Primer: An Accelerated Introduction to SQL Basics by Rahul Batra. Rahul Batra (2018). https://doi.org/10.1007/978-1-4842-3576-8_7

Effective SQL: 61 Specific Ways to Write Better SQL by by John L. Viescas, Douglas J. Steele, Ben G. Clothier (2016). ISBN-13: 978-0134578897.

https://www.sqlite.org/about.html

https://github.com/catherinedevlin/ipython-sql

https://en.wikipedia.org/wiki/SQL

http://jupyter.org/

## Empecemos

Este inicio rápido es un ejemplo completo para mostrar cómo

- crear una base de datos SQLite
- crear una tabla de datos
- insertar datos en la tabla;
- consultar los datos de la tabla.

In [1]:
!pip install ipython-sql sqlalchemy



In [None]:
%load_ext sql
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

## Crear una base de datos SQLite

Para practicar, es aconsejable crear una base de datos propia, para poder realizar cualquier operación sobre ella. Si utilizamos el shell de SQLite, podemos aplicar el comando open tanto para crear una base de datos SQLite como para abrirla en caso de que ya exista, tal y como

- sqlite> .open testdb

Del mismo modo, podemos utilizar ipython-sql para lo mismo:

In [3]:
%sql sqlite:///data/writers.db3

In [4]:
%%sql sqlite://
CREATE TABLE writer(
    FirstName VARCHAR(50) NOT NULL,
    LastName VARCHAR(50) NOT NULL,  
    USERID int  NOT NULL UNIQUE, 
    PRIMARY KEY (USERID)
);

Done.


[]

In [5]:
%sql SELECT name FROM sqlite_master WHERE type='table'

 * sqlite:///data/writers.db3
Done.


name
writer


## Añadir datos a la tabla
La tabla que acabamos de crear está vacía. Ahora insertamos en ella algunos datos de ejemplo. Para rellenar estos datos en forma de filas, utilizamos el comando INSERT.

In [6]:
%%sql sqlite://
INSERT INTO writer VALUES ('William', 'Shakespeare', 1616);
INSERT INTO writer VALUES ('Lin', 'Han', 1996);
INSERT INTO writer VALUES ('Peter', 'Brecht', 1978);

1 rows affected.
1 rows affected.
1 rows affected.


[]

## Escribir la primera consulta
Ahora vamos a escribir una consulta sencilla para comprobar los resultados de nuestras operaciones anteriores en las que hemos creado una tabla y hemos insertado tres filas de datos en ella. Para ello, utilizaremos el comando llamado SELECT.

Podemos poner el resultado de la consulta en una variable como la siguiente sqlres.

In [7]:
sqlres = %sql SELECT * from writer
sqlres

 * sqlite:///data/writers.db3
Done.


FirstName,LastName,USERID
William,Shakespeare,1616
Lin,Han,1996
Peter,Brecht,1978


In [8]:
sqlres = %sql SELECT FirstName, LastName from writer
sqlres

 * sqlite:///data/writers.db3
Done.


FirstName,LastName
William,Shakespeare
Lin,Han
Peter,Brecht


# Continuemos...

## Consulta de información de tablas
Este ejemplo mostrará cómo consultar el número de tablas y las columnas de una tabla dada una base de datos utilizando el poderoso SELECT.

In [9]:
%sql sqlite:///data/demo.db3

## Listar las tablas de una base de datos
Los nombres de las tablas y los índices se pueden listar haciendo un SELECT en una tabla especial llamada "SQLITE_MASTER". Cada base de datos SQLite tiene una tabla SQLITE_MASTER que define el esquema de la base de datos. Para las tablas, el campo type siempre será 'table' y el campo name será el nombre de la tabla. Así que para obtener una lista de todas las tablas de la base de datos, utilice el siguiente comando SELECT:

Vea más en https://www.sqlite.org/faq.html#q7.

In [10]:
%sql SELECT name FROM sqlite_master WHERE type='table'

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


name
rch
hru
sub
sed
watershed_daily
watershed_monthly
watershed_yearly
channel_dimension
hru_info
sub_info


## Enumerar las columnas de una tabla
Tomamos como ejemplo la tabla de rch

In [11]:
%sql select * from rch where 1=0

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


RCH,YR,MO,FLOW_INcms,FLOW_OUTcms,EVAPcms,TLOSScms,SED_INtons,SED_OUTtons,SEDCONCmg_kg,ORGN_INkg,ORGN_OUTkg,ORGP_INkg,ORGP_OUTkg,NO3_INkg,NO3_OUTkg,NH4_INkg,NH4_OUTkg,NO2_INkg,NO2_OUTkg,MINP_INkg,MINP_OUTkg,CHLA_INkg,CHLA_OUTkg,CBOD_INkg,CBOD_OUTkg,DISOX_INkg,DISOX_OUTkg,SOLPST_INmg,SOLPST_OUTmg,SORPST_INmg,SORPST_OUTmg,REACTPSTmg,VOLPSTmg,SETTLPSTmg,RESUSP_PSTmg,DIFFUSEPSTmg,REACBEDPSTmg,BURYPSTmg,BED_PSTmg,BACTP_OUTct,BACTLP_OUTct,CMETAL_1kg,CMETAL_2kg,CMETAL_3kg,TOT_Nkg,TOT_Pkg,NO3ConcMg_l,WTMPdegc


## Obtenemos la información de la tabla simplemente usando SELECT * con el trabajo clave de LIMIT
Puede intentar cambiar el número de límite a 1, 2 para comprobar los resultados.

In [12]:
%sql select * from rch LIMIT 0

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


RCH,YR,MO,FLOW_INcms,FLOW_OUTcms,EVAPcms,TLOSScms,SED_INtons,SED_OUTtons,SEDCONCmg_kg,ORGN_INkg,ORGN_OUTkg,ORGP_INkg,ORGP_OUTkg,NO3_INkg,NO3_OUTkg,NH4_INkg,NH4_OUTkg,NO2_INkg,NO2_OUTkg,MINP_INkg,MINP_OUTkg,CHLA_INkg,CHLA_OUTkg,CBOD_INkg,CBOD_OUTkg,DISOX_INkg,DISOX_OUTkg,SOLPST_INmg,SOLPST_OUTmg,SORPST_INmg,SORPST_OUTmg,REACTPSTmg,VOLPSTmg,SETTLPSTmg,RESUSP_PSTmg,DIFFUSEPSTmg,REACBEDPSTmg,BURYPSTmg,BED_PSTmg,BACTP_OUTct,BACTLP_OUTct,CMETAL_1kg,CMETAL_2kg,CMETAL_3kg,TOT_Nkg,TOT_Pkg,NO3ConcMg_l,WTMPdegc


## O utilizar directamente Select *
**Advertencia** Esta tabla contiene demasiados registros. Es mejor no consultarlos todos.

In [22]:
%sql select * from rch

## Recuperación de datos con SELECT
Cuando se trabaja con bases de datos y SQL, la tarea más común es solicitar datos de una o más tablas, que devuelven estos datos en forma de una tabla de resultados. Estas tablas de resultados se denominan conjuntos de resultados. La sentencia **SELECT** se encarga de ello. En la mayoría de las aplicaciones, **SELECT** es el comando de lenguaje de consulta de datos (DQL) más utilizado. Además, el **SELECT** puede hacer mucho más que simplemente recuperar y mostrar datos y se lo mostraré en las siguientes secciones.

##Sintaxis de SELECT

- SELECT columna1, columna2, columnaN FROM nombre_tabla;
Aquí, columna1, columna2... son los campos (o columnas) de una tabla (nombre_tabla).

Sin embargo, si quiere consultar todos los registros, sólo tiene que utilizar

- SELECT * FROM nombre_tabla;

In [21]:
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


Si no recuerda las tablas de los datos demo, siempre puede utilizar el comando follow para realizar la consulta. Aquí seleccionamos la tabla de watershed_yearly como ejemplo.

In [23]:
%sql SELECT name FROM sqlite_master WHERE type='table'

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


name
rch
hru
sub
sed
watershed_daily
watershed_monthly
watershed_yearly
channel_dimension
hru_info
sub_info


## Recuperar todos los datos
Como ya sabemos, la operación SQL más común es una sentencia SELECT, que extrae datos de una tabla y luego muestra los resultados. Vamos a escribir nuestra primera sentencia SQL.

In [None]:
%sql SELECT * From watershed_yearly

## Recuperación de datos de columnas específicas
En muchos casos, no es necesario extraer todas las columnas en una sentencia SELECT. También puede elegir sólo las columnas que le interesan. La siguiente consulta sólo extraerá las columnas YR, PREC_mm y PET_mm:

In [24]:
%sql SELECT YR, PREC_mm, PET_mm From watershed_yearly

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


YR,PREC_mm,PET_mm
1981,895.6051025390625,840.6874389648438
1982,884.670654296875,872.07470703125
1983,816.6605224609375,797.04736328125
1984,867.5743408203125,911.25634765625
1985,637.7255249023438,990.8557739257812
1986,733.8412475585938,977.513427734375
1987,1007.8944702148438,841.0055541992188
1988,895.8466186523438,891.13330078125
1989,930.10546875,805.931884765625
1990,751.4553833007812,966.4890747070312


## Hacer algunos cálculos en las declaraciones SELECT
:) La sentencia SELECT puede hacer mucho más que simplemente seleccionar columnas.

A veces, también estamos interesados en la relación entre las columnas. Esto se puede hacer con expresiones en las sentencias SELECT. Por ejemplo, me gustaría ver la diferencia entre las columnas **PREC_mm** y **PET_mm** (utilizando el operador menos -). También puede probar otros operadores como +, *, / o %.

In [25]:
%sql SELECT YR, PREC_mm, PET_mm, PET_mm-PREC_mm From watershed_yearly

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


YR,PREC_mm,PET_mm,PET_mm-PREC_mm
1981,895.6051025390625,840.6874389648438,-54.91766357421875
1982,884.670654296875,872.07470703125,-12.595947265625
1983,816.6605224609375,797.04736328125,-19.6131591796875
1984,867.5743408203125,911.25634765625,43.6820068359375
1985,637.7255249023438,990.8557739257812,353.1302490234375
1986,733.8412475585938,977.513427734375,243.67218017578125
1987,1007.8944702148438,841.0055541992188,-166.888916015625
1988,895.8466186523438,891.13330078125,-4.71331787109375
1989,930.10546875,805.931884765625,-124.173583984375
1990,751.4553833007812,966.4890747070312,215.03369140625


Es sorprendente, ¿no? Sin embargo, la expresión se presenta como un nuevo nombre de columna. No es tan bonito. **Es bastante fácil para nosotros darle un nuevo nombre utilizando una sentencia AS (esto se conoce como un alias).**

In [26]:
%sql SELECT YR, PREC_mm, PET_mm, PET_mm-PREC_mm as PED_mm From watershed_yearly

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


YR,PREC_mm,PET_mm,PED_mm
1981,895.6051025390625,840.6874389648438,-54.91766357421875
1982,884.670654296875,872.07470703125,-12.595947265625
1983,816.6605224609375,797.04736328125,-19.6131591796875
1984,867.5743408203125,911.25634765625,43.6820068359375
1985,637.7255249023438,990.8557739257812,353.1302490234375
1986,733.8412475585938,977.513427734375,243.67218017578125
1987,1007.8944702148438,841.0055541992188,-166.888916015625
1988,895.8466186523438,891.13330078125,-4.71331787109375
1989,930.10546875,805.931884765625,-124.173583984375
1990,751.4553833007812,966.4890747070312,215.03369140625


Además de dar nombres a las expresiones utilizando alias, los alias también pueden utilizarse para renombrar una columna existente dentro de la consulta. Por ejemplo, cambiamos el nombre de **PREC_mm** a **Precipitation_mm**.

Sin embargo, hay que tener en cuenta que esta operación no afecta a los datos reales ni cambia el nombre en la tabla, sólo cambia la forma en que se ve en la pantalla. Siempre puedes probar SELECT * From watershed_yearly para ver la data "verdadera".

In [30]:
%sql SELECT YR, PREC_mm as Precipitation_mm, PET_mm, PET_mm-PREC_mm as PED_mm From watershed_yearly

 * sqlite:///data/demo.db3
   sqlite:///data/writers.db3
Done.


YR,Precipitation_mm,PET_mm,PED_mm
1981,895.6051025390625,840.6874389648438,-54.91766357421875
1982,884.670654296875,872.07470703125,-12.595947265625
1983,816.6605224609375,797.04736328125,-19.6131591796875
1984,867.5743408203125,911.25634765625,43.6820068359375
1985,637.7255249023438,990.8557739257812,353.1302490234375
1986,733.8412475585938,977.513427734375,243.67218017578125
1987,1007.8944702148438,841.0055541992188,-166.888916015625
1988,895.8466186523438,891.13330078125,-4.71331787109375
1989,930.10546875,805.931884765625,-124.173583984375
1990,751.4553833007812,966.4890747070312,215.03369140625
