# SQL y slices de Datos

Recuerda que tomar un slice te permite filtrar datos irrelevantes, dejándote solo con lo que necesitas para tu análisis. Sabes cómo obtener slices de datos utilizando el método query() en Python. Llegó la hora de aprender cómo hacerlo en SQL.

El inicio de la condición utilizada para seleccionar datos se marca con el comando WHERE. La condición se evalúa en cada fila de la tabla:

````
SELECT
    column_1,
    column_2 --seleccionar nombres de columna
FROM
    table_name --especificar la tabla
WHERE
    condition;

--definir la condición de selección de fila
````

El orden de los operadores está definido estrictamente:

1) SELECT 

2) FROM

3) WHERE

Ten en cuenta que el bloque WHERE es más general que SELECT: en realidad se procesa primero. WHERE filtra los datos de la tabla en su conjunto mientras que SELECT reduce la selección.

| Nombre | Significado | 
|----------|----------|
| =   | igual a  | 
| <>,!=    | diferente a    |
| >    | mayor que   |
| <    | menor que   |
| >=    | Mayor igual a   |
| <=    | menor igual a  |
 
Seleccionemos todos los libros escritos por Stephen King:

```
SELECT
    name,
    author
FROM
    books
WHERE
    author = 'Stephen King';

--las strings se ponen entre comillas, como en Python
```

... y ahora todos los libros que no fueron escritos por Stephen King:


```
SELECT
    name,
    author
FROM
    books
WHERE
    author != 'Stephen King';
```


Aumentemos la complejidad e intentemos escribir una condición compleja usando operadores lógicos. Al igual que Python, SQL utiliza los operadores lógicos AND (Y), OR (O) y NOT (NO). Recuerda, así es como se diferencian:

Vamos a reducir nuestra selección introduciendo varias condiciones a la vez:


```
SELECT
    *
FROM
    table_name
WHERE
    condition_1
    AND condition_2;

--Selecciona las filas donde ambas condiciones sean verdaderas
SELECT
    *
FROM
    table_name
WHERE
    condition_1
    OR condition_2;

--Selecciona las filas donde una o ambas condiciones sean verdaderas
SELECT
    *
FROM
    table_name
WHERE
    condition_1
    AND NOT condition_2;

--Selecciona las filas donde condition_1 es verdadera y condition_2 es falsa
```

Recuperemos los datos sobre los libros escritos entre 1996 y 2000, incluidos sus autores y el número de páginas:

```
SELECT
    name,
    author,
    date_pub,
    pages
FROM
    books
WHERE
    date_pub > '1995-12-31'
    AND date_pub < '2001-01-01';


/* no se incluyen las fechas de inicio y fin;
para seleccionar todos los días de 1996 a 2000,
hemos tomado el último día de 1995
y el primero del 2001 */
```

Podemos acortar esta instrucción introduciendo una instrucción BETWEEN. A diferencia del código anterior, BETWEEN incluye los límites (aquí, las fechas de inicio y fin) en la selección resultante:

```
SELECT
    name,
    author,
    date_pub,
    pages
FROM
    books
WHERE
    date_pub BETWEEN '1996-01-01'
    AND '2000-12-31';


/* se incluyen las fechas de inicio y fin, por lo que
seleccionamos el primer día del año 1996 
y el último día del 2000 */
```

Los resultados de las dos instrucciones serán los mismos. Elige el enfoque que te guste más. Algunos analistas consideran que el método con dos desigualdades es una mejor solución, ya que establece claramente si los límites del rango están incluidos en la selección. Otros argumentan que las instrucciones con BETWEEN son un mejor código porque son más concisas.

Ahora vamos a escribir una instrucción que seleccione los nombres de todos los libros en los géneros humor, fantasía o novela juvenil.

```
SELECT
    name,
    genre
FROM
    books
WHERE
    genre = 'Humor'
    OR genre = 'Fantasy'
    OR genre = 'Young Adult';
```

Pero, ¿qué pasaría si quisiéramos todos los títulos de una lista de 20 o más géneros? Necesitaríamos una solución más concisa. Como ésta:

```
SELECT
    name,
    genre
FROM
    books
WHERE
    genre IN ('Humor', 'Fantasy', 'Young Adult');
```

Escribimos un código con el operador IN. El operador IN es seguido de una lista de valores que se incluirán en el resultado:

SELECT
    *
FROM
    table_name
WHERE
    column_name IN ('value_1', 'value_2', 'value_3');


Si los valores son números, se separan entre sí por comas: IN (3,7,9). Si son strings, se ponen entre comillas simples y, de nuevo, se separan por comas: IN ('value_1','value_2','value_3'). La fecha y la hora se indican de la siguiente manera: IN ('yyyy-mm-dd','yyyy-mm-dd')

Poner NOT delante del operador IN te permite seleccionar todos los libros cuyos géneros no son humor, fantasía y novela juvenil:


```
SELECT
    name,
    genre
FROM
    books
WHERE
    genre NOT IN ('Humor', 'Fantasy', 'Young Adult');
```


### Ejercicios!

**Ejercicio 1**

Estudia qué artículos tienen en oferta las tiendas y cuáles son sus cifras de ventas para el 1 de junio. Puedes obtener información sobre las actualizaciones diarias del catálogo de productos en la tabla products_data_all.

Escribe una consulta para seleccionar los siguientes campos de la tabla:

- Nombre del producto (name)
- Precio (price)
- Nombre de la tienda (name_store)
- Fecha (date_upd)

Crea un slice de datos basado en la categoría (category) y la fecha (date_upd). Te interesa la categoría milk y la fecha del Día Mundial de la Leche — '2019-06-01'. Ten en cuenta que vamos a especificar las condiciones en el bloque WHERE, no en el bloque SELECT.


In [None]:
SELECT
    name,
    price,
    name_store,
    date_upd
from 
    products_data_all
WHERE 
    category = 'milk' AND date_upd = '2019-06-01' ;
                      


**Ejercicio 2**

Descarga los campos name, price, name_store, date_upd (en ese orden) de la categoría milk para los sábados restantes de junio (8, 15, 22 y 29 de junio).



In [None]:
SELECT
    name,
    price,
    name_store,
    date_upd
FROM
    products_data_all
WHERE
    category = 'milk'
    AND
    date_upd IN ('2019-06-08', '2019-06-15', '2019-06-22', '2019-06-29')
   

**Ejercicio 3**

Necesitamos tu ayuda para probar la hipótesis de que los clientes compran más leche en el Día Mundial de la Leche. Tendrás que seleccionar datos de la tabla de transactions. Descarga todos los datos de las compras de leche del 1 de junio de 2019.

Ten en cuenta que el campo date de la tabla transactions especifica horas, minutos y segundos. Escribe una condición que seleccione las compras realizadas entre el 1 de junio (inclusivo) y el 2 de junio (exclusivo).

La tabla transactions no contiene información sobre categorías de productos, pero hemos preparado una lista de identificadores únicos (id_product) para productos de la categoría milk. Añade una condición a WHERE para filtrar los productos con los siguientes ID:

( 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25,
26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38,
39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64,
65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90,
91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103,
104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
156, 157, 158, 159, 160, 161)

In [None]:
SELECT
    *
FROM
    transactions
WHERE
    date >= '2019-06-01' And date < '2019-06-02'
    and
    id_product in ( 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25,
26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38,
39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64,
65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90,
91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103,
104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
156, 157, 158, 159, 160, 161)

   

<hr>

# **Función de Agregación**

Al igual que Python, SQL tiene funciones específicas para calcular el número total de filas, sumas, promedios y valores mínimos y máximos. Se conocen como funciones de agregación. Recopilan o agregan todos los objetos dentro de un grupo para calcular un valor de resumen único.

Aquí está la sintaxis de una instrucción con una función de agregación:



In [None]:
SELECT
    AGGREGATE_FUNCTION (field) AS here_you_are
    --here_you_are - nombre de la columna donde se almacenará el resultado de la función
FROM
    TABLE;

Cuando llamas a una función de agregación, por defecto le da a la columna de resultado un nombre difícil de manejar. Para evitarlo, utiliza el comando AS y escribe uno nuevo y más simple.

La función COUNT devuelve el número de filas de una tabla:


In [None]:
SELECT
    COUNT(*) AS cnt
FROM
    books;

    --RESULTADO:  30

También puedes encontrar el número de filas en un slice de datos. Para hacerlo, utiliza COUNT junto con WHERE. Vamos a averiguar cuántos libros fueron escritos por Dean Koontz:

In [None]:
SELECT
    COUNT(*) AS cnt
FROM
    books
WHERE
    author = 'Dean Koontz';

    --Resultado : 4

El número de filas se puede calcular de varias maneras dependiendo del ejercicio:

- COUNT(*) devuelve el número total de filas de la tabla
- COUNT(column) devuelve el número de valores en una columna
- COUNT(DISTINCT column) devuelve el número de valores únicos en una columna

Obtengamos el número total de filas de la tabla; el número de filas con el identificador del editor; y el número de filas con valores únicos de publisher_id:

In [None]:
SELECT
    COUNT(*) AS cnt,
    COUNT(publisher_id) AS publisher_id_cnt,
    COUNT(DISTINCT publisher_id) AS publisher_id_uniq_cnt
FROM
    books;

    /* Resultado:
30
28
19
    */

Como puedes ver, obtuvimos valores diferentes. Esto se debe a que la columna publisher_id contiene valores ausentes e identificadores de editores repetidos y no únicos. 

SUM(column) devuelve la suma de los valores de una columna. Ignora los val
ores ausentes.

Vamos a sumar el número de páginas de todos los libros aplicando la función SUM a la columna pages:

In [None]:
SELECT
    SUM(pages) AS total_pages
FROM
    books;

    --Resultado:  16812

Ten en cuenta que la función SUM sólo funciona con valores numéricos.

AVG (column) devuelve el valor promedio de los valores de column. Determinemos la calificación promedio de los libros de nuestra tabla:

In [None]:
SELECT
    AVG(rating) AS average
FROM
    books;

    -- Resultado : ALGO ESTÁ MAL, YA QUE LA COLUMNA RATING ESTA EN FORMATO STRING

encontremos el número promedio de páginas por libro:

In [None]:
SELECT
    AVG(pages) AS average_pages
FROM
    books;

    --Resultado : 560.4


## Ejercicios

**Ejercicio 1**

Escribe una consulta para calcular el número total de filas en la tabla products_data_all. Nombra la variable cnt.

In [None]:
SELECT 
	COUNT(*) AS cnt
FROM
    products_data_all;

**Ejercicio 2**

Escribe una consulta para calcular el número de filas en la tabla products_data_all, el número de filas en la columna name, y el número de productos únicos en la columna name. Nombra cnt, name_cnt y name_uniq_cnt, respectivamente, a las variables resultantes.

In [None]:
SELECT 
	COUNT (*) AS cnt,
    COUNT (name) AS name_cnt,
    COUNT (DISTINCT name) AS name_uniq_cnt
FROM
    products_data_all;

**Ejercicio 3**

Escribe una consulta para calcular el precio promedio de los productos de la tabla products_data_all. El precio se indica en la columna price. Nombra la variable resultante average.

In [None]:
SELECT
    AVG(price) AS average
FROM 
    products_data_all


**Ejercicio 4**

Escribe una consulta para calcular el precio medio del producto 'Borden Whole Milk, 1 gal' en la tienda 'Wise Penny'. Nombra la variable resultante average.

In [None]:
SELECT 
    AVG(price) AS average     
FROM
    products_data_all
WHERE
    name= 'Borden Whole Milk, 1 gal' AND
    name_store = 'Wise Penny'

**Ejercicio 5**

Escribe una consulta para calcular la suma de los precios de todos los productos de la tienda 'T-E-B'. Nombra la variable total_cost.

In [None]:
SELECT 
	SUM(price) as total_cost
FROM
    products_data_all
WHERE
    name_store = 'T-E-B'

**Ejercicio 6**

Encuentra el precio del producto más caro en la tabla products_data_all.  Nombra la variable max_price.

In [None]:
SELECT 
	MAX(price) as max_price
FROM
    products_data_all;