# Sorting, grouping and join on querys (ordenamiento, agrupación y consultas entre tablas)

### `ORDER BY` 

En **SQL** el _key word_ `ORDER BY` sive para ordenar los resultados obtenidos. Por default `ORDER BY` ordena los resultados en orden ascendente. De lo contrario tendremos que especificar con `DESC` para obtener los resultados de forma descendente. Por ejemplo:

```sql
SELECT title
FROM films
ORDER BY release_year DESC;
```
—_Encontremos los nombres y las fechas de nacimiento de las personas de la tabla `people`_ —

In [7]:
import pandas as pd
import psycopg2.extras
conn = psycopg2.connect("dbname='test' user='test' host='/tmp/'")
cur = conn.cursor()

In [7]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT people.birthdate, people.name FROM intro_sql.people ORDER BY birthdate ;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,birthdate,name
0,1837-10-10,Robert Shaw
1,1872-11-07,Lucille La Verne
2,1874-03-14,Mary Carr
3,1875-01-22,D.W. Griffith
4,1878-01-20,Finlay Currie
5,1878-04-28,Lionel Barrymore
6,1880-03-21,Billy Gilbert
7,1881-08-12,Cecil B. DeMille
8,1882-04-18,Leopold Stokowski
9,1883-05-28,Éric Tessier


—_Encontrar el título de las películas estrenadas en el `2000` o `2012` ordenadas por fecha (`release_year`):_ —

In [12]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.title FROM intro_sql.films WHERE release_year=2000 OR release_year=2012 ORDER BY release_year;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,title
0,102 Dalmatians
1,28 Days
2,3 Strikes
3,Aberdeen
4,All the Pretty Horses
5,Almost Famous
6,American Psycho
7,Amores Perros
8,An Everlasting Piece
9,Anatomy


—_Seleccionar, de la tabla `films`, las películas estrenadas menos en el `2015`, ordenadas por su duración (`duration`):_ —

In [16]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT * FROM intro_sql.films WHERE release_year<>2015 ORDER BY duration;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,id,title,release_year,country,duration,language,certification,gross,budget
0,2926,The Touch,2007,USA,7.0,English,,,13000.0
1,4098,Vessel,2012,USA,14.0,English,,,
2,2501,Wal-Mart: The High Cost of Low Price,2005,USA,20.0,English,Not Rated,,1500000.0
3,566,Marilyn Hotchkiss' Ballroom Dancing and Charm ...,1990,USA,34.0,English,,333658.0,34000.0
4,2829,Jesus People,2007,USA,35.0,English,,,
5,462,Evil Dead II,1987,USA,37.0,English,X,5923044.0,3600000.0
6,3579,Sea Rex 3D: Journey to a Prehistoric World,2010,UK,41.0,English,,4074023.0,5000000.0
7,2985,Dolphins and Whales 3D: Tribes of the Ocean,2008,UK,42.0,English,,7518876.0,6000000.0
8,2997,Flame and Citron,2008,Denmark,45.0,Danish,Not Rated,145109.0,45000000.0
9,4358,Alpha and Omega 4: The Legend of the Saw Tooth...,2014,USA,45.0,,,,7000000.0


—_Seleccionar los títulos (`title`) y el monto (`gross`), de la tabla `films` para los cuales los títulos comiencen con `M`, ordenadas por títuolo alfabeticamente:_ —

In [19]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.title, films.gross FROM intro_sql.films WHERE title LIKE 'M%' ORDER BY title;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,title,gross
0,MacGruber,8460995.0
1,Machete,26589953.0
2,Machete Kills,7268659.0
3,Machine Gun McCain,
4,Machine Gun Preacher,537580.0
5,Madadayo,48856.0
6,Madagascar,193136719.0
7,Madagascar 3: Europe's Most Wanted,216366733.0
8,Madagascar: Escape 2 Africa,179982968.0
9,Mad City,10556196.0


Para ordenar de forma descendente el `KEYWORD` es `DESC`. Por ejemplo:

—_Para poder ordenar de manera descendente los nombres de la tabla `people` la sintaxis sería:_ —
```sql
SELECT people.name
FROM intor_sql.people
ORDER BY name DESC;
```

—_Los títulos de las películas ordenados, por su duración, de manera descendentemente sería:_ —

In [2]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.title, films.duration FROM intro_sql.films ORDER BY duration DESC;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,title,duration
0,Destiny,
1,Should've Been Romeo,
2,Hum To Mohabbat Karega,
3,Harry Potter and the Deathly Hallows: Part I,
4,Barfi,
5,Romantic Schemer,
6,Wolf Creek,
7,Dil Jo Bhi Kahey...,
8,The Naked Ape,
9,Black Water Transit,


`ORDER BY` también puede ser utilizado para ordenar múltiples columnas. Esto se logra colocando el nombre de las diversas columnas separadas por comas. Por ejemplo:

—_La fecha de cumpleaños y el nombre de las personas ordenadas alfabeticamente por nombre y fechas tendría la siguiente sintaxis:_ —
```sql
SELECT people.birthdate, people.name
FROM intor_sql.people
ORDER BY birthdate, name;
```
—_El nombre  y fecha de cumpleaños de la tabla `people` ordenados alfabeticamente y por duración:_ —
```sql
SELECT people.name, people.birthdate
FROM intro_sql.people
ORDER BY name, birthdate;
```
—_Ordenar, por fecha de estreno y duración, los títulos de la tabla `films` de manera descendente:_ —

In [3]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, films.duration, films.title FROM intro_sql.films ORDER BY release_year, duration ;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,duration,title
0,1916.0,123.0,Intolerance: Love's Struggle Throughout the Ages
1,1920.0,110.0,Over the Hill to the Poorhouse
2,1925.0,151.0,The Big Parade
3,1927.0,145.0,Metropolis
4,1929.0,100.0,The Broadway Melody
5,1929.0,110.0,Pandora's Box
6,1930.0,96.0,Hell's Angels
7,1932.0,79.0,A Farewell to Arms
8,1933.0,66.0,She Done Him Wrong
9,1933.0,89.0,42nd Street


### `GROUP BY`

Muchas veces necesitamos agrupar, de un mismo atributo, los diferentes tipos de resultados o records que pueda llegar a tener. Es una epecie de condenzado que cada atributo puede tener.

`GROUP BY` nos ayuda a realizar esa tarea si lo colocamos despues de `FROM` seguido del atrubuto de la tabla que necesitamos condensar. —_En el siguiente ejemplo necesitamos contar el número de personas que existe en la tabla empleados (`employees`) por tipo de sexo (`sex`)_ —: 
```sql
SELECT employees.sex, count(*)
FROM intro_sql.employees
GROUP BY sex;
```
Podemos observar que en el ejemplo anterior se utilizó una función de agrregación (_aggregate function_) para lleva a cabo el conteo de las personas y dividirlas por sexo. Es muy común encontrar este tipo de _querys_ construidos de esta forma.

Otra combinación muy común es la siguiente:

—_Imaginemos que es necesario encontrar, de manera descendente, el número de trabajadores de una tabla llamada `employees` por tipo de sexo (`sex`). El query sería así:_ —
```sql
SELECT sex, count(*)
FROM employees
GROUP BY sex
ORDER BY count DESC;
```
`ORDER BY` es utilizado después de `GROUP BY` para poder ordenar el número de trabajadores por sexo. De tal manera que los resultados de la función de agregación `COUNT` fueron ordenados de mayor a menor.

—_Encontremos el número de películas agrupadas por fecha de estreno de la tabla `films`:_ —

In [4]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, count(*) FROM intro_sql.films GROUP BY release_year; 
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,count
0,1954.0,5
1,1988.0,31
2,1959.0,3
3,1964.0,10
4,1969.0,10
5,,42
6,2008.0,225
7,1991.0,31
8,1989.0,33
9,1945.0,4


—_El promedio de duración, en minutos, de las películas agrupadas por año de la tabla `films`:_ —

In [6]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, AVG(films.duration) FROM intro_sql.films GROUP BY release_year;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,avg
0,1954.0,140.6000000000000000
1,1988.0,107.0000000000000000
2,1959.0,136.6666666666666667
3,1964.0,119.4000000000000000
4,1969.0,126.0000000000000000
5,,77.4390243902439024
6,2008.0,105.3822222222222222
7,1991.0,113.0645161290322581
8,1989.0,113.1212121212121212
9,1945.0,103.7500000000000000


—_El el presupuesto más alto agrupado por año de estreno de la tabla `films`:_ —

In [7]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, MAX(films.budget) FROM intro_Sql.films GROUP BY release_year;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,max
0,1954.0,5000000
1,1988.0,1100000000
2,1959.0,5000000
3,1964.0,19000000
4,1969.0,20000000
5,,15000000
6,2008.0,553632000
7,1991.0,102000000
8,1989.0,69500000
9,1945.0,2160000


—_El conteo del número máximo de IMBD "score" agrupado por `imdb_score` de la tabla `reviews`:_ —

In [10]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT reviews.imdb_score, COUNT(*) FROM intro_sql.reviews GROUP BY imdb_score;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,imdb_score,count
0,5.7,117
1,8.7,11
2,9.0,2
3,9.1,1
4,8.3,37
5,5.6,112
6,5.9,144
7,9.3,1
8,4.4,25
9,2.1,3


Ahora agregaremos la combinación de `GROUP BY`, `ORDER BY` y algúnas funciones de agregación a nuestro _querys_:



—_El total recaudado de todas las películas agrupadas por lenguaje de la tabla `films`:_ —

In [11]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.language, SUM(films.gross) FROM intro_sql.films GROUP BY language;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,language,sum
0,Danish,2403857.0
1,Greek,110197.0
2,Dzongkha,505295.0
3,,2601847.0
4,,4319281.0
5,Tamil,
6,Swahili,
7,Mandarin,163611530.0
8,Urdu,
9,Filipino,10166502.0


—_El total presupuestados de todas las películas agrupadas por lenguaje de la tabla `films`:_ —

In [12]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.country, SUM(films.budget) FROM intro_sql.films GROUP BY country;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,country,sum
0,,3500000
1,Soviet Union,1000000
2,Indonesia,1100000
3,Italy,261350000
4,Cameroon,
5,Czech Republic,146450000
6,Sweden,50400000
7,USA,125693604035
8,Dominican Republic,500000
9,Cambodia,


—_El máximo presupuesto de todas las películas agrupadas por año de esteno y por país. Ordenado por año de estreno y por país de la tabla `films`:_ —

In [14]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, films.country, MAX(films.budget) FROM intro_sql.films GROUP BY release_year, country ORDER BY release_year, country;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,country,max
0,1916.0,USA,385907.0
1,1920.0,USA,100000.0
2,1925.0,USA,245000.0
3,1927.0,Germany,6000000.0
4,1929.0,Germany,
5,1929.0,USA,379000.0
6,1930.0,USA,3950000.0
7,1932.0,USA,800000.0
8,1933.0,USA,439000.0
9,1934.0,USA,325000.0


### `HAVING`

En **SQL** la sintaxis del siguiente _query_ es erronea por ejemplo:
```sql
SELECT release_year
FROM films
GROUP BY release_year
WHERE COUNT(title) > 10;
```
Este _query_ trata de obtener los años donde el total de estrenos de películas superara a `10`. Observemos que la intención de `WHERE` es filtrar las cantidades mayores a `10` cuando se invoca a la función  `COUNT`. Pero como ya habíamos dicho la sintaxis es errónea: ~~`WHERE COUNT(title) > 10`~~.

No podemos utilizar `WHERE` cuando deseamos realizar un filtro utilizanzo `GROUP BY` juntos. Para que nuestra cosulta se lleve a cabo es necesario introducir el _key word_ `HAVING`. De tal modo que el _query anterior_ sería ejecutado de la siguiente manera:
```sql
SELECT release_year
FROM films
GROUP BY release_year
HAVING COUNT(title) > 10;
```
Si separamos `WHERE` y `HAVING` después de `GROUP BY` podremos utilizar estas _key words_ sin ningún problema. Y por consiguiente podremos utilizar `ORDER BY` también.

En el siguiente ejemplo veremos como se aplican la combinación de todos estos operadores para encontrar: —_el promedio de los presupuestos(`budget`) y de las ganancias (`gross`), por año, para las películas cuyo año de estreno sea despúes de 1990 y cuyo promedio de presupuesto sea mayor a `60,000,000`. Ordenados de manera descendente:_ —

In [7]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.release_year, AVG(films.budget) AS avg_budget, AVG(films.gross) AS avg_gross
    FROM intro_sql.films
    WHERE release_year > 1990
    GROUP BY release_year
    HAVING AVG(budget) > 60000000
    ORDER BY avg_gross DESC;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,release_year,avg_budget,avg_gross
0,2005,70323938.23152709,41159143.2906404
1,2006,93968929.5774648,39237855.953703694


Describiremos, con más detalle, el _query_ anterior. Y lo haremos describiendo la consulta desde su final a su inicio.

* `ORDER BY avg_gross DESC` de primera cuenta ordenará a los resultados de la consulta de mayor a menor. O sea, de manera "descendente".

* `HAVING AVG(budget) > 60000000` capturará solo aquellos resultados que tengan un valor mayor a `60000000`. En esta ocasión, las opciones, fueron prefiltradas por la clausula `WHERE`. No necesariamente siempre deberá ser así.

* `GROUP BY release_year` colapsa o reagrupa el atributo `release_year` de acuerdo con los diferentes años que se tienen como records. En otras palabras; se hace un resumén, para todos los años, en el atributo `release_year`.

* `WHERE release_year > 1990` filtra a todos los años mayores a `1990`.

* Por último, la segunda línea solo hace la llamada a la tabla. Y la primera línea `SELECT release_year, AVG(budget) AS avg_budget, AVG(gross) AS avg_gross` no tienen ninguna otra importancia más que la de señalar que; `AS` se esta utilizando para renombrar el resultado de la consulta de los promedios `AVG` como `avg_budget` y `avg_gross` correspondientemente.

—_Obtendremos el nombre del país (`country`), su promedio de presupuesto (`budget`) y su promedio de ganacias (`gross`), de todos los paises con más de `10` películas. Para después nombrarlos como `avg_budget` y `avg_gross` respectivamente. Además ordenarémos los resultados por nombre de país y solo se mostrarán los primeros 5 resultados de toda la consulta:_ —

In [5]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.country, AVG(films.budget) AS avg_budget, AVG(films.gross) AS avg_gross
    FROM intro_sql.films
    GROUP BY country
    HAVING COUNT(title) > 10
    ORDER BY country
    LIMIT 5;
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,country,avg_budget,avg_gross
0,Australia,31172110.46,40205909.57142857
1,Canada,14798458.71559633,22432066.680555556
2,China,62219000.0,14143040.736842103
3,Denmark,13922222.222222222,1418469.1111111112
4,France,30672034.615384612,16350593.578512397


### `JOIN` on _query_ (consultas entre tablas)

A continuación se muestra un ejemplo de la gran ayuda que puede ser `ON` a la hora de generar cosultas entre tablas. 

—_En este caso necesitamos obtener el `ID` de la película, de la tabla `films`, para después usarlo como filtro y encontrar el `IMDB` en la tabla `reviews` correspondiente:_ —

In [8]:
cur = conn.cursor(cursor_factory=psycopg2.extras.DictCursor)
cur.execute(
    """
    SELECT films.title, reviews.imdb_score
    FROM intro_sql.films
    JOIN intro_sql.reviews
    ON films.id = reviews.film_id
    WHERE title = 'To Kill a Mockingbird';
    """
)
data = cur.fetchall()
conn.commit()
cur.close()
pd.DataFrame([i.copy() for i in data])

Unnamed: 0,title,imdb_score
0,To Kill a Mockingbird,8.4
