Copyright Jana Schaich Borg/Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

# MySQL Exercise 6: Common Pitfalls of Gouped Queries

There are two main reasons grouped queries can cause problems, especially in MySQL:

>1) MySQL gives the user the benefit of the doubt, and assumes we don't make (at least some kinds of) mistakes.  Unfortunately, we do make those mistakes.

>2) We commonly think about data as spreadsheets that allow you make calculations across rows and columns, and that allow you to keep both raw and aggregated data in the same spreadsheet.  Relational databases don't work that way.

The way these issues cause problems are:

>1) When we are working with a MySQL database, we incorrectly interpret non-sensical output from illogical queries, or 

>2) When we are working with a non-MySQL database platform, we struggle with trying to make queries that will never work because they ask for both aggregated and non-aggregated data.

In this lesson, we will learn what these issues look like.  


     
## 1. Misinterpretations due to Aggregation Mismatches

Begin by loading the SQL library, connecting to the Dognition database, and setting the Dognition database as the default.

# Ejercicio 6 de MySQL: errores comunes de las consultas agrupadas

Hay dos razones principales por las que las consultas agrupadas pueden causar problemas, especialmente en MySQL:

1) MySQL le da al usuario el beneficio de la duda y asume que no cometemos (al menos algunos tipos de) errores. Desafortunadamente, cometemos esos errores.

2) Por lo general, pensamos en los datos como hojas de cálculo que le permiten realizar cálculos en filas y columnas, y que le permiten mantener los datos sin procesar y agregados en la misma hoja de cálculo. Las bases de datos relacionales no funcionan de esa manera.

La forma en que estos problemas causan problemas son:

1) Cuando trabajamos con una base de datos MySQL, interpretamos incorrectamente la salida sin sentido de consultas ilógicas, o

2) Cuando trabajamos con una plataforma de base de datos que no es MySQL, nos cuesta intentar realizar consultas que nunca funcionarán porque piden datos agregados y no agregados.

En esta lección, aprenderemos cómo son estos problemas.

# 1. Malentendidos debidos a desajustes de agregación
Comience cargando la biblioteca SQL, conectándose a la base de datos Dognition y estableciendo la base de datos Dognition como predeterminada.

In [1]:
%load_ext sql
%sql mysql://studentuser:studentpw@localhost/dognitiondb
%sql USE dognitiondb

 * mysql://studentuser:***@localhost/dognitiondb
0 rows affected.


[]

Imagine that we would like to retrieve, for each breed_type in the Dognition database, the number of unique dog_guids associated with that breed_type and their weight.  Let's try to write a query that reflects that request:

Imagine que nos gustaría recuperar, para cada tipo de raza en la base de datos de Dognition, el número de guías de perro únicas asociadas con ese tipo de raza y su peso. Intentemos escribir una consulta que refleje esa solicitud:

```mySQL
SELECT breed_type, COUNT(DISTINCT dog_guid) AS NumDogs, weight
FROM dogs
GROUP BY breed_type;
```

**Now take a look at the output:**

In [3]:
%%sql

SELECT breed_type, COUNT(DISTINCT dog_guid) AS NumDogs, weight
FROM dogs
GROUP BY breed_type;

 * mysql://studentuser:***@localhost/dognitiondb
4 rows affected.


breed_type,NumDogs,weight
Cross Breed,5568,0
Mixed Breed/ Other/ I Don't Know,9499,50
Popular Hybrid,1160,70
Pure Breed,18823,50


You immediately notice a few things: (1) the query accurately represents the fields I said I wanted; (2) the query executed without errors! Wonderful! (3) Cross Breed dogs weigh 0 pounds; and (4) the grammar of the sentence describing what I said I wanted seems a little confusing: "We would like to retrieve, for *each breed_type* in the Dognition database, *the number of* unique dog_guids associated with that breed_type and *their weight*."  
   
All of these things you noticed are related.  Let's address them in reverse order.
  
What's wrong with the sentence I wrote?  One of the things I said I wanted was *the number of* unique dog_guids. This is a single number.  I also said I wanted "their weight."  "Their" implies many weight measurements, not one measurement.  In order to make my grammar correct, I need my description of dog_guids and weight to either both be singular or both be plural.  To make the logic behind the sentence make sense, I have to do a similar thing: either dog_guids and weight both need to be aggregated or dog_guids and weight both need to be non-aggregated.  
   
It's useful to remember that SQL output is always a table.  How could you construct a valid table that would have columns for aggregate counts and individual weight measurements at the same time?  The answer is, you can't.  One option is to disaggregate the count so that you have one column with dog_guids and another column with weight measurements for each dog_guid.  The only other option is to aggregate the weight measurements so that you have one column with the total count of dog_guids and another column with the average (or some other kind of summary aggregation) weight measurement for the group the count represents. 

That brings us to the next phenomenon we observed: Cross Breed dogs weigh 0 pounds. Well, unless the laws of gravity and physics have changed, that's not possible.  Something strange must be happening in the weight field.

We've established that the question I posed and the query I executed don't make logical sense, yet the MySQL query did run!  If there is no way to make a tablular output that fits what I asked for, what is MySQL outputting for us?

It turns out that MySQL resolves my poor query by choosing its own way to "summarize" the unaggregated field, which in our case is "weight."  Rather than run an aggregation function that takes all the values in the weight column into account, though, it unpredictably populates the weight output column with one value from all the possible weight values within a given breed_type subset.  Which value it chooses will be different depending on the original order of the raw data and the configuration of a database.  This flexibility is very convenient when you know that all the values in a non-aggregated column are the same for the subsets of the data that correspond to the variable by which you are grouping.  In fact, the visualization software Tableau (which is based in SQL language) recognized how frequently this type of situation arises and came up with a custom solution for its customers.  Tableau incorprated an aggregation-like function called "ATTR" into its interface to let users say "I'm using an aggregation function here because SQL says I have to, but I know that this is a situation where all of the rows in each group will have the same value."  
    
Tableau's approach is helpful because it forces users to acknowledge that a field in a query is supposed to be aggregated, and Tableau's formulas will crash if all the rows in a group do not have the same value.  MySQL doesn't force users to do this.  MySQL trusts users to know what they are doing, and will provide an output even if all the rows in a group do not have the same value.  Unfortunately, this approach can cause havoc if you aren't aware of what you are asking MySQL to do and aren't familiar with your data.


Let's see a couple more first-hand examples of this tricky GROUP BY behavior.  Let's assume you want to know the number of each kind of test completed in different months of the year.

You execute the following query:

```mySQL
SELECT test_name, MONTH(created_at) AS Month, COUNT(created_at) AS Num_Completed_Tests
FROM complete_tests
GROUP BY test_name
ORDER BY test_name ASC, Month ASC;
```

**Question 1: What does the Month column represent in this output?  Take a look and see what you think:**

Inmediatamente notará algunas cosas: (1) la consulta representa con precisión los campos que dije que quería; (2) la consulta ejecutada sin errores! ¡Maravilloso! (3) Los perros de raza cruzada pesan 0 libras; y (4) la gramática de la oración que describe lo que dije que quería parece un poco confusa: "Nos gustaría recuperar, para * cada tipo de raza * en la base de datos de Dognition, * el número de * guías de perro únicas asociadas con ese tipo de raza y * su peso *. "
   
Todas estas cosas que notó están relacionadas. Abordémoslos en orden inverso.
  
¿Qué pasa con la oración que escribí? Una de las cosas que dije que quería era * la cantidad de * dog_guids únicos. Este es un solo número. También dije que quería "su peso". "Su" implica muchas medidas de peso, no una medida. Para que mi gramática sea correcta, necesito que mi descripción de dog_guids y weight sean ambos en singular o en plural. Para que la lógica detrás de la oración tenga sentido, tengo que hacer algo similar: o dog_guids y weight deben ser agregados o dog_guids y weight no deben ser agregados.
   
Es útil recordar que la salida SQL siempre es una tabla. ¿Cómo podría construir una tabla válida que tuviera columnas para conteos agregados y medidas de peso individuales al mismo tiempo? La respuesta es que no puedes. Una opción es desagregar el recuento para que tenga una columna con dog_guids y otra columna con medidas de peso para cada dog_guid. La única otra opción es agregar las medidas de peso para que tenga una columna con el recuento total de dog_guids y otra columna con la medida de peso promedio (o algún otro tipo de agregación de resumen) para el grupo que representa el recuento.

Eso nos lleva al siguiente fenómeno que observamos: los perros de raza cruzada pesan 0 libras. Bueno, a menos que las leyes de la gravedad y la física hayan cambiado, eso no es posible. Algo extraño debe estar sucediendo en el campo de peso.

Hemos establecido que la pregunta que planteé y la consulta que ejecuté no tienen sentido lógico, ¡pero la consulta MySQL se ejecutó! Si no hay forma de hacer una salida tabular que se ajuste a lo que pedí, ¿qué nos está dando MySQL?

Resulta que MySQL resuelve mi mala consulta eligiendo su propia manera de "resumir" el campo no agregado, que en nuestro caso es "peso". Sin embargo, en lugar de ejecutar una función de agregación que tenga en cuenta todos los valores de la columna de peso, rellena de manera impredecible la columna de salida de peso con un valor de todos los valores de peso posibles dentro de un subconjunto de tipo de raza determinado. El valor que elija será diferente según el orden original de los datos sin procesar y la configuración de una base de datos. Esta flexibilidad es muy conveniente cuando sabe que todos los valores de una columna no agregada son los mismos para los subconjuntos de datos que corresponden a la variable por la que está agrupando. De hecho, el software de visualización Tableau (que está basado en lenguaje SQL) reconoció la frecuencia con la que surge este tipo de situaciones y propuso una solución personalizada para sus clientes. Tableau incorporó una función similar a la agregación llamada "ATTR" en su interfaz para permitir que los usuarios digan "Estoy usando una función de agregación aquí porque SQL dice que tengo que hacerlo, pero sé que esta es una situación en la que todas las filas de cada grupo tendrá el mismo valor ".
    
El enfoque de Tableau es útil porque obliga a los usuarios a reconocer que se supone que un campo en una consulta debe agregarse y las fórmulas de Tableau fallarán si todas las filas de un grupo no tienen el mismo valor. MySQL no obliga a los usuarios a hacer esto. MySQL confía en que los usuarios sepan lo que están haciendo y proporcionará una salida incluso si todas las filas de un grupo no tienen el mismo valor. Desafortunadamente, este enfoque puede causar estragos si no está al tanto de lo que le está pidiendo a MySQL y no está familiarizado con sus datos.


Veamos un par de ejemplos más de primera mano de este complicado comportamiento GROUP BY. Supongamos que quiere saber el número de cada tipo de prueba que se completó en diferentes meses del año.

Ejecuta la siguiente consulta:

```mySQL
SELECT test_name, MONTH(created_at) AS Month, COUNT(created_at) AS Num_Completed_Tests
FROM complete_tests
GROUP BY test_name
ORDER BY test_name ASC, Month ASC;
```

**Pregunta 1: ¿Qué representa la columna Mes en este resultado? Eche un vistazo y vea lo que piensa:**

In [4]:
%%sql

SELECT test_name, MONTH(created_at) AS Month, COUNT(created_at) AS Num_Completed_Tests
FROM complete_tests
GROUP BY test_name
ORDER BY test_name ASC, Month ASC;

 * mysql://studentuser:***@localhost/dognitiondb
40 rows affected.


test_name,Month,Num_Completed_Tests
1 vs 1 Game,6,255
3 vs 1 Game,5,368
5 vs 1 Game,5,620
Arm Pointing,2,11452
Cover Your Eyes,2,7250
Delayed Cup Game,2,5271
Different Perspective,11,89
Expression Game,10,124
Eye Contact Game,2,14545
Eye Contact Warm-up,2,16238


Now try a similar query, but GROUP BY Month instead of test_name:

```mySQL
SELECT test_name, MONTH(created_at) AS Month, COUNT(created_at) AS Num_Completed_Tests
FROM complete_tests
GROUP BY Month
ORDER BY Month ASC, test_name ASC;
```

**Qustion 2: What does test_name mean in this case?  Try it out:**

In [5]:
%%sql

SELECT test_name, MONTH(created_at) AS Month, COUNT(created_at) AS Num_Completed_Tests
FROM complete_tests
GROUP BY Month
ORDER BY Month ASC, test_name ASC;

 * mysql://studentuser:***@localhost/dognitiondb
12 rows affected.


test_name,Month,Num_Completed_Tests
Delayed Cup Game,1,11068
Yawn Warm-up,2,9122
Yawn Warm-up,3,9572
Physical Reasoning Game,4,7130
Delayed Cup Game,5,21013
Foot Pointing,6,23381
Eye Contact Game,7,15977
Memory versus Smell,8,13382
Yawn Warm-up,9,19853
Yawn Warm-up,10,39237


It looks like in both of these cases, MySQL is likely populating the unaggregated column with the first value it finds in that column within the first "group" of rows it is examining.  

So how do we prevent this from happening?

><mark>The only way to be sure how the MySQL database will summarize a set of data in a SELECT clause is to tell it how to do so with an aggregate function.<mark\>

I should have written my original request to read:

"I would like to know, for *each breed type* of dog, *the number of* unique Dog_Guids there are in the Dognition database and *the breed_type's average weight*."

The query that would have reflected this sentence would have executed an aggregate function for both Dog_Guids and weight.  The output of these aggregate functions would be unambiguous, and would easily be represented in a single table. 
    


Parece que en ambos casos, MySQL probablemente está llenando la columna no agregada con el primer valor que encuentra en esa columna dentro del primer "grupo" de filas que está examinando.

Entonces, ¿cómo evitamos que esto suceda?

> <mark> La única forma de estar seguro de cómo la base de datos MySQL resumirá un conjunto de datos en una cláusula SELECT es decirle cómo hacerlo con una función agregada. <mark \>

Debería haber escrito mi solicitud original para leer:

"Me gustaría saber, para * cada tipo de raza * de perro, * el número de * Dog_Guids únicos que hay en la base de datos de Dognition y * el peso promedio del tipo de raza *".

La consulta que habría reflejado esta oración habría ejecutado una función agregada tanto para Dog_Guids como para el peso. La salida de estas funciones agregadas no sería ambigua y se representaría fácilmente en una sola tabla.    
    
    
   
## 2. Errors due to Aggregation Mismatches

It is important to note that the issues I described above are the consequence of mismatching aggregate and non-aggregate functions through the GROUP BY clause in MySQL, but other databases manifest the problem in a different way.  Other databases won't allow you to run the queries described above at all.  When you try to do so, you get an error message that sounds something like:

```
Column 'X' is invalid in the select list because it is not contained in either an aggregate function or the GROUP BY clause.
```

Especially when you are just starting to learn MySQL, these error messages can be confusing and infuriating.  A good discussion of this problem can be found here:

http://weblogs.sqlteam.com/jeffs/archive/2007/07/20/but-why-must-that-column-be-contained-in-an-aggregate.aspx

As a way to prevent these logical mismatches or error messages, you will often hear a rule that "every non-aggregated field that is listed in the SELECT list *must* be listed in the GROUP BY list."  You have just seen that this rule is not true in MySQL, which makes MySQL both more flexible and more tricky to work with.  However, it is a useful rule of thumb for helping you avoid unknown mismatch errors.

## 2. Errores debidos a desajustes de agregación

Es importante tener en cuenta que los problemas que describí anteriormente son la consecuencia de la falta de coincidencia de funciones agregadas y no agregadas a través de la cláusula GROUP BY en MySQL, pero otras bases de datos manifiestan el problema de una manera diferente. Otras bases de datos no le permitirán ejecutar las consultas descritas anteriormente. Cuando intenta hacerlo, recibe un mensaje de error que suena como:

''
La columna 'X' no es válida en la lista de selección porque no está incluida en una función agregada ni en la cláusula GROUP BY.
''

Especialmente cuando recién está comenzando a aprender MySQL, estos mensajes de error pueden ser confusos y exasperantes. Se puede encontrar una buena discusión sobre este problema aquí:

http://weblogs.sqlteam.com/jeffs/archive/2007/07/20/but-why-must-that-column-be-contained-in-an-aggregate.aspx

Como una forma de evitar estas discrepancias lógicas o mensajes de error, a menudo escuchará una regla que dice que "todos los campos no agregados que se enumeran en la lista SELECT * deben * figurar en la lista GROUP BY". Acaba de ver que esta regla no es cierta en MySQL, lo que hace que MySQL sea más flexible y más complicado de trabajar. Sin embargo, es una regla práctica que le ayudará a evitar errores desconocidos de desajuste.


## 3. By the way, even if you want to, there is no way to intentionally include aggregation mismatches in a single query


You might want to know the total number of unique User_Guids in the Dognition database, and in addition, the total number of unique User_Guids and average weight associated with each breed type. Given that you want to see the information efficiently to help you make decisions, you would like all of this information in one output.  After all, that would be easy to do in Excel, given that all of this information could easily be summarized in a single worksheet.

To retrieve this information, you try one of the queries described above.  Since you know the rule describing the relationship between fields in the SELECT and GROUP BY clauses, you write:

```mySQL
SELECT COUNT(DISTINCT dog_guid), breed_type, AVG(weight) AS avg_weight 
FROM dogs
GROUP BY breed_type;
```

The output to your query gives you four rows with the correct information, but it doesn't give you a count of the entire table without the groups being applied.  Surely there must be a way to write a sophisticated query that can put these two pieces of information together for you, right?

Hopefully the discussion in the section above has already made it clear that the answer to this has to be "no."  The output of every SQL query is a table.  Can you think of a single table that could logically contain aggregated and non-aggregated data?  You could put both types of information in an Excel worksheet, but not a single table.  

There's yet another more practical reason the information you want can't be selected in a single query.  The order of SQL queries is meant to reflect the way we write sentences, but in actuality they are actually executed in a different order than we write them.  The cartoon below shows the order we write the queries being sent to the database at the top of the funnel, and the order the database usually executes the queries on the conveyer belt. 


<img src="https://duke.box.com/shared/static/irmwu5o8qcx4ctapjt5h0bs4nsrii1cl.jpg" width=600 alt="ORDER" />

This diagram shows you that data are actually grouped before the SELECT expressions are applied.  That means that when a GROUP BY expression is included in an SQL query, there is no way to use a SELECT statement to summarize data that cross multiple groups.  The data will have already been separated by the time the SELECT statement is applied.  The only way to get the information you want is to write two separate queries.  This concept can be difficult to understand when you start using SQL for the first time after exclusively using Excel, but soon you will be come accustomed to it. 

By the way, this diagram also shows you why some platforms and some queries in some platforms crash when you try to use aliases or derived fields in WHERE, GROUP BY, or HAVING clauses.  If the SELECT statement hasn't been run yet, the alias or derived fields won't be available (as a reminder, some database systems--like MySQL--have found ways to overcome this issue).  On the other hand, SELECT is executed before ORDER BY clauses.  That means most database systems should be able to use aliases and derived fields in ORDER BY clauses.




## Now that you are knowledgeable about the common pitfalls caused by GROUP BY, you are ready to perform one of the most powerful and fundamental utlities of a relational database: JOINS!  Watch the next video to learn more about how joins work.

    
## 3. Por cierto, incluso si lo desea, no hay forma de incluir intencionalmente las discrepancias de agregación en una sola consulta


Es posible que desee saber el número total de User_Guids únicos en la base de datos de Dognition y, además, el número total de User_Guids únicos y el peso promedio asociado con cada tipo de raza. Dado que desea ver la información de manera eficiente para ayudarlo a tomar decisiones, le gustaría tener toda esta información en un solo resultado. Después de todo, eso sería fácil de hacer en Excel, dado que toda esta información podría resumirse fácilmente en una sola hoja de trabajo.

Para recuperar esta información, intente una de las consultas descritas anteriormente. Dado que conoce la regla que describe la relación entre los campos en las cláusulas SELECT y GROUP BY, escribe:

`` mySQL
SELECCIONE COUNT (DISTINCT dog_guid), tipo de raza, AVG (peso) AS avg_weight,
DE perros
GRUPO POR tipo_raza;
''

El resultado de su consulta le da cuatro filas con la información correcta, pero no le da un recuento de toda la tabla sin que se apliquen los grupos. Seguramente debe haber una forma de escribir una consulta sofisticada que pueda juntar estas dos piezas de información por usted, ¿verdad?

Es de esperar que la discusión en la sección anterior ya haya dejado en claro que la respuesta a esto tiene que ser "no". La salida de cada consulta SQL es una tabla. ¿Puede pensar en una única tabla que lógicamente podría contener datos agregados y no agregados? Puede poner ambos tipos de información en una hoja de cálculo de Excel, pero no en una sola tabla.

Existe otra razón más práctica por la que la información que desea no se puede seleccionar en una sola consulta. El orden de las consultas SQL está destinado a reflejar la forma en que escribimos oraciones, pero en realidad se ejecutan en un orden diferente al que escribimos. La caricatura a continuación muestra el orden en que escribimos las consultas que se envían a la base de datos en la parte superior del embudo, y el orden en que la base de datos normalmente ejecuta las consultas en la cinta transportadora.


<img src = "https://duke.box.com/shared/static/irmwu5o8qcx4ctapjt5h0bs4nsrii1cl.jpg" width = 600 alt = "ORDER" />

Este diagrama le muestra que los datos se agrupan realmente antes de que se apliquen las expresiones SELECT. Eso significa que cuando se incluye una expresión GROUP BY en una consulta SQL, no hay forma de usar una instrucción SELECT para resumir datos que cruzan varios grupos. Los datos ya habrán sido separados cuando se aplique la instrucción SELECT. La única forma de obtener la información que desea es escribir dos consultas separadas. Este concepto puede ser difícil de entender cuando comienza a usar SQL por primera vez después de usar exclusivamente Excel, pero pronto se acostumbrará a él.

Por cierto, este diagrama también le muestra por qué algunas plataformas y algunas consultas en algunas plataformas fallan cuando intenta usar alias o campos derivados en las cláusulas WHERE, GROUP BY o HAVING. Si aún no se ha ejecutado la instrucción SELECT, el alias o los campos derivados no estarán disponibles (como recordatorio, algunos sistemas de bases de datos, como MySQL, han encontrado formas de superar este problema). Por otro lado, SELECT se ejecuta antes que las cláusulas ORDER BY. Eso significa que la mayoría de los sistemas de bases de datos deberían poder usar alias y campos derivados en las cláusulas ORDER BY.




## Ahora que conoce los errores comunes causados ​​por GROUP BY, está listo para realizar una de las utilidades más poderosas y fundamentales de una base de datos relacional: ¡UNIRSE! Vea el siguiente video para obtener más información sobre cómo funcionan las uniones.

In [8]:
%%sql
SELECT COUNT(DISTINCT dog_guid), breed_type, AVG(weight) AS avg_weight 
FROM dogs
GROUP BY breed_type;

 * mysql://studentuser:***@localhost/dognitiondb
4 rows affected.


COUNT(DISTINCT dog_guid),breed_type,avg_weight
5568,Cross Breed,37.3509
9499,Mixed Breed/ Other/ I Don't Know,38.3682
1160,Popular Hybrid,36.8103
18823,Pure Breed,42.0353
