# SQL Lesson 10: Queries with aggregates (Pt. 1)

Outre les expressions simples que nous avons présentées lors de la dernière leçon, SQL prend également en charge l'utilisation d'expressions d'agrégation (ou de fonctions) qui vous permettent de résumer des informations sur un groupe de lignes de données. Avec la base de données Pixar que vous utilisez, les fonctions d'agrégation peuvent être utilisées pour répondre à des questions telles que "Combien de films Pixar a-t-il produits?" Ou "Quel est le film Pixar le plus rentable chaque année?".

Sélectionnez une requête avec des fonctions d'agrégation sur toutes les lignes
``` mysql 
SELECT AGG_FUNC(column_or_expression) AS aggregate_description, …
FROM mytable
WHERE constraint_expression;
```

Sans un regroupement spécifié, chaque fonction d'agrégation va s'exécuter sur l'ensemble des lignes de résultats et retourner une valeur unique. Et comme les expressions normales, attribuer un alias à vos fonctions d'agrégation garantit que les résultats seront plus faciles à lire et à traiter.

## Fonctions d'agrégat communes


Voici quelques fonctions d'agrégation courantes que nous allons utiliser dans nos exemples:



In [1]:
x="""Fonction	La description
COUNT ( * ) , COUNT ( colonne )	Une fonction courante utilisée pour compter le nombre de lignes dans le groupe si aucun nom de colonne n'est spécifié. Sinon, comptez le nombre de lignes du groupe avec des valeurs non NULL dans la colonne spécifiée.
MIN ( colonne )	Recherche la plus petite valeur numérique dans la colonne spécifiée pour toutes les lignes du groupe.
MAX ( colonne )	Recherche la plus grande valeur numérique dans la colonne spécifiée pour toutes les lignes du groupe.
AVG ( colonne )	Recherche la valeur numérique moyenne dans la colonne spécifiée pour toutes les lignes du groupe.
SUM ( colonne )	Recherche la somme de toutes les valeurs numériques dans la colonne spécifiée pour les lignes du groupe."""

In [2]:
import pandas as pd

def to_df(s):
    l= [elt.split(';') for elt in s.replace("	", ";").split('\n')]
    return pd.DataFrame(l[1:], columns=l[0])

In [3]:
agregats = to_df(x)

In [4]:
agregats

Unnamed: 0,Fonction,La description
0,"COUNT ( * ) , COUNT ( colonne )",Une fonction courante utilisée pour compter le...
1,MIN ( colonne ),Recherche la plus petite valeur numérique dans...
2,MAX ( colonne ),Recherche la plus grande valeur numérique dans...
3,AVG ( colonne ),Recherche la valeur numérique moyenne dans la ...
4,SUM ( colonne ),Recherche la somme de toutes les valeurs numér...


## Fonctions d'agrégation groupées


En plus d'agréger sur toutes les lignes, vous pouvez à la place appliquer les fonctions d'agrégation à des groupes de données individuels au sein de ce groupe (c.-à-d. Ventes au box-office pour Comédies vs films d'action).

Cela créerait alors autant de résultats qu'il y a de groupes uniques définis par la clause **GROUP BY**.

Sélectionnez une requête avec des fonctions d'agrégation sur des groupes
``` mysql 
SELECT AGG_FUNC(column_or_expression) AS aggregate_description, …
FROM mytable
WHERE constraint_expression
GROUP BY column;
```

La clause **GROUP BY** fonctionne en regroupant les lignes qui ont la même valeur dans la colonne spécifiée.

## Exercise

Pour cet exercice, nous allons travailler avec notre table **employes** . Notez comment les lignes de ce tableau ont des données partagées, ce qui nous donnera l'occasion d'utiliser des fonctions d'agrégation pour résumer certaines mesures de haut niveau sur les équipes. Allez-y et donner un coup de feu.

In [6]:
import pandas as pd

def to_df(s):
    l= [elt.split(';') for elt in s.replace("	", ";").split('\n')]
    return pd.DataFrame(l[1:], columns=l[0])

In [7]:
x="""Role	Name	Building	Years_employed
Engineer	Becky A.	1e	4
Engineer	Dan B.	1e	2
Engineer	Sharon F.	1e	6
Engineer	Dan M.	1e	4
Engineer	Malcom S.	1e	1
Artist	Tylar S.	2w	2
Artist	Sherman D.	2w	8
Artist	Jakob J.	2w	6
Artist	Lillia A.	2w	7
Artist	Brandon J.	2w	7
Manager	Scott K.	1e	9
Manager	Shirlee M.	1e	3
Manager	Daria O.	2w	6"""

In [8]:
employes = to_df(x) #employees

In [9]:
employes

Unnamed: 0,Role,Name,Building,Years_employed
0,Engineer,Becky A.,1e,4
1,Engineer,Dan B.,1e,2
2,Engineer,Sharon F.,1e,6
3,Engineer,Dan M.,1e,4
4,Engineer,Malcom S.,1e,1
5,Artist,Tylar S.,2w,2
6,Artist,Sherman D.,2w,8
7,Artist,Jakob J.,2w,6
8,Artist,Lillia A.,2w,7
9,Artist,Brandon J.,2w,7


1. Trouvez le temps le plus long qu'un employé a passé au studio


In [16]:
QUERY1 = ""

In [17]:
sqldf(QUERY1)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,1,Toy Story,John Lasseter,1995,81
1,2,A Bug's Life,John Lasseter,1998,95
2,3,Toy Story 2,John Lasseter,1999,93
3,4,"Monsters, Inc.",Pete Docter,2001,92
4,5,Finding Nemo,Andrew Stanton,2003,107
5,6,The Incredibles,Brad Bird,2004,116
6,7,Cars,John Lasseter,2006,117
7,8,Ratatouille,Brad Bird,2007,115
8,9,WALL-E,Andrew Stanton,2008,104
9,10,Up,Pete Docter,2009,101


2. Pour chaque rôle, trouvez le nombre moyen d'années employées par les employés dans ce rôle

In [16]:
QUERY2 = ""

In [17]:
sqldf(QUERY2)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,1,Toy Story,John Lasseter,1995,81
1,2,A Bug's Life,John Lasseter,1998,95
2,3,Toy Story 2,John Lasseter,1999,93
3,4,"Monsters, Inc.",Pete Docter,2001,92
4,5,Finding Nemo,Andrew Stanton,2003,107
5,6,The Incredibles,Brad Bird,2004,116
6,7,Cars,John Lasseter,2006,117
7,8,Ratatouille,Brad Bird,2007,115
8,9,WALL-E,Andrew Stanton,2008,104
9,10,Up,Pete Docter,2009,101


3. Trouvez le nombre total d'années d'employés travaillés dans chaque bâtiment

In [16]:
QUERY3 = ""

In [17]:
sqldf(QUERY3)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,1,Toy Story,John Lasseter,1995,81
1,2,A Bug's Life,John Lasseter,1998,95
2,3,Toy Story 2,John Lasseter,1999,93
3,4,"Monsters, Inc.",Pete Docter,2001,92
4,5,Finding Nemo,Andrew Stanton,2003,107
5,6,The Incredibles,Brad Bird,2004,116
6,7,Cars,John Lasseter,2006,117
7,8,Ratatouille,Brad Bird,2007,115
8,9,WALL-E,Andrew Stanton,2008,104
9,10,Up,Pete Docter,2009,101
