# Leçon SQL 4: Filtrage et tri des résultats des requêtes

Même si les données d'une base de données peuvent être uniques, les résultats d'une requête particulière peuvent ne pas l'être - prenez notre tableau Films par exemple, de nombreux films différents peuvent être publiés la même année. Dans de tels cas, SQL fournit un moyen pratique d'éliminer les lignes qui ont une valeur de colonne en double à l'aide du **DISTINCT** mot clé.

Sélectionnez la requête avec des résultats uniques
``` mysql 
SELECT DISTINCT column, another_column, …
FROM mytable
WHERE condition(s);
```

Étant donné que le mot clé DISTINCT supprimera aveuglément les lignes en double, nous apprendrons dans une prochaine leçon comment éliminer les doublons en fonction de colonnes spécifiques en utilisant le regroupement et la clause GROUP BY.

## Ordonner les résultats

Contrairement à notre tableau parfaitement ordonné dans les dernières leçons, la plupart des données des bases de données réelles sont ajoutées sans ordre de colonne particulier. Par conséquent, il peut être difficile de lire et de comprendre les résultats d'une requête car la taille d'une table augmente à des milliers, voire des millions de lignes.

Pour vous aider, SQL fournit un moyen de trier vos résultats par une colonne donnée dans l'ordre croissant ou décroissant à l'aide de la **ORDER BY** clause.

Sélectionner une requête avec des résultats ordonnés
``` mysql 
SELECT column, another_column, …
FROM mytable
WHERE condition(s)
ORDER BY column ASC/DESC;
```

Lorsqu'une clause **ORDER BY** est spécifiée, chaque ligne est triée de manière alphanumérique en fonction de la valeur de la colonne spécifiée. Dans certaines bases de données, vous pouvez également spécifier un classement pour mieux trier les données contenant du texte international.

## Limiter les résultats à un sous-ensemble

Une autre clause couramment utilisée avec la **ORDER BY** clause sont les clauses **LIMIT** et **OFFSET**, qui sont une optimisation utile pour indiquer à la base de données le sous-ensemble des résultats qui vous tient à cœur.
L'option **LIMIT** réduira le nombre de lignes à renvoyer et l'option facultative **OFFSET** spécifiera à partir de laquelle commencer à compter le nombre de lignes.



Sélectionnez une requête avec des lignes limitées
``` mysql 
SELECT column, another_column, …
FROM mytable
WHERE condition(s)
ORDER BY column ASC/DESC
LIMIT num_limit OFFSET num_offset;
```

Si vous pensez à des sites Web comme Reddit ou Pinterest, la page d'accueil est une liste de liens triés par popularité et par heure, et chaque page suivante peut être représentée par des ensembles de liens à différents décalages dans la base de données. En utilisant ces clauses, la base de données peut alors exécuter des requêtes plus rapidement et plus efficacement en traitant et en renvoyant uniquement le contenu demandé.

**Le saviez-vous?** Si vous êtes curieux de savoir quand les LIMIT et OFFSET sont appliqués par rapport aux autres parties d'une requête, ils sont généralement effectués en dernier après l'application des autres clauses. Nous en reparlerons plus dans la Leçon 12:après avoir introduit quelques autres parties de la requête.

## Exercice

Il y a quelques concepts dans cette leçon, mais tous sont assez simples à appliquer. Pour pimenter les choses, nous avons brouillé le tableau ** Films ** pour vous dans l'exercice afin de mieux imiter le type de données que vous pourriez voir dans la vie réelle. Essayez d'utiliser les mots-clés et clauses nécessaires présentés ci-dessus dans vos requêtes.

**IMPORTANT : Afin de répondre aux questions de l'exercise d'insérer la requête entre les doubles quotes " "**

In [1]:
import pandas as pd

def to_df(s):
    l= [elt.split(';') for elt in s.replace("	", ";").split('\n')]
    return pd.DataFrame(l[1:], columns=l[0])

In [2]:
from pandasql import sqldf

In [3]:
x="""Id	Title	Director	Year	Length_minutes
1	Toy Story	John Lasseter	1995	81
2	A Bug's Life	John Lasseter	1998	95
3	Toy Story 2	John Lasseter	1999	93
4	Monsters, Inc.	Pete Docter	2001	92
5	Finding Nemo	Andrew Stanton	2003	107
6	The Incredibles	Brad Bird	2004	116
7	Cars	John Lasseter	2006	117
8	Ratatouille	Brad Bird	2007	115
9	WALL-E	Andrew Stanton	2008	104
10	Up	Pete Docter	2009	101
11	Toy Story 3	Lee Unkrich	2010	103
12	Cars 2	John Lasseter	2011	120
13	Brave	Brenda Chapman	2012	102
14	Monsters University	Dan Scanlon	2013	110"""
Movies = to_df(x)

In [4]:
Movies

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,1,Toy Story,John Lasseter,1995,81
1,2,A Bug's Life,John Lasseter,1998,95
2,3,Toy Story 2,John Lasseter,1999,93
3,4,"Monsters, Inc.",Pete Docter,2001,92
4,5,Finding Nemo,Andrew Stanton,2003,107
5,6,The Incredibles,Brad Bird,2004,116
6,7,Cars,John Lasseter,2006,117
7,8,Ratatouille,Brad Bird,2007,115
8,9,WALL-E,Andrew Stanton,2008,104
9,10,Up,Pete Docter,2009,101


1. Répertoriez tous les réalisateurs de films Pixar (par ordre alphabétique), sans doublons


In [11]:
QUERY1 = "SELECT DISTINCT Director FROM Movies ORDER BY Director ASC"

In [12]:
sqldf(QUERY1)

Unnamed: 0,Director
0,Andrew Stanton
1,Brad Bird
2,Brenda Chapman
3,Dan Scanlon
4,John Lasseter
5,Lee Unkrich
6,Pete Docter


2. Répertoriez les quatre derniers films Pixar sortis (classés du plus récent au moins)

In [17]:
QUERY2 = "SELECT * FROM Movies ORDER BY Year DESC LIMIT 4"

In [18]:
sqldf(QUERY2)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,14,Monsters University,Dan Scanlon,2013,110
1,13,Brave,Brenda Chapman,2012,102
2,12,Cars 2,John Lasseter,2011,120
3,11,Toy Story 3,Lee Unkrich,2010,103


3. Répertoriez les cinq premiers films Pixar classés par ordre alphabétique

In [19]:
QUERY3 = "SELECT * FROM Movies ORDER BY Title ASC LIMIT 5"

In [20]:
sqldf(QUERY3)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,2,A Bug's Life,John Lasseter,1998,95
1,13,Brave,Brenda Chapman,2012,102
2,7,Cars,John Lasseter,2006,117
3,12,Cars 2,John Lasseter,2011,120
4,5,Finding Nemo,Andrew Stanton,2003,107


4. Répertoriez les cinq prochains films Pixar classés par ordre alphabétique

In [21]:
QUERY4 = "SELECT * FROM Movies ORDER BY Title ASC LIMIT 5 offset 5"

In [22]:
sqldf(QUERY4)

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,14,Monsters University,Dan Scanlon,2013,110
1,4,"Monsters, Inc.",Pete Docter,2001,92
2,8,Ratatouille,Brad Bird,2007,115
3,6,The Incredibles,Brad Bird,2004,116
4,1,Toy Story,John Lasseter,1995,81
