# Leçon SQL 6: Requêtes multi-tables avec JOIN

Jusqu'à présent, nous avons travaillé avec une seule table, mais les données d'entité dans le monde réel sont souvent décomposées en morceaux et stockées sur plusieurs tables orthogonales à l'aide d'un processus appelé * normalisation * [[1]] (http: / /en.wikipedia.org/wiki/Database_normalization "Normalisation de la base de données").

## Normalisation de la base de données

La normalisation de la base de données est utile car elle minimise les données en double dans n'importe quelle table et permet aux données de la base de données de croître indépendamment les unes des autres (c'est-à-dire que les types de moteurs de voiture peuvent croître indépendamment de chaque type de voiture). En contrepartie, les requêtes deviennent un peu plus complexes car elles doivent pouvoir trouver des données à partir de différentes parties de la base de données, et des problèmes de performances peuvent survenir lors de l'utilisation de nombreuses tables volumineuses.

Afin de répondre aux questions sur une entité dont les données couvrent plusieurs tables dans une base de données normalisée, nous devons apprendre à écrire une requête capable de combiner toutes ces données et d'extraire exactement les informations dont nous avons besoin.

## Requêtes multi-tables avec JOIN

Les tables qui partagent des informations sur une seule entité doivent avoir une **clé primaire** qui identifie cette entité **de manière unique** dans la base de données. Un type de clé primaire courant est un entier auto-incrémenté (car ils sont économes en espace), mais il peut également s'agir d'une chaîne, d'une valeur hachée, tant qu'elle est unique.

Sélectionnez la requête avec INNER JOIN sur plusieurs tables
``` mysql 
SELECT column, another_table_column, …
FROM mytable
INNER JOIN another_table 
    ON mytable.id = another_table.id
WHERE condition(s)
ORDER BY column, … ASC/DESC
LIMIT num_limit OFFSET num_offset;
```

Le **INNER JOIN** est un processus qui fait correspondre les lignes de la première table et de la deuxième table qui ont la même clé (telle que définie par la contrainte **ON**) pour créer une ligne de résultat avec les colonnes combinées des deux tables. Une fois les tables jointes, les autres clauses que nous avons apprises précédemment sont ensuite appliquées.

**Le saviez-vous?** Vous pouvez voir des requêtes dans lesquelles INNER JOIN est écrit simplement comme JOIN. Ces deux éléments sont équivalents, mais nous continuerons à désigner ces jointures comme des jointures internes, car elles facilitent la lecture de la requête une fois que vous commencez à utiliser d'autres types de jointures, qui seront présentées dans la leçon suivante.

## Exercice

Nous avons ajouté une nouvelle table à la base de données Pixar afin que vous puissiez essayer de pratiquer certaines jointures. La table **BoxOffice** stocke des informations sur les évaluations et les ventes de chaque film Pixar particulier, et la colonne *Movie_id* de cette tabble correspond à la colonne *Id* du tableau **Movies** 1-to- 1. Essayez de résoudre les tâches ci-dessous en utilisant **INNER JOIN** présenté ci-dessus.

**IMPORTANT : Afin de répondre aux questions de l'exercise d'insérer la requête entre les doubles quotes " "**

In [1]:
import pandas as pd

def to_df(s):
    l= [elt.split(';') for elt in s.replace("	", ";").split('\n')]
    return pd.DataFrame(l[1:], columns=l[0])

In [2]:
from pandasql import sqldf

In [3]:
x="""Id	Title	Director	Year	Length_minutes
1	Toy Story	John Lasseter	1995	81
2	A Bug's Life	John Lasseter	1998	95
3	Toy Story 2	John Lasseter	1999	93
4	Monsters, Inc.	Pete Docter	2001	92
5	Finding Nemo	Andrew Stanton	2003	107
6	The Incredibles	Brad Bird	2004	116
7	Cars	John Lasseter	2006	117
8	Ratatouille	Brad Bird	2007	115
9	WALL-E	Andrew Stanton	2008	104
10	Up	Pete Docter	2009	101
11	Toy Story 3	Lee Unkrich	2010	103
12	Cars 2	John Lasseter	2011	120
13	Brave	Brenda Chapman	2012	102
14	Monsters University	Dan Scanlon	2013	110"""
Movies = to_df(x)

In [4]:
Movies

Unnamed: 0,Id,Title,Director,Year,Length_minutes
0,1,Toy Story,John Lasseter,1995,81
1,2,A Bug's Life,John Lasseter,1998,95
2,3,Toy Story 2,John Lasseter,1999,93
3,4,"Monsters, Inc.",Pete Docter,2001,92
4,5,Finding Nemo,Andrew Stanton,2003,107
5,6,The Incredibles,Brad Bird,2004,116
6,7,Cars,John Lasseter,2006,117
7,8,Ratatouille,Brad Bird,2007,115
8,9,WALL-E,Andrew Stanton,2008,104
9,10,Up,Pete Docter,2009,101


In [5]:
y="""Movie_id	Rating	Domestic_sales	International_sales
5	8.2	380843261	555900000
14	7.4	268492764	475066843
8	8	206445654	417277164
12	6.4	191452396	368400000
3	7.9	245852179	239163000
6	8	261441092	370001000
9	8.5	223808164	297503696
11	8.4	415004880	648167031
1	8.3	191796233	170162503
7	7.2	244082982	217900167
10	8.3	293004164	438338580
4	8.1	289916256	272900000
2	7.2	162798565	200600000
13	7.2	237283207	301700000"""
BoxOffice = to_df(y)

In [6]:
BoxOffice

Unnamed: 0,Movie_id,Rating,Domestic_sales,International_sales
0,5,8.2,380843261,555900000
1,14,7.4,268492764,475066843
2,8,8.0,206445654,417277164
3,12,6.4,191452396,368400000
4,3,7.9,245852179,239163000
5,6,8.0,261441092,370001000
6,9,8.5,223808164,297503696
7,11,8.4,415004880,648167031
8,1,8.3,191796233,170162503
9,7,7.2,244082982,217900167


1. Trouvez les ventes nationales et internationales de chaque film


In [7]:
QUERY1 = "SELECT Title,Domestic_sales, International_sales  FROM Movies INNER JOIN BoxOffice ON Movies.Id = BoxOffice.Movie_id"

In [8]:
sqldf(QUERY1)

Unnamed: 0,Title,Domestic_sales,International_sales
0,Toy Story,191796233,170162503
1,A Bug's Life,162798565,200600000
2,Toy Story 2,245852179,239163000
3,"Monsters, Inc.",289916256,272900000
4,Finding Nemo,380843261,555900000
5,The Incredibles,261441092,370001000
6,Cars,244082982,217900167
7,Ratatouille,206445654,417277164
8,WALL-E,223808164,297503696
9,Up,293004164,438338580


2. Afficher les chiffres de vente de chaque film qui a fait mieux au niveau international qu'au niveau national

In [11]:
QUERY2 = "SELECT Title,Domestic_sales, International_sales  FROM Movies INNER JOIN BoxOffice ON Movies.Id = BoxOffice.Movie_id WHERE International_sales > Domestic_sales"

In [12]:
sqldf(QUERY2)

Unnamed: 0,Title,Domestic_sales,International_sales
0,Finding Nemo,380843261,555900000
1,Monsters University,268492764,475066843
2,Ratatouille,206445654,417277164
3,Cars 2,191452396,368400000
4,The Incredibles,261441092,370001000
5,WALL-E,223808164,297503696
6,Toy Story 3,415004880,648167031
7,Up,293004164,438338580
8,A Bug's Life,162798565,200600000
9,Brave,237283207,301700000


3. Répertoriez tous les films par leur classement par ordre décroissant

In [17]:
QUERY3 = "SELECT Title,rating  FROM Movies INNER JOIN BoxOffice ON Movies.Id = BoxOffice.Movie_id ORDER BY rating DESC"

In [18]:
sqldf(QUERY3)

Unnamed: 0,Title,Rating
0,WALL-E,8.5
1,Toy Story 3,8.4
2,Toy Story,8.3
3,Up,8.3
4,Finding Nemo,8.2
5,"Monsters, Inc.",8.1
6,The Incredibles,8.0
7,Ratatouille,8.0
8,Toy Story 2,7.9
9,Monsters University,7.4
