# Construction de quelques requêtes SQL

## Principe de fonctionnement

Les requêtes SQL seront ici effectuées dans une base de données SQLite,
accessible depuis Python. Le code que vous écrivez est donc du code Python,
qui effectue la requête dans la base de données.

Cette base de données est contenue dans le fichier `films.db`. Le module
`requestdb.py` a été écrit pour faciliter l'accès à la bse, et l'affichage des
tables. Vous pouvez tout à fait consulter ce fichier et vous en resservir avec vos élèves.


## Exemples d'utilisation

In [None]:
# Un peu de style :
from IPython.display import HTML
HTML("data/style.css")

In [None]:
# On commence par importer le module
from requestdb import RequestDB
# Puis on crée l'objet <db> qui en lui indiquant 
# le chemin vers la base de données (ça fonctionne
# avec n'importe quelle base sqlite)
db = RequestDB("data/films.db")

On peut à présent avoir des informations sur les tables contenues dans la
base:

In [None]:
db.infos()

On voit par exemple que la table `personne` contient 5 champs nommés
`id`, `nom`, `pays`, `naissance` et `sexe`.

Pour écrire une requête, rien de plus simple. Voici par exemple comment lister
tous les pays (une fois chacun) dont ont connaît au moins une personne
de sexe féminin (donc une réalisatrice ou une actrice)

In [None]:
db.query("SELECT DISTINCT pays FROM personne WHERE sexe='F' LIMIT 10")

Les difficultés supplémentaires, par rapport à de simples requêtes SQL 
sont de s'emmêler éventuellement les pinceaux avec les guillemets.
Il est conseillé de mettre la requête entre `"`, et 
de n'utiliser que des guillemets simples `'` dans la requête elle-même.

Pour plus de lisibilité, on peut écrire les requêtes sur plusieurs lignes
avec des `"""` ainsi (conseillé pour les requêtes longues, vous gagnerez en efficacité).

Enfin, ne mettez pas de `;` à la fin de la ligne `db.query`, qui doit toujours être la dernière ligne de la cellule (sinon, le tableau de résultat ne s'affichera pas).

In [None]:
r = """\
SELECT DISTINCT pays 
FROM personne 
WHERE 
   sexe='F' AND
   pays LIKE 'A%'
"""
db.query(r)

Voici un exemple avec une apostrophe dans la requête (il suffit de la 
doubler pour qu'elle ne soit pas confondue avec un guillemet, c'est une règle
SQL) :

In [None]:
r = """\
SELECT * FROM film WHERE titre LIKE 'L''A%'
"""
db.query(r)

Attention à ne pas produire de tables résultat trop grandes (le navigateur pourrait ne pas apprécier...).
Il y a un garde-fou. Si le résultat contient plus de 100 lignes, il ne s'affichera pas.
Vous pouvez toutefois forcer l'affichage avec la syntaxe :

`dq.query(<requete>, force=True)`

## Requêtes corrigées

Par rapport à une BDD mysql interrogée directement, ce système avec un notebook ne permet que de faire des requêtes de type `SELECT` (pas de `DESCRIBE` ou `SHOW`). Pour avoir des informations sur les tables, vous devez écire ici `db.info()` (voir plus haut dans le notebook).

#### 10 noms de personnes

In [None]:
r = """\
SELECT nom FROM personne LIMIT 10
"""
db.query(r)

#### Noms et dates de naissance des 10 premières personnes donc la date de naissance est connue ('IS NOT NULL') dans l'ordre chronologique (du plus vieux au plus jeune)

In [None]:
# ASC est optionnel
r = """\
SELECT nom, naissance FROM personne 
  WHERE naissance IS NOT NULL 
  ORDER BY naissance ASC LIMIT 10
"""
db.query(r)

#### Noms et dates de naissance des 10 premières personnes donc la date de naissance est connue ('IS NOT NULL') dans l'ordre chronologique inverse (du plus jeune au plus vieux)

Les données viennent d'une BDD en ligne... il y a des erreurs manifestement :)

In [None]:
r = """\
SELECT nom, naissance FROM personne 
  WHERE naissance IS NOT NULL 
  ORDER BY naissance DESC LIMIT 10
"""
db.query(r)

#### Liste des titres des films commençant par la lettre 'M', par ordre alphabétique 

In [None]:
r = """\
SELECT titre FROM film 
  WHERE titre LIKE 'M%'
"""
db.query(r)

#### Différents noms des acteurs français (l'attribut 'pays' doit valoir 'France') dans l'ordre croissant des identifiants (attribut 'id'), limité à 30 résultats

Attention, il ne faut pas lister une personne qui aurait été simplement réalisatrice, sans jamais jouer dans un film (dans ce cas ce n'est pas un acteur...)

In [None]:
r = """\
SELECT DISTINCT nom FROM personne, joue
WHERE personne.id = idActeur and pays='France'
ORDER BY id
LIMIT 30
"""
db.query(r)

#### Nombre de réalisateurs par nationalité

Attention à bien comprendre l'intérêt de `DISTINCT` ici. 
Si on ne le met pas, un réalisateur ayant fait 2 films comptera deux fois. Au final, ce qu'on obtiendra, c'est le nombre de films, et non le nombre de réalisteurs... Notez comment on renomme une colonne, pour avoir un affichage plus propre. Notez aussi que la BDD contient quelques incohérences (U.S, U.S.A, United States... California ?...)

In [None]:
r = """\
SELECT pays, COUNT(DISTINCT personne.id) AS nombre
FROM personne, film
WHERE personne.id=film.idRealisateur
GROUP BY pays
"""
db.query(r)

#### Titres des films (et le nombre d'acteurs) dont le nombre d'acteurs est supérieur à 40 par ordre décroissant du nombre d'acteurs

Notez comment on renomme la colonne `COUNT(*)` et comment on utilise son nom dans les clauses `HAVING` et `ORDER BY`. 
On peut aussi ne pas la renommer et écrire `HAVING COUNT(*) > 40`, mais c'est moins lisible.

In [None]:
r = """\
SELECT titre, COUNT(*) as nbacteurs
FROM  joue, film
WHERE joue.idFilm = film.id
GROUP BY idFilm
HAVING nbacteurs > 40
ORDER BY nbacteurs DESC
"""
db.query(r)

## Exercices

**C'est à vous maintenant !!!!**

Dans la suite, vous devez écrire la requête qui fournit la réponse à la
question rédigée. Chaque question donne bien la liste des colonnes qu'on souhaite voir. Il n'en faut ni plus, ni moins.

On utilise indifférement dans la suite : ordre alphabétique, lexicographique, alphanumérique... Il s'agit dans tous les cas de l'ordre de SQL sur les chaînes de cractère (c'est l'ordre sur les codes ASCII des caractères)

Toutes les questions doivent être faites en une seule requête. Si on vous demande les films réalisés par Scorsese, par exemple, vous ne pouvez pas écirre une première requête pour relever le numéro `id` de Scorese, puis utiliser ce numéro dans une autre requête pour répondre à la question.

### 1. Requêtes simples

#### 1.1 Liste des titres des films commençant par la lettre `M` et se terminant par la lettre `r` ou `s`

#### 1.2 Liste des titres des films sortis entre 2002 et 2004 (sur les 3 années)

#### 1.3 Liste des noms et dates de naissance des personnes connues de la base dont le prénom commence par 'Ro' et de nationalité Française (le pays vaut 'France'), par ordre alphabétique.

### 2. Jointures

#### 2.1 Liste des films sortis en 2006 en indiquant le titre, et le genre (en texte), par ordre alphabétique des titres.

#### 2.2 Liste des drames sortis strictement avant 1970 en donnant le titre et l'année de sortie...
...par ordre chronologique (premier critère), puis alphabétique des titres (second critère de tri, pour les année de sorties égales)

####  2.3 Liste des genres de films réalisés par Martin Scorsese (sans que le même genre ne s'affiche deux fois).

#### 2.4 Liste alphabétique des acteurs du film _Le Convoyeur_

Essayez de faire les jointures avec `WHERE` et `JOIN`.

#### 2.5 Liste des films dont un des acteurs n'avait pas plus de 12 ans à la sortie du film.

Chaque ligne contiendra le titre du film, le nom de l'acteur, la date de sortie du film, la date de naissance de l'acteur et son âge à la sortie du film.
Un film pourra sortir plusieurs fois si plusieurs acteurs sont concernés.
Pour extraire une année numérique à partie d'une date de naissance, vous pouvez utiliser :

- `YEAR(naissance)` avec MariaDB
- `CAST(strftime("%Y", naissance) AS INTEGER)` avec SQLite...

Il y a des entrées erronées dans la base... vous risquez d'avoir des âges négatifs (à cause de dates de naissance fausses), mais ce n'est pas à vous de régler ce problème :)

### 3. Agrégations
Souvent, dans ces questions, il est utile de d'abord produire une liste de réponses, et après avoir vérifié que c'était *a priori* correct, d'ajouter les opérateurs d'agrégation dans la requête.

#### 3.1 Table contenant seulement l'année de sortie du plus ancien film, et l'année de sortie du film le plus récent.

#### 3.2 Moyenne du nombre de spectateurs  par film.

#### 3.3 Table contenant, pour chaque genre, le nombre de films qui relèvent de ce genre, par ordre décroissant du nombre de films

#### 3.4 Liste des 10 films comptant le plus d'acteurs...
... par ordre décroissant du nombre d'acteur, puis (2e critère) ordre alphabétique des titres

Attention, il pourrait y avoir des films différents avec le même titre !

#### 3.5 Liste des 5 films ayant le salaire moyen d'acteurs le plus bas

Note : Le champ salaire a été rempli aléaroirement (unité €, dollars ou millions de dollars, c'est selon...).
Le salaire n'est souvent pas renseigné. Seuls les films dont au moins un salaire est indiqué doivent être utilisés.

#### 3.6  Recette totale générée par des films de réalisateurs américains (vous utiliserez pays = 'USA')  sortis en 2010 ...
... en prenant un prix de l'entrée à 8 €

### Sous-requêtes

**Liste des films (avec leur année de sortie) sortis au pire 2 ans après le film le plus ancien de la base.**

Vous n'avez pas le droit de chercher cette date, puis de la mettre en dur dans la requête, il faut que votre requête fonctionne sans modification *quelles que soient les données présentes dans la base*.