# Exercice 1

## Contexte et objectifs

L'objectif de ce défi est de se familiariser avec la conception de base de données, une compétence cruciale pour explorer une base de données.

## Spécifications

### Conception de la base de données des films

Il existe de nombreuses manières de construire une base de données de films, mais commençons par construire un système de base avec `users`, `movies` et `views`.

Voici les exigences de notre système :

- Un `user` a un `first_name`, un `last_name`, un `age` et un `email`.
- Un `movie` a un `title`, une `release_year` et un `rating`.
- Un `user` peut `view` de nombreux `movies`.
- Un `movie` peut être `viewed` par de nombreux `users`.
- Un `view` est défini par une `date`.

Quelles colonnes sont des clés primaires ? Quelles sont les clés étrangères ? Quelle est la relation entre les tables ? Comment appelons-nous la table `views` ?

### Concevoir le schéma

Concevez le schéma de base de données pour une base de données de films qui répond à ces exigences.
Pour cela, vous devez utiliser l'outil [SQL Designer](https://sql.toad.cz/).

Prenez en capture d'écran le schéma de base de donnée réalisé, glissez-deposez l'image dans le dossier `images` et insérer l'image dans le Jupyter Notebook dans une cellule en Markdown.

Si vous voyez une erreur étrange, vérifiez deux fois la syntaxe de vos colonnes et tables nommées.

## Points clés d'apprentissage

- Se familiariser avec l'utilisation de l'outil [SQL Designer](https://sql.toad.cz/) pour construire un schéma de base de données multi-tables.
- Comprendre la différence entre clé primaire et clé étrangère.
- Comprendre la différence entre les relations [`1:N` et `N:N`](https://fr.wikipedia.org/wiki/Cardinalit%C3%A9_(programmation))


![students db table](./images/Ex1_jour2.png "This is my answer")

# Excercice 2

Spécifications
L’objectif de cet exercice est d’explorer la base de données `Movies` et de comprendre son schéma. Réponds aux questions suivantes :

- Quel est le schéma de la base de données ? (quelles sont les tables et les relations entre les tables)
- Utilise l’outil SQL Design pour dessiner le schéma de cette base de données.
- Quels sont les noms des colonnes pour chaque table ?

Utilise à nouveau le [SQL Designer](https://sql.toad.cz/) pour concevoir le schéma de base de la base de données.

### Petit coup de main :

In [2]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/movies.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT name
FROM sqlite_master
WHERE type IN ('table', 'view') AND name != 'sqlite_sequence'
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,name
0,directors
1,movies


In [12]:
# Create a pandas DataFrame from a SQL query
sql_query = '''

SELECT * FROM movies


'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,title,rating,vote_count,start_year,minutes,genres,imdb_id,id,director_id
0,A Trip to the Moon,8.2,39710,1902,13.0,"Action,Adventure,Comedy",tt0000417,1,1
1,The Great Train Robbery,7.3,15526,1903,11.0,"Action,Crime,Short",tt0000439,2,2
2,The Birth of a Nation,6.4,20774,1915,195.0,"Drama,History,War",tt0004972,3,4
3,Intolerance: Love's Struggle Throughout the Ages,7.8,13051,1916,163.0,"Drama,History",tt0006864,4,4
4,The Cabinet of Dr. Caligari,8.1,51029,1920,76.0,"Fantasy,Horror,Mystery",tt0010323,5,5
...,...,...,...,...,...,...,...,...,...
9870,Enaaya,8.9,10283,2019,25.0,Drama,tt9649436,9871,9871
9871,Sonnie's Edge,8.3,12130,2019,17.0,"Animation,Comedy,Fantasy",tt9781722,9872,9872
9872,The Witness,7.8,10680,2019,12.0,"Animation,Comedy,Fantasy",tt9788486,9873,9873
9873,Beyond the Aquila Rift,8.6,11151,2019,17.0,"Animation,Comedy,Fantasy",tt9788496,9874,9874


![students db table](./images/Ex2_jour2.png "This is my answer")

# Exercice 3

## Contexte et objectifs

L’objectif de cet exercice est de communiquer avec la base de données **depuis Python**.

Dans ce challenge, tu vas travailler exclusivement dans le jupyter notebook, dans lequel tu devras compléter plusieurs cellules pour rassembler des données précises provenant de la base de données.

## Spécifications

👉 **IMPORTANT** : Inspire toi du code python inséré ci-dessus pour tester ta requête SQL, pas besoin de modifier le code en Python :

```python
sql_query = '''

SELECT * FROM Artists

'''

df = pd.read_sql_query(sql_query, conn)

df
```

## Specs :

### Nombre de réalisateurs
Combien de réalisateurs se trouvent dans cette base de données ?

### Liste des réalisateurs
Quelle est la liste de tous les noms de tous les réalisateurs triés par ordre alphabétique ? Retourner une liste de noms.

### Liste de films sur Romantiques
Quels sont les films qui contiennent le mot exact “love” dans leur titre, triés par ordre alphabétique ? Retourner une liste de titres de films.

### Nombre de réalisateurs nommés comme…
Combien de réalisateurs contiennent un mot, donné par un utilisateur, dans leur nom ?

### Liste des films plus longs que…
Quels sont les films qui sont plus longs que 1h38, triés par ordre alphabétique ? Retourner une liste de titres de films.


## Conseils

Les requêtes SQL ont tendance à être longues, notamment si tu commences à utiliser `WHERE` ou `JOIN`. En Python, tu peux utiliser le multiligne pour écrire tes requêtes à **plusieurs lignes** n'oublie pas d'utiliser les ''' :

```python
# Trouve les 3 premiers artistes avec la lettre `Z` dans leur nom.
query = '''
 SELECT * FROM artists
 WHERE name LIKE "%Z%"
 ORDER BY name
 LIMIT 3
'''
df = pd.read_sql_query(query, conn)
```


## Ressources

- [Commandes SQL](https://www.codecademy.com/article/sql-commands)
- [Cours en 🇫🇷 sur `SELECT`](http://sqlpro.developpez.com/cours/sqlaz/select/#L3.4)
- [Documentation SQL](https://sql.sh/)

### Nombre de réalisateurs

In [7]:
sql_query = '''

SELECT COUNT(directors.name) AS nbr_realisateur 
FROM directors

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,nbr_realisateur
0,4089


### Liste des réalisateurs par l'ordre alphabétique

In [9]:
sql_query = '''

SELECT directors.name AS Liste_des_realisateurs 
FROM directors
ORDER BY directors.name ASC

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_des_realisateurs
0,A.R. Murugadoss
1,Aamir Khan
2,Aanand L. Rai
3,Aaron Hann
4,Aaron Harvey
...,...
4084,Álex de la Iglesia
4085,Çagan Irmak
4086,Ömer Faruk Sorak
4087,Ömer Vargi


### Liste de films sur Romantiques

In [44]:
 sql_query = '''

SELECT movies.title AS Liste_de_films_romantiques
FROM movies
WHERE movies.title LIKE "%love %"

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_de_films_romantiques
0,Love in the Afternoon
1,I Love Lucy
2,Dr. Strangelove or: How I Learned to Stop Worr...
3,The Love Bug
4,Love and Death
5,Everyone Says I Love You
6,Love Story
7,I Love You to Death
8,For Love of the Game
9,Love & Other Drugs


### Nombre de réalisateurs contiennent le mot "john" dans leur nom

In [43]:
sql_query = '''

SELECT COUNT(directors.name) AS Nbr_realisateurs_john
FROM directors
WHERE directors.name LIKE "%john %"

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Nbr_realisateurs_john
0,115


### Liste des films plus longs que…

In [13]:
sql_query = '''

SELECT movies.title AS Liste_des_films, movies.minutes
FROM movies
WHERE movies.minutes > 98

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_des_films,minutes
0,The Birth of a Nation,195
1,Intolerance: Love's Struggle Throughout the Ages,163
2,The Great Dictator,125
3,Monsieur Verdoux,124
4,Limelight,137
...,...,...
5546,Annabelle Comes Home,106
5547,Unplanned,109
5548,Our Planet,403
5549,The Great Hack,113


# Exercice 4 (join queries)

## Contexte et objectifs

Le moment est venu de passer à quelque chose de plus complexe. On va utiliser les requêtes `JOIN` pour lire les données de plusieurs tables. Pour devenir instantanément un pro des requêtes `JOIN`, [lis ceci](http://stackoverflow.com/questions/17946221/sql-join-and-different-types-of-joins). L’image est très utile. Tu peux aussi [lire ceci](http://sql.sh/cours/jointures).

## Spécifications

Reutilise le code python exactement comme dans l’exercice précédent pour pouvoir interroger la base de donnée.

### Voici les requêtes : 

- la liste des films avec leurs genres et le nom du réalisateur
- la liste de tous les films sortis après la mort de leur réalisateur
- tous les genres avec le nombre de films associés et la durée moyenne des films pour chaque genre
- le top 5 des réalisateurs ayant le plus de films pour un genre donné (choisi le genre)
- le top 5 des réalisateurs les plus jeunes lorsqu'ils réalisent leur premier film



### la liste des films avec leurs genres et le nom du réalisateur

In [39]:
sql_query = '''

SELECT movies.title AS Liste_des_films, movies.genres, directors.name
FROM movies
JOIN directors ON movies.director_id = directors.id
ORDER BY Liste_des_films ASC

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_des_films,genres,name
0,'71,"Action,Crime,Drama",Yann Demange
1,'Allo 'Allo!,"Comedy,History,War",David Croft
2,(T)Raumschiff Surprise - Periode 1,"Comedy,Sci-Fi",Michael Herbig
3,*batteries not included,"Comedy,Family,Fantasy",Matthew Robbins
4,...And the Bag's in the River,"Crime,Drama,Thriller",Adam Bernstein
...,...,...,...
9867,¡Three Amigos!,"Comedy,Western",John Landis
9868,Æon Flux,"Action,Adventure,Crime",Karyn Kusama
9869,Çalgi Çengi,Comedy,Selçuk Aydemir
9870,Ófærð,"Crime,Drama,Thriller",Börkur Sigþórsson


### la liste de tous les films sortis après la mort de leur réalisateur

In [19]:
sql_query = '''

SELECT movies.title AS Liste_des_films, movies.start_year, directors.name, directors.death_year
FROM movies
JOIN directors ON movies.director_id = directors.id
WHERE movies.start_year > directors.death_year
ORDER BY Liste_des_films ASC


'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_des_films,start_year,name,death_year
0,Cars,2006,Joe Ranft,2005
1,Fantasia 2000,1999,James Algar,1998
2,Game of Death,1978,Bruce Lee,1973
3,The Many Adventures of Winnie the Pooh,1977,John Lounsbery,1976
4,The Rescuers,1977,John Lounsbery,1976
5,Waitress,2007,Adrienne Shelly,2006


### tous les genres avec le nombre de films associés et la durée moyenne des films pour chaque genre

In [50]:
sql_query = '''

SELECT movies.genres AS Liste_des_genres, COUNT(movies.id), AVG(movies.minutes) AS duree_moyenne
FROM movies
GROUP BY movies.genres


'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Liste_des_genres,COUNT(movies.id),duree_moyenne
0,Action,6,113.666667
1,"Action,Adventure",14,120.500000
2,"Action,Adventure,Animation",155,59.212903
3,"Action,Adventure,Biography",13,104.384615
4,"Action,Adventure,Comedy",153,100.980392
...,...,...,...
494,"Sci-Fi,Thriller",13,101.230769
495,Talk-Show,1,60.000000
496,Thriller,13,106.384615
497,"Thriller,War",2,121.000000


### le top 5 des réalisateurs ayant le plus de films pour un genre donné (choisi le genre)

In [84]:
sql_query = '''

SELECT directors.name AS Top_5_realisateurs, movies.genres, COUNT(movies.id) AS total_movie
FROM movies
JOIN directors ON directors.id = movies.director_id
WHERE genres = "Action"
GROUP BY Top_5_realisateurs
ORDER BY total_movie DESC
LIMIT 5


'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Top_5_realisateurs,genres,total_movie
0,Tony Jaa,Action,2
1,Radha Krishna Jagarlamudi,Action,1
2,RZA,Action,1
3,Prabhu Deva,Action,1
4,Han-min Kim,Action,1


### le top 5 des réalisateurs les plus jeunes lorsqu'ils réalisent leur premier film

In [98]:
sql_query = '''

SELECT directors.name AS Top_5_realisateurs, MIN (movies.start_year - directors.birth_year) AS Age
FROM movies
JOIN directors ON directors.id = movies.director_id
WHERE directors.birth_year is not null AND movies.start_year
GROUP BY directors.id
ORDER BY Age ASC
LIMIT 5

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,Top_5_realisateurs,Age
0,Adam Paloian,8
1,Alfonso Ribeiro,19
2,Kenn Navarro,20
3,Xavier Dolan,20
4,Albert Hughes,21
