# Exercice 1

## Contexte et objectifs

L'objectif de ce premier défi est de se familiariser avec la conception de bases de données, une compétence **cruciale** pour rendre votre base de donnée maintenable, flexible et efficace. Pour créer nos bases de données, nous utiliserons le [SQL Designer](https://sql.toad.cz/), un outil que nous utiliserons plusieurs fois au cours de la semaine.

## Specs

### Design de notre première table

Commençons par créer une table pour stocker les utilisateurs. La table doit contenir les colonnes suivantes
- First name
- Last name
- Email

Utilise le [SQL Designer](https://sql.toad.cz/) pour ajouter la table `users` avec les colonnes spécifiées ci-dessus.

NOTE : Rappelle-toi que chaque table a besoin d'une colonne `id` !

### Design de la base de données de surveys

Continuons à partir de notre table `users` pour construire une base de données `surveys`. Il existe de nombreuses façons de construire une base de données d'enquête et de sondages, mais commençons par construire un système de base avec des utilisateurs, des questions, des réponses et des enquêtes.

Voici les exigences de notre système :
- L'application gère plusieurs `users` (que nous avons déjà).
- Un utilisateur peut créer plusieurs `surveys`, mais une enquête n'est créée que par un seul utilisateur.
- Une enquête comporte plusieurs `questions`.
- Une question a plusieurs `answers` possibles.
- Lorsqu'un utilisateur répond à une question, il ne peut choisir qu'une seule réponse. Celles-ci sont stockées en tant que `user_answers`.

### Design du schéma

Utilisons à nouveau le [SQL Designer](https://sql.toad.cz/) pour concevoir un schéma de base de données pour une application d'enquête qui répond aux exigences ci-dessus.

Insère le schéma de la base de donnée sous forme de capture d'écran dans la cellule suivante.

## Points clés de l'apprentissage

- Sais-tu ce qu'est un schéma ?
- Quelle est la relation entre les tables ?
- Peux-tu dessiner le schéma de la base de données derrière Facebook ? Airbnb ? Prends une feuille et essaye de deviner les différentes tables !

![students db table](./images/Ex1.png "This is my answer")

# Excercice 2

Spécifications
L’objectif de cet exercice est d’explorer la base de données Jukebox et de comprendre son schéma. Réponds aux questions suivantes :

- Quel est le schéma de la base de données ? (quelles sont les tables et les relations entre les tables)
- Utilise l’outil SQL Design pour dessiner le schéma de cette base de données.
- Quels sont les noms des colonnes pour chaque table ?

Utilise à nouveau le [SQL Designer](https://sql.toad.cz/) pour concevoir le schéma de base de la base de données.

### Petit coup de main :

In [11]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT name
FROM sqlite_master
WHERE type IN ('table', 'view') AND name != 'sqlite_stat1'
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,name
0,albums
1,artists
2,genres
3,media_types
4,tracks


In [12]:
# Create a pandas DataFrame from a SQL query
sql_query = '''

SELECT * FROM tracks

'''

df = pd.read_sql_query(sql_query, conn)

df

Unnamed: 0,id,album_id,media_type_id,genre_id,name,composer,milliseconds,bytes,unit_price
0,1,1,1,1,For Those About To Rock (We Salute You),"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,2,2,1,Balls to the Wall,,342562,5510424,0.99
2,3,3,2,1,Fast As a Shark,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,3,2,1,Restless and Wild,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,3,2,1,Princess of the Dawn,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99
...,...,...,...,...,...,...,...,...,...
3498,3499,343,2,24,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,,286741,4718950,0.99
3499,3500,344,2,24,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",Franz Schubert,139200,2283131,0.99
3500,3501,345,2,24,"L'orfeo, Act 3, Sinfonia (Orchestra)",Claudio Monteverdi,66639,1189062,0.99
3501,3502,346,2,24,"Quintet for Horn, Violin, 2 Violas, and Cello ...",Wolfgang Amadeus Mozart,221331,3665114,0.99


![students db table](./images/Ex2.png "This is my answer")

# Exercice 3

## Contexte et objectifs

L’objectif de cet exercice est de communiquer avec la base de données **depuis Python**.

Dans ce challenge, tu vas travailler exclusivement dans le jupyter notebook, dans lequel tu devras compléter plusieurs cellules pour rassembler des données précises provenant de la base de données.

## Spécifications

👉 **IMPORTANT** : Inspire toi du code python inséré ci-dessus pour tester ta requête SQL, pas besoin de modifier le code en Python :

```python
sql_query = '''

SELECT COUNT *
FROM artists


'''

df = pd.read_sql_query(sql_query, conn)

df
```

## Specs

Il y a six requêtes SQL à compléter :

- Combien de lignes la table `artists` contient-elle ? : 275 lignes
SELECT COUNT (*)
FROM artists

- Combien de lignes chaque table contient-elle ?
albums : 347 lignes 
artist : 275 lignes
genres : 25 lignes
media_types : 5 lignes
tracks : 3503 lignes

- Retourne la liste de tous les artistes classés par nom (par ordre alphabétique). **Indice :** utilise le filtre SQL `ORDER BY`.
SELECT name
FROM artists
ORDER BY name ASC

- Trouve toutes les chansons d’amour (à savoir les chansons dont le titre contient le mot "love" **n'importe où**). **Indice :** utilise les mots-clés SQL `WHERE` et `LIKE`.
SELECT *
FROM tracks
WHERE name LIKE "%love%"

=> C'est la liste de 114 chansons qui contient le mot "love"

- Retourne toutes les chansons dont la durée est supérieure à 45 minutes et trie-les. **Indice :** tu peux utiliser l’opérateur de comparaison `>` dans SQL.
SELECT *
FROM tracks
WHERE milliseconds > 2700000

=> C'est la liste de 31 chansons qui a le millesecond supérieur à 2700000 (45 minutes)

- Retourne la liste de chaque artiste avec leur nombre d'albums. **Indice :** utilise le mot-clé SQL `JOIN`, ainsi que `GROUP BY` et `ORDER BY`.
SELECT artists.name, count(albums.id)
FROM artists
JOIN albums ON albums.artist_id = artists.id
GROUP BY artists.id
ORDER BY artists.name ASC

=> c'est la liste de 203 artistes avec leur nombre d'albums

## Conseils

Les requêtes SQL ont tendance à être longues, notamment si tu commences à utiliser `WHERE` ou `JOIN`. En Python, tu peux utiliser le multiligne pour écrire tes requêtes à **plusieurs lignes** n'oublie pas d'utiliser les ''' :

```python
# Trouve les 3 premiers artistes avec la lettre `Z` dans leur nom.
query = '''
 SELECT * FROM artists
 WHERE name LIKE "%Z%"
 ORDER BY name
 LIMIT 3
'''
df = pd.read_sql_query(query, conn)
```


## Ressources

- [Commandes SQL](https://www.codecademy.com/article/sql-commands)
- [Cours en 🇫🇷 sur `SELECT`](http://sqlpro.developpez.com/cours/sqlaz/select/#L3.4)
- [Documentation SQL](https://sql.sh/)

## Combien de lignes la table `artists` contient-elle ?

In [5]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT COUNT (*) as nbr_lignes_artists
FROM artists

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,nbr_lignes_artists
0,275


## Combien de lignes chaque table contient-elle ?

In [4]:
# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT COUNT (*) as nbr_lignes_albums
FROM albums

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,nbr_lignes_albums
0,347


In [6]:
# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT COUNT (*) as nbr_lignes_genres
FROM genres

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,nbr_lignes_genres
0,25


In [7]:
# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT COUNT (*) as nbr_lignes_media_types
FROM media_types

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,nbr_lignes_media_types
0,5


In [8]:
# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT COUNT (*) as nbr_lignes_tracks
FROM tracks

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,nbr_lignes_tracks
0,3503


## Retourne la liste de tous les artistes classés par nom (par ordre alphabétique).

In [9]:
# Query the sqlite_master table to get the schema of all tables
query = '''

SELECT name
FROM artists
ORDER BY name ASC

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df


Unnamed: 0,name
0,A Cor Do Som
1,AC/DC
2,Aaron Copland & London Symphony Orchestra
3,Aaron Goldberg
4,Academy of St. Martin in the Fields & Sir Nevi...
...,...
270,Xis
271,Yehudi Menuhin
272,Yo-Yo Ma
273,Youssou N'Dour


## Trouve toutes les chansons d’amour (à savoir les chansons dont le titre contient le mot "love" **n'importe où**). 

In [10]:
# Query the sqlite_master table to get the schema of all tables
query = '''

SELECT *
FROM tracks
WHERE name LIKE "%love%"

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df



Unnamed: 0,id,album_id,media_type_id,genre_id,name,composer,milliseconds,bytes,unit_price
0,24,5,1,1,Love In An Elevator,"Steven Tyler, Joe Perry",321828,10552051,0.99
1,56,7,1,1,"Love, Hate, Love","Jerry Cantrell, Layne Staley",387134,12575396,0.99
2,195,20,1,6,Let Me Love You Baby,Willie Dixon,175386,5716994,0.99
3,335,29,1,9,My Love,Jauperi/Zeu Góes,203493,6772813,0.99
4,341,30,1,1,The Girl I Love She Got Long Black Wavy Hair,Jimmy Page/John Bonham/John Estes/John Paul Jo...,183327,5995686,0.99
...,...,...,...,...,...,...,...,...,...
109,3355,265,5,1,Love Comes,"Darius ""Take One"" Minwalla/Jon Auer/Ken String...",199923,3240609,0.99
110,3377,270,2,23,Arms Around Your Love,Chris Cornell,214016,3516224,0.99
111,3460,321,2,14,Love Is a Losing Game,,154386,2509409,0.99
112,3470,322,2,9,I Heard Love Is Blind,,129666,2190831,0.99


## Retourne toutes les chansons dont la durée est supérieure à 45 minutes et trie-les. 

In [11]:
# Query the sqlite_master table to get the schema of all tables
query = '''

SELECT *
FROM tracks
WHERE milliseconds > 2700000

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,id,album_id,media_type_id,genre_id,name,composer,milliseconds,bytes,unit_price
0,2820,227,3,19,Occupation / Precipice,,5286953,1054423946,1.99
1,2826,227,3,18,Hero,,2713755,506896959,1.99
2,2838,227,3,20,"Crossroads, Pt. 2",,2869953,497335706,1.99
3,2902,231,3,21,Maternity Leave,,2780416,555244214,1.99
4,2910,231,3,19,Dave,,2825166,574325829,1.99
5,2918,231,3,19,"""?""",,2782333,528227089,1.99
6,2920,231,3,19,Three Minutes,,2763666,531556853,1.99
7,3224,229,3,21,Through a Looking Glass,,5088838,1059546140,1.99
8,3226,253,3,20,"Battlestar Galactica, Pt. 1",,2952702,541359437,1.99
9,3227,253,3,20,"Battlestar Galactica, Pt. 2",,2956081,521387924,1.99


## Retourne la liste de chaque artiste avec leur nombre d'albums

In [12]:
# Query the sqlite_master table to get the schema of all tables
query = '''

SELECT artists.name, count(albums.id)
FROM artists
JOIN albums ON albums.artist_id = artists.id
GROUP BY artists.id
ORDER BY artists.name ASC

'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,name,count(albums.id)
0,AC/DC,2
1,Aaron Copland & London Symphony Orchestra,1
2,Aaron Goldberg,1
3,Academy of St. Martin in the Fields & Sir Nevi...,1
4,Academy of St. Martin in the Fields Chamber En...,1
...,...,...
199,Vinícius De Moraes,1
200,Wilhelm Kempff,1
201,Yehudi Menuhin,1
202,Yo-Yo Ma,1


# Exercice 4 (join queries)

## Contexte et objectifs

Le moment est venu de passer à quelque chose de plus complexe. On va utiliser les requêtes `JOIN` pour lire les données de plusieurs tables. Pour devenir instantanément un pro des requêtes `JOIN`, [lis ceci](http://stackoverflow.com/questions/17946221/sql-join-and-different-types-of-joins). L’image est très utile. Tu peux aussi [lire ceci](http://sql.sh/cours/jointures).

## Spécifications

Reutilise le code python exactement comme dans l’exercice précédent pour pouvoir interroger la base de donnée.

### Voici les requêtes : 

- La liste des **morceaux avec leur album et artiste**.
- Pour le genre musical 'Jazz', retourner le **nombre de morceaux** et la **durée moyenne des chansons**. Indice : tu peux utiliser la fonction SQL `AVG` pour _average_
- Lister les informations des morceaux et de l'album pour les morceaux dont les noms contiennent un mot-clé donné. Choisis le mot-clé. Exemple : `love`
- Lister les top 5 artistes de Rock ayant le plus de morceaux.


### La liste des **morceaux avec leur album et artiste**.

In [1]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT artists.name as artists, tracks.name as chansons, albums.title as albums
FROM tracks
JOIN albums ON tracks.album_id = albums.id
JOIN artists ON albums.artist_id = artists.id
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df


Unnamed: 0,artists,chansons,albums
0,AC/DC,For Those About To Rock (We Salute You),For Those About To Rock We Salute You
1,Accept,Balls to the Wall,Balls to the Wall
2,Accept,Fast As a Shark,Restless and Wild
3,Accept,Restless and Wild,Restless and Wild
4,Accept,Princess of the Dawn,Restless and Wild
...,...,...,...
3498,Eugene Ormandy,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,Respighi:Pines of Rome
3499,Emerson String Quartet,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",Schubert: The Late String Quartets & String Qu...
3500,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon...","L'orfeo, Act 3, Sinfonia (Orchestra)",Monteverdi: L'Orfeo
3501,Nash Ensemble,"Quintet for Horn, Violin, 2 Violas, and Cello ...",Mozart: Chamber Music


### Pour le genre musical 'Jazz', retourner le **nombre de morceaux** et la **durée moyenne des chansons**.

In [80]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT count(*), AVG(tracks.milliseconds/60000)
FROM tracks
JOIN albums ON tracks.album_id = albums.id
JOIN genres ON tracks.genre_id = genres.id
WHERE genres.name LIKE "%Jazz%"
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,count(*),AVG(tracks.milliseconds/60000)
0,130,4.4


### Lister les informations des morceaux et de l'album pour les morceaux dont les noms contiennent un mot-clé donné. 

In [85]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT *
FROM tracks
JOIN albums ON tracks.album_id = albums.id
WHERE tracks.name LIKE "%love%"
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,id,album_id,media_type_id,genre_id,name,composer,milliseconds,bytes,unit_price,id.1,title,artist_id
0,24,5,1,1,Love In An Elevator,"Steven Tyler, Joe Perry",321828,10552051,0.99,5,Big Ones,3
1,56,7,1,1,"Love, Hate, Love","Jerry Cantrell, Layne Staley",387134,12575396,0.99,7,Facelift,5
2,195,20,1,6,Let Me Love You Baby,Willie Dixon,175386,5716994,0.99,20,The Best Of Buddy Guy - The Millenium Collection,15
3,335,29,1,9,My Love,Jauperi/Zeu Góes,203493,6772813,0.99,29,Axé Bahia 2001,21
4,341,30,1,1,The Girl I Love She Got Long Black Wavy Hair,Jimmy Page/John Bonham/John Estes/John Paul Jo...,183327,5995686,0.99,30,BBC Sessions [Disc 1] [Live],22
...,...,...,...,...,...,...,...,...,...,...,...,...
109,3355,265,5,1,Love Comes,"Darius ""Take One"" Minwalla/Jon Auer/Ken String...",199923,3240609,0.99,265,Every Kind of Light,200
110,3377,270,2,23,Arms Around Your Love,Chris Cornell,214016,3516224,0.99,270,Carry On,205
111,3460,321,2,14,Love Is a Losing Game,,154386,2509409,0.99,321,Back to Black,252
112,3470,322,2,9,I Heard Love Is Blind,,129666,2190831,0.99,322,Frank,252


### Lister les top 5 artistes de Rock ayant le plus de morceaux.

In [88]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
conn = sqlite3.connect('./data/jukebox.sqlite')

# Query the sqlite_master table to get the schema of all tables
query = '''
SELECT artists.name, COUNT (tracks.id) AS nb_tracks 
FROM genres
JOIN tracks ON genres.id = tracks.genre_id
JOIN albums ON albums.id = tracks.album_id
JOIN artists ON artists.id = albums.artist_id
WHERE genres.name = "Rock"
GROUP BY artists.name
ORDER BY nb_tracks DESC
LIMIT 5
'''

# Create a pandas DataFrame from the SQL query
df = pd.read_sql_query(query, conn)

# Display the DataFrame
df

Unnamed: 0,name,nb_tracks
0,Led Zeppelin,114
1,U2,112
2,Deep Purple,92
3,Iron Maiden,81
4,Pearl Jam,54
