# Interroger une base de données PostgreSQL avec Python via ce Jupyter Notebook
Ce document est un **Jupyter Notebook** dans lequel on peut exécuter **des instructions Python** et donc qu'on peut utiliser pour **interroger une base PostgreSQL**. <br>
Pour exécuter ce Jupyter Notebook, nous utiliserons une plateforme comme **Naas.ai** ou **Google Colab**, mais il serait tout à fait possible de le faire tourner sur votre machine en local *(en installant par exemple la distribution Anaconda)*.<br><br>
Pour cet exercice on utilisera sur une base d'entrainement **NetSerieFlix** dont le schéma relationnel est ci-dessous.

--------

### Installation des librairies et connexion à la base NetSerieFlix

In [None]:
# Installation des librairies Python nécessaires
# (À ne faire qu'une seule fois)
!pip install --user ipython-sql # (https://github.com/catherinedevlin/ipython-sql)
!pip install --user sqlalchemy # (https://www.sqlalchemy.org/)

# Bien attendre ce message de fin d'installation (celle-ci pouvant prendre jusqu'à 1 ou 2 min)
print("Fin de l'installation des librairies !")

In [None]:
# Chargement de l'extension permettant d'interroger facilement une BDD PostgreSQL
%load_ext sql

# Connexion à la BDD cavicharmilles_netserieflix
user = "cavicharmilles_lecture"
password = "..." # => TODO Indiquer le mot de passe fourni en cours
server = "postgresql-cavicharmilles.alwaysdata.net"
database = "cavicharmilles_netserieflix"
connection_string = "postgresql://{user}:{password}@{server}/{database}".format(user=user, password=password, server=server, database=database)
%sql $connection_string

print("Si on arrive ici, c'est que la connexion doit être opérationnelle !")

--------

### Schéma relationnel de la base NetSerieFlix

<pre style="font-size:1.2em; font-weight:500; line-height:1; color:DarkSlateBlue; margin:0;">
  serie (<u>id_serie</u>, nom_serie, note, synopsis) <br>
  saison (<u>#id_serie, num_saison</u>, annee) <br>
  episode (<u>#id_serie, #num_saison, num_ep</u>, nom_ep, duree_en_min) <br>
  genre (<u>id_genre</u>, nom_genre) <br>
  appartenir (<u>#id_serie, #id_genre</u>) <br>
  favoris (<u>nom_abonne, #id_serie</u>)
</pre>

--------

### Exemple : La liste de tous les épisodes de la série Black Mirror dans l'ordre

In [None]:
# Définition de la requête SQL
queryExemple = '''
    SELECT CONCAT('S0', num_saison, 'E0', num_ep) AS code_ep, e.*
    FROM serie se, episode e
    WHERE se.id_serie = e.id_serie
    AND se.nom_serie = 'Black Mirror'
    ORDER BY e.num_saison, e.num_ep
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame (pour plus de lisibilité)
resExemple = %sql $queryExemple
dfExemple = resExemple.DataFrame()
dfExemple

In [None]:
# BONUS : Affichage d'un graphique généré à partir des données récupérées

# Utilisation de la bibliothèque graphique intégrée à Notebook
%matplotlib inline

# Traçage d'un graphique en barres des durées des épisodes
dfExemple.plot(kind='bar', x='code_ep', y='duree_en_min', color='SlateBlue')
# puis traçage d'un histogramme pour visualiser la fréquence des durées des épisodes
dfExemple[['duree_en_min']].plot(kind='hist', bins=[30,40,50,60,70,80,90,100], rwidth=0.8)

# Pour voir d'autres exemples de graphiques qui peuvent être générés
# à partir d'un DataFrame de la librairie Pandas :
#   https://queirozf.com/entries/pandas-dataframe-plot-examples-with-matplotlib-pyplot
#   https://pandas.pydata.org/docs/user_guide/visualization.html

------------

### Exo1 : Les saisons (avec année de sortie) de la série Stranger Things

In [None]:
# Définition de la requête SQL (à compléter)
query1 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res1 = %sql $query1
res1.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_serie        num_saison  annee
# 0  Stranger Things  1           2016
# 1  Stranger Things  2           2017
# 2  Stranger Things  3           2019

### Exo2 : Le nom des genres associés à la série qui a l'ID 1

In [None]:
# Définition de la requête SQL (à compléter)
query2 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res2 = %sql $query2
res2.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_genre
# 0  Science-Fiction
# 1  Fantastique

### Exo3 : Le nom des épisodes dont le nom commence par "Retour"
Les résultats doivent être **triés par ordre alphabétique**.

In [None]:
# Définition de la requête SQL (à compléter)
query3 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res3 = %sql $query3
res3.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_ep
# 0  Retour aux sources
# 1  Retour sur image

### Exo4 : Le nom des genres associés soit à la série Black Mirror, soit à la série Stranger Things, soit aux deux
Les résultats ne doivent **pas comporter de doublons**, et doivent être **triés par ordre alphabétique inversé**.

In [None]:
# Définition de la requête SQL (à compléter)
query4 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res4 = %sql $query4
res4.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_genre
# 0  Thriller
# 1  Science-Fiction
# 2  Fantastique

### Exo5 : Le nom et la durée de l'épisode de Black Mirror qui dure le plus longtemps
<i><u>INDICE :</u> Pensez à utiliser un **ORDER BY** associé à un **LIMIT** pour faire cela (pas besoin de **MAX(...)**)</i>

In [None]:
# Définition de la requête SQL (à compléter)
query5 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res5 = %sql $query5
res5.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_ep           duree_maxi
# 0  Haine virtuelle  89

### Exo6 : Le nom et le nombre d'épisodes des séries qui ont au moins 25 épisodes différents
Les résultats doivent être **triés du plus grand au plus petit nombre d'épisodes**.<br>
<i><u>INDICE :</u> Pensez à utiliser un **COUNT(*)**, un **GROUP BY** associé à un **HAVING** pour faire cela.

In [None]:
# Définition de la requête SQL (à compléter)
query6 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res6 = %sql $query6
res6.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_serie        nb_episodes
# 0  Hero Corp        30
# 1  Stranger Things  25

### Exo7 : Le temps total nécessaire pour voir tous les épisodes de la série Black Mirror
Afficher le résultat **en minutes** (pas besoin de le convertir).

In [None]:
# Définition de la requête SQL (à compléter)
query7 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res7 = %sql $query7
res7.DataFrame()

### RÉSULTATS ATTENDUS ###
#     somme_durees
# 0   1090.0

### Exo8 : Pour chaque saison de Stranger Things, La moyenne de durée des épisodes
Les moyennes doivent être **arrondies au 1er chiffre après la virgule** grâce à la fonction **ROUND(...)** : https://sql.sh/fonctions/round

In [None]:
# Définition de la requête SQL (à compléter)
query8 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res8 = %sql $query8
res8.DataFrame()

### RÉSULTATS ATTENDUS ###
#    num_saison  moy_duree
# 0  1           49.4
# 1  2           51.6
# 2  3           56.1

### Exo9 : Le nom de la série qui appartient à la fois au genre Fantastique et au genre Thriller

In [None]:
# Définition de la requête SQL (à compléter)
query9 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res9 = %sql $query9
res9.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_serie
# 0  Stranger Things

### Exo10 : Le nom des séries qui n'ont aucun épisode qui dépasse 35 minutes
<i><u>INDICE :</u> Cela revient à la même chose que de demander : Le nom des séries dont l'épisode le plus long ne dépasse pas 35 minutes</i>

In [None]:
# Définition de la requête SQL (à compléter)
query10 = '''
    SELECT * ...
'''

# Exécution de la requête et affichage sous la forme d'un DataFrame
res10 = %sql $query10
res10.DataFrame()

### RÉSULTATS ATTENDUS ###
#    nom_serie
# 0  Hero Corp
# 1  The IT Crowd

---------

### FIN