# Interroger une base de données MySQL avec Python<br>(via ce Jupyter Notebook)
Ce document est un **Jupyter Notebook** dans lequel on peut exécuter **des instructions Python** et donc qu'on peut utiliser pour **interroger une base MySQL**. <br>
Pour exécuter ce Jupyter Notebook, nous utiliserons la plateforme **Naas.ai**, mais il serait tout à fait possible de le faire tourner sur votre machine en local *(en installant par exemple la distribution Anaconda)*.<br>
Et pour cet exercice on se basera sur une base d'entrainement **NetSerieFlix** dont le schéma relationnel est ci-dessous.

--------

### Installation et importation des librairies nécessaires

In [9]:
# Installation (si nécessaire) de la librairie pymysql
!pip install --user pymysql

# Importation des librairies nécessaires
import os
import pymysql
import pandas as pnd



--------

### Schéma relationnel de la base NetSerieFlix

<pre style="font-size:1.2em; font-weight:500; line-height:1; color:DarkSlateBlue; margin:0;">
  serie (<u>id_serie</u>, nom_serie, note, synopsis) <br>
  saison (<u>#id_serie, num_saison</u>, annee) <br>
  episode (<u>#id_serie, #num_saison, num_ep</u>, nom_ep, duree_en_min) <br>
  genre (<u>id_genre</u>, nom_genre) <br>
  appartenir (<u>#id_serie, #id_genre</u>) <br>
  favoris (<u>nom_abonne, #id_serie</u>)
</pre>

--------

### Connexion à la base NetSerieFlix

In [10]:
# Informations de connexion à la base NetSerieFlix
# (L'utilisateur "cavi_lgi" n'ayant que les droits de lecture sur la base)
host = "mysql-cavi.alwaysdata.net"
port = 3306
database = "cavi_netserieflix"

user = "cavi_lgi"
password = "..." # => TODO Indiquer le mot de passe fourni en cours

# => Pour explorer la base "cavi_netserieflix", connectez-vous au
#  PHPMyAdmin associé à cette base : https://phpmyadmin.alwaysdata.com/
#  et renseigner les informations de connexion indiquées ci-dessus

# Connexion à la base
MYSQL_CX = pymysql.connect(
    host=host,
    port=int(port),
    user=user,
    passwd=password,
    db=database,
    charset='utf8mb4')

OperationalError: (1045, "Access denied for user 'cavi_lgi'@'15.236.83.113' (using password: YES)")

--------

### Exemple : La liste de tous les épisodes de la série Black Mirror dans l'ordre

In [None]:
# Définition de la requête
# /!\ Bien penser à utiliser les triple-quotes '''...'''
#   pour pouvoir faire des requêtes sur plusieurs lignes
query0 = '''SELECT CONCAT('S0', num_saison, 'E0', num_ep) AS code_ep, e.*
    FROM serie se, episode e
    WHERE se.id_serie = e.id_serie
    AND se.nom_serie = 'Black Mirror'
    ORDER BY e.num_saison, e.num_ep '''

# Exécution de la requête
df0 = pnd.read_sql_query(query0, MYSQL_CX)

# Affichage des résultats de la requête
# /!\ Indiquer simplement le nom de la variable pour avoir
#   un affichage formatté des résultats de la requête
df0

In [None]:
# Utilisation de la bibliothèque graphique intégrée à Notebook
%matplotlib inline

# Traçage d'un graphique en barres des durées des épisodes
df0.plot(kind='bar', x='code_ep', y='duree_en_min', color='SlateBlue')
# puis traçage d'un histogramme pour visualiser la fréquence des durées des épisodes
df0[['duree_en_min']].plot(kind='hist', bins=[30,40,50,60,70,80,90,100], rwidth=0.8)

# Pour voir d'autres exemples de graphiques qui peuvent être générés
# à partir d'un DataFrame de la librairie Pandas :
#   https://queirozf.com/entries/pandas-dataframe-plot-examples-with-matplotlib-pyplot
#   https://pandas.pydata.org/docs/user_guide/visualization.html

------------

### Exo1 : Les saisons (avec année de sortie) de la série Stranger Things

In [None]:
# Définition de la requête
query1 = '''SELECT * ...'''

# Exécution de la requête
df1 = pnd.read_sql_query(query1, MYSQL_CX)

# Affichage des résultats de la requête
df1

### RÉSULTATS ATTENDUS ###
#    nom_serie        num_saison  annee
# 0  Stranger Things  1           2016
# 1  Stranger Things  2           2017
# 2  Stranger Things  3           2019

### Exo2 : Le nom des genres associés à la série qui a l'ID 1

In [None]:
# Définition de la requête
query2 = '''SELECT * ...'''

# Exécution de la requête
df2 = pnd.read_sql_query(query2, MYSQL_CX)

# Affichage des résultats de la requête
df2

### RÉSULTATS ATTENDUS ###
#    nom_genre
# 0  Science-Fiction
# 1  Fantastique

### Exo3 : Le nom des épisodes dont le nom commence par "Retour"
Les résultats doivent être **triés par ordre alphabétique**.

In [None]:
# Définition de la requête
query3 = '''SELECT * ...'''

# Exécution de la requête
df3 = pnd.read_sql_query(query3, MYSQL_CX)

# Affichage des résultats de la requête
df3

### RÉSULTATS ATTENDUS ###
#    nom_ep
# 0  Retour aux sources
# 1  Retour sur image

### Exo4 : Le nom des genres associés soit à la série Black Mirror, soit à la série Stranger Things, soit aux deux
Les résultats ne doivent **pas comporter de doublons**, et doivent être **triés par ordre alphabétique inversé**.

In [None]:
# Définition de la requête
query4 = '''SELECT * ...'''

# Exécution de la requête
df4 = pnd.read_sql_query(query4, MYSQL_CX)

# Affichage des résultats de la requête
df4

### RÉSULTATS ATTENDUS ###
#    nom_genre
# 0  Thriller
# 1  Science-Fiction
# 2  Fantastique

### Exo5 : Le nom et la durée de l'épisode de Black Mirror qui dure le plus longtemps
<i><u>INDICE :</u> Pensez à utiliser un **ORDER BY** associé à un **LIMIT** pour faire cela (pas besoin de **MAX(...)**)</i>

In [None]:
# Définition de la requête
query5 = '''SELECT * ...'''

# Exécution de la requête
df5 = pnd.read_sql_query(query5, MYSQL_CX)

# Affichage des résultats de la requête
df5

### RÉSULTATS ATTENDUS ###
#    nom_ep           duree_maxi
# 0  Haine virtuelle  89

### Exo6 : Le nom et le nombre d'épisodes des séries qui ont au moins 25 épisodes différents
Les résultats doivent être **triés du plus grand au plus petit nombre d'épisodes**.<br>
<i><u>INDICE :</u> Pensez à utiliser un **COUNT(*)**, un **GROUP BY** associé à un **HAVING** pour faire cela.

In [None]:
# Définition de la requête
query6 = '''SELECT * ...'''

# Exécution de la requête
df6 = pnd.read_sql_query(query6, MYSQL_CX)

# Affichage des résultats de la requête
df6

### RÉSULTATS ATTENDUS ###
#    nom_serie        nb_episodes
# 0  Hero Corp        30
# 1  Stranger Things  25

### Exo7 : Le temps total nécessaire pour voir tous les épisodes de la série Black Mirror
Afficher le résultat **en minutes** (pas besoin de le convertir).

In [None]:
# Définition de la requête
query7 = '''SELECT * ...'''

# Exécution de la requête
df7 = pnd.read_sql_query(query7, MYSQL_CX)

# Affichage des résultats de la requête
df7

### RÉSULTATS ATTENDUS ###
#     somme_durees
# 0   1090.0

### Exo8 : Pour chaque saison de Stranger Things, La moyenne de durée des épisodes
Les moyennes doivent être **arrondies au 1er chiffre après la virgule** grâce à la fonction **ROUND(...)** : https://sql.sh/fonctions/round

In [None]:
# Définition de la requête
query8 = '''SELECT * ...'''

# Exécution de la requête
df8 = pnd.read_sql_query(query8, MYSQL_CX)

# Affichage des résultats de la requête
df8

### RÉSULTATS ATTENDUS ###
#    num_saison  moy_duree
# 0  1           49.4
# 1  2           51.6
# 2  3           56.1

---------

### *Fermeture de la connexion avec la BDD*
*Même si ce n'est pas obligatoire dans ce cadre, il est souvent important de fermer la connexion avec la BDD à la fin de son script.*

In [None]:
MYSQL_CX.close()