# Notebook 3 : SQL

In [53]:
# Décommenter la ligne suivante pour installer ibis
# %pip install 'ibis-framework[sqlite]'

In [54]:
import sqlite3

import pandas as pd
import ibis

from ibis import _

ibis.options.interactive = True

query_tables = "SELECT name FROM sqlite_master WHERE type='table'"

## STAR

Nous considérons les données des stations de vélos en libre service [STAR](https://www.star.fr/) de Rennes Métropole. Une copie de la base SQLite est disponible dans le fichier `star.db`. Nous utilisons d'abord Pandas pour répondre aux questions, puis Ibis.

1. Se connecter à la base de données et afficher la liste des tables à l'aide de la fonction `read_sql` de Pandas et de la requête `query_tables`.

In [55]:
con = sqlite3.connect("data/star.db")
tables = pd.read_sql(query_tables, con)
print(tables)

        name
0  Topologie
1       Etat


2. Récupérer le contenu de la table `Etat` dans un dataframe et afficher la liste des variables disponibles. Même question pour la table `Topologie`.

In [56]:
etat_df = pd.read_sql("SELECT * FROM Etat", con)
print(etat_df.dtypes)
topologie_df = pd.read_sql("SELECT * FROM Topologie", con)
print(topologie_df.dtypes)

id                            int64
nom                          object
latitude                    float64
longitude                   float64
etat                         object
nb_emplacements               int64
emplacements_disponibles      int64
velos_disponibles             int64
date                        float64
data                         object
dtype: object
id                     int64
nom                   object
adresse_numero        object
adresse_voie          object
commune               object
latitude             float64
longitude            float64
id_correspondance    float64
mise_en_service      float64
nb_emplacements        int64
id_proche_1            int64
id_proche_2            int64
id_proche_3            int64
terminal_cb           object
dtype: object


3. Sélectionner l'identifiant `id`, le nom `nom` et l'identifiant de la station la plus proche `id_proche_1` depuis la table `Topologie`.

In [57]:
print(topologie_df[["id", "nom", "id_proche_1"]])

    id                nom  id_proche_1
0    1         République            2
1    2             Mairie            1
2    3      Champ Jacquet            2
3   10   Musée Beaux-Arts           12
4   12                TNB           10
..  ..                ...          ...
78  62         Clemenceau           63
79  66  Bréquigny Piscine           65
80  69    Champs Manceaux           66
81  85       La Courrouze           20
82  86          Armorique           78

[83 rows x 3 columns]


4. Faire une jointure sur la table précédente pour créer une table qui contient la liste des stations avec l'identifiant, le nom et le nom de la station la plus proche associée à l'identifiant `id_proche_1`. Les variables utilisées comme clés sont différents, penser à utiliser les arguments `left_on` et `right_on` de la méthode `merge`.

In [58]:
print(
    topologie_df[["id", "nom", "id_proche_1"]]
    .merge(topologie_df, left_on="id_proche_1", right_on="id", how="left")
    .filter(items=["id_x", "nom_x", "nom_y"])
    .rename(columns={"id_x": "id", "nom_x": "nom", "nom_y": "nom_proche_1"})
)

    id                nom       nom_proche_1
0    1         République             Mairie
1    2             Mairie         République
2    3      Champ Jacquet             Mairie
3   10   Musée Beaux-Arts                TNB
4   12                TNB   Musée Beaux-Arts
..  ..                ...                ...
78  62         Clemenceau     Henri Fréville
79  66  Bréquigny Piscine                NaN
80  69    Champs Manceaux  Bréquigny Piscine
81  85       La Courrouze     Pont de Nantes
82  86          Armorique         Gros-Chêne

[83 rows x 3 columns]


5. Ajouter à la table précédente la distance entre la station et la station la plus proche.

In [59]:
print(
    topologie_df
    .merge(topologie_df, left_on="id_proche_1", right_on="id", suffixes=("_x", "_y"))
    .assign(distance=lambda row:
        (
            (row.latitude_x - row.latitude_y)**2
            + (row.longitude_x - row.longitude_y)**2
        )**0.5
    )
    .filter(items=["id_x", "nom_x", "nom_y", "distance"])
    .rename(columns={"id_x": "id", "nom_x": "nom", "nom_y": "nom_proche_1"})
)

    id                nom        nom_proche_1  distance
0    1         République              Mairie  0.001753
1    3      Champ Jacquet              Mairie  0.001733
2    9      Saint-Georges              Mairie  0.004406
3    2             Mairie          République  0.001753
4   10   Musée Beaux-Arts                 TNB  0.001890
..  ..                ...                 ...       ...
76  11            Liberté          Les Halles  0.001925
77  19    Plélo Colombier          Les Halles  0.002156
78  24  Place de Bretagne  Office de Tourisme  0.001135
79  55         Préfecture             Cucillé  0.004111
80  69    Champs Manceaux   Bréquigny Piscine  0.008096

[81 rows x 4 columns]


6. Créer une table avec le nom des trois stations les plus proches du point GPS *(48.1179151,-1.7028661)* classées par ordre de distance et le nombre de vélos disponibles dans ces stations.

In [60]:
print(
    etat_df
    .assign(distance=
        (
            (48.1179151 - etat_df.latitude)**2
            + (-1.7028661 - etat_df.longitude)**2
        )**0.5
    )
    .filter(items=["id", "nom", "distance", "velos_disponibles" ])
    .sort_values(by="distance", ascending=True)
    .head(3)
)

    id                   nom  distance  velos_disponibles
50  56                Berger  0.002746                 10
17  52  Villejean-Université  0.003401                 11
74  38               Marbeuf  0.006216                  9


7. Reprendre les questions précédentes en utilisant le module `ibis`. Pour les jointures, utiliser la méthode `left_join`.

In [61]:
con_ibis = ibis.sqlite.connect("data/star.db")
con_ibis.tables

Tables
------
- Etat
- Topologie

In [62]:
etat_table = con_ibis.table("Etat")
print(etat_table.columns)

('id', 'nom', 'latitude', 'longitude', 'etat', 'nb_emplacements', 'emplacements_disponibles', 'velos_disponibles', 'date', 'data')


In [64]:
topologie_table = con_ibis.table("Topologie")
print(topologie_table.columns)

('id', 'nom', 'adresse_numero', 'adresse_voie', 'commune', 'latitude', 'longitude', 'id_correspondance', 'mise_en_service', 'nb_emplacements', 'id_proche_1', 'id_proche_2', 'id_proche_3', 'terminal_cb')


In [65]:
print(
    topologie_table.select("id", "nom", "id_proche_1")
)

┏━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━┓
┃[1m [0m[1mid[0m[1m   [0m[1m [0m┃[1m [0m[1mnom[0m[1m               [0m[1m [0m┃[1m [0m[1mid_proche_1[0m[1m [0m┃
┡━━━━━━━╇━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━┩
│ [2mint64[0m │ [2mstring[0m             │ [2mint64[0m       │
├───────┼────────────────────┼─────────────┤
│     [1;36m1[0m │ [32mRépublique        [0m │           [1;36m2[0m │
│     [1;36m2[0m │ [32mMairie            [0m │           [1;36m1[0m │
│     [1;36m3[0m │ [32mChamp Jacquet     [0m │           [1;36m2[0m │
│    [1;36m10[0m │ [32mMusée Beaux-Arts  [0m │          [1;36m12[0m │
│    [1;36m12[0m │ [32mTNB               [0m │          [1;36m10[0m │
│    [1;36m14[0m │ [32mLaënnec           [0m │          [1;36m35[0m │
│    [1;36m17[0m │ [32mCharles de Gaulle [0m │          [1;36m16[0m │
│    [1;36m20[0m │ [32mPont de Nantes    [0m │          [1;36m43[0m │
│    [1;36m22[0m │ [32mOberthur          [0m │     

In [68]:
print(
topologie_table
    .left_join(
        etat_table,
        topologie_table.id_proche_1 == etat_table.id)
    .select("id", "nom", "nom_right")
    .rename(nom_proche_1="nom_right")
)

┏━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
┃[1m [0m[1mid[0m[1m   [0m[1m [0m┃[1m [0m[1mnom[0m[1m               [0m[1m [0m┃[1m [0m[1mnom_proche_1[0m[1m      [0m[1m [0m┃
┡━━━━━━━╇━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
│ [2mint64[0m │ [2mstring[0m             │ [2mstring[0m             │
├───────┼────────────────────┼────────────────────┤
│     [1;36m1[0m │ [32mRépublique        [0m │ [32mMairie            [0m │
│     [1;36m2[0m │ [32mMairie            [0m │ [32mRépublique        [0m │
│     [1;36m3[0m │ [32mChamp Jacquet     [0m │ [32mMairie            [0m │
│    [1;36m10[0m │ [32mMusée Beaux-Arts  [0m │ [32mTNB               [0m │
│    [1;36m12[0m │ [32mTNB               [0m │ [32mMusée Beaux-Arts  [0m │
│    [1;36m14[0m │ [32mLaënnec           [0m │ [32mPont de Châteaudun[0m │
│    [1;36m17[0m │ [32mCharles de Gaulle [0m │ [32mChamps Libres     [0m │
│    [1;36m20[0m │ [32mPont de Nantes    [0m │ [

In [71]:
print(
topologie_table
    .left_join(
        etat_table,
        topologie_table.id_proche_1 == etat_table.id)
    .mutate(
        distance = ((_.latitude - _.latitude_right) * (_.latitude - _.latitude_right) + (_.longitude - _.longitude_right) * (_.longitude - _.longitude_right))**0.5
    )
    .select("id", "nom", "nom_right","distance")
    .rename(nom_proche_1="nom_right")
)

┏━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┓
┃[1m [0m[1mid[0m[1m   [0m[1m [0m┃[1m [0m[1mnom[0m[1m               [0m[1m [0m┃[1m [0m[1mnom_proche_1[0m[1m      [0m[1m [0m┃[1m [0m[1mdistance[0m[1m [0m┃
┡━━━━━━━╇━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━┩
│ [2mint64[0m │ [2mstring[0m             │ [2mstring[0m             │ [2mfloat64[0m  │
├───────┼────────────────────┼────────────────────┼──────────┤
│     [1;36m1[0m │ [32mRépublique        [0m │ [32mMairie            [0m │ [1;36m0.001753[0m │
│     [1;36m2[0m │ [32mMairie            [0m │ [32mRépublique        [0m │ [1;36m0.001753[0m │
│     [1;36m3[0m │ [32mChamp Jacquet     [0m │ [32mMairie            [0m │ [1;36m0.001733[0m │
│    [1;36m10[0m │ [32mMusée Beaux-Arts  [0m │ [32mTNB               [0m │ [1;36m0.001890[0m │
│    [1;36m12[0m │ [32mTNB               [0m │ [32mMusée Beaux-Arts  [0m │ [1;36m0.001890[0m │
│    [1;36m14[0m

In [110]:
print(
    etat_table
    .mutate(
        distance = (
            (48.1179151 - etat_table.latitude)*(48.1179151 - etat_table.latitude) 
            + (-1.7028661 - etat_table.longitude)*(-1.7028661 - etat_table.longitude)
            )**0.5
    )
    .order_by("distance")
    .limit(3)
    .select("nom", "distance", "velos_disponibles")
)

┏━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━┓
┃[1m [0m[1mnom[0m[1m                 [0m[1m [0m┃[1m [0m[1mdistance[0m[1m [0m┃[1m [0m[1mvelos_disponibles[0m[1m [0m┃
┡━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━┩
│ [2mstring[0m               │ [2mfloat64[0m  │ [2mint64[0m             │
├──────────────────────┼──────────┼───────────────────┤
│ [32mBerger              [0m │ [1;36m0.002746[0m │                [1;36m10[0m │
│ [32mVillejean-Université[0m │ [1;36m0.003401[0m │                [1;36m11[0m │
│ [32mMarbeuf             [0m │ [1;36m0.006216[0m │                 [1;36m9[0m │
└──────────────────────┴──────────┴───────────────────┘


8. (*Bonus*) Écrire des requêtes SQL pour obtenir les résultats demandés dans les questions 3 à 6. La fonction `to_sql` pourra être utilisée pour de l'aide.

## Musique

Le dépôt GitHub [lerocha/chinook-database](https://github.com/lerocha/chinook-database) met à disposition des bases de données de bibliothèques musicales. Une copie de la base SQLite est disponible dans le fichier `chinook.db`.

1. Utiliser le module `ibis` pour vous connecter à la base de données et explorer les tables formant le jeu de données pour le découvrir. En particulier, remarquer comment les tables `Playlist`, `PlaylistTrack` et `Track` sont liées entre elles.

In [111]:
con_chinook = ibis.sqlite.connect("data/chinook.db")
con_chinook.tables

Tables
------
- Album
- Artist
- Customer
- Employee
- Genre
- Invoice
- InvoiceLine
- MediaType
- Playlist
- PlaylistTrack
- Track

In [114]:
playlist = con_chinook.table("Playlist")
playlist

In [115]:
track = con_chinook.table("Track")
track

In [116]:
playlist_track = con_chinook.table("PlaylistTrack")
playlist_track

2. Quelles sont les playlists qui contiennent le plus de pistes ?

In [120]:
(
    playlist_track
    .group_by("PlaylistId")
    .aggregate(n_track=playlist_track.count())
    .left_join(
        playlist, "PlaylistId"
    )
    .select("PlaylistId", "Name", "n_track")
    .order_by(
        ibis.desc("n_track")
    )
)

3. Construire une table contenant les informations suivantes sur la playlist `Classical` : le titre de chaque piste ainsi que le titre de l'album dont cette piste est tirée.

In [121]:
album = con_chinook.table("Album")

print(
    playlist_track
    .left_join(playlist, playlist_track.PlaylistId == playlist.PlaylistId)
    .rename(PlaylistName="Name")
    .filter(_.PlaylistName == "Classical")
    .left_join(track, _.TrackId == track.TrackId)
    .left_join(album, _.AlbumId == album.AlbumId)
    .select("Name", "Title")
)

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃[1m [0m[1mName[0m[1m                                                                [0m[1m [0m┃[1m [0m[1mTitle[0m[1m                                     [0m
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
│ [2mstring(200)[0m                                                          │ [2mstring(160)[0m                               
├──────────────────────────────────────────────────────────────────────┼───────────────────────────────────────────
│ [32mIntoitus: Adorate Deum                                              [0m │ [32mAdorate Deum: Gregorian Chant from the Pro[0m
│ [32mMiserere mei, Deus                                                  [0m │ [32mAllegri: Miserere                         [0m
│ [32mCanon and Gigue in D Major: I. Canon                                [0m 

4. (*Bonus*) Écrire une requête SQL donnant le résultat de la question précédente. La fonction `to_sql` pourra être utilisée pour de l'aide.