# Notebook 6 : MongoDB

In [None]:
# Décommenter la ligne suivante pour installer pymongo
# %pip install pymongo

Collecting pymongo
  Downloading pymongo-4.12.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.12.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.7.0-py3-none-any.whl (313 kB)
Installing collected packages: dnspython, pymongo
Successfully installed dnspython-2.7.0 pymongo-4.12.1
Note: you may need to restart the kernel to use updated packages.


In [3]:
import json

import pandas as pd
import pymongo

client = pymongo.MongoClient('mongodb://user-gbourdeau-ensae:oa4imm8b4oufthgicem6@mongodb-0.mongodb-headless:27017,mongodb-1.mongodb-headless:27017/defaultdb')
db=client.defaultdb

## Planètes de Star Wars

Nous considérons ici les données des planètes de *Star Wars* exportées à la fin du *Notebook 4*. Le fichier `planets.json` est également disponible dans le dossier des jeux de données.

1. Accéder à une collection `planets` et s'assurer qu'elle est vide grâce à la méthode `count_documents`.

In [9]:
planets = db["planets"]
print(planets.count_documents({}))

0


2. Importer les données des planètes dans la collection `planets`.

In [12]:
with open("data/planets.json") as f:
    for planet_document in f.readlines():
        planets.insert_one(json.loads(planet_document))

print(f"{planets.count_documents({})} planètes")

60 planètes


3. Exporter l'ensemble des planètes sans l'identifiant `_id` dans un dataframe à l'aide du résultat de la méthode `find`.

In [15]:
planets_df = pd.DataFrame(planets.find(projection={"_id": False}))
print(planets_df.head())

                     edited              climate surface_water      name  \
0  2014-12-20T20:58:18.411Z                 arid             1  Tatooine   
1  2014-12-20T20:58:18.420Z            temperate            40  Alderaan   
2  2014-12-20T20:58:18.421Z  temperate, tropical             8  Yavin IV   
3  2014-12-20T20:58:18.423Z               frozen           100      Hoth   
4  2014-12-20T20:58:18.425Z                murky             8   Dagobah   

  diameter rotation_period                   created  \
0    10465              23  2014-12-09T13:50:49.641Z   
1    12500              24  2014-12-10T11:35:48.479Z   
2    10200              24  2014-12-10T11:37:19.144Z   
3     7200              23  2014-12-10T11:39:13.934Z   
4     8900              23  2014-12-10T11:42:22.590Z   

                              terrain       gravity orbital_period  \
0                              desert    1 standard            304   
1               grasslands, mountains    1 standard            364

4. Rechercher les planètes dont la période de rotation est égale à 25. Quel est le problème ? Combien y en a-t-il ?

In [28]:
# Il ne semble y avoir aucune planète avec une période de rotation égale à 25
print(f"'rotation_period': 25 ----> {planets.count_documents({'rotation_period': 25})}")

# Il faut remarquer que les données sont des chaînes de caractères (ce sera corrigé dans la suite)
print(f"'rotation_period': '25' --> {planets.count_documents({'rotation_period': '25'})}")

print(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": 25},
            projection={"_id": False},
        )
    )
)

print(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={"_id": False},
        )
    )
)

'rotation_period': 25 ----> 0
'rotation_period': '25' --> 5
Empty DataFrame
Columns: []
Index: []
                     edited           climate surface_water            name  \
0  2014-12-20T20:58:18.449Z  temperate, moist       unknown  Cato Neimoidia   
1  2014-12-20T20:58:18.456Z         temperate            70        Corellia   
2  2014-12-20T20:58:18.461Z         temperate       unknown       Dantooine   
3  2014-12-20T20:58:18.468Z              arid       unknown       Trandosha   
4  2014-12-20T20:58:18.491Z         temperate       unknown      Haruun Kal   

  diameter rotation_period                   created  \
0        0              25  2014-12-10T13:46:28.704Z   
1    11000              25  2014-12-10T16:49:12.453Z   
2     9830              25  2014-12-10T17:23:29.896Z   
3        0              25  2014-12-15T12:53:47.695Z   
4    10120              25  2014-12-20T10:12:28.980Z   

                                   terrain        gravity orbital_period  \
0  mountains, 

5. Même question mais en limitant la réponse aux clés `name`, `rotation_period`, `orbital_period` et `diameter`.

In [27]:
print(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={"_id": False, "name": True,"rotation_period": True,"orbital_period": True,"diameter": True},
        )
    )
)

             name diameter rotation_period orbital_period
0  Cato Neimoidia        0              25            278
1        Corellia    11000              25            329
2       Dantooine     9830              25            378
3       Trandosha        0              25            371
4      Haruun Kal    10120              25            383


6. Trier les planètes du résultat précédent par diamètre décroissant. Quel est le problème ?

In [32]:
resultat=(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

print(resultat)

print(resultat.convert_dtypes().dtypes)

             name diameter rotation_period orbital_period
0       Dantooine     9830              25            378
1        Corellia    11000              25            329
2      Haruun Kal    10120              25            383
3  Cato Neimoidia        0              25            278
4       Trandosha        0              25            371
name               string[python]
diameter           string[python]
rotation_period    string[python]
orbital_period     string[python]
dtype: object


7. Vider la collection et importer à nouveau les données mais en faisant les corrections suivantes au préalable (un dataframe intermédiaire pourra être utilisé pour manipuler les données avant leur insertion) :
- convertir les valeurs numériques (gérer les cas `unknown`),
- supprimer les variables `created`, `edited`, `films`, `gravity`, `residents` et `url`.
- transformer les variables `climate` et `terrain` en listes de chaînes de caractères plutôt qu'une longue chaîne séparée par des virgules.

In [35]:
# Chargement des données dans un dataframe intermédiaire
df_planets = pd.read_json("data/planets.json", lines=True)

# Conversion des valeurs numériques
numeric_columns = ["diameter", "orbital_period", "population", "rotation_period", "surface_water"]
df_planets[numeric_columns] = (
    df_planets[numeric_columns]
    .replace("unknown", pd.NA) # Replace les "unknown" par des valeurs manquantes
    .apply(pd.to_numeric) # Une façon de convertir en numériques
)

# Suppression des colonnes
df_planets.drop(
    columns=["created", "edited", "films", "gravity", "residents", "url"],
    inplace=True # Modifie le dataframe
)

# Transformation en listes de chaînes de caractères
columns = ["climate", "terrain"]
df_planets[columns] = (
    df_planets[columns]
    # Séparateur ", " pour diviser les longues chaînes de caractères
    .apply(lambda serie: serie.str.split(", "))
)

# Les données sont prêtes, nous pouvons vider la collection pour insérer les nouvelles versions

planet_documents = (
    df_planets
    .to_json(orient="records", lines=True) # Documents séparés par des retours à la ligne "\n"
    .split("\n") # Séparateur "\n" pour diviser la liste des documents
)

planets.drop() # Suppression des documents de la collection
planets.insert_many( # Insertion des nouvelles versions
    [
        json.loads(planet_document)
        for planet_document in planet_documents
        if planet_document != "" # Évite le dernier retour à la ligne
    ]
)

# Affichage du résultat
(
    pd.DataFrame(
        planets.find(projection={"_id": False})
    )
    .head()
)

Unnamed: 0,climate,surface_water,name,diameter,rotation_period,terrain,orbital_period,population
0,[arid],1.0,Tatooine,10465.0,23.0,[desert],304.0,200000.0
1,[temperate],40.0,Alderaan,12500.0,24.0,"[grasslands, mountains]",364.0,2000000000.0
2,"[temperate, tropical]",8.0,Yavin IV,10200.0,24.0,"[jungle, rainforests]",4818.0,1000.0
3,[frozen],100.0,Hoth,7200.0,23.0,"[tundra, ice caves, mountain ranges]",549.0,
4,[murky],8.0,Dagobah,8900.0,23.0,"[swamp, jungles]",341.0,


8. Reprendre la question 6 et vérifier que le résultat est maintenant correct.

In [37]:
resultat=(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": 25},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

print(resultat)

print(resultat.convert_dtypes().dtypes)

             name  diameter  rotation_period  orbital_period
0        Corellia   11000.0             25.0           329.0
1      Haruun Kal   10120.0             25.0           383.0
2       Dantooine    9830.0             25.0           378.0
3  Cato Neimoidia       0.0             25.0           278.0
4       Trandosha       0.0             25.0           371.0
name               string[python]
diameter                    Int64
rotation_period             Int64
orbital_period              Int64
dtype: object


9. Extraire les planètes dont le nom commence par `T`.

In [38]:
(
    pd.DataFrame(
        planets.find(
            filter={"name": {"$regex": "^T"}},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

Unnamed: 0,name,diameter,rotation_period,orbital_period
0,Tund,12190.0,48.0,1770.0
1,Tatooine,10465.0,23.0,304.0
2,Toydaria,7900.0,21.0,184.0
3,Trandosha,0.0,25.0,371.0
4,Troiken,,,
5,Tholoth,,,


10. Extraire les planètes dont le diamètre est strictement supérieur à 10000 et où se trouvent des montagnes.

In [40]:
(
    pd.DataFrame(
        planets.find(
            filter={"$and": [
                {"diameter": {"$gt": 10000}},
                {"terrain": {"$in": ["mountains"]}}
            ]},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "terrain": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

Unnamed: 0,name,diameter,rotation_period,terrain
0,Malastare,18880.0,26.0,"[swamps, deserts, jungles, mountains]"
1,Saleucami,14920.0,26.0,"[caves, desert, mountains, volcanoes]"
2,Muunilinst,13800.0,28.0,"[plains, forests, hills, mountains]"
3,Sullust,12780.0,20.0,"[mountains, volcanoes, rocky deserts]"
4,Alderaan,12500.0,24.0,"[grasslands, mountains]"
5,Coruscant,12240.0,24.0,"[cityscape, mountains]"
6,Naboo,12120.0,26.0,"[grassy hills, swamps, forests, mountains]"
7,Ryloth,10600.0,30.0,"[mountains, valleys, deserts, tundra]"
8,Mygeeto,10088.0,12.0,"[glaciers, mountains, ice canyons]"


11. Rechercher puis supprimer la planète dont le nom est `unknown`.

In [42]:
(
    pd.DataFrame(
        planets.find(
            filter={"name":"unknown"},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "terrain": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

print(f"Avant : {planets.count_documents({})} planètes")
planets.delete_one({"name": "unknown"})
print(f"Après : {planets.count_documents({})} planètes")

Avant : 60 planètes
Après : 59 planètes


12. Mettre en œuvre un pipeline d'agrégation qui calcule le nombre de planètes dans la collection. Verifier le résultat avec la méthode `count_documents`.

In [None]:
print(pd.DataFrame(
    planets.aggregate([
        {"$group": {"_id": None, "count": {"$sum": 1}}},
    ])
))

    _id  count
0  None     59


13. Mettre en œuvre un pipeline d'agrégation pour calculer le diamètre moyen et la somme des populations des planètes contenant des glaciers.

In [51]:
print(pd.DataFrame(
    planets.aggregate([
        {
            "$match":{
                "terrain": {"$in": ["glaciers"]}
            }
        },
        {"$group": {
            "_id": None,
            "count": {"$sum": 1},
            "diam": {"$avg": "$diameter"},
            "population": {"$sum": "$population"},
            }
        },
    ])
))

    _id  count     diam   population
0  None      2  10088.0  519000000.0
