# Notebook 6 : MongoDB

In [None]:
# Décommenter la ligne suivante pour installer pymongo
# %pip install pymongo

In [2]:
import json

import pandas as pd
import pymongo

client = pymongo.MongoClient('mongodb://user-mlepennec-ensae:sp46mp0necz5l0hqslpd@mongodb-0.mongodb-headless:27017,mongodb-1.mongodb-headless:27017/defaultdb')

db = client.defaultdb

## Planètes de Star Wars

Nous considérons ici les données des planètes de *Star Wars* exportées à la fin du *Notebook 4*. Le fichier `planets.json` est également disponible dans le dossier des jeux de données.

1. Accéder à une collection `planets` et s'assurer qu'elle est vide grâce à la méthode `count_documents`.

In [15]:
planets = db["planets"]
if planets.count_documents({}) > 0:
    # La collection n'est pas vide, drop supprime tous les documents
    planets.drop()

2. Importer les données des planètes dans la collection `planets`.

In [5]:
with open("planets.json") as f:
    for planet_document in f.readlines():
        planets.insert_one(json.loads(planet_document))

print(f"{planets.count_documents({})} planètes")

60 planètes


3. Exporter l'ensemble des planètes sans l'identifiant `_id` dans un dataframe à l'aide du résultat de la méthode `find`.

In [6]:
(
    pd.DataFrame(
        planets.find(projection={"_id": False})
    )
    .head()
)

Unnamed: 0,edited,climate,surface_water,name,diameter,rotation_period,created,terrain,gravity,orbital_period,population,residents,films,url
0,2014-12-20T20:58:18.411Z,arid,1,Tatooine,10465,23,2014-12-09T13:50:49.641Z,desert,1 standard,304,200000,[],[],/api/planets/1
1,2014-12-20T20:58:18.420Z,temperate,40,Alderaan,12500,24,2014-12-10T11:35:48.479Z,"grasslands, mountains",1 standard,364,2000000000,[],[],/api/planets/2
2,2014-12-20T20:58:18.421Z,"temperate, tropical",8,Yavin IV,10200,24,2014-12-10T11:37:19.144Z,"jungle, rainforests",1 standard,4818,1000,[],[],/api/planets/3
3,2014-12-20T20:58:18.423Z,frozen,100,Hoth,7200,23,2014-12-10T11:39:13.934Z,"tundra, ice caves, mountain ranges",1.1 standard,549,unknown,[],[],/api/planets/4
4,2014-12-20T20:58:18.425Z,murky,8,Dagobah,8900,23,2014-12-10T11:42:22.590Z,"swamp, jungles",,341,unknown,[],[],/api/planets/5


4. Rechercher les planètes dont la période de rotation est égale à 25. Quel est le problème ? Combien y en a-t-il ?

In [7]:
# Il ne semble y avoir aucune planète avec une période de rotation égale à 25
print(f"'rotation_period': 25 ----> {planets.count_documents({'rotation_period': 25})}")

# Il faut remarquer que les données sont des chaînes de caractères (ce sera corrigé dans la suite)
print(f"'rotation_period': '25' --> {planets.count_documents({'rotation_period': '25'})}")

(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={"_id": False},
        )
    )
)

'rotation_period': 25 ----> 0
'rotation_period': '25' --> 5


Unnamed: 0,edited,climate,surface_water,name,diameter,rotation_period,created,terrain,gravity,orbital_period,population,residents,films,url
0,2014-12-20T20:58:18.449Z,"temperate, moist",unknown,Cato Neimoidia,0,25,2014-12-10T13:46:28.704Z,"mountains, fields, forests, rock arches",1 standard,278,10000000,[],[],/api/planets/18
1,2014-12-20T20:58:18.456Z,temperate,70,Corellia,11000,25,2014-12-10T16:49:12.453Z,"plains, urban, hills, forests",1 standard,329,3000000000,[],[],/api/planets/22
2,2014-12-20T20:58:18.461Z,temperate,unknown,Dantooine,9830,25,2014-12-10T17:23:29.896Z,"oceans, savannas, mountains, grasslands",1 standard,378,1000,[],[],/api/planets/25
3,2014-12-20T20:58:18.468Z,arid,unknown,Trandosha,0,25,2014-12-15T12:53:47.695Z,"mountains, seas, grasslands, deserts",0.62 standard,371,42000000,[],[],/api/planets/29
4,2014-12-20T20:58:18.491Z,temperate,unknown,Haruun Kal,10120,25,2014-12-20T10:12:28.980Z,"toxic cloudsea, plateaus, volcanoes",0.98,383,705300,[],[],/api/planets/42


5. Même question mais en limitant la réponse aux clés `name`, `rotation_period`, `orbital_period` et `diameter`.

In [8]:
(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
        )
    )
)

Unnamed: 0,name,diameter,rotation_period,orbital_period
0,Cato Neimoidia,0,25,278
1,Corellia,11000,25,329
2,Dantooine,9830,25,378
3,Trandosha,0,25,371
4,Haruun Kal,10120,25,383


6. Trier les planètes du résultat précédent par diamètre décroissant. Quel est le problème ?

In [9]:
resultat = (
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": "25"},
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

# Le tri n'est pas correct car la variable diameter est une chaîne de caractères
print(resultat.convert_dtypes().dtypes)

# Le tri est donc alphabétique, ce qui n'est pas ce que nous voulons
resultat

name               string[python]
diameter           string[python]
rotation_period    string[python]
orbital_period     string[python]
dtype: object


Unnamed: 0,name,diameter,rotation_period,orbital_period
0,Dantooine,9830,25,378
1,Corellia,11000,25,329
2,Haruun Kal,10120,25,383
3,Cato Neimoidia,0,25,278
4,Trandosha,0,25,371


7. Vider la collection et importer à nouveau les données mais en faisant les corrections suivantes au préalable (un dataframe intermédiaire pourra être utilisé pour manipuler les données avant leur insertion) :
- convertir les valeurs numériques (gérer les cas `unknown`),
- supprimer les variables `created`, `edited`, `films`, `gravity`, `residents` et `url`.
- transformer les variables `climate` et `terrain` en listes de chaînes de caractères plutôt qu'une longue chaîne séparée par des virgules.

In [14]:
# Chargement des données dans un dataframe intermédiaire
df_planets = pd.read_json("/home/onyxia/work/formation_cepe/data/planets.json", lines=True)

# Conversion des valeurs numériques
numeric_columns = ["diameter", "orbital_period", "population", "rotation_period", "surface_water"]
df_planets[numeric_columns] = (
    df_planets[numeric_columns]
    .replace("unknown", pd.NA) # Replace les "unknown" par des valeurs manquantes
    .apply(pd.to_numeric) # Une façon de convertir en numériques
)

# Suppression des colonnes
df_planets.drop(
    columns=["created", "edited", "films", "gravity", "residents", "url"],
    inplace=True # Modifie le dataframe
)

# Transformation en listes de chaînes de caractères
columns = ["climate", "terrain"]
df_planets[columns] = (
    df_planets[columns]
    # Séparateur ", " pour diviser les longues chaînes de caractères
    .apply(lambda serie: serie.str.split(", "))
)

# Les données sont prêtes, nous pouvons vider la collection pour insérer les nouvelles versions

planet_documents = (
    df_planets
    .to_json(orient="records", lines=True) # Documents séparés par des retours à la ligne "\n"
    .split("\n") # Séparateur "\n" pour diviser la liste des documents
)

planets.drop() # Suppression des documents de la collection
planets.insert_many( # Insertion des nouvelles versions
    [
        json.loads(planet_document)
        for planet_document in planet_documents
        if planet_document != "" # Évite le dernier retour à la ligne
    ]
)

# Affichage du résultat
(
    pd.DataFrame(
        planets.find(projection={"_id": False})
    )
    .head()
)

Unnamed: 0,climate,surface_water,name,diameter,rotation_period,terrain,orbital_period,population
0,[arid],1.0,Tatooine,10465.0,23.0,[desert],304.0,200000.0
1,[temperate],40.0,Alderaan,12500.0,24.0,"[grasslands, mountains]",364.0,2000000000.0
2,"[temperate, tropical]",8.0,Yavin IV,10200.0,24.0,"[jungle, rainforests]",4818.0,1000.0
3,[frozen],100.0,Hoth,7200.0,23.0,"[tundra, ice caves, mountain ranges]",549.0,
4,[murky],8.0,Dagobah,8900.0,23.0,"[swamp, jungles]",341.0,


8. Reprendre la question 6 et vérifier que le résultat est maintenant correct.

In [None]:
# Le tri est maintenant dans l'ordre numérique
(
    pd.DataFrame(
        planets.find(
            filter={"rotation_period": 25}, # La valeur n'est plus une chaîne de caractères grâce à la question précédente
            projection={
                "_id": False,
                "name": True,
                "rotation_period": True,
                "orbital_period": True,
                "diameter": True,
            },
            sort=[("diameter", pymongo.DESCENDING)]
        )
    )
)

9. Extraire les planètes dont le nom commence par `T`.

In [None]:
pd.DataFrame(
    planets.find(
        filter={"name": {"$regex": "^T"}},
        projection={"_id": False}
    )
)

10. Extraire les planètes dont le diamètre est strictement supérieur à 10000 et où se trouvent des montagnes.

In [None]:
pd.DataFrame(
    planets.find(
        filter={
            "$and": [
                # Opérateur $gt pour 'strictement supérieur'
                {"diameter": {"$gt": 10000}},
                # Opérateur $in pour tester l'inclusion (grâce à notre nouvelle version)
                {"terrain": {"$in": ["mountains"]}},
            ]
        },
        projection={"_id": False}
    )
)

11. Rechercher puis supprimer la planète dont le nom est `unknown`.

In [None]:
# Recherche de la planète unknown
pd.DataFrame(
    planets.find(
        filter={"name": "unknown"},
        projection={"_id": False},
    )
)

In [None]:
# Suppression de la planète unknown
print(f"Avant : {planets.count_documents({})} planètes")
planets.delete_one({"name": "unknown"})
print(f"Après : {planets.count_documents({})} planètes")

12. Mettre en œuvre un pipeline d'agrégation qui calcule le nombre de planètes dans la collection. Verifier le résultat avec la méthode `count_documents`.

In [None]:
print(f"Avec count_documents : {planets.count_documents ({})}")

pd.DataFrame(
    planets.aggregate(
        [
            {"$group": {"_id": None, "count": {"$sum": 1}}},
        ]
    )
)

13. Mettre en œuvre un pipeline d'agrégation pour calculer le diamètre moyen et la somme des populations des planètes contenant des glaciers.

In [None]:
pd.DataFrame(
    planets.aggregate(
        [
            {
                "$match": {
                    "terrain": {"$in": ["glaciers"]}
                }
            },
            {
                "$group": {
                    "_id": None,
                    "diameter": {"$avg": "$diameter"},
                    "population": {"$sum": "$population"},
                }
            },
        ]
    )
)