# Interrogation de MongoDB avec Python

### MT - ESIEA

### 2024

1. Présentation de MongoDB
1. Connection depuis Python et interrogation de données

## Présentation de MongoDB

> Base de données **NoSQL** de type *Document Store* (orienté document)

Objectifs :

- Gestion possible de gros volumes de données
- Facilité de déploiement et d'utilsiation
- Possibilité de faire de choses assez complexes

Plus d'informations sur [leur site](http://www.mongodb.com/)

### Modèle des données

Principe de base : les données sont des `documents`

- Stocké en *Binary JSON* (`BSON`)
- Documents similaires rassemblés dans des `collections`
    - plusieurs collections possibles dans une base de données
- Pas de schéma des documents définis en amont
	- contrairement à un BD relationnel ou NoSQL de type *Column Store*
- Les documents peuvent n'avoir aucun point commun entre eux
- Un document contient (généralement) l'ensemble des informations
	- pas (ou très peu) de jointure à faire idéalement
- BD respectant **CP** (dans le théorème *CAP*)
	- propriétés ACID au niveau d'un document

### Format `JSON`

- `JavaScript Object Notation`, créé en 2005
- Format léger d'échange de données structurées (**littéral**)
- Schéma des données non connu (contenu dans les données)
- Basé sur deux notions :
	- collection de couples clé/valeur
	- liste de valeurs ordonnées
- Structures possibles :
	- objet (couples clé/valeur) : `{ "nom": "einstein", "prenom": "albert" }`
	- tableau (collection de valeurs) : `[ 1, 5, 10]`
	- une valeur dans un objet ou dans un tableau peut être elle-même un littéral
- Deux types atomiques (`string` et `number`) et trois constantes (`true`, `false`, `null`)

Validation possible du JSON sur [jsonlint.com/](http://jsonlint.com/)

#### Exemple de `JSON`

```json
{
    "address": {
        "building": "469",
        "coord": [
            -73.9617,
            40.6629
        ],
        "street": "Flatbush Avenue",
        "zipcode": "11225"
    },
    "borough": "Brooklyn",
    "cuisine": "Hamburgers",
    "grades": [
        {
            "date": "2014-12-30 01:00:00",
            "grade": "A",
            "score": 8
        },
        {
            "date": "2014-07-01 02:00:00",
            "grade": "B",
            "score": 23
        }
    ],
    "name": "Wendy'S",
    "restaurant_id": "30112340"
}
```

### Compléments

`BSON` : extension de `JSON`

- Quelques types supplémentaires (identifiant spécifique, binaire, date, ...)
- Distinction entier et réel

**Schéma dynamique**

- Documents variant très fortement entre eux, même dans une même collection
- On parle de **self-describing documents**
- Ajout très facile d'un nouvel élément pour un document, même si cet élément est inexistant pour les autres
- Pas de `ALTER TABLE` ou de redesign de la base

### Langage d'interrogation

- Pas de SQL (bien évidemment), ni de langage proche
- Définition d'un langage propre
    - `find()` : pour tout ce qui est restriction et projection
    - `aggregate()` : pour tout ce qui est calcul de variable, d'aggrégats et de manipulations diverses
    - ...
- Langage JavaScript dans la console, permettant plus que les accès aux données
	- définition de variables
	- boucles
	- ...


## Interaction entre Python et MongoDB

Utilisation du package [`pymongo`](https://docs.mongodb.com/drivers/pymongo/)

### Connexion à un serveur distant

- Utilisation d'une URI spécifique, avec login et passeword intégrés
- Si connexion serveur local, pas besoin de mettre de paramètre à la fonction `pymongo.MongoClient()`

In [None]:
import pymongo
URI = 'mongodb+srv://test:test@cluster0.vydqb.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0'
client = pymongo.MongoClient(URI) # enlever le paramètre URI si connexion locale
db = client.sample_restaurants

## Exemples sur `restaurants`

Dans ce document, nous allons travailler sur une base des restaurants New-Yorkais.

Voici le premier document est présenté ci-dessous sur les plus de 25000 restaurants new-yorkais (base de test fournie par [Mongo](https://docs.mongodb.com/getting-started/shell/import-data/))

```json
{
        "_id" : ObjectId("58ac16d1a251358ee4ee87de"),
        "address" : {
                "building" : "469",
                "coord" : [
                        -73.961704,
                        40.662942
                ],
                "street" : "Flatbush Avenue",
                "zipcode" : "11225"
        },
        "borough" : "Brooklyn",
        "cuisine" : "Hamburgers",
        "grades" : [
                {
                        "date" : ISODate("2014-12-30T00:00:00Z"),
                        "grade" : "A",
                        "score" : 8
                },
                {
                        "date" : ISODate("2014-07-01T00:00:00Z"),
                        "grade" : "B",
                        "score" : 23
                },
                {
                        "date" : ISODate("2013-04-30T00:00:00Z"),
                        "grade" : "A",
                        "score" : 12
                },
                {
                        "date" : ISODate("2012-05-08T00:00:00Z"),
                        "grade" : "A",
                        "score" : 12
                }
        ],
        "name" : "Wendy'S",
        "restaurant_id" : "30112340"
}
```

### Document dans `python`

Les données `JSON` sont similaires à un dictionnaire `python`. Pour récupérer le premier document, nous utilisons la fonction `find()` de l'objet créé `m`.

In [None]:
d = db.restaurants.find(limit = 1)
d

L'objet retourné est un **curseur**, et non le résultat. Nous avons celui-ci lorsque nous utilisons `d` dans une commande telle qu'une transformation en `list` par exemple. Une fois le résultat retourné (un seul élément ici), le curseur ne renvoie plus rien

In [None]:
list(d)

### Dénombrement

- Fonction `count_documents({})` pour dénombrer les documents
    - le paramètre `{}` est à mettre obligatoirement
    - nous verrons juste après à quoi il sert
- Fonction `estimated_document_count()`  pour estimer le nombre de documents, à utiliser de préférence en cas de multiples serveurs et de données massives

#### Tous les restaurants

In [None]:
db.restaurants.count_documents({})

In [None]:
db.restaurants.estimated_document_count()

#### Sélection de documents

Pour sélectionner les documents, nous allons utiliser le paramètre dans la fonction `count_documents()` (ainsi que dans les fonctions `distinct()` et `find()` que nous verrons plus tard).

- `{}` : tous les documents
- `{ "champs": valeur }` : documents ayant cette valeur pour ce champs
- `{ condition1, condition2 }` : documents remplissant la condition 1 **ET** la condition 2
- `"champs.sous_champs"` : permet d'accéder donc à un sous-champs d'un champs (que celui-ci soit un littéral ou un tableau)
- `{ "champs": { "$opérateur": expression }}` : utilisation d'opérateurs dans la recherche
    - `$in` : comparaison à un ensemble de valeurs
    - `$gt`, `$gte`, `$lt`, `$lte`, `$ne` : comparaison (resp. *greater than*, *greater than or equal*, *less than*, *less than or equal*, *not equal*)

#### Comptage de certains documents

- Restaurants de *Brooklyn*

In [None]:
db.restaurants.count_documents({ "borough": "Brooklyn" })

- Restaurants de *Brooklyn* proposant de la cuisine française

In [None]:
db.restaurants.count_documents({ "borough": "Brooklyn", "cuisine": "French" })

#### Comptage de certains documents (suite)

- Restaurants de *Brooklyn* proposant de la cuisine française ou italienne

In [None]:
db.restaurants.count_documents({ "borough": "Brooklyn", "cuisine": { "$in": ["French", "Italian"]} })

- Idem mais écrit plus lisiblement

In [None]:
db.restaurants.count_documents(
  { 
    "borough": "Brooklyn", 
    "cuisine": { "$in": ["French", "Italian"]}
  }
)

#### Comptage de certains documents (suite)

- Restaurants situés sur *Franklin Street*
    - Notez l'accès au champs `street` du champs `address`

In [None]:
db.restaurants.count_documents(
  { 
    "address.street": "Franklin Street"
  }
)

- Restaurants ayant eu un score de 0

In [None]:
db.restaurants.count_documents(
  { 
    "grades.score": 0
  }
)

#### Comptage de certains documents

- Restaurants ayant eu un score inférieur à 5

In [None]:
db.restaurants.count_documents(
  { 
    "grades.score": { "$lte": 5 }
  }
)

### Valeurs distinctes

On peut aussi voir la liste des valeurs distinctes d'un attribut, avec la fonction `distinct()`.

- Quartier (`borough`), pour tous les restaurants

In [None]:
db.restaurants.distinct(key = "borough")

#### Valeurs distinctes (suite)

- Cuisine pour les restaurants de *Brooklyn*

In [None]:
db.restaurants.distinct(
  key = "cuisine",
  query = { "borough": "Brooklyn" }
)

#### Valeurs distinctes (suite)

- Grade des restaurants de *Brooklyn*

In [None]:
db.restaurants.distinct(
  key = "grades.grade",
  query = { "borough": "Brooklyn" }
)

### Restriction et Projection

- Fonction `find()` pour réaliser les *restrictions* et *projections*
- Plusieurs paramètres : 
    - Restriction (quels documents prendre) : même format que précédemment
    - Projection (quels champs afficher)
    - `limit` pour n'avoir que les $n$ premiers documents
    - `sort` pour effectuer un tri des documents
- Renvoie un curseur, qu'il faut donc gérer pour avoir le résultat
- Transformation en `DataFrame` (du module `pandas`)
    - Format pas forcément idéal pour certains champs

#### Sélection de champs à afficher ou non

Dans la fonction `find()`, pour choisir les champs à afficher, le deuxième paramètre permet de faire une projection avec les critères suivants :

- sans précision, l'identifiant interne est toujours affiché (`_id`)
- `{ "champs": 1 }` : champs à afficher
- `{ "champs": 0 }` : champs à ne pas afficher
- Pas de mélange des 2 sauf pour l'identifiant interne à Mongo (`_id`)
    - `{ "_id": 0, "champs": 1, ...}`

#### Tri et limite

Toujours dans la fonction `find()`, il est possible de faire le tri des documents, avec le paramètre `sort` qui prend un tuple composé de 1 ou plusieurs tuples indiquant les critères de tri

- `( "champs", 1 )` : tri croissant
- `( "champs", -1 )` : tri décroissant
- plusieurs critères de tri possibles (dans les 2 sens)

Dans ces fonctions, on peut aussi limiter l'exploration à une partie, avec les paramètres suivant :

- `limit` : restreint le nombre de résultats fournis
- `skip` : ne considère pas les *n* premiers documents

#### Récupération des 5 premiers documents

Notez le contenu des colonnes `address` et `grades`.

In [None]:
import pandas
pandas.DataFrame(db.restaurants.find(limit = 5))

#### Récupération de documents (suite)

- Restaurants *Shake Shack* (uniquement les attributs `"street"` et `"borough"`)

In [None]:
c = db.restaurants.find({ "name": "Shake Shack" }, { "address.street": 1, "borough": 1 })
pandas.DataFrame(c)

#### Récupération de documents (suite)


- Idem sans l'identifiant interne

In [None]:
c = db.restaurants.find(
    { "name": "Shake Shack" }, 
    { "_id": 0, "address.street": 1, "borough": 1 }
)
pandas.DataFrame(c)

#### Récupération de documents (suite)


- 5 premiers restaurants du quartier *Queens*, avec une note A et un score supérieur à 50 (on affiche le nom et la rue du restaurant

In [None]:
c = db.restaurants.find(
    {"borough": "Queens", "grades.score": { "$gte":  50}},
    {"_id": 0, "name": 1, "grades.score": 1, "address.street": 1},
    limit = 5
)
pandas.DataFrame(c)

#### Récupération de documents (suite)


- Restaurants *Shake Shack* dans différents quartiers (*Queens* et *Brooklyn*)

In [None]:
c = db.restaurants.find(
    {"name": "Shake Shack", "borough": {"$in": ["Queens", "Brooklyn"]}}, 
    {"_id": 0, "address.street": 1, "borough": 1}
)
pandas.DataFrame(c)

#### Récupération de documents (suite)


- Restaurants du Queens ayant une note supérieure à 50, mais trié par ordre décroissant de noms de rue, et ordre croissant de noms de restaurants

In [None]:
c = db.restaurants.find(
    {"borough": "Queens", "grades.score": { "$gt":  50}},
    {"_id": 0, "name": 1, "address.street": 1},
    sort = (("address.street", -1), ("name", 1))
)
pandas.DataFrame(c)

### Aggrégation

Cette fonction va prendre en paramètre un `pipeline` : tableau composé d'une suite d'opérations

| Fonction       | Opération |
|:-|:-|
| `$limit`       | restriction à un petit nombre de documents (très utiles pour tester son calcul) |
| `$sort`        | tri sur les documents |
| `$match`       | restriction sur les documents à utiliser |
| `$unwind`      | séparation d'un document en plusieurs sur la base d'un tableau |
| `$addFields`   | ajout d'un champs dans les documents |
| `$project`     | redéfinition des documents |
| `$group`       | regroupements et calculs d'aggégrats |
| `$sortByCount` | regroupement, calcul de dénombrement et tri déccroissant en une opération |
| `$lookup`      | jointure avec une autre collection |
| ...            | |

#### Syntaxe des opérations dans le `pipeline`

Les opérations se font dans l'ordre d'écriture, et le même opérateur peut donc apparaître plusieurs fois

- `$limit` : un entier
- `$sort` : identique à celle du paramètre `sort` de la fonction `find()`
- `$match` : identique à celle du paramètre `query` des autres fonctions
- `$unwind` : nom du tableau servant de base pour le découpage (précédé d'un `$`)
    - un document avec un tableau à *n* éléments deviendra *n* documents avec chacun un des éléments du tableau en lieu et place de celui-ci
- `$sortByCount` : nom du champs sur lequel on veut le dénombrement et le tri décroissant selon le résultat


#### Syntaxe des opérations dans le `pipeline`

`$project` : redéfinition des documents

- `{ "champs" : 1 }` : conservation du champs (0 si suppression - idem que dans `fields`, pas de mélange sauf pour `_id`)
- `{ "champs": { "$opérateur" : expression }}` : permet de définir un nouveau champs
- `{ "nouveau_champs": "$ancien_champs" }` : renommage d'un champs
    
Quelques opérateurs utiles pour la projection (plus d'info [ici](https://docs.mongodb.com/manual/reference/operator/aggregation/))

- `$arrayElemAt` : élément d'un tableau
- `$first` et `$last` : premier ou dernier élément du tableau
- `$size` : taille d'un tableau
- `$substr` : sous-chaîne de caractères
- `$cond` : permet de faire une condition (genre de *if then else*)
- ...



#### Syntaxe des opérations dans le `pipeline`

`$group` : calcul d'agrégats

- `_id` : déclaration du critère de regroupement
    - chaîne de caractères : pas de regroupement (tous les documents)
    - `$champs` : regroupement selon ce champs
    - `{ "a1": "$champs1", ... }` : regroupement multiple (avec modification des valeurs possible)
- Calculs d'agrégats à faire :
    - `$sum` : somme (soit de valeur fixe - 1 pour faire un décompte donc, soit d'un champs spécifique)
    - `$avg, $min, $max`
    - `$addToSet` : regroupement des valeurs distinctes d'un champs dans un tableau 
    - `$push` : aggrégation de champs dans un tableau

#### Calcul d'agrégat (suite)

- Limite aux 5 premiers restaurants

In [None]:
c = db.restaurants.aggregate(
    [
        {"$limit": 10 }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Idem avec tri sur le nom du restaurant

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$sort": { "name": 1 }}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Idem en se restreignant à *Brooklyn*
    - Notez que nous obtenons uniquement 5 restaurants au final

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$sort": { "name": 1 }},
        { "$match": { "borough": "Brooklyn" }}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Mêmes opérations mais avec la restriction en amont de la limite
    - Nous avons ici les 10 premiers restaurants de *Brooklyn* donc

In [None]:
c = db.restaurants.aggregate(
    [
        { "$match": { "borough": "Brooklyn" }},
        { "$limit": 10 },
        { "$sort": { "name": 1 }}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Séparation des 5 premiers restaurants sur la base des évaluations (`grades`)
    - Chaque ligne correspond maintenant a une évaluation pour un restaurant

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 5 },
        { "$unwind": "$grades" }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Idem précédemment, en se restreignant à celle ayant eu *B*

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$unwind": "$grades" },
        { "$match": { "grades.grade": "B" }}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Si on inverse les opérations `$unwind` et `$match`, le résultat est clairement différent

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$match": { "grades.grade": "B" }},
        { "$unwind": "$grades" }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On souhaite ici ne garder que le nom et le quartier des 10 premiers restaurants
    - Notez l'ordre (alphabétique) des variables, et pas celui de la déclaration

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "name": 1, "borough": 1 } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Ici, on supprime l'adresse et les évaluations 

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "address": 0, "grades": 0 } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- En plus du nom et du quartier, on récupère l'adresse mais dans un nouveau champs 

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "name": 1, "borough": 1 , "street": "$address.street"} }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On ajoute le nombre de visites pour chaque restaurant (donc la taille du tableau `grades`)

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "name": 1, "borough": 1, "nb_grades": { "$size": "$grades" } } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On trie ce résultat par nombre décroissant de visites, et on affiche les 10 premiers

In [None]:
c = db.restaurants.aggregate(
    [
        { "$project": { "name": 1, "borough": 1, "nb_grades": { "$size": "$grades" } } },
        { "$sort": { "nb_grades": -1 }},
        { "$limit": 10 }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On ne garde maintenant que le premier élément du tableau `grades` (indicé 0)

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "name": 1, "borough": 1, "grade": { "$arrayElemAt": [ "$grades", 0 ]} } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- `$first` permet aussi de garder uniquement le premier élément du tableau `grades` de façon explicite (`$last` pour le dernier)

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "name": 1, "borough": 1, "grade": { "$first": "$grades" } } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On peut aussi faire des opérations sur les chaînes, tel que la mise en majuscule du nom

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { "nom": { "$toUpper": "$name" }, "borough": 1 } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On peut aussi vouloir ajouter un champs, comme ici le nombre d'évaluations

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$addFields": { "nb_grades": { "$size": "$grades" } } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On extrait ici les trois premières lettres du quartier

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$project": { 
            "nom": { "$toUpper": "$name" }, 
            "quartier": { "$substr": [ "$borough", 0, 3 ] } 
        } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On fait de même, mais on met en majuscule et on note *BRX* pour le *Bronx*
    - on garde le quartier d'origine pour vérification ici

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$addFields": { "quartier": { "$toUpper": { "$substr": [ "$borough", 0, 3 ] } } }},
        { "$project": { 
            "nom": { "$toUpper": "$name" }, 
            "quartier": { "$cond": { 
                "if": { "$eq": ["$borough", "Bronx"] }, 
                "then": "BRX", 
                "else": "$quartier" 
            } },
            "borough": 1
        } }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On calcule ici le nombre total de restaurants

In [None]:
c = db.restaurants.aggregate(
    [
        {"$group": {"_id": "Total", "NbRestos": {"$sum": 1}}}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On fait de même, mais par quartier

In [None]:
c = db.restaurants.aggregate(
    [
        {"$group": {"_id": "$borough", "NbRestos": {"$sum": 1}}}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Une fois le dénombrement fait, on peut aussi trié le résultat

In [None]:
c = db.restaurants.aggregate(
    [
        {"$group": {"_id": "$borough", "NbRestos": {"$sum": 1}}},
        {"$sort": { "NbRestos": -1}}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- La même opération est réalisable directement avec `$sortByCount`

In [None]:
c = db.restaurants.aggregate(
    [
        {"$sortByCount": "$borough"}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Pour faire le calcul des notes moyennes des restaurants du *Queens*, on exécute le code suivant

In [None]:
c = db.restaurants.aggregate(
    [
        { "$match": { "borough": "Queens" }},
        { "$unwind": "$grades" },
        { "$group": { "_id": "null", "score": { "$avg": "$grades.score" }}}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


-  Il est bien évidemment possible de faire ce calcul par quartier et de les trier selon les notes obtenues (dans l'ordre décroissant)

In [None]:
c = db.restaurants.aggregate(
    [
        { "$unwind": "$grades" },
        { "$group": { "_id": "$borough", "score": { "$avg": "$grades.score" }}},
        { "$sort": { "score": -1 }}
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- On peut aussi faire un regroupement par quartier et par rue (en ne prenant que la première évaluation - qui est la dernière en date a priori), pour afficher les 10 rues où on mange le plus sainement
    - Notez que le `$match` permet de supprimer les restaurants sans évaluations (ce qui engendrerait des moyennes = `None`)

In [None]:
c = db.restaurants.aggregate(
    [
        { "$project": {
            "borough": 1, "street": "$address.street", 
            "eval": { "$arrayElemAt": [ "$grades", 0 ]} 
        } },
        { "$match": { "eval": { "$exists": True } } },
        { "$group": { 
            "_id": { "quartier": "$borough", "rue": "$street" }, 
            "score": { "$avg": "$eval.score" }
        }},
        { "$sort": { "score": 1 }},
        { "$limit": 10 }
    ]
)
pandas.DataFrame(c)

#### Calcul d'agrégat (suite)


- Pour comprendre la différence entre `$addToSet` et `$push`, on les applique sur les grades obtenus pour les 10 premiers restaurants
    - `$addToSet` : valeurs distinctes
    - `$push` : toutes les valeurs présentes

In [None]:
c = db.restaurants.aggregate(
    [
        { "$limit": 10 },
        { "$unwind": "$grades" },
        { "$group": { 
            "_id": "$name", 
            "avec_addToSet": { "$addToSet": "$grades.grade" },
            "avec_push": { "$push": "$grades.grade" }
        }}
    ]
)
pandas.DataFrame(c)

### Itération

Il est possible de définir un curseur qui va itérer sur la liste de résultats (celle-ci sera stocké sur le serveur). Cela permet de récupérer les documents par paquets, ce qui est judicieux en cas de gros volume (pour éviter de congestionner un réseau par exemple). 

In [None]:
cursor = db.restaurants.find(
    {"borough": "Queens", "grades.score": { "$gte":  50}},
    {"_id": 0, "name": 1, "address.street": 1},
    batch_size = 10)

Mais l'opération est totalement transparente dans python, puisque lorsque nous appelons le curseur, nous récupérons tous les documents.

In [None]:
pandas.DataFrame(cursor)

## Gestion des variables spéciales dans le DataFrame

Une fois importées dans un `DataFrame`, les champs complexes (comme `address` et `grades`) sont des variables d'un type un peu particulier. 

In [None]:
df = pandas.DataFrame(db.restaurants.find(limit = 10))
df

### Variables ayant des dictionnaires comme valeurs

Le champs `address` est une liste de dictionnaires, ayant chacun plusieurs champs (ici tous les mêmes).

In [None]:
df.address

#### Manipulation simple

- Nom du bâtiment et rue concaténés dans une nouvelle variable de `df`
    - utilisation de *list comprehension*

In [None]:
df.assign(info = [e["building"] + ", " + e["street"] for e in df.address])

#### Manipulation plus complexe

- Transformation de la liste en un `DataFrame`

In [None]:
pandas.DataFrame([e for e in df.address])

#### Idem en intégrant le résultat dans le `DataFrame`  original

In [None]:
pandas.concat([df.drop("address", axis = 1), pandas.DataFrame([e for e in df.address])], axis = 1)

### Variables ayant des tableaux comme valeurs

Le champs `grades` est une liste de tableaux, ayant chacun potentiellement plusieurs valeurs (des dictionnaires de plus)

In [None]:
df.grades

#### Manipulation simple

- Récupération d'un élément du tableau (premier ou dernier)

In [None]:
df.assign(derniere = [e[0] for e in df.grades], premiere = [e[-1] for e in df.grades]).drop("grades", axis = 1)

#### Manipulation plus complexe

- Transformation de la liste de tableaux en un seul `DataFrame`
    - `zip()` permet d'itérer sur plusieurs tableaux en même temps
    - `concat()` permet de concaténer les tableaux entre eux

In [None]:
dfgrades = pandas.concat([pandas.DataFrame(g).assign(_id = i) for (i, g) in zip(df._id, df.grades)])
dfgrades

#### Combinaison avec les données originales 

- Jointure entre les deux `DataFrames` avec `merge()`

In [None]:
pandas.merge(df.drop("grades", axis = 1), dfgrades.reset_index())