# TP7 - Connexion à MongoDB sous `Python`

#### Analyse de Données Massives - Master 1ère année

On utilise dans ce *notebook* les modules `pymongo`, `pandas` et `pprint`.

In [2]:
import pymongo
import pandas
import pprint

On créé ensuite la connexion vers *MongoDB*. Et on vérifie que la base `test` contient bien la collection `restaurants`.

In [3]:
con = pymongo.MongoClient("mongodb://193.51.82.104:2343/")
con.test.collection_names()

['restaurants', 'test']

In [4]:
list(con.test.restaurants.find(limit = 1))

[{'_id': ObjectId('58ac16d1a251358ee4ee87dd'),
  'address': {'building': '1007',
   'coord': [-73.856077, 40.848447],
   'street': 'Morris Park Ave',
   'zipcode': '10462'},
  'borough': 'Bronx',
  'cuisine': 'Bakery',
  'grades': [{'date': datetime.datetime(2014, 3, 3, 0, 0),
    'grade': 'A',
    'score': 2},
   {'date': datetime.datetime(2013, 9, 11, 0, 0), 'grade': 'A', 'score': 6},
   {'date': datetime.datetime(2013, 1, 24, 0, 0), 'grade': 'A', 'score': 10},
   {'date': datetime.datetime(2011, 11, 23, 0, 0), 'grade': 'A', 'score': 9},
   {'date': datetime.datetime(2011, 3, 10, 0, 0), 'grade': 'B', 'score': 14}],
  'name': 'Morris Park Bake Shop',
  'restaurant_id': '30075445'}]

On va aussi utiliser ici la fonction `affiche()` créée dans le TP pour améliorer la lisibilité de l'affichage des résultats.

In [5]:
def affiche(res):
    for r in res:
        pprint.pprint(r)

## Exercices

Nous allons utiliser la base de données `test`, dans laquelle se trouve la collection `restaurants`. Celle-ci est composée de plus de 25000 retaurants new-yorkais, avec des évaluations de ceux-ci.

### 1. Créer une connexion vers cette collection

On peut complétement simplfier l'écriture des requêtes à suivre en faisant la connexion directement avec la collection `restaurants`.

In [6]:
db = con.test.restaurants

### 2. Déterminer le nombre exact de restaurants.

Un simple dénombrement est à faire ici.

In [7]:
db.count()

25359

### 3. Lister les différents quartiers représentés (*borough*) ainsi que les différents types de  cuisine (*cuisine*).

On utilise la fonction `distinct()` ici pour lister les différentes valeurs de `borough`. On remarque que pour certains restaurants le quartier n'est pas connu.

In [8]:
db.distinct("borough")

['Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island', 'Missing']

Idem pour lister les (nombreux) différents types de cuisine. On stocke le résultat dans une variable pour dénombrer les styles (`85`). Et nous n'affichons que les 10 premiers pour exemple.

In [9]:
type_cuisine = db.distinct("cuisine")
len(type_cuisine)

85

In [10]:
type_cuisine[:10]

['Bakery',
 'Hamburgers',
 'Irish',
 'American',
 'Jewish/Kosher',
 'Delicatessen',
 'Ice Cream, Gelato, Yogurt, Ices',
 'Chinese',
 'Chicken',
 'Turkish']

### 4. Lister les noms des restaurants, ainsi que leur quartier, ne proposant que des soupes (*cuisine* égale à *Soups*).

C'est la fonction `find()` qui nous permet de récupérer ces informations (4 restaurants).

In [14]:
res = db.find({ "cuisine": "Soups" }, { "_id": 0, "name": 1, "borough": 1})
list(res)

[{'borough': 'Manhattan', 'name': 'Wichcraft Express'},
 {'borough': 'Staten Island', 'name': 'Original Soupman Of Staten Island'},
 {'borough': 'Manhattan', 'name': 'The Original Soupman'},
 {'borough': 'Manhattan', 'name': 'Peasant Stock'}]

### 5. Donner le nombre de restaurants ayant eu au moins une fois le *grade* (dans *grades*) `Z`.

Pour cela, nous pouvons déjà nous retreindre aux restaurants ayant eu le *grade* `Z`, puis nous comptons la taille du résultat avec `count()`.

In [15]:
db.find({ "grades.grade": "Z"}).count()

1337

### 6. Calculer le nombre de restaurants pour chaque quartier

Ici, un aggrégat basique est à faire, avec `aggregate()`. La plupart sont dans *Manhattan*, mais on remarque aussi qu'on a 51 restaurants sans quartier connu.

In [18]:
res = db.aggregate([ { "$group": { "_id": "$borough", "nb": { "$sum": 1 } } } ])
pandas.DataFrame(list(res)).rename(columns = {"_id": "Quartier", "nb": "Nb restaurants"})

Unnamed: 0,Quartier,Nb restaurants
0,Missing,51
1,Staten Island,969
2,Brooklyn,6086
3,Bronx,2338
4,Queens,5656
5,Manhattan,10259


### 7. Donner les cinq types de cuisine les plus présentes dans New-York (avec le plus de restaurants donc)

En plus d'un calcul d'aggrégat avec `$group`, on tri le résultat par ordre décroissant sur le nombre et on se limite aux 5 premières valeurs avec `$limit`.

In [19]:
res = db.aggregate([ 
    { "$group": { "_id": "$cuisine" , "nb" : { "$sum" : 1 } } },
    { "$sort" : { "nb": -1 } },
    { "$limit" : 5 }
])
pandas.DataFrame(list(res)).rename(columns = {"_id": "Cuisine", "nb": "Nb restaurants"})

Unnamed: 0,Cuisine,Nb restaurants
0,American,6183
1,Chinese,2418
2,Café/Coffee/Tea,1214
3,Pizza,1163
4,Italian,1069


### 8. Pour chaque *grade* possible, donner le *score* moyen, minimum et maximum.

Il faut d'abord dégrouper les évaluations pour chaque restaurant grâce à `$unwind`. Ensuite, c'est un calcul assez simple à réaliser.

In [20]:
res = db.aggregate([
    { "$unwind" : "$grades"},
    { "$group" : { 
        "_id": "$grades.grade", 
        "nb" : { "$sum" : 1 },
        "moy" : { "$avg" : "$grades.score" },
        "min" : { "$min" : "$grades.score" },
        "max" : { "$max" : "$grades.score" }
    } }
])
pandas.DataFrame(list(res), columns = ["_id", "nb", "moy", "min", "max"]).rename(columns = {
    "_id": "Grade", "nb": "Nb restaurants",
    "moy": "Score moyen", "min": "Score  minimum", "max": "Score maximum"
}).round(2)

Unnamed: 0,Grade,Nb restaurants,Score moyen,Score minimum,Score maximum
0,P,1197,5.51,0,43
1,A,74656,9.02,0,27
2,Not Yet Graded,525,15.85,0,75
3,B,12603,20.0,-1,57
4,Z,1337,23.7,-1,71
5,C,3145,30.7,-1,131


### 9. Créer un `DataFrame` contenant les restaurants en ligne et en colonne le score moyen obtenu pour chaque *grade* possible. Si un restaurant n'a pas eu d'évaluation d'un *grade*, nous aurons une valeur absente.

Si nous regardons le nombre de restaurants par nom de ceux-ci, nous remarquons qu'il y a des restaurants avec le même nom (des chaînes comme *Starbucks* ou *Subway* par exemple).

In [26]:
res = db.aggregate([
    { "$group": { "_id": "$name", "nb": { "$sum": 1 } } },
    { "$sort": { "nb": -1 } },
    { "$limit": 10 }
])
pandas.DataFrame(list(res))

Unnamed: 0,_id,nb
0,Subway,421
1,Starbucks Coffee,223
2,Mcdonald'S,208
3,Dunkin' Donuts,206
4,Dunkin Donuts,200
5,,151
6,Kennedy Fried Chicken,88
7,Crown Fried Chicken,81
8,Burger King,80
9,Domino'S Pizza,67


Nous allons donc faire un regroupement par identifiant de restaurant (`restaurant_id`) et par `grade`, pour calculer le score moyen. Nous voyons ici les premiers résultats de l'aggrégation.

In [46]:
res = db.aggregate([
    { "$unwind": "$grades" },
    { "$group": { 
        "_id": { "id": "$restaurant_id", "grade": "$grades.grade" },
        "m": { "$avg": "$grades.score" }
    }}
])

Ensuite, on créé un `DataFrame` à partir du résultat, en récupérant les sous-variables *à la main*. Ce qui nous donne à la fin le `DataFrame` suivant.

In [47]:
df = pandas.DataFrame(list(res))
df["ID"] = [id["id"] for id in df._id]
df["Grade"] = [id["grade"] for id in df._id]
df.head().round(2)

Unnamed: 0,_id,m,ID,Grade
0,"{'grade': 'Not Yet Graded', 'id': '50018704'}",34.0,50018704,Not Yet Graded
1,"{'grade': 'A', 'id': '50018608'}",12.0,50018608,A
2,"{'grade': 'Not Yet Graded', 'id': '50018587'}",2.0,50018587,Not Yet Graded
3,"{'grade': 'A', 'id': '50018581'}",5.0,50018581,A
4,"{'grade': 'Not Yet Graded', 'id': '50018572'}",8.0,50018572,Not Yet Graded


Il faut maintenant transformer ce `DataFrame` en utilisant la fonction `pivot_table()` du module `pandas`. Cette fonction prend quatre paramètres :

- `df` : le `DataFrame` sur lequel faire le pivot
- `index` : identifiant de chaque ligne (ici, l'identifiant des restaurants)
- `columns` : noms des colonnes (ici, chaque grade) 
- `value` : valeurs des cellules (ici, score moyen pour un restaurant pour un grade)

In [48]:
dfbis = pandas.pivot_table(df, index = 'ID', columns = 'Grade', values = 'm')
dfbis.head(10).round(1)

Grade,A,B,C,Not Yet Graded,P,Z
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
30075445,6.8,14.0,,,,
30112340,10.7,23.0,,,,
30191841,9.2,,,,,
40356018,9.0,,,,,
40356068,13.0,25.0,,,,20.0
40356151,10.0,,,,,38.0
40356442,10.5,,,,,
40356483,10.0,,,,,
40356649,9.6,,,,,
40356731,8.2,,,,,


Au final, nous regardons les informations de notre `DataFrame` ainsi créé. Nous remarquons que la plupart ont eu un grade `A`, et plusieurs n'ont pas encore été évalué.

In [49]:
dfbis.shape

(24621, 6)

In [50]:
dfbis.count()

Grade
A                 23440
B                  8280
C                  2708
Not Yet Graded      512
P                  1154
Z                  1337
dtype: int64

Nous récupérons ici les informations des restaurants (nom - `name` - et quartier - `borough`) pour les ajouter à notre table précédente. Ici, nous récupérons juste les informations que l'on souhaite.

In [53]:
infos = db.find({}, { "_id": 0, "restaurant_id": 1, "name": 1, "borough": 1 })
infos_df = pandas.DataFrame(list(infos)).rename(columns = { "restaurant_id": "ID", "name": "Nom", "borough": "Quartier" })
infos_df.head()

Unnamed: 0,Quartier,Nom,ID
0,Bronx,Morris Park Bake Shop,30075445
1,Brooklyn,Wendy'S,30112340
2,Manhattan,Dj Reynolds Pub And Restaurant,30191841
3,Brooklyn,Riviera Caterer,40356018
4,Queens,Tov Kosher Kitchen,40356068


Pour réaliser une jointure, nous avons la fonction `join()` qui réalise une jointure sur les `index` des lignes par défaut. La fonction `set_index()` permet de définir cet `index` de lignes pour les informations des restaurants, avant de faire la jointure.

In [54]:
final = dfbis.join(infos_df.set_index("ID"))
final.head()

Unnamed: 0_level_0,A,B,C,Not Yet Graded,P,Z,Quartier,Nom
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
30075445,6.75,14.0,,,,,Bronx,Morris Park Bake Shop
30112340,10.666667,23.0,,,,,Brooklyn,Wendy'S
30191841,9.25,,,,,,Manhattan,Dj Reynolds Pub And Restaurant
40356018,9.0,,,,,,Brooklyn,Riviera Caterer
40356068,13.0,25.0,,,,20.0,Queens,Tov Kosher Kitchen


Avec un `DataFrame` ainsi créé, il est maintenant possible, par exemple, de calculer les scores moyens de chaque grade, pour chaque quartier (ici, dans `python`).

In [57]:
res = final.groupby("Quartier").mean()
res.round(2)

Unnamed: 0_level_0,A,B,C,Not Yet Graded,P,Z
Quartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bronx,8.84,19.79,28.9,14.05,5.67,22.38
Brooklyn,8.94,19.87,28.73,16.41,5.35,23.45
Manhattan,8.94,19.85,31.18,17.84,5.68,24.49
Missing,8.41,22.0,43.5,,,
Queens,9.12,19.88,31.12,14.22,5.28,23.51
Staten Island,9.33,19.37,32.82,12.85,6.68,19.77
