# Imports

In [1]:
import pymongo
import bson, os, json
from pymongo.server_api import ServerApi
import pandas as pd
from bson.objectid import ObjectId
from hashlib import md5
from bson.json_util import dumps

# Connexion à la base de données

In [48]:
client = pymongo.MongoClient("mongodb+srv://NoSQLG9:XnLzzU4vOLeEwiA5@gamescluster.efxkd.mongodb.net/AndroidGames"
                             "?retryWrites=true&w=majority", server_api=ServerApi('1'))
db = client.AndroidGames

print(db.games.find_one())

{'_id': ObjectId('628b4f6e27ce24d1df2a4a8c'), 'rank': 1, 'title': 'Garena Free Fire- World Series', 'total ratings': 86273129, 'installs': 500000000, 'average rating': 4, 'growth (30 days)': 2.1, 'growth (60 days)': 6.9, 'price': 0.0, 'category': 'GAME ACTION', '5 star ratings': 63546766, '4 star ratings': 4949507, '3 star ratings': 3158756, '2 star ratings': 2122183, '1 star ratings': 12495915, 'paid': False}


# Scripts d'administration

In [3]:
def mongoimport(csv_path, coll_name, db):
    coll = db[coll_name]
    coll.drop()
    data = pd.read_csv(csv_path)
    payload = json.loads(data.to_json(orient='records'))
    coll.insert_many(payload)

In [4]:
def dump(collections, conn, db_name, path):
    """
    MongoDB Dump
    :param collections: Database collections name
    :param conn: MongoDB client connection
    :param db_name: Database name
    :param path:
    :return:

    >>> DB_BACKUP_DIR = './backups/'
    >>> db_name = 'my_db'
    >>> collections = ['collection_name', 'collection_name1', 'collection_name2']
    >>> dump(collections, conn, db_name, DB_BACKUP_DIR)
    """

    for coll in collections:
        with open(os.path.join(path, f'{coll}.bson'), 'wb+') as f:
            for doc in db[coll].find():
                f.write(bson.BSON.encode(doc))

In [5]:
def restore(path, conn, db_name):
    """
    MongoDB Restore
    :param path: Database dumped path
    :param conn: MongoDB client connection
    :param db_name: Database name
    :return:

    >>> DB_BACKUP_DIR = './backups/'
    >>> db_name = 'my_db'
    >>> restore(DB_BACKUP_DIR, conn, db_name)

    """

    for coll in os.listdir(path):
        if coll.endswith('.bson'):
            with open(os.path.join(path, coll), 'rb+') as f:
                db[coll.split('.')[0]].drop()
                db[coll.split('.')[0]].insert_many(bson.decode_all(f.read()))

In [6]:
dump(['games'], db, 'AndroidGames', './backups')

In [33]:
print(list(db['games'].aggregate(
    [
        { '$count': "Nombre de documents" }
    ]
)))

[{'Nombre de documents': 1730}]


In [None]:
# restore('./backups', client, 'AndroidGames')

In [62]:
mongoimport('./android-games.csv','games',db)

# Nettoyage des données

## Conversion des types

Dans un soucis de performance et de cohérence des données nous avons décidé de typer les données jusqu'ici sous forme de chaines de caractères en leur types 'rééls', c'est à dire principalement en entier ou en float.

In [63]:
# Fonction pour convertir une colonne de string en int
def convert_string_to_int(column):
    games = db.games.find( { column : { '$type' : 2 } } )

    for game in games:
        game[column] = int(game[column])
        newvalues = {'$set': {column : int(game[column])}}
        db.games.update_one({ '_id' : game['_id']}, newvalues)

In [64]:
# Fonction pour convertir une colonne de string en float
def convert_string_to_float(column):
    games = db.games.find( { column : { '$type' : 2 } } )

    for game in games:
        game[column] = float(game[column])
        newvalues = {'$set': {column : float(game[column])}}
        db.games.update_one({ '_id' : game['_id']}, newvalues)

In [65]:
# Convertir les strings de la colonne 'growth (30 days)' en float
convert_string_to_float('growth (30 days)')

In [66]:
# Convertir les strings de la colonne 'growth (60 days)' en float
convert_string_to_float('growth (60 days)')

In [67]:
# Convertir les strings de la colonne 'price' en float
convert_string_to_float('price')

In [68]:
# Convertir les strings de la colonne '1 star ratings' en int
convert_string_to_int('1 star ratings')

In [69]:
# Convertir les strings de la colonne '2 star ratings' en int
convert_string_to_int('2 star ratings')

In [70]:
# Convertir les strings de la colonne '3 star ratings' en int
convert_string_to_int('3 star ratings')

In [71]:
# Convertir les strings de la colonne '4 star ratings' en int
convert_string_to_int('4 star ratings')

In [72]:
# Convertir les strings de la colonne '5 star ratings' en int
convert_string_to_int('5 star ratings')

In [73]:
# Convertir les strings de la colonne 'total ratings' en int
convert_string_to_int('total ratings')

In [74]:
# Convertir les strings de la colonne 'average rating' en int
convert_string_to_float('average rating')

In [75]:
# Convertir les strings de la colonne 'rank' en int
convert_string_to_float('rank')

## Formatage des données

Pendant l'élaboration des requêtes dans la suite du notebook, nous sommes arrivés sur un blocage au niveau de la colonne installs. En effet, les données étaient en fait des chaines de caractères formatées avec un nombre suivi du caractère 'M' pour Million ou k pour mille.
La solution fut donc de sélectionner tous les strings présents dans cette colonne afin de boucler dessus et de remplacer dans ces chaines k par 000 et M par 000000 et, pour finir, les convertir en entier.
Nous aurions pu également retirer les caractères de la chaine, la convertir en entier, puis la multiplier par 1000 ou 1 000 000.

In [76]:
# Convertir les strings de la colonne 'installs' en int
column = 'installs'
games = db.games.find( { column : { '$type' : 2 } } )

for game in games:
    if 'M' in game[column]:
        game[column] = game[column].replace('.0 M','000000')
    elif 'k' in game[column]:
        game[column] = game[column].replace('.0 k','000')

    game[column] = int(game[column])
    newvalues = {'$set': {column : int(game[column])}}
    db.games.update_one({ '_id' : game['_id']}, newvalues)

## Doublons 

In [None]:
record_hashes = set()

for record in db.games.find():
    record_id = record.pop('_id')
    record_hash = md5(dumps(record).encode("utf-8")).hexdigest()

    if record_hash in record_hashes:
        db.games.delete_one({'_id': record_id})
    else:
        record_hashes.add(record_hash)

In [51]:
print(list(db['games'].aggregate(
    [
        { '$count': "Nombre de documents" }
    ]
)))

[{'Nombre de documents': 1730}]


# CRUD

## Ajout d'un jeu 


In [85]:
try:
    db.games.insert_one({
        'rank': 1000,
        'title': 'Handismiling', 
        'total ratings': 986273129,
        'installs': 1,
        'average rating': 4,
        'growth (30 days)': 0,
        'growth (60 days)': 0,
        'price': 0.0,
        'category': 'Game Child', 
        '5 star ratings': 0,
        '4 star ratings': 1,
        '3 star ratings': 0,
        '2 star ratings': 0,
        '1 star ratings': 0,
        'paid': 'False'
    })
    print("Insert success")
    for x in db.games.find({'title': 'Handismiling'}, {'title':1, 'category':1, '5 star ratings': 1,'installs': 2, 'average rating': 1}):
        print(x)
        
except Exception as e : 
    print(e)



Insert success
{'_id': ObjectId('628b6a1ca7f5dd290f93743a'), 'title': 'Handismiling', 'installs': 1, 'average rating': 4, 'category': 'Game Child', '5 star ratings': 0}


## Modification d'un jeu

In [86]:
try:
    newvalues= {'$set': {'5 star ratings': 1,'installs': 2, 'average rating': 4.5 }}
    db.games.update_one({'title': 'Handismiling'}, newvalues)
   
    print("Update success")
    for x in db.games.find({'title': 'Handismiling'}, {'title':1, 'category':1, '5 star ratings': 1,'installs': 1, 'average rating': 1}):
        print(x)
except Exception as e : 
    print(e)

Update success
{'_id': ObjectId('628b6a1ca7f5dd290f93743a'), 'title': 'Handismiling', 'installs': 2, 'average rating': 4.5, 'category': 'Game Child', '5 star ratings': 1}


## Suppression d'un jeu qui apparait plusieurs fois

In [87]:
for x in db.games.find({'title': 'Solitaire'}, {'title':1, 'category':1}):
    print(x)

try:
    i = 0
    for x in db.games.find({'title':'Solitaire'}):
        if (i != 0) : 
            db.games.delete_one({'title': 'Solitaire'})
        i= i +1
   
    print("Delete success")
    for x in db.games.find({'title': 'Solitaire'}, {'title':1, 'category':1}):
        print(x)
except Exception as e : 
    print(e)

{'_id': ObjectId('628b62d5a7f5dd290f936f15'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f16'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f17'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f28'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f48'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f1a'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f1b'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f24'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f43'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f44'), 'title': 'Solitaire', 'category': 'GAME CARD'}
{'_id': ObjectId('628b62d5a7f5dd290f936f49'), 'title': 'Solitaire', 'c

# Questions

## Quel jeux ont plus de 500K de téléchargement et qui ont une note de 4 ?

In [77]:
list(db.games.aggregate([         
     { "$match": { "$and": [ { 'average rating': { '$gte': 4 } },  { 'installs': { '$gte': 500000 } } ] } },
    { "$project": {
        "_id": 0,
        "title": 1,
        "average rating":1,
        'installs': 1,
        'category':1
    }}
    
]))

[{'title': 'Brawl Stars',
  'installs': 100000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Sniper 3D: Fun Free Online FPS Shooting Game',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Pixel Gun 3D: FPS Shooter & Battle Royale',
  'installs': 100000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Crossy Road',
  'installs': 100000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'DEER HUNTER CLASSIC',
  'installs': 100000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'CATS: Crash Arena Turbo Stars',
  'installs': 50000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Critical Ops: Online Multiplayer FPS Shooting Game',
  'installs': 50000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Worms Zone .io - Voracious Snake',
  'installs': 100000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Six-Guns:

## Quel genre de jeux plait le moins ?

In [78]:
list(db.games.aggregate([         
    { "$match": { "$and": [ { 'average rating': { '$lte': 3 }} ] } },
    { "$group": { "_id": "$category", "nb": { "$sum": 1 }}},
    { "$sort": { "nb": -1 }},
    { "$limit": 5 },
]))

[{'_id': 'GAME MUSIC', 'nb': 20},
 {'_id': 'GAME TRIVIA', 'nb': 15},
 {'_id': 'GAME ADVENTURE', 'nb': 15},
 {'_id': 'GAME STRATEGY', 'nb': 12},
 {'_id': 'GAME ACTION', 'nb': 11}]

## Les jeux avec la meilleure progression sur les 30 derniers jours

In [79]:
#list(db.games.find().sort('growth (30 days)',pymongo.DESCENDING).limit(5))

list(db.games.aggregate([
    { "$sort": { "growth (30 days)": pymongo.DESCENDING }},
    { "$project": {
        "_id": 0,
        "title": 1,
        "growth (30 days)":1,
        "category":1
    }}
]))

[{'title': 'Dummy ดัมมี่ ไพ่แคง เกมไพ่ฟรี',
  'growth (30 days)': 227105.7,
  'category': 'GAME CASINO'},
 {'title': 'Gartic', 'growth (30 days)': 69928.5, 'category': 'GAME TRIVIA'},
 {'title': 'Belote.com - Free Belote Game',
  'growth (30 days)': 55880.6,
  'category': 'GAME CARD'},
 {'title': 'Durak Online',
  'growth (30 days)': 37994.4,
  'category': 'GAME CARD'},
 {'title': 'New QuizDuel!',
  'growth (30 days)': 28062.9,
  'category': 'GAME TRIVIA'},
 {'title': '세븐나이츠',
  'growth (30 days)': 17025.0,
  'category': 'GAME ROLE PLAYING'},
 {'title': 'Mini World: Block Art',
  'growth (30 days)': 15364.2,
  'category': 'GAME ADVENTURE'},
 {'title': 'Truck Driver Cargo',
  'growth (30 days)': 12602.3,
  'category': 'GAME RACING'},
 {'title': 'Mobile Soccer League',
  'growth (30 days)': 9750.2,
  'category': 'GAME SPORTS'},
 {'title': 'GAMEE Prizes - Play Free Games, WIN REAL CASH!',
  'growth (30 days)': 5550.2,
  'category': 'GAME CASINO'},
 {'title': 'Soccer Star 2021 Top Leagues:

## Top 5 des jeux gratuits les plus joués

In [80]:
list(db.games.aggregate([
    { "$match": { "$and": [ { 'price': { '$eq': 0.0 }} ] } },
    { "$sort": { "installs": pymongo.DESCENDING, "rank" : pymongo.ASCENDING }},
    { "$limit": 5 },
    { "$project": {
        "_id": 0,
        "title": 1,
        "rank":1,
        'installs': 1,
        'category':1
    }}
]))

[{'rank': 1,
  'title': 'Candy Crush Saga',
  'installs': 1000000000,
  'category': 'GAME CASUAL'},
 {'rank': 1,
  'title': 'Subway Surfers',
  'installs': 1000000000,
  'category': 'GAME ARCADE'},
 {'rank': 1,
  'title': 'Hill Climb Racing',
  'installs': 500000000,
  'category': 'GAME RACING'},
 {'rank': 1,
  'title': 'Garena Free Fire- World Series',
  'installs': 500000000,
  'category': 'GAME ACTION'},
 {'rank': 1,
  'title': 'Ludo King™',
  'installs': 500000000,
  'category': 'GAME BOARD'}]

## Quelle est la note des jeux qui se téléchargent le plus ?

In [81]:
list(db.games.aggregate([
    { "$sort": { "installs": pymongo.DESCENDING}},
    { "$project": {
        "_id": 0,
        "title": 1,
        "average rating":1,
        'installs': 1,
        "category": 1
    }}
]))

[{'title': 'Subway Surfers',
  'installs': 1000000000,
  'average rating': 4,
  'category': 'GAME ARCADE'},
 {'title': 'Candy Crush Saga',
  'installs': 1000000000,
  'average rating': 4,
  'category': 'GAME CASUAL'},
 {'title': 'Sniper 3D: Fun Free Online FPS Shooting Game',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Temple Run',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ARCADE'},
 {'title': 'Ludo King™',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME BOARD'},
 {'title': 'Temple Run 2',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'Garena Free Fire- World Series',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'PUBG MOBILE - Traverse',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME ACTION'},
 {'title': 'My Talking Tom',
  'installs': 500000000,
  'average rating': 4,
  'category': 'GAME 

# Amélioration des performances

Nous avons dans la partie 'Nettoyage des données' amélioré les performances en convertissant les valeurs en des types plus facilement utilisables par la base de données.
Nous allons maintenant essayer d'aller plus loin en ajoutant un index à notre collection.


In [82]:
db.games.create_index([("installs", pymongo.DESCENDING)])

'installs_-1'

Nous avons donc créé un index sur la colonne "installs" qui pourra être utilisé sur les deux dernières requêtes que nous avons formulées.

In [83]:
db.games.create_index([("rank", pymongo.ASCENDING)])

'rank_1'

In [84]:
db.games.create_index([("growth (30 days)", pymongo.DESCENDING)])

'growth (30 days)_-1'

Nous avons maintenant créés des index sur tous les champs de la collection que nous utilisons pour le tri.