<img src="https://cdn4.iconfinder.com/data/icons/redis-2/1451/Untitled-2-512.png" alt="" width="200"/>

# Redis, le DBM du futur ?

- Antonio Giménez Nadal
- Pierre Sammut
- Cyril Scoul
- Antoine Stevan

[Toni] Redis est un gestionnaire de base de données de type NoSQL très populaire au près des grandes entreprises. 

# Redis, dans le monde des DBMs


[Toni] Avant d'entrer dans le vif du sujet, contextualisons où se trouve Redis parmi les différents DBMS.

## SQL vs NoSQL


[Toni] Quelle est la différence entre les langages SQL et NoSQL ?

<img src="https://th.bing.com/th/id/OIP.W6F1WcYqgaogrQV99OvBVgHaD9?pid=ImgDet&rs=1" alt="" width="600"/>


[Toni] Dans la famille SQL on trouve deux type the gesteurs. Les relationnels et les analytics, exploitables par différents logiciels tel que postgrestSQL et d'autres différentes versions commerciales.

Dans la famille des bases de données NoSQL, on peut distinguer 4 types familles :

   - Wide-colum (Exploitation par Cassandra par exemple) ;
   - Graphs (Neo4j) ;
   - Documents (MongoDB) ;
   - Key-Value, (Redis).

Redis est un gestionnaire de base de données NoSQL, en particulier pour les données sous la forme Key-Value. 

Néanmoins, moyennement l'installation de plugins, Redis peut gérer tous type de base de données NoSQL.

# Redis, comment ça marche ? 

Le nom Redis vient de **Re**mote **Di**ctionary **S**erver. 

Il propose :

   - Une **base de données en mémoire** : ces bases de données permettent au SGBD d’enregistrer toutes les données directement dans la mémoire vive. Ceci permet des délais d’accès très courts – même en cas de grands volumes de données non structurées.  
   
   - Un **système clé-valeur**: chaque entrée de la base de données se voit attribuer une clé. Elle permet de consulter les données ultérieurement en toute simplicité. Les entrées ne sont donc pas liées les unes aux autres et ne doivent donc pas être interrogées dans plusieurs tableaux. Les informations sont directement disponibles.

Le système peut supporter les types de données suivants : 

   - **Strings** : une suite de caractères d’une taille maximale de 512 Mo 
   - **Hashes** : une entrée avec plusieurs champs 
   - **Lists** : un ensemble de strings triés par ordre de saisie 
   - **Sets** : un ensemble de strings non triés 
   - **Sorted sets** : un ensemble de strings triés par l’utilisateur 
   - **Bitmaps** : un ensemble d’opérations au niveau des bits 
   - **HyperLogLogs** : une estimation basée sur des valeurs précises 
   - **Streams** : une liste de strings ou de paires clé-valeur complexes

# Redis vs PostgreSQL

Nous allons analyser les différences à l'aide d'un cas pratique que nous avons fait.

## Base de donnes

Nous avons retenu une base de données extraite du jeu Animal Crossing pour réaliser notre étude.

La base de données contient 30 csv, chacun répertoriant divers objets, villageois, vêtements et autres objets de collection du jeu. Les données ont été collectées par un groupe de fans d'Animal Crossing qui continue de collaborer et de créer ces feuilles de calcul pour un usage public. La base de données contient les données originales et la liste complète des contributeurs et des données brutes. Au moment de la rédaction, la seule différence entre la feuille de calcul et cette version est que la version Kaggle omet toutes les colonnes avec des images des éléments, mais est par ailleurs identique.

Source : https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset?fbclid=IwAR132yW030ZcxYDtzeSpl9Zp7m-7_ZOUUw20d3P0tdFwuOE3PXYZ9J7TDhs


In [9]:
Montrer la forme des tables avec **seecsv ? Insérer le code.  Comment il marhce c'est code parce que c'est bash **

SyntaxError: invalid syntax (<ipython-input-9-d87383325fb0>, line 1)

## Pré-traitement nécessaire pour pouvoir exploiter la base de données avec Redis                                          

Explication : scripts/imports/redis_import_main.py tables.

In [None]:
# %load scripts/imports/redis_import_main.py
import argparse
import os
import traceback
import redis
import csv
import glob

def main(db_path, script=False, auto=False, verbose=False, clean=False):
    # gets the name of the directory where the script is, to allow
    # executing the script from anywhere.
    directory = os.path.dirname(os.path.realpath(__file__))

    #DATABASE IMPORT TO REDIS
    csv_files = [f for f in glob.glob(os.path.join(db_path, "*.csv"))]
    csv_files.sort()
    elem_id = 0
    output_filename = os.path.join(directory, "import_db.redis")

    if clean:
        if os.path.exists(output_filename):
            print(f"removing {output_filename}")
            os.remove(output_filename)
        else:
            print("no .redis file to remove... Skipping.")

    if not script and not auto:
        print("nothing to do... Aborting.")
        return
    if auto: #Open Redis DBM
        r = redis.Redis() #host='localhost', port=6379, db=0, password=None, socket_timeout=None
    if script:
        redis_script = open(output_filename, "w")

In [None]:
    for csv_file in csv_files:
            try:
                csvfile = open(csv_file, newline='')
                csvreader = csv.reader(csvfile, delimiter=',')
                first_row = True
                for row in csvreader:
                    if first_row == True:
                        headers = row
                        headers[0] = headers[0][1:]
                        first_row = False
                    else: #Add to Redis                
                        if auto: #Import directly 
                            line = {f"{'_'.join(header.split(' '))}" : value.replace('\n', ';') for header, value in list(zip(headers, row))}
                            r.hmset(f'{elem_id}', line)
                            if verbose:
                                print(r.hgetall(f'{elem_id}'))
                        if script: #Create redis script: ex: HMSET elem_id field1 "Hello" field2 "World"
                            line = " ".join(f"{'_'.join(header.split(' '))} " + value.replace('\n', ';') for header, value in list(zip(headers, row)) )
                            redis_line = f'HMSET {elem_id} {line}\n'
                            redis_script.write(redis_line)
                            if verbose:
                                print(redis_line)
                        elem_id +=1 #at the end so we keep python index notation
                csvfile.close()
            except:
                print(traceback.format_exc())
    if script:
        redis_script.close()

In [None]:
if __name__ == "__main__":
    # create a parser to change behaviour from outside.
    parser = argparse.ArgumentParser()
    parser.add_argument("tables", type=str, nargs=1,
            help="the location of the tables, from the execution location (is required).")
    parser.add_argument('-s', "--script", default=False, action="store_true",
            help="if raised, the execution will generate a redis import script (defaults to False).")
    parser.add_argument('-a', "--auto", default=False, action="store_true",
            help="allows the script to automatically load the database inside a redis server. make sure a redis server is activated before hand. (defaults to False).")
    parser.add_argument('-v', "--verbose", default=False, action="store_true",
            help="turns on verbose (defaults to False).")
    parser.add_argument('-c', "--clean", default=False, action="store_true",
            help="cleans the workspace from generated .redis file (defaults to False).")

    args = parser.parse_args()

    #EXECUTION PARAMETERS
    script = args.script
    auto = args.auto
    verbose = args.verbose
    db_path = args.tables[0]
    clean = args.clean

    # the actual redis database generation.
    main(db_path, script=script, auto=auto, verbose=verbose, clean=clean)

Les données se présentent alors sous la forme clef-valeur : 
 
   - La clef est un entier compris entre 0 et 16144, 16 144 correspondant à l'addition du nombre de lignes total de toutes les relations contenues dans la base de données Animal Crossing.
   - La valeur associée (qui est une ligne) se présente sous la forme :  

          1) "Nom de la colonne1"/"Donnée associée" 
          2) "Nom de la colonne2"/"Donnée associée" 
          ...
          N) "Nom de la colonneN"/"Donnée associée"

Les requêtes sur PostgreSQl étant incompatibles avec les reqûetes Redis, on choisit de contourner le problème en passant par le langage Python afin de pouvoir les traduire.

## Quelques requêtes SQL sur PostgreSQL et leurs équivalent en Redis en passant par python

Nous avons fait plus de 30 requêtes. Vous pouvez les consulter sur le github du projet. Cependant, nous allons maintenant en discuter quelques-uns juste pour voir les différences.

Commenter la forme des reqûetes en direct.

### Query 1

In [None]:
# %load scripts/queries/psql/query_01/query.psql
SELECT AVG(sell)
FROM accessories;

In [None]:
# %load scripts/queries/redis/query_01/query.py
import redis

r = redis.Redis()

#keys corresponding to tables
accessories = range(0,222)
#Query 2
list_sell = []
for key in accessories :
    elem = r.hmget(key,'Sell')
    list_sell.append(int(elem[0].decode()))
results2 = sum(list_sell)/len(list_sell)
print("Query 2 :", results2)

### Query 7

In [None]:
# %load scripts/queries/psql/query_07/query.psql
SELECT name, category, buy, sell, catalog, artist, museum_description
FROM art
WHERE size_of='1x1'
AND hha_concept_1='expensive'
AND hha_concept_2='folk art'
AND tag='Sculpture';

In [None]:
# %load scripts/queries/redis/query_07/query.py
import redis

r = redis.Redis()

#keys corresponding to tables
art = range(306,376)

#Query 8
results8 = []
for key in art :
    elem_decoded = r.hmget(key,'Size')[0].decode()
    elem_decoded2 = r.hmget(key,'HHA_Concept_1')[0].decode()
    elem_decoded3 = r.hmget(key,'HHA_Concept_2')[0].decode()
    elem_decoded4 = r.hmget(key,'Tag')[0].decode()
    if (elem_decoded == '1x1') and (elem_decoded2 == 'expensive') and (elem_decoded3 == 'folk art') and (elem_decoded4 == 'Sculpture') :
        result8 = []
        result8.append(r.hmget(key,'Name')[0].decode())
        result8.append(r.hmget(key,'Category')[0].decode())
        result8.append(r.hmget(key,'Buy')[0].decode())
        result8.append(r.hmget(key,'Sell')[0].decode())
        result8.append(r.hmget(key,'Catalog')[0].decode())
        result8.append(r.hmget(key,'Artist')[0].decode())
        result8.append(r.hmget(key,'Museum_Description')[0].decode())
        results8.append(result8)

print("Query 8 :", results8)

### Query 18

In [None]:
# %load scripts/queries/psql/query_18/query.psql
SELECT name, buy, sell, catalog, color_1, color_2, source, outdoor FROM housewares WHERE hha_concept_1='expensive' AND tag='Toy';

In [None]:
# %load scripts/queries/redis/query_18/query.py
import redis

r = redis.Redis()

#keys corresponding to tables
housewares = range(3393,6668)

#Query 19
results19 = []
for key in housewares:
    elem_decoded = r.hmget(key,'HHA_Concept_1')[0].decode()
    elem_decoded1 = r.hmget(key,'Tag')[0].decode()
    if (elem_decoded == 'expensive') and (elem_decoded1 == 'Toy'):
        result19 = []
        result19.append(r.hmget(key,'Name')[0].decode())
        result19.append(r.hmget(key,'Buy')[0].decode())
        result19.append(r.hmget(key,'Sell')[0].decode())
        result19.append(r.hmget(key,'Catalog')[0].decode())
        result19.append(r.hmget(key,'Color_1')[0].decode())
        result19.append(r.hmget(key,'Color_2')[0].decode())
        result19.append(r.hmget(key,'Source')[0].decode())
        result19.append(r.hmget(key,'Outdoor')[0].decode())
        results19.append(result19)
print("Query 19 :", results19)

## Temps d'execution des requêtes avec PostgreSQL et Redis

**Insérer le tableau des temps d'execution avec PostgreSQL et Redis.**

Discuter la différence des temps d'execution.

# Redis, quand l'utiliser ?  Conclusions !

Discuter l'efficacité en fonction de la nature des données, temps d'execution.
Quelles entreprises utilises déjà Redis ?