**Aminata THIOUNE**

Groupe Augias


**<h1>Redis</h1>**

Les **bases de données NoSQL** représentent une catégorie de systèmes de gestion de bases de données conçus pour gérer des volumes massifs de données non structurées ou semi-structurées. Contrairement aux bases de données relationnelles qui reposent sur des tables et des schémas rigides, les bases de données NoSQL offrent une flexibilité accrue, permettant de stocker des données sous diverses formes telles que des documents, des colonnes, des paires clé-valeur ou des graphes. Elles sont particulièrement adaptées aux applications nécessitant une scalabilité horizontale, une haute disponibilité et des performances optimisées.

**Redis** est l'un des exemples les plus populaires de base de données NoSQL. Initialement conçu comme un store en mémoire RAM, Redis propose une structure de données clé-valeur extrêmement rapide, supportant des types variés tels que des chaînes, des listes, des ensembles et des hashmaps. Grâce à sa rapidité et à sa simplicité d'utilisation, Redis est souvent utilisé pour des cas d'utilisation tels que la mise en cache, la gestion des sessions et la gestion des files d'attente.

##**Packages**

In [None]:
!pip install redis
!pip install redisbloom

In [None]:
import redis
import csv
import json
from json import dumps
import pandas as pd
from redisbloom.client import Client
import requests
import time
import random
from statistics import mean

# Connexion  à la base de données Redis (remplacer host et password)
r = redis.Redis(
  host='********',
  port=17931,
  password='******')

##**TEST**

In [None]:
# Test
r.set('name', 'amy')
n = r.get('name')
print(n)

b'amy'


In [None]:
# définir plusieurs paires clé-valeur en une seule opération
print(r.mset({'test1': 'awa', 'test2': 'awa2'}))
print("----------------------------")

# récupérer les valeurs associées à plusieurs clés en une seule opération
print(r.mget('test1', 'test2'))
print("----------------------------")


# ajouter un ou plusieurs éléments au début d'une liste
print(r.lpush('awa', 'awa1'))
print("----------------------------")


# permet de récupérer tous les éléments dans une liste
print(r.lrange('awa', 0, -1))
print("----------------------------")


#permet d'insérer une valeur dans la liste
r.linsert('awa', 'before', 'awa1', 'awa3')
print("----------------------------")

# Afficher ma liste
print(r.lrange('awa', 0, -1))
print("----------------------------")

# Supprimer la liste
print(r.delete('awa'))

True
----------------------------
[b'awa', b'awa2']
----------------------------
1
----------------------------
[b'awa1']
----------------------------
----------------------------
[b'awa3', b'awa1']
----------------------------
1


In [None]:
r.lrange('awa', 0, -1)

[]

In [None]:
# Permet d'ajouter ou de mettre à jour des champs dans un hash (ou table de hachage)
if r.exists('test') and r.type('test') != 'hash':
    r.delete('test')
r.hset('test', mapping={'name': 'amina', 'email' : 'aaa@gmail.com', 'statut' : 'etudiant'})
print(f"Afficher toute la table : {r.hgetall('test')}")
print(f"Afficher les valeurs : {r.hvals('test')} ")
print(f"Afficher les clés : {r.hkeys('test')}")
print(f"Supprimer le nom {r.hdel('test', 'name')}")
print(f"Affciher la table après suppression du nom : {r.hvals('test')}")
print(" ")

# Pour supprimer le test
r.delete('test')
print("Table supprimée")

Afficher toute la table : {b'name': b'amina', b'email': b'aaa@gmail.com', b'statut': b'etudiant'}
Afficher les valeurs : [b'amina', b'aaa@gmail.com', b'etudiant'] 
Afficher les clés : [b'name', b'email', b'statut']
Supprimer le nom 1
Affciher la table après suppression du nom : [b'aaa@gmail.com', b'etudiant']
 
Table supprimée


##**CSV/JSON**

In [None]:
def csv_to_json(csv_file):

    #create a dictionary
    data_dict = {}
    my_dict = {}
    with open(csv_file, encoding = 'latin1') as csvfile:
        my_reader = csv.DictReader(csvfile)
        my_data = [my_row for my_row in my_reader]
        for my_row in my_data:
            #print(my_row)
            my_dict = {}
            my_dict['Test 1'] = my_row['Test 1']
            my_dict['Test 2'] = my_row['Test 2']
            data_dict[my_row['Prénom et nom']] = my_dict
    print("====================")
    my_my_dict = {}
    my_my_dict['test'] = data_dict
    print(my_my_dict)
    #for item in data_dict.items():
    #    print(item)

    #create a dictionary
    data_dict = {}
    csv_rows = []
    #open a csv file handlerh
    with open(csv_file, encoding = 'latin1', newline='') as csv_file_handler:
        csv_reader = csv.DictReader(csv_file_handler)
        field = csv_reader.fieldnames
        for row in csv_reader:
            #print([{field[i]:row[field[i]] for i in range(len(field))}])
            csv_rows.extend([{field[i]:row[field[i]] for i in range(len(field))}])

    print("====================")
    data_dict['test'] = csv_rows
    #print(type(csv_rows))
    print(data_dict)
    

    #
    # convert both intermediary results to JSON object
    #
    y = dumps(my_my_dict)
    z = dumps(data_dict)
    print("====================")
    print(y)
    print(type(y))
    print("====================")
    print(z)
    print(type(z))

#Step 1

csv_to_json("../data/test.csv")

{'test': {'Hervé P': {'Test 1': '10.00 / 16', 'Test 2': '12.00 / 18'}, 'Laurent H': {'Test 1': '15.00 / 16', 'Test 2': '12.00 / 18'}, 'Destin L': {'Test 1': '11.00 / 16', 'Test 2': '7.00 / 18'}, 'Guillaume C': {'Test 1': '10.00 / 16', 'Test 2': '4.00 / 18'}, 'Haytem D': {'Test 1': '12.00 / 16', 'Test 2': '7.00 / 18'}, 'Cam Chau N': {'Test 1': '6.00 / 16', 'Test 2': '9.00 / 18'}, 'Sarra Z': {'Test 1': '11.00 / 16', 'Test 2': '6.00 / 18'}, 'Romulus L': {'Test 1': '11.00 / 16', 'Test 2': '11.00 / 18'}, 'Thierno D': {'Test 1': '5.00 / 16', 'Test 2': '8.00 / 18'}, 'Rosenthal Preston R': {'Test 1': '13.00 / 16', 'Test 2': '13.00 / 18'}, 'Betty T': {'Test 1': '11.00 / 16', 'Test 2': '11.00 / 18'}, 'Mouloud B': {'Test 1': '13.00 / 16', 'Test 2': '17.00 / 18'}, 'Joseph L': {'Test 1': '11.00 / 16', 'Test 2': '11.00 / 18'}, 'Nataliya P': {'Test 1': '10.00 / 16', 'Test 2': '9.00 / 18'}}}
{'test': [{'Test 2': '12.00 / 18', 'Test 1': '10.00 / 16', 'Prénom et nom': 'Hervé P'}, {'Test 2': '12.00 / 18'

Le fichier csv à été implémenté en json suivant deux stuctures : un dictionnaires et une liste de dictionnaires.
Le dictionnaire de dictionnaires est meilleur pour un accès rapide par clé, tandis que la liste de dictionnaires convient mieux aux structures ordonnées ou avec des clés non uniques.

In [None]:
data = pd.read_csv("../data/test.csv", sep=",", low_memory=False, encoding = 'latin1')

# Convertir le fichier csv en json
data_json = data.to_json(orient='index')
print(data_json)

{"0":{"Test 2":"12.00 \/ 18","Test 1":"10.00 \/ 16","Pr\u00e9nom et nom":"Herv\u00e9 P"},"1":{"Test 2":"12.00 \/ 18","Test 1":"15.00 \/ 16","Pr\u00e9nom et nom":"Laurent H"},"2":{"Test 2":"7.00 \/ 18","Test 1":"11.00 \/ 16","Pr\u00e9nom et nom":"Destin L"},"3":{"Test 2":"4.00 \/ 18","Test 1":"10.00 \/ 16","Pr\u00e9nom et nom":"Guillaume C"},"4":{"Test 2":"7.00 \/ 18","Test 1":"12.00 \/ 16","Pr\u00e9nom et nom":"Haytem D"},"5":{"Test 2":"9.00 \/ 18","Test 1":"6.00 \/ 16","Pr\u00e9nom et nom":"Cam Chau N"},"6":{"Test 2":"6.00 \/ 18","Test 1":"11.00 \/ 16","Pr\u00e9nom et nom":"Sarra Z"},"7":{"Test 2":"11.00 \/ 18","Test 1":"11.00 \/ 16","Pr\u00e9nom et nom":"Romulus L"},"8":{"Test 2":"8.00 \/ 18","Test 1":"5.00 \/ 16","Pr\u00e9nom et nom":"Thierno D"},"9":{"Test 2":"13.00 \/ 18","Test 1":"13.00 \/ 16","Pr\u00e9nom et nom":"Rosenthal Preston R"},"10":{"Test 2":"11.00 \/ 18","Test 1":"11.00 \/ 16","Pr\u00e9nom et nom":"Betty T"},"11":{"Test 2":"17.00 \/ 18","Test 1":"13.00 \/ 16","Pr\u00e9

##**Jointure sur des objets JSON**

In [None]:
def csv_to_json_first_method(csv_file):

    from json import dumps
    #create a dictionary
    data_dict = {}
    my_dict = {}
    with open(csv_file, encoding = 'latin1') as csvfile:
        my_reader = csv.DictReader(csvfile)
        print(my_reader.fieldnames)
        my_data = [my_row for my_row in my_reader]
        for my_row in my_data:
            #print(my_row)
            my_dict = {}
            my_dict[my_reader.fieldnames[0]] = my_row[my_reader.fieldnames[0]]
            my_dict[my_reader.fieldnames[1]] = my_row[my_reader.fieldnames[1]]
            data_dict[my_row[my_reader.fieldnames[2]]] = my_dict
    print("====================")
    my_my_dict = {}
    my_my_dict['test'] = data_dict
    print(my_my_dict)
    #for item in data_dict.items():
    #    print(item)
    #
    # convert both intermediary results to JSON object
    #
    y = dumps(my_my_dict)
    print("====================")
    print(y)
    print(type(y))
    print("====================")

    return y


def csv_to_json_second_method(csv_file):

    from json import dumps
    #create a dictionary
    data_dict = {}
    csv_rows = []
    #open a csv file handlerh
    with open(csv_file, encoding = 'latin1', newline='') as csv_file_handler:
        csv_reader = csv.DictReader(csv_file_handler)
        field = csv_reader.fieldnames
        for row in csv_reader:
            #print([{field[i]:row[field[i]] for i in range(len(field))}])
            csv_rows.extend([{field[i]:row[field[i]] for i in range(len(field))}])

    print("====================")
    data_dict['test'] = csv_rows
    #print(type(csv_rows))
    print(data_dict)
    #print(data_dict['test'][0])
    #print("====================")

    #
    # convert intermediary results to JSON object
    #
    z = dumps(data_dict)
    print("====================")
    print(z)
    print(type(z))
    print("====================")

    return z


def jointure(json1, json2):

    from json import loads
    from json import dumps

    # First, transform json objects to dictionaries

    d1_name = list(loads(json1))[0]
    #print(d1_name)
    d2_name = list(loads(json2))[0]
    #print(d2_name)

    d1 = loads(json1)[d1_name]
    d2 = loads(json2)[d2_name]

    #print(att_name,type(att_name))
    # Second, iterate through dictionaries
    d_res = {}
    for key1, val1 in d1.items():
        #print(key1, '==', val1)
        for key2, val2 in d2.items():
            #print(key1, '==', key2)
            #print([ord(c) for c in key1],key1,[ord(c) for c in att_name],att_name)
            if key1 == key2:
                d = {}
                d.update(val1)
                d.update(val2)
                #print(d)
                d_res[key1] = d
    my_my_dict = {}
    my_my_dict['test'] = d_res
    z = dumps(my_my_dict)

    return z

# Main program

json_one = csv_to_json_first_method("../data/test.csv")
json_two = csv_to_json_first_method("../data/test_1.csv")

d = jointure (json_one, json_two)
print(d)

['Test 2', 'Test 1', 'Prénom et nom']
{'test': {'Hervé P': {'Test 2': '12.00 / 18', 'Test 1': '10.00 / 16'}, 'Laurent H': {'Test 2': '12.00 / 18', 'Test 1': '15.00 / 16'}, 'Destin L': {'Test 2': '7.00 / 18', 'Test 1': '11.00 / 16'}, 'Guillaume C': {'Test 2': '4.00 / 18', 'Test 1': '10.00 / 16'}, 'Haytem D': {'Test 2': '7.00 / 18', 'Test 1': '12.00 / 16'}, 'Cam Chau N': {'Test 2': '9.00 / 18', 'Test 1': '6.00 / 16'}, 'Sarra Z': {'Test 2': '6.00 / 18', 'Test 1': '11.00 / 16'}, 'Romulus L': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Thierno D': {'Test 2': '8.00 / 18', 'Test 1': '5.00 / 16'}, 'Rosenthal Preston R': {'Test 2': '13.00 / 18', 'Test 1': '13.00 / 16'}, 'Betty T': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Mouloud B': {'Test 2': '17.00 / 18', 'Test 1': '13.00 / 16'}, 'Joseph L': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Nataliya P': {'Test 2': '9.00 / 18', 'Test 1': '10.00 / 16'}}}
{"test": {"Herv\u00e9 P": {"Test 2": "12.00 / 18", "Test 1": "10.00 / 16"

##**JSON/REDIS**

In [None]:
# Fonction pour sauvegarder des données JSON dans un fichier
def save_json_to_file(json_data, json_file):
    with open(json_file, 'w') as f:
        # Si `json_data` est une chaîne, la convertir en dictionnaire
        if isinstance(json_data, str):
            try:
                json_data = json.loads(json_data)
            except (TypeError, json.JSONDecodeError):
                pass
        json.dump(json_data, f, indent=4)


# Fonction pour charger les données du fichier JSON dans Redis
def json_to_redis(json_file):

    # Charger le contenu du fichier JSON
    with open(json_file, 'r') as f:
        data = json.load(f)

    # Récupérer les éléments sous 'test'
    items = data.get('test', {})

    # Insérer les données dans Redis
    if isinstance(items, dict):
        for key, value in items.items():
            r.set(key, json.dumps(value))
    else:
        return "Le contenu sous 'test' n'est pas un dictionnaire."

    # Récupérer les données depuis Redis et les retourner
    return {key: json.loads(r.get(key)) for key in items.keys() if r.get(key)}



json_file = 'data.json'

save_json_to_file(json_one, json_file)

donnees = json_to_redis(json_file)
print(donnees)

{'Hervé P': {'Test 2': '12.00 / 18', 'Test 1': '10.00 / 16'}, 'Laurent H': {'Test 2': '12.00 / 18', 'Test 1': '15.00 / 16'}, 'Destin L': {'Test 2': '7.00 / 18', 'Test 1': '11.00 / 16'}, 'Guillaume C': {'Test 2': '4.00 / 18', 'Test 1': '10.00 / 16'}, 'Haytem D': {'Test 2': '7.00 / 18', 'Test 1': '12.00 / 16'}, 'Cam Chau N': {'Test 2': '9.00 / 18', 'Test 1': '6.00 / 16'}, 'Sarra Z': {'Test 2': '6.00 / 18', 'Test 1': '11.00 / 16'}, 'Romulus L': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Thierno D': {'Test 2': '8.00 / 18', 'Test 1': '5.00 / 16'}, 'Rosenthal Preston R': {'Test 2': '13.00 / 18', 'Test 1': '13.00 / 16'}, 'Betty T': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Mouloud B': {'Test 2': '17.00 / 18', 'Test 1': '13.00 / 16'}, 'Joseph L': {'Test 2': '11.00 / 18', 'Test 1': '11.00 / 16'}, 'Nataliya P': {'Test 2': '9.00 / 18', 'Test 1': '10.00 / 16'}}


##**BLOOM FILTER**

Un **Bloom filter** est une structure de données efficace en mémoire qui permet de tester si un élément appartient à un ensemble, avec la possibilité de faux positifs mais jamais de faux négatifs. Il est souvent utilisé pour économiser des ressources lors de recherches rapides. Avec Redis, via l'extension **RedisBloom**, on peut utiliser des Bloom filters pour vérifier rapidement si des éléments sont présents dans des ensembles massifs, ce qui aide à réduire les requêtes coûteuses en mémoire ou en temps de calcul.

In [None]:
# Connexion à Redis
rb = Client(host='********', port=17931, password='*******')

# Ajouter des éléments au Bloom Filter
rb.bfAdd('test', 'pomme')
rb.bfAdd('test', 'banane')

# Vérifier la présence des éléments
print(f"Pomme  : {rb.bfExists('test', 'pomme')}")
print(f"Banane : {rb.bfExists('test', 'banane')}")
print(f"Orange : {rb.bfExists('test', 'orange')}")

Pomme  : 1
Banane : 1
Orange : 0


In [None]:
# Charger les données
data = pd.read_csv("../data/DEM-1_1.csv", sep="\t", low_memory=False)
words = data['SENS'].tolist()  # Liste de mots du fichier

def comparaison_suivant_la_structuree(data):

    # Ajouter les mots dans le Bloom Filter Redis et dans une liste Python
    word_list = []
    for word in words[:350]:
        rb.bfAdd('bloom_filter', word)
        word_list.append(word)

    # Générer 100 mots aléatoires pour le test
    test_words = random.sample(words, 300)

    # Mesurer le temps de recherche dans le Bloom Filter Redis
    start_time = time.time()
    for test_word in test_words:
        rb.bfExists('bloom_filter', test_word)
    bloom_time = time.time() - start_time

    # Mesurer le temps de recherche dans la liste Python
    start_time = time.time()
    for test_word in test_words:
        test_word in word_list
    list_time = time.time() - start_time

    return bloom_time, list_time


# Charger les données
data = pd.read_csv("../data/DEM-1_1.csv", sep="\t", low_memory=False)
words = data['SENS'].tolist()  # Liste de mots du fichier

# Appel de la fonction qui permet de comparer le tempsd'éxecution entre un bloomfilter et une liste
times = comparaison_suivant_la_structuree(words)

# Afficher le résultat
print(f"Temps de recherche dans Bloom Filter (Redis) : {times[0]:.6f} secondes")
print(f"Temps de recherche dans la liste : {times[1]:.6f} secondes")

Temps de recherche dans Bloom Filter (Redis) : 1.556147 secondes
Temps de recherche dans la liste : 0.006372 secondes


In [None]:
""" Script pour publier de manière espacée (toutes les 1 à 3 secondes) un couple (date, valeur_de_CO2),
représentant une date de mesure et la valeur prise sur un capteur de CO2."""

def publication_CO2():
  i = 0
  while i >=0 :
    valeur_CO2 = random.randint(1000, 1500)
    date = time.strftime("%Y-%m-%d %H:%M:%S")
    print(f"Date : {date} - Valeur de CO2 : {valeur_CO2}")
    time.sleep(3)
    i += 1


In [None]:
publication_CO2()

Date : 2024-11-13 22:47:06 - Valeur de CO2 : 1106
Date : 2024-11-13 22:47:09 - Valeur de CO2 : 1236
Date : 2024-11-13 22:47:12 - Valeur de CO2 : 1366
Date : 2024-11-13 22:47:15 - Valeur de CO2 : 1373
Date : 2024-11-13 22:47:18 - Valeur de CO2 : 1265
Date : 2024-11-13 22:47:21 - Valeur de CO2 : 1035
Date : 2024-11-13 22:47:24 - Valeur de CO2 : 1349
Date : 2024-11-13 22:47:27 - Valeur de CO2 : 1056
Date : 2024-11-13 22:47:30 - Valeur de CO2 : 1255
Date : 2024-11-13 22:47:33 - Valeur de CO2 : 1299
Date : 2024-11-13 22:47:36 - Valeur de CO2 : 1103
Date : 2024-11-13 22:47:39 - Valeur de CO2 : 1216
Date : 2024-11-13 22:47:42 - Valeur de CO2 : 1410
Date : 2024-11-13 22:47:45 - Valeur de CO2 : 1072


KeyboardInterrupt: 

In [None]:
""" script Python qui calcule toutes les minutes, la moyenne des valeurs de CO2 reçues sur la dernière minute, les dernières 30 minutes et
la dernière heure, puis affiche ces 3 valeurs. """



def moyenne_CO2():
    liste_valeurs = []
    i = 0
    start_time = time.time()  # Initialisation correcte du start_time

    while i >= 0:
        # Générer une valeur de CO2 aléatoire
        valeur_CO2 = random.randint(1000, 1500)
        liste_valeurs.append(valeur_CO2)
        date = time.strftime("%Y-%m-%d %H:%M:%S")
        print(f"Date : {date} - Valeur de CO2 : {valeur_CO2}")

        # Calculer la moyenne sur la dernière minute
        if time.time() - start_time >= 60:
            moyenne = mean(liste_valeurs)
            print(f"\033[91mLa moyenne de CO2 émise pendant une minute est {moyenne}.\033[0m")
            liste_valeurs.clear()
            start_time = time.time()

        # Calculer la moyenne pendant les 30 dernières minutes
        elif time.time() - start_time >= 1800:
            moyenne = mean(liste_valeurs)
            print(f"\033[91mLa moyenne de CO2 émise pendant 30 minutes est {moyenne}.\033[0m")
            liste_valeurs.clear()
            start_time = time.time()

        # Calculer la moyenne pendant une heure
        elif time.time() - start_time >= 3600:
            moyenne = mean(liste_valeurs)
            print(f"\033[91mLa moyenne de CO2 émise pendant une heure est {moyenne}.\033[0m")
            liste_valeurs.clear()
            start_time = time.time()

        time.sleep(3)
        i += 1




In [None]:
moyenne_CO2()

Date : 2024-11-13 22:48:52 - Valeur de CO2 : 1371
Date : 2024-11-13 22:48:55 - Valeur de CO2 : 1378
Date : 2024-11-13 22:48:58 - Valeur de CO2 : 1028
Date : 2024-11-13 22:49:01 - Valeur de CO2 : 1464
Date : 2024-11-13 22:49:04 - Valeur de CO2 : 1348
Date : 2024-11-13 22:49:07 - Valeur de CO2 : 1068
Date : 2024-11-13 22:49:10 - Valeur de CO2 : 1117
Date : 2024-11-13 22:49:13 - Valeur de CO2 : 1005
Date : 2024-11-13 22:49:16 - Valeur de CO2 : 1083
Date : 2024-11-13 22:49:19 - Valeur de CO2 : 1406
Date : 2024-11-13 22:49:22 - Valeur de CO2 : 1475
Date : 2024-11-13 22:49:25 - Valeur de CO2 : 1478
Date : 2024-11-13 22:49:28 - Valeur de CO2 : 1240
Date : 2024-11-13 22:49:31 - Valeur de CO2 : 1384
Date : 2024-11-13 22:49:34 - Valeur de CO2 : 1110
Date : 2024-11-13 22:49:37 - Valeur de CO2 : 1000
Date : 2024-11-13 22:49:40 - Valeur de CO2 : 1255
Date : 2024-11-13 22:49:43 - Valeur de CO2 : 1253
Date : 2024-11-13 22:49:46 - Valeur de CO2 : 1044
Date : 2024-11-13 22:49:49 - Valeur de CO2 : 1332


KeyboardInterrupt: 

Bien que Redis soit performant, il présente certaines limites :

1. **Durabilité des données** : Étant principalement un store en mémoire, il y a un risque de perte de données en cas de panne, malgré des options de persistance.
2. **Scalabilité limitée** : La gestion des clusters peut être complexe, et Redis est souvent limité à une seule instance.
3. **Capacité de mémoire** : Les données sont stockées en RAM, ce qui limite la quantité totale de données pouvant être gérées.
4. **Structure de données fixe** : Les utilisateurs doivent planifier la structure des données en raison des contraintes liées à la gestion de la mémoire.

Bien que Redis soit idéal pour des applications nécessitant rapidité et accessibilité en temps réel, **MongoDB** se présente comme une alternative robuste pour une gestion flexible et scalable de grandes quantités de données.
