# Intro au caching - Redis

**Exos sans recours aux use-cases 1-5**

Les caches sont des instances qui permettent de retenir ponctuellement des paires clef/valeur lorsque l'obtention des valeurs est couteuse/longue. Voyons les caches comme des dictionnaires / hashmap qui permettent une récupération très rapides de ces valeur indexées par une clef. Le stockage du dictionnaire se fait souvent en RAM pour accélérer l'insertion et la récupération.

## Principe de fonctionnement

Un cache est un intermédiaire entre 2 services : un `client` et un `serveur`. Plutôt que d'interroger directement le `serveur` pour obtenir une réponse à propos d'un objet (quelconque) `A`, le `client` va interroger le cache pour savoir s'il connait une clef qui correspond à `A` : `KEY:A`. Alors :
- si le cache ne connaît pas la clef `KEY:A`, alors
  - le `serveur` est tout de même interroger et renvoie la réponse `RESP(A)`
  - le cache intercepte `RESP(A)` et crée une entrée `KEY:A -> RESP(A)` dans son dictionnaire
  - le cache renvoie `RESP(A)` au client
- si le cache connaît `KEY:A`, alors il renvoie `RESP(A)` au `client` sans interroger le serveur

2 cas de figure peuvent justifier le recours à un cache : économiser de l'argent ou du temps.

### Caching pour économiser de l'argent
Supposons qu'un service distant doive être appelé par une notre archi logicielle. Supposons que 
- ce service ait un coût ; soit car il nécessite de payer un service tiers à l'appel (exemple: ChatGPT), soit parce que le volume d'appel engendré implique un agrandissement des ressources pour ce service
- sa réponse varie peu dans le temps (ie pas un flux vidéo, pas une donnée météo, etc...). Exemple de service distant : un service IA d'embedding de texte en vu d'une recherche vectorielle.

Notre architecture peut être amenée à évoluer, des techno peuvent changer, des data re-traitées ... Sans pour autant que les données changent fondamentalement. Dans ce cas, il est préférable d'éviter de payer des appels inutiles au service coûteux s'il faut regénérer ses outputs. Le cache intervient ici en stockant les retours des appels au service tiers une fois pour toute. Le coût d'appel est donc remplacé par un coût de stockage.

### Caching pour économiser du temps
Supposons qu'une donnée soit stockée en DB, tel le résultat d'une jointure. Supposons que plusieurs services de notre architecture nécessitent ponctuellement la connaissance de cette information. Exemple : connaître les 10 dernières commandes d'un acheteur sur un site e-commerce => les services ayant simultanément besoin de cette info : le front pour affichage, un service ML pour calcul de la probabilité d'achat du client, un service comptable de vérification que toutes les factures sont honorées ... le tout en l'espace de 5 secondes.

<img src="schemas-MIAGE-no-cache-time.png" width="800" style="display: block; margin: 0 auto">

Chaque appel à la DB a un coût ; diviser la charge de la DB par 2 pourrait permettre de diviser les CPU et la RAM loués par ~2 (estimation grosse maille). Ainsi, la stratégie suivante :
- n'appeler la DB qu'une seule fois lorsque le premier service demande l'info
- stocker sa réponse dans un cache
- économiser les appels DB suivants en distribuant simplement à la réponse cachée aux autres services lorsqu'ils demandent l'info
=> Permet de diviser sensiblement la charge sur la DB.

<img src="schemas-cache-enabled.png" width="800" style="display: block; margin: 0 auto">

## Time to live

Un cache peut programmer l'expiration des clefs enregistrées au bout de `x` secondes. Ce délai s'appelle *time to live* ou TTL. Le TTL permet d'établir un compromis entre 2 types de coûts
- coût de stockage RAM du cache qui augmente sans fin
- coût de rappel ponctuel du service caché

Lorsqu'une clef expire, le cache la supprime. Le prochain appel sur cette clef provoquera une interrogation du serveur et permettra de rafraîchir la clef dans le cache.

Le TTL permet également de faire expirer une information lorsqu'on sait qu'elle peut périmer après un certain temps. Exemple : dans un moteur de recherche web (Qwant, Google), les recherches "facebook", "youtube", "gmail" sont faites des milliers de fois par seconde. Or il inutile de déclencher la cascade de calcul qui permet d'y répondre à chaque fois - les résultats attendus risquent de ne changer qu'en quelques heures. Ainsi, programmer un TTL de 3600 secondes permet :
- d'économiser 3600*1000=3.6M requêtes au moteur
- de maintenir les résultats à jour à intervalle régulier


## Redis
Redis, pour *RE*mote *DI*ctionary *S*erver, est un cache très répandu que nous allons utiliser ici. Voir [la doc](https://redis.io/docs/latest/) pour se rendre compte du nombre d'outils connexes

In [None]:
import redis
import requests
import time

# Redis connection details
REDIS_HOST = "redis"  # Use "localhost" if running Redis locally outside of Docker
REDIS_PORT = 6379
rcache = redis.Redis(host=REDIS_HOST, port=REDIS_PORT)

## Insertion et TTL

In [None]:
ttm_sec = 5
key = "key:my_first_key"
rcache.set(name=key, value=42, ex=ttm_sec)

tic = time.time()
time.sleep(1)
v = rcache.get(key)
toc = time.time() 
print(f"After {int(toc-tic)} seconds:")
if v:
    print(f"Recovered value from cache:", v)
print()
time.sleep(6)
v = rcache.get(key)
toc = time.time() 
print(f"After {int(toc-tic)} seconds:")
if v:
    print(f"Recovered value from cache:", v)
else:
    print(f"No entry in cache for key {key}")

## Exercice
Réaliser une classe Python pour wrapper un appel à une API externe en essayant prioritairement de trouver l'info sur un cache Redis. Spec :
- le constructeur de la classe doit prendre en argument :
  - une instance de client Redis
  - une instance de client pour l'API externe. On suppose que cette API possède une méthode `get(object_input: str)` qui permet d'appeler le service externe pour l'objet dont l'id est `object_input`
  - un TTL
- la classe doit exposer une méthode `get(object_input: str)` qui orchestre l'appel API ou REDIS comme expliqué plus haut

Squelette:

In [None]:
import mysql.connector
import pandas as pd

# MySQL connection details
mysql_host = 'mysql'
mysql_user = 'root' # blabla 
mysql_password = 'rootpassword'
mysql_database = 'workshop_db'

# Create a connection to the MySQL database
conn = mysql.connector.connect(
    host=mysql_host,
    user=mysql_user,
    password=mysql_password,
    database=mysql_database
)


In [None]:
import numpy as np

In [None]:
import requests
from typing import List
import numpy as np
from rich.progress import track, Progress

def batched(iterable, batch_size=16):
    l = len(iterable)
    for ndx in range(0, l, batch_size):
        yield iterable[ndx:min(ndx + batch_size, l)]

class JinaEmbedder:
    
    URL = 'https://api.jina.ai/v1/embeddings'
    EMBEDDING_NAME = "jina-embeddings-v2-base-en"
    bearer_token = 'Bearer jina_82bf2b472cd5427a8fc20c6ed47188dfqYajsVcyJBdY7L-ZgYuuTd6GQ5rW'

    @staticmethod
    def http_json_to_vec(http_json: dict):
        return np.array(
            [
                sentence["embedding"]
                for sentence in http_json["data"]
            ]
        )

    @classmethod
    def _get_header(cls) -> dict:
        return {
            'Content-Type': 'application/json',
            'Authorization': cls.bearer_token
        }

    @classmethod
    def _embed_one_batch(cls, batch: List[str]) -> requests.Response:
        headers = cls._get_header()
        data = {
            'model': cls.EMBEDDING_NAME,
            'normalized': True,
            'embedding_type': 'float',
            'input': batch
        }
        
        return requests.post(cls.URL, headers=headers, json=data)

    @classmethod
    def embed(cls, str_to_vectorize: List[str] | str, batch_size=256) -> np.ndarray:
        if isinstance(str_to_vectorize, str):
            str_to_vectorize = [str_to_vectorize]

        embeddings = []
        with Progress() as progress:
            for i, batch in progress.track(enumerate(batched(str_to_vectorize, batch_size=batch_size))):
                progress.print(f"batch {i}...")
                response = cls._embed_one_batch(batch)
        
                if (sc:=response.status_code) != 200:
                    print("Warning ! Batch", i, "has status code", sc, "-> skipping")
                    embeddings.append(np.array([None]*len(batch)))
                else:
                    embeddings.append(JinaEmbedder.http_json_to_vec(response.json()))
        return np.vstack(embeddings)

In [None]:
class RedisWrapper:
    def __init__(self, redis_client: redis.Redis, jina_client: JinaEmbedder):
        self.client: redis.Redis = redis_client
        self.jina_client = jina_client

    @staticmethod
    def get_key_short(beer_id: str) -> str:
        return f"{beer_id}_court"

    @staticmethod
    def get_key_long(beer_id: str) -> str:
        return f"{beer_id}_long"

    def embed_short(self, beer_id: str, descr: str):
        key = self.get_key_short(beer_id)
        return self._cached_embed(key, descr)

    def embed_long(self, beer_id: str, descr: str):
        key = self.get_key_long(beer_id)
        return self._cached_embed(key, descr)

    def _cached_embed(self, key, descr):
        embedding = self.client.get(key)
        if embedding:
            return np.fromstring(embedding)
        else:
            embedding = self.jina_client.embed(descr)
            self.client.set(name=key, value=embedding.tostring(), ex=60*20)
            return embedding

In [None]:
cached_jina = RedisWrapper(rcache, JinaEmbedder())

In [None]:
%%time
emb = cached_jina.embed_long(12334, "coucou c'est François")

In [None]:
# your code
q = """
WITH data AS (
    SELECT 
        beers.id, beers.name, beers.abv, beers.ibu, beers.srm, beers.descript as beer_descr,
        brew.descript as brewer_descript, brew.name as brewery,
        styles.style_name
    FROM beers
    LEFT JOIN breweries as brew on brew.id = beers.brewery_id
    LEFT JOIN styles on styles.id = beers.style_id
), descriptions AS (
    SELECT 
        id,
        CONCAT('the beer ', name, ' from brewery ', brewery, ' (', brewer_descript, ') crafts the beer ', name, ' defined as ', beer_descr, '. Spec of the beer are: ABV=', abv, ', IBU=', ibu, ', SRM=', srm) as descr_long,
        CONCAT('beer ', name, ': ', beer_descr) as descr_short
    FROM data
)
SELECT 
    id, descr_short, descr_long
FROM descriptions
WHERE True
    AND id % 12 = 1
;"""
df = pd.read_sql_query(q, con=conn)

In [None]:
df