<a href="https://colab.research.google.com/github/gacerioni/redis-workshop-semantic-cache-llm/blob/master/redis_vector_semantic_cache_llm_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Workshop - Redis as a VectorDB - Semantic Caching (RedisVL)

![Redis](https://redis.io/wp-content/uploads/2024/04/Logotype.svg?auto=webp&quality=85,75&width=120)


Bem-vind[ao]s ao Workshop! Vamos ter uma experiência hands-on sobre como usar o Redis para Semantic Caching, integrando-se tranquilamente com a sua stack de LLM.


Para uma experiência premium, como a que eu quero que vocês tenham, recomendo MUITO utilizar o Redis Insight (App ou Web) pra apoiar na visualização dos dados.

https://redis.com/redis-enterprise/redis-insight/

# Crie uma conta free forever no Redis Cloud

Para criar a sua conta grátis no Redis Cloud, basta seguir este colab [aqui](https://https://github.com/gacerioni/redis-workshop-notebook-validator/blob/master/redis-workshop-setup-notebook-validator.ipynb).

Clique no botão "Open in colab" e siga o passo a passo.

# Introdução

O client **RedisVL** fornece uma interface de **Semantic Cache** que utiliza as capacidades de cache internas do Redis e o vector search para armazenar respostas de perguntas já respondidas anteriormente.

Isso reduz o número de requisições e tokens enviados para serviços de LLM, diminuindo os custos e aumentando o throughput da aplicação ao reduzir o tempo necessário para gerar respostas em linguagem natural.

Este colab vai te ensinar como usar o Redis como um cache semântico para suas aplicações.

# Hands-on: hora de começar a codar


Vamos instalar algumas dependências aqui mesmo, direto no colab.

In [None]:
# instalando algumas deps que iremos usar no lab
!pip install openai redisvl sentence-transformers

E vamos definir algumas constantes para o nosso lab, apenas pra evitar repetições:

In [14]:
import redis

# Create a Redis connection using redis-py
REDIS_FULL_URL = "redis://default:Xfoa8sZGrhrxm8KyY718wIMuuQenXxD0@redis-16962.c11.us-east-1-2.ec2.cloud.redislabs.com:16962"
r = redis.from_url(REDIS_FULL_URL)

# Flush the entire Redis database
r.flushall()

print("Redis database flushed.")


# also, export the same as an env var
!export REDIS_FULL_URL="redis://default:Xfoa8sZGrhrxm8KyY718wIMuuQenXxD0@redis-16962.c11.us-east-1-2.ec2.cloud.redislabs.com:16962"

Redis database flushed.


## Criando o esqueleto para interceptar o prompt do usuário

Neste bloco, vamos definir como iremos interagir com o LLM, de maneira bem simples.


In [10]:
import os
import getpass
import time

from openai import OpenAI

import numpy as np

os.environ["TOKENIZERS_PARALLELISM"] = "False"

api_key = os.getenv("OPENAI_API_KEY") or getpass.getpass("Enter your OpenAI API key: ")


client = OpenAI(api_key=api_key)

def ask_openai(question: str) -> str:
    response = client.completions.create(
      model="gpt-3.5-turbo-instruct",
      prompt=question,
      max_tokens=200
    )
    return response.choices[0].text.strip()

Enter your OpenAI API key: ··········


Agora, vamos fazer uma pergunta bem simples e direta, pra só depois começar o drift.

In [16]:
print(ask_openai("What is the capital of Brazil?"))

14:55:35 httpx INFO   HTTP Request: POST https://api.openai.com/v1/completions "HTTP/1.1 200 OK"
The capital of Brazil is Brasília.


## Inicializando o SemanticCache

Ao ser inicializado, o SemanticCache criará automaticamente um índice dentro do Redis para o conteúdo do cache semântico.

In [17]:
from redisvl.extensions.llmcache import SemanticCache

llmcache = SemanticCache(
    name="llmcache",                     # underlying search index name
    prefix="llmcache",                   # redis key prefix for hash entries
    redis_url=REDIS_FULL_URL,  # redis connection url string
    distance_threshold=0.1               # semantic cache distance threshold
)

14:55:37 sentence_transformers.SentenceTransformer INFO   Use pytorch device_name: cpu
14:55:37 sentence_transformers.SentenceTransformer INFO   Load pretrained SentenceTransformer: sentence-transformers/all-mpnet-base-v2




Batches:   0%|          | 0/1 [00:00<?, ?it/s]

O RedisVL compila uma CLI localmente para que você possa administrar o cache como um todo.

Rode o comando a seguir, apenas pra gente ver que não tem nada muito interessante acontecendo com o `lmcache` (SemanticCache que nomeamos) ainda.

In [18]:
!rvl index info -i llmcache --url $REDIS_FULL_URL



Index Information:
╭──────────────┬────────────────┬──────────────┬─────────────────┬────────────╮
│ Index Name   │ Storage Type   │ Prefixes     │ Index Options   │   Indexing │
├──────────────┼────────────────┼──────────────┼─────────────────┼────────────┤
│ llmcache     │ HASH           │ ['llmcache'] │ []              │          0 │
╰──────────────┴────────────────┴──────────────┴─────────────────┴────────────╯
Index Fields:
╭───────────────┬───────────────┬─────────┬────────────────┬────────────────┬────────────────┬────────────────┬────────────────┬────────────────┬─────────────────┬────────────────╮
│ Name          │ Attribute     │ Type    │ Field Option   │ Option Value   │ Field Option   │ Option Value   │ Field Option   │   Option Value │ Field Option    │ Option Value   │
├───────────────┼───────────────┼─────────┼────────────────┼────────────────┼────────────────┼────────────────┼────────────────┼────────────────┼─────────────────┼────────────────┤
│ prompt        │ prom

## Uso Básico do Cache com o Redis

Vamos guardar a pergunta numa variável `question`:

In [19]:
question = "What is the capital of Brazil?"

E vamos checar se alguém já fez essa pergunta, semanticamente falando, permitindo um `distance_threshold=0`.\
*Nós passamos este threshold quando criamos o objeto SemanticCache neste lab.*

In [20]:
# Check the semantic cache -- should be empty
if response := llmcache.check(prompt=question):
    print(response)
else:
    print("Empty cache")

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Empty cache


A verificação inicial do cache deve estar vazia, pois você ainda não armazenou nada no cache.

Abaixo, armazene a pergunta, a resposta correta e quaisquer metadados arbitrários (como um objeto dicionário em Python) no cache.

In [None]:
# Cache the question, answer, and arbitrary metadata
llmcache.store(
    prompt=question,
    response="Brasília",
    metadata={"city": "Brasília", "country": "brazil", "most_nerdola_citizen": "gabs"}
)


E agora vamos testar de novo! Como a pergunta é a mesma, com certeza vamos ter o famoso cache hit, só que semântico.

In [None]:
# Check the cache again
if response := llmcache.check(prompt=question, return_fields=["prompt", "response", "metadata"]):
    print(response)
else:
    print("Empty cache")

Podemos fazer um teste simples aqui, só pra ver se o modelo conseguiu fazer o mínimo esperado para o nosso lab:

In [None]:
# Check for a semantically similar result
question = "What actually is the capital of Brazil?"
llmcache.check(prompt=question)[0]['response']

## Customize o threshold de distância

Na maioria dos casos de uso, o limite correto de similaridade semântica não é algo fixo.

Dependendo da escolha do modelo de embeddings, das propriedades da consulta de entrada e do caso de uso de negócio, o limite pode precisar ser ajustado.

Felizmente, você pode ajustar o limite de forma simples a qualquer momento, como mostrado abaixo:

In [24]:
# Widen the semantic distance threshold
llmcache.set_threshold(0.3)

Agora, nós podemos fazer uma busca meio enrolada, mas que ainda assim deixa claro o que queremos. Algo que caberia dentro desses `.3` de deviation que permitimos agora.

In [None]:
# Really try to trick it by asking around the point
# But is able to slip just under our new threshold
question = "What is the capital city of the country in LATAM that also has a city named São Paulo?"
llmcache.check(prompt=question)[0]['response']

Vamos dar uma limpada no cache semântico agora, mas sem flushes destrutivos.

A lib do RedisVL permite que façamos isso de maneira limpa e apenas nas entidades que queremos afetar.

In [None]:
# Invalidate the cache completely by clearing it out
llmcache.clear()

# should be empty now
llmcache.check(prompt=question)

## Usando TTL


O Redis utiliza políticas (opcionais) de time-to-live (TTL) para expirar chaves individuais em momentos específicos no futuro. Isso permite que você se concentre no fluxo de dados e na lógica de negócio sem se preocupar com tarefas complexas de limpeza.

Uma política de TTL configurada no SemanticCache permite que você mantenha temporariamente as entradas de cache.

Por exemplo, defina a política de TTL para 5 segundos:

In [None]:
llmcache.set_ttl(5) # 5 seconds

Fazendo um store simples, é certo que sua chave irá durar apenas os 5 segundos que definimos no passo anterior:

In [None]:
llmcache.store("This is a TTL test", "This is a TTL test response")

time.sleep(5) # sleep for 5 secs, so we don't GET

In [None]:
# confirm that the cache has cleared by now on it's own
result = llmcache.check("This is a TTL test")

print(result)

Vamos dar um reset no TTL, pra gente poder continuar a guardar chaves long-lived:

In [None]:
# Reset the TTL to null (long lived data)
llmcache.set_ttl()

----

## Teste Simples de Performance

Em seguida, vamos medir o ganho de velocidade obtido ao usar o SemanticCache.

Você utilizará o módulo time para medir o tempo necessário para gerar respostas com e sem o SemanticCache.

In [None]:
def answer_question(question: str) -> str:
    """Helper function to answer a simple question using OpenAI with a wrapper
    check for the answer in the semantic cache first.

    Args:
        question (str): User input question.

    Returns:
        str: Response.
    """
    results = llmcache.check(prompt=question)
    if results:
        return results[0]["response"]
    else:
        answer = ask_openai(question)
        return answer

Vamos ver o que acontece quando vamos no openAI direto? A latência não é ruim, mas deveria ser bem acima de um cache hit, certo?

In [None]:
start = time.time()
# asking a question -- openai response time
question = "What was the name of the first US President?"
answer = answer_question(question)
end = time.time()

print(f"Without caching, a call to openAI to answer this simple question took {end-start} seconds.")


In [None]:
llmcache.store(prompt=question, response="George Washington")

In [None]:
# Calculate the avg latency for caching over LLM usage
times = []

for _ in range(10):
    cached_start = time.time()
    cached_answer = answer_question(question)
    cached_end = time.time()
    times.append(cached_end-cached_start)

avg_time_with_cache = np.mean(times)
print(f"Avg time taken with LLM cache enabled: {avg_time_with_cache}")
print(f"Percentage of time saved: {round(((end - start) - avg_time_with_cache) / (end - start) * 100, 2)}%")


Podemos ver uma foto sumarizada pelo CLI também:

In [21]:
!rvl stats -i llmcache --url $REDIS_FULL_URL


Statistics:
╭─────────────────────────────┬────────────╮
│ Stat Key                    │ Value      │
├─────────────────────────────┼────────────┤
│ num_docs                    │ 0          │
│ num_terms                   │ 0          │
│ max_doc_id                  │ 0          │
│ num_records                 │ 0          │
│ percent_indexed             │ 1          │
│ hash_indexing_failures      │ 0          │
│ number_of_uses              │ 3          │
│ bytes_per_record_avg        │ nan        │
│ doc_table_size_mb           │ 0          │
│ inverted_sz_mb              │ 0          │
│ key_table_size_mb           │ 0          │
│ offset_bits_per_record_avg  │ nan        │
│ offset_vectors_sz_mb        │ 0          │
│ offsets_per_term_avg        │ nan        │
│ records_per_doc_avg         │ nan        │
│ sortable_values_size_mb     │ 0          │
│ total_indexing_time         │ 0          │
│ total_inverted_index_blocks │ 0          │
│ vector_index_sz_mb          │ 0.00818634

In [None]:
# Clear the cache AND delete the underlying index
#llmcache.delete()

## Gerenciando um fluxo mais realista

**Vamos fazer uma função inteligente, mas ainda assim super simples.**

Basicamente, a função faz isso:
- Recebe a pergunta como input;
- Verifica se a pergunta está no SemanticCache que criamos;
- Se achou (cache hit), responde imediatamente;
- Se não achou (cache miss), vamos pra api do LLM + guardamos o dado no nosso SemanticCache.

Desta forma, temos um fluxo bem básico, mas que já poderia estar num caminho de cliente.

In [22]:
def answer_question(question: str) -> str:
    """Helper function to answer a simple question using OpenAI with a wrapper
    check for the answer in the semantic cache first. If not found, it queries
    OpenAI and stores the response in the cache.

    Args:
        question (str): User input question.

    Returns:
        str: Response.
    """
    # Check if the answer is already in the semantic cache
    results = llmcache.check(prompt=question)

    if results:
        # If found, print message and return the cached response
        print("[CACHE HIT] The answer was found in the semantic cache.")
        return results[0]["response"]
    else:
        # Otherwise, ask the LLM (OpenAI) for the answer
        print("[CACHE MISS] The answer was not in the cache. Querying OpenAI...")
        answer = ask_openai(question)

        # Store the question and its answer in the semantic cache
        print("[CACHE STORE] Storing the new response in the semantic cache.")
        llmcache.store(prompt=question, response=answer)

        # Return the answer
        return answer

# Neste trecho, vou simular um prompt pra gente brincar com o fluxo completo.
*Algo mais realista, porém, bem simples (como tudo no Redis).*

In [25]:
# Main block to ask user for input and check the cache or query the LLM
while True:
    # Open a prompt for the user to ask a question
    question = input("Enter your question (or 'exit' to stop): ")

    # Break the loop if the user types 'exit'
    if question.lower() == 'exit':
        print("Exiting the demo.")
        break

    # Get the answer using the cached system
    answer = answer_question(question)

    # Display the answer
    print(f"Answer: {answer}\n")

KeyboardInterrupt: Interrupted by user

# Hands-on Avançado: Cache Access Controls, Tags & Filters

Ao executar workloads complexos com aplicativos similares rodando ao mesmo tempo, ou ao lidar com múltiplos usuários, é importante manter os dados segregados.

Com base no suporte do **RedisVL** para consultas complexas e híbridas, podemos marcar e filtrar as entradas de cache utilizando `filterable_fields` definidos de forma personalizada.

Vamos armazenar os dados de múltiplos usuários no nosso cache, com prompts IDÊNTICOS, e garantir que retornemos apenas as informações corretas de cada usuário:

In [None]:
# Optionally delete the cache if needed
# private_cache.delete()  # Comment this out to avoid errors if index doesn't exist

private_cache = SemanticCache(
    name="private_cache",                     # underlying search index name
    redis_url=REDIS_FULL_URL,  # redis connection url string
    distance_threshold=0.1,               # semantic cache distance threshold
    filterable_fields=[{"name": "user_id", "type": "tag"}]
)

In [None]:
private_cache.store(
    prompt="What is the phone number linked to my account?",
    response="The number on file is 123-555-0000",
    filters={"user_id": "gabs"},
)

private_cache.store(
    prompt="What's the phone number linked in my account?",
    response="The number on file is 123-555-1111",
    filters={"user_id": "bart"},
)

Vamos definir agora o SemanticCache contextual, para que a resposta use o user id como contexto e filtro.

In [None]:
from redisvl.query.filter import Tag

# define user id filter
user_id_filter = Tag("user_id") == "bart"

response = private_cache.check(
    prompt="What is the phone number linked to my account?",
    filter_expression=user_id_filter,
    num_results=2
)

print(f"found {len(response)} entry \n{response[0]['response']}")

Múltiplos `filterable_fields` podem ser definidos em um cache, e expressões complexas de filtro podem ser construídas para filtrar nesses campos, assim como nos campos padrão já presentes.

In [None]:
# Optionally delete the cache if needed
#complex_cache.delete()  # Comment this out to avoid errors if index doesn't exist


complex_cache = SemanticCache(
    name='account_data',
    redis_url=REDIS_FULL_URL,  # redis connection url string
    filterable_fields=[
        {"name": "user_id", "type": "tag"},
        {"name": "account_type", "type": "tag"},
        {"name": "account_balance", "type": "numeric"},
        {"name": "transaction_amount", "type": "numeric"}
    ]
)
complex_cache.store(
    prompt="what is my most recent checking account transaction under $100?",
    response="Your most recent transaction was for $75",
    filters={"user_id": "abc", "account_type": "checking", "transaction_amount": 75},
)
complex_cache.store(
    prompt="what is my most recent savings account transaction?",
    response="Your most recent deposit was for $300",
    filters={"user_id": "abc", "account_type": "savings", "transaction_amount": 300},
)
complex_cache.store(
    prompt="what is my most recent checking account transaction over $200?",
    response="Your most recent transaction was for $350",
    filters={"user_id": "abc", "account_type": "checking", "transaction_amount": 350},
)
complex_cache.store(
    prompt="what is my checking account balance?",
    response="Your current checking account is $1850",
    filters={"user_id": "abc", "account_type": "checking"},
)

Então, podemos fazer essas buscas com os pré-filtros que precisamos:

In [None]:
from redisvl.query.filter import Num

value_filter = Num("transaction_amount") > 100
account_filter = Tag("account_type") == "checking"
complex_filter = value_filter & account_filter

# check for checking account transactions over $100
complex_cache.set_threshold(0.3)
response = complex_cache.check(
    prompt="what is my most recent checking account transaction?",
    filter_expression=complex_filter,
    num_results=5
)
print(f'found {len(response)} entry')
print(response[0]["response"])