# **Como Usar Cache para Acelerar Seu Código Python e Aplicações de LLM**
---

**Notebook baseado no arquivo:** "How to Use Caching to Speed Up Your Python Code & LLM Application";

**Autor:** *Youssef Hosni;*

**Data de Publicação:** 14 de julho de 2024.

---
O artigo discute a importância do cache na melhoria da performance de aplicações, especialmente em contextos onde a latência pode afetar significativamente a experiência do usuário. Serão apresentados conceitos de cache, exemplos práticos de implementação em Python e a aplicação em modelos de Linguagem Natural (LLM).


### **EQUIPE**

---

**Integrante 01:**

André Ribeiro Thasmo - 11202130043

**Integrante 02:**

Bheatriz Almeida Santos de Jesus - 11202131693

**Integrante 03:**

Caio Alexandre Sampaio Diniz - 11202130822

### **Sumário**

---

1. O que é cache na programação?
2. Benefícios do Cache
3. Usos comuns para o cache
4. Estratégias comuns de cache
5. Comparação de uso de Caching usando Fibonacci
6. Utilização de Caching para Aumentar a Velocidade de uma Aplicação de LLM
7. Comparação de Caching em Consultas HTTP
8. Conclusões

---

##1. O que é cache na programação?
O cache é um mecanismo utilizado para melhorar o desempenho de qualquer aplicação. Em termos técnicos, cache é o armazenamento temporário de dados, que podem ser recuperados posteriormente de forma rápida. Um cache é um espaço de armazenamento rápido (geralmente temporário) onde dados acessados frequentemente são mantidos para acelerar o desempenho do sistema e diminuir os tempos de acesso.

Por exemplo, o cache de um computador é um chip de memória pequeno, mas rápido (geralmente uma SRAM), localizado entre a CPU e o chip de memória principal (geralmente uma DRAM). Quando a CPU precisa acessar dados, ela primeiro verifica o cache. Se os dados estiverem no cache, ocorre um cache hit, e os dados são lidos do cache em vez de serem lidos da memória principal, que é relativamente mais lenta. Isso resulta em tempos de acesso reduzidos e desempenho aprimorado.

##2. Benefícios do Cache
- **Tempo de Acesso Reduzido:** Acelera o acesso a dados frequentemente usados.
- **Carga do Sistema Reduzida:** Menos solicitações a fontes externas.
- **Melhora da Experiência do Usuário:** Interações mais rápidas e fluidas.

##3. Usos Comuns do Cache
- Conteúdo Web: Páginas e imagens acessadas frequentemente.
- Consultas a Banco de Dados: Resultados de consultas comuns.
- Respostas de APIs: Evita solicitações de rede repetidas.
- Dados de Sessão: Informações específicas do usuário.
- Modelos de Machine Learning: Resultados intermediários e conjuntos de dados.
- Configurações: Dados de configuração da aplicação.


##4. Estratégias Comuns de Cache

Diferentes estratégias de cache podem ser elaboradas com base em padrões específicos de acesso a dados espaciais ou temporais, que podem ser vistos a seguir:



#### **4.1. Cache-Aside (Carregamento Preguiçoso):** Os dados são carregados no cache apenas quando solicitados. Se os dados não forem encontrados no cache (um cache miss), eles são buscados na fonte, armazenados no cache e depois retornados ao solicitante.

#### **4.2. Write-Through:** Toda vez que os dados são gravados no banco de dados, eles são simultaneamente gravados no cache. Isso garante que o cache sempre tenha os dados mais atualizados, mas pode introduzir latência adicional na gravação.

#### **4.3. Write-Back (Write-Behind):** Os dados são gravados no cache e imediatamente confirmados ao solicitante, com o cache escrevendo os dados de forma assíncrona no banco de dados. Isso melhora o desempenho de gravação, mas há risco de perda de dados se o cache falhar antes que a gravação no banco de dados seja concluída.

#### **4.4. Read-Through:** A aplicação interage apenas com o cache, e o cache é responsável por carregar os dados da fonte, caso ainda não estejam armazenados.

#### **4.5. Time-to-Live (TTL):** Os dados em cache recebem um tempo de expiração, após o qual são invalidados e removidos do cache. Isso ajuda a garantir que dados obsoletos não sejam usados indefinidamente.

#### **4.6. Políticas de Evicção de Cache:** Estratégias para determinar quais dados remover do cache quando ele atinge seu limite de armazenamento. Políticas comuns incluem:

* **Last-In, First-Out (LIFO):** Os dados adicionados mais recentemente são os primeiros a serem removidos quando o cache precisa liberar espaço. Essa estratégia assume que os dados mais antigos provavelmente serão necessários novamente em breve.
* **Least Recently Used (LRU):** Os dados acessados mais recentemente são os primeiros a serem removidos. Essa estratégia funciona bem quando os dados acessados mais recentemente têm maior probabilidade de serem acessados novamente.
* **Most Recently Used (MRU):** Os dados acessados mais recentemente são os primeiros a serem removidos. Isso pode ser útil em cenários onde os dados mais recentes provavelmente serão usados apenas uma vez e não serão necessários novamente.
* **Least Frequently Used (LFU):** Os dados que foram acessados o menor número de vezes são os primeiros a serem removidos. Essa estratégia ajuda a manter os dados mais frequentemente acessados no cache por mais tempo.

##5. Comparação de uso de Caching usando Fibonacci

###5.1. Sem Cache

Este código define uma função recursiva para calcular o n-ésimo número de Fibonacci sem utilizar caching. A função chama a si mesma repetidamente, o que resulta em muitas chamadas redundantes e, portanto, em um desempenho lento para valores maiores de *n*.

In [1]:
# Função para calcular o n-ésimo número de Fibonacci sem caching
def fibonacci_no_cache(n):
    if n <= 1:
        return n
    return fibonacci_no_cache(n-1) + fibonacci_no_cache(n-2)

# Exemplo de uso da função
print(f"Fibonacci sem cache para n=10: {fibonacci_no_cache(10)}")

Fibonacci sem cache para n=10: 55


###5.2. Com Cache

Aqui, usamos o decorator *@cache* da biblioteca functools para armazenar os resultados de chamadas anteriores da função. Isso evita cálculos redundantes, já que o resultado para um determinado valor de n é armazenado na cache e reutilizado.

In [2]:
from functools import cache

# Função Fibonacci com o decorator @cache
@cache
def fibonacci_cache(n):
    if n <= 1:
        return n
    return fibonacci_cache(n-1) + fibonacci_cache(n-2)

# Exemplo de uso da função
print(f"Fibonacci com cache para n=10: {fibonacci_cache(10)}")

Fibonacci com cache para n=10: 55


###5.3. Com LRU Cache

O decorator *@lru_cache* é semelhante ao *@cache*, mas permite definir um tamanho máximo para o cache. Quando o cache atinge este tamanho, os resultados menos recentemente usados são descartados para liberar espaço.

In [3]:
from functools import lru_cache

# Função Fibonacci com o decorator @lru_cache
@lru_cache(maxsize=7)  # Limita o cache para os 7 resultados mais recentes
def fibonacci_lru_cache(n):
    if n <= 1:
        return n
    return fibonacci_lru_cache(n-1) + fibonacci_lru_cache(n-2)

# Exemplo de uso da função
print(f"Fibonacci com LRU cache para n=10: {fibonacci_lru_cache(10)}")

Fibonacci com LRU cache para n=10: 55


###5.4. Comparação de tempo de **chamadas** de função e análise dos resultados

In [4]:
from functools import cache, lru_cache
import timeit

# Função sem cache
def fibonacci_no_cache(n):
    if n <= 1:
        return n
    return fibonacci_no_cache(n-1) + fibonacci_no_cache(n-2)

# Função com cache
@cache
def fibonacci_cache(n):
    if n <= 1:
        return n
    return fibonacci_cache(n-1) + fibonacci_cache(n-2)

# Função com LRU cache
@lru_cache
def fibonacci_lru_cache(n):
    if n <= 1:
        return n
    return fibonacci_lru_cache(n-1) + fibonacci_lru_cache(n-2)

# Comparação de tempo de execução
n = 35  # Define o valor de n para a comparação

# Mede o tempo de execução sem cache
no_cache_time = timeit.timeit(lambda: fibonacci_no_cache(n), number=1)

# Mede o tempo de execução com cache
cache_time = timeit.timeit(lambda: fibonacci_cache(n), number=1)

# Mede o tempo de execução com LRU cache
lru_cache_time = timeit.timeit(lambda: fibonacci_lru_cache(n), number=1)

print(f"Tempo sem cache: {no_cache_time:.6f} segundos")
print(f"Tempo com cache: {cache_time:.6f} segundos")
print(f"Tempo com LRU cache: {lru_cache_time:.6f} segundos")

Tempo sem cache: 9.122187 segundos
Tempo com cache: 0.000022 segundos
Tempo com LRU cache: 0.000018 segundos


### Análise dos Resultados

A análise dos tempos de execução das funções Fibonacci com e sem caching demonstra claramente os benefícios do uso de caching para melhorar o desempenho das aplicações.

1. **Sem Caching:** A função sem caching (`fibonacci_no_cache`) leva significativamente mais tempo para executar, especialmente para valores maiores de `n`. Isso ocorre devido ao grande número de chamadas recursivas redundantes que precisam recalcular os mesmos valores repetidamente.

2. **Com Caching (`@cache`):** O uso do decorator `@cache` armazena os resultados de chamadas anteriores em uma memória cache, evitando cálculos redundantes. Como resultado, a função com caching executa muito mais rápido, mostrando uma grande redução no tempo de execução.

3. **Com LRU Caching (`@lru_cache`):** A função com o decorator `@lru_cache` não só oferece caching, mas também permite controlar o tamanho máximo do cache com o parâmetro `maxsize`. Isso é útil para gerenciar a memória e evitar o uso excessivo, mantendo os resultados mais recentemente utilizados. A execução é comparável à do caching simples, com a vantagem adicional de gerenciamento de cache.

##6. Utilização de Caching para Aumentar a Velocidade de uma Aplicação de LLM

Além de melhorar o desempenho de funções recursivas como a função Fibonacci, o caching pode ser utilizado para acelerar significativamente aplicações que utilizam Modelos de Linguagem de Grande Escala (LLM). Em cenários de alta demanda, as chamadas para APIs de LLM, como o OpenAI GPT, podem ser lentas e custosas. O caching pode mitigar esses problemas ao armazenar respostas para consultas frequentes, reduzindo o tempo de resposta e o custo operacional.

## Implementação de Caching com GPTCache

Uma abordagem eficiente para caching de respostas de LLM é a utilização do pacote `GPTCache`, que constrói um cache semântico para armazenar respostas de LLM com base na similaridade dos inputs.

### Exemplo de Implementação:

Abaixo está um exemplo básico de como configurar e utilizar o `GPTCache` com uma API de LLM:


In [5]:
# Instalando dependencias
!pip install openai
!pip install gptcache



In [6]:
import time
from gptcache import cache
from gptcache.adapter import openai
import getpass
import openai as openai_sdk

# Prompt the user to enter the OpenAI API key securely
api_key = getpass.getpass(prompt='Enter your OpenAI API key: ')

# Initialize the GPTCache
cache.init()

# Set the OpenAI API key directly using the OpenAI SDK
openai_sdk.api_key = api_key

# Function to extract the response content
def response_text(openai_resp):
    return openai_resp['choices'][0]['message']['content']

print("Cache loading...")

# Define the question to ask
question = "what's github"

# Loop to demonstrate caching
for _ in range(2):
    start_time = time.time()
    response = openai.ChatCompletion.create(
        model='gpt-3.5-turbo',
        messages=[
            {
                'role': 'user',
                'content': question
            }
        ],
    )
    print(f'Question: {question}')
    print("Time consumed: {:.5f}s".format(time.time() - start_time))
    print(f'Answer: {response_text(response)}\n')


Enter your OpenAI API key: ··········
Cache loading...
Question: what's github
Time consumed: 1.45835s
Answer: GitHub is a web-based platform for version control using Git. It allows developers to collaborate on projects, track changes to code, and manage their code repositories. It is commonly used for open-source projects, but can also be used for private repositories. GitHub includes features such as code reviews, issue tracking, and project management tools.

Question: what's github
Time consumed: 0.00035s
Answer: GitHub is a web-based platform for version control using Git. It allows developers to collaborate on projects, track changes to code, and manage their code repositories. It is commonly used for open-source projects, but can also be used for private repositories. GitHub includes features such as code reviews, issue tracking, and project management tools.



##7. Comparação de Caching em Consultas HTTP
Neste exemplo, mostramos como o caching pode otimizar consultas HTTP repetidas. Comparamos três abordagens: sem cache, com cache manual implementado através de um decorador personalizado, e usando lru_cache para caching automático. O código mede o tempo de execução de cada abordagem para diferentes quantidades de requisições, evidenciando os benefícios do caching em reduzir o tempo de resposta e a carga sobre o servidor.

In [7]:
# Importar os módulos necessários
import time
from functools import lru_cache, wraps
import requests

# Função para obter o conteúdo HTML
def get_html_data(url):
    response = requests.get(url)
    return response.text

# Implementação de Cache Manual usando um decorador
def cache_manual(func):
    cache = {}

    @wraps(func)
    def wrapper(*args):
        if args in cache:
            return cache[args]
        else:
            result = func(*args)
            cache[args] = result
            return result

    wrapper.cache = cache  # Expondo o cache para poder limpar depois
    return wrapper

@cache_manual
def get_html_data_cached(url):
    response = requests.get(url)
    return response.text

# Cache usando LRU Cache
@lru_cache(maxsize=None)
def get_html_data_lru(url):
    response = requests.get(url)
    return response.text

# Funções para resetar o cache
def reset_manual_cache():
    get_html_data_cached.cache.clear()

def reset_lru_cache():
    get_html_data_lru.cache_clear()

# Função para medir o tempo de execução
def measure_time(func, url, requests_count):
    start_time = time.time()
    for _ in range(requests_count):
        func(url)
    return time.time() - start_time

# URLs e contagens
url = 'https://books.toscrape.com/'
requests_counts = [1, 10, 100, 500]

# Medição de tempo para as três funções com reset de cache
for count in requests_counts:
    # Medindo o tempo para a função sem cache
    normal_time = measure_time(get_html_data, url, count)

    # Resetando e medindo o tempo para a função com cache manual
    reset_manual_cache()
    manual_cache_time = measure_time(get_html_data_cached, url, count)

    # Resetando e medindo o tempo para a função com LRU cache
    reset_lru_cache()
    lru_cache_time = measure_time(get_html_data_lru, url, count)

    print(f'Requisições: {count}')
    print(f'Tempo (sem cache): {normal_time:.9f} segundos')
    print(f'Tempo (cache manual): {manual_cache_time:.9f} segundos')
    print(f'Tempo (LRU cache): {lru_cache_time:.9f} segundos\n')


Requisições: 1
Tempo (sem cache): 0.149507523 segundos
Tempo (cache manual): 0.073524475 segundos
Tempo (LRU cache): 0.026438475 segundos

Requisições: 10
Tempo (sem cache): 0.218742847 segundos
Tempo (cache manual): 0.019894361 segundos
Tempo (LRU cache): 0.011918306 segundos

Requisições: 100
Tempo (sem cache): 1.577921152 segundos
Tempo (cache manual): 0.043052197 segundos
Tempo (LRU cache): 0.026732683 segundos

Requisições: 500
Tempo (sem cache): 7.365094662 segundos
Tempo (cache manual): 0.011998177 segundos
Tempo (LRU cache): 0.011190891 segundos



##8. Conclusões:
O uso de caching é uma estratégia eficaz para otimizar o desempenho de sistemas que dependem de consultas repetitivas, especialmente em aplicações que utilizam LLMs (Modelos de Linguagem de Grande Escala). Ao armazenar respostas de consultas repetidas ou semelhantes, o caching oferece múltiplos benefícios:

* Eficiência no Tratamento de Repetições: O caching elimina a necessidade de processamento redundante, armazenando respostas para consultas repetitivas e melhorando a eficiência do sistema.
* Redução de Latência: Reutilizando respostas previamente armazenadas, o caching reduz significativamente o tempo de resposta, o que é crucial para aplicações em tempo real.
* Economia de Custos: Com menos chamadas diretas à API do LLM, o caching reduz os custos operacionais, tornando a abordagem mais econômica em aplicações de larga escala.
* Aprimoramento da Experiência do Usuário: Respostas mais rápidas resultam em uma experiência de usuário superior, beneficiando especialmente aplicações como chatbots, assistentes virtuais e sistemas interativos.

O uso de caching com GPTCache é especialmente útil em aplicações que requerem respostas frequentes e consistentes de LLMs, como chatbots, assistentes virtuais, e sistemas de recomendação. Esta abordagem não apenas melhora o desempenho, mas também permite uma melhor escalabilidade do sistema.