# Avaliação com LangSmith & RAGAS

## Notebook Prático - Aula 6

**Instrutor:** Leonardo Pena  
**Curso:** LangChain: Criando chatbots inteligentes com RAG

---

Este notebook apresenta implementações práticas dos conceitos abordados na aula sobre **Avaliação com LangSmith & RAGAS**, utilizando o **Google Gemini** como modelo de linguagem, incluindo:

1. **Desafios na Avaliação de RAG** - Compreendendo a complexidade
2. **LangSmith** - Plataforma de observabilidade e rastreamento
3. **RAGAS** - Métricas específicas para sistemas RAG
4. **Testes A/B** - Comparação de versões em produção
5. **Testes de Regressão** - Garantia de qualidade contínua

---

## 📦 Instalação e Importações

Primeiro, vamos instalar as dependências necessárias e importar as bibliotecas.

In [1]:
!pip install langchain langchain-google-genai langchain-community chromadb tiktoken google-generativeai ragas datasets


Defaulting to user installation because normal site-packages is not writeable
Collecting ragas
  Downloading ragas-0.3.1-py3-none-any.whl.metadata (2.6 kB)
Collecting datasets
  Downloading datasets-4.0.0-py3-none-any.whl.metadata (19 kB)
Collecting appdirs (from ragas)
  Downloading appdirs-1.4.4-py2.py3-none-any.whl.metadata (9.0 kB)
Collecting diskcache>=5.6.3 (from ragas)
  Using cached diskcache-5.6.3-py3-none-any.whl.metadata (20 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-21.0.0-cp312-cp312-win_amd64.whl.metadata (3.4 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py312-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2025.3.0,>=2023.1.0 (from fsspec[http]<=2025.3.0,>=2023.1.0->datasets)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Downloading ragas-0.3.1-py3-none-any.whl (190 kB)
Downloading

In [2]:
# Importações necessárias
import os
import pandas as pd
import numpy as np
from datetime import datetime
import json
import time
import warnings
warnings.filterwarnings('ignore')

# LangChain imports
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferWindowMemory
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI
from langchain.schema import Document
from langchain.text_splitter import CharacterTextSplitter

# RAGAS imports
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
)
from datasets import Dataset

# Google Generative AI
import google.generativeai as genai

print("✅ Bibliotecas importadas com sucesso!")

✅ Bibliotecas importadas com sucesso!


## 🔧 Configuração Inicial

Vamos configurar as chaves de API necessárias.

In [4]:
# Configuração da chave de API do Google Gemini

os.environ['GOOGLE_API_KEY'] = 'AIzaSyAUx0wPEDlS-2NNVh9TGaWMvJ_HTUtiMGw'
GOOGLE_API_KEY = os.environ["GOOGLE_API_KEY"]

print("✅ Configuração inicial completa!")

✅ Configuração inicial completa!


## 📚 1. Preparação dos Dados de Teste

Vamos criar um conjunto de dados de teste para demonstrar as métricas de avaliação.

In [5]:
# Criação de documentos de exemplo sobre IA e tecnologia
documentos_conhecimento = [
    """Inteligência Artificial (IA) é um campo da ciência da computação que se concentra
    na criação de sistemas capazes de realizar tarefas que normalmente requerem inteligência humana.
    Isso inclui aprendizado, raciocínio, percepção e tomada de decisões. A IA pode ser classificada
    em IA fraca (específica para tarefas) e IA forte (inteligência geral).""",

    """Machine Learning é uma subárea da IA que permite que computadores aprendam e melhorem
    automaticamente através da experiência, sem serem explicitamente programados.
    Os algoritmos de ML identificam padrões em dados e fazem previsões. Existem três tipos principais:
    aprendizado supervisionado, não supervisionado e por reforço.""",

    """Deep Learning é uma técnica de machine learning baseada em redes neurais artificiais
    com múltiplas camadas. É especialmente eficaz para tarefas como reconhecimento de imagem,
    processamento de linguagem natural e reconhecimento de voz. As redes neurais profundas
    podem ter centenas de camadas e milhões de parâmetros.""",

    """RAG (Retrieval-Augmented Generation) é uma técnica que combina recuperação de informações
    com geração de texto. Permite que modelos de linguagem acessem conhecimento externo
    para gerar respostas mais precisas e atualizadas. O processo envolve buscar documentos
    relevantes e usar essas informações para gerar a resposta final.""",

    """Google Gemini é um modelo de linguagem multimodal desenvolvido pelo Google,
    capaz de processar texto, imagens e código. Oferece capacidades avançadas de
    raciocínio e compreensão contextual. O Gemini vem em diferentes versões:
    Nano, Pro e Ultra, cada uma otimizada para diferentes casos de uso.""",

    """LangChain é um framework para desenvolvimento de aplicações com modelos de linguagem.
    Facilita a criação de cadeias complexas, gerenciamento de memória e integração
    com diferentes fontes de dados. Oferece componentes modulares para construir
    aplicações robustas de IA conversacional."""
]

# Conversão para objetos Document
docs = [Document(page_content=doc) for doc in documentos_conhecimento]

print(f"✅ Criados {len(docs)} documentos de conhecimento")

✅ Criados 6 documentos de conhecimento


In [6]:
# Criação de dataset de teste para avaliação RAGAS
dados_teste = {
    'question': [
        "O que é Inteligência Artificial?",
        "Como funciona o Machine Learning?",
        "Quais são as aplicações do Deep Learning?",
        "O que é RAG e como funciona?",
        "Quais são as características do Google Gemini?"
    ],
    'ground_truth': [
        "Inteligência Artificial é um campo da ciência da computação focado na criação de sistemas que realizam tarefas que requerem inteligência humana, incluindo aprendizado, raciocínio e tomada de decisões.",
        "Machine Learning permite que computadores aprendam automaticamente através da experiência, identificando padrões em dados para fazer previsões, sem programação explícita.",
        "Deep Learning é eficaz para reconhecimento de imagem, processamento de linguagem natural e reconhecimento de voz, usando redes neurais com múltiplas camadas.",
        "RAG combina recuperação de informações com geração de texto, permitindo que modelos acessem conhecimento externo para respostas mais precisas.",
        "Google Gemini é um modelo multimodal que processa texto, imagens e código, oferecendo capacidades avançadas de raciocínio em versões Nano, Pro e Ultra."
    ]
}

print("✅ Dataset de teste criado!")
print(f"📊 {len(dados_teste['question'])} perguntas de teste preparadas")

✅ Dataset de teste criado!
📊 5 perguntas de teste preparadas


## 🔍 2. Criação do Sistema RAG

Vamos criar um sistema RAG completo para avaliar.

In [7]:
# Inicializacao dos embeddings do Google Gemini
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001",
    google_api_key=GOOGLE_API_KEY)


# Criaçao do vector store
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory="./chroma_db_avaliacao"
)

# Criaçao do modelo Google Gemini
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-pro-latest",
    temperature=0.3,
    google_api_key=GOOGLE_API_KEY,
    convert_system_message_to_human=True
)

# Configuracao da memória
memory= ConversationBufferWindowMemory(
    memory_key='chat_history',
    k=3,
    return_messages=True,
    output_key='answer'
)

# Criação da cadeia RAG
rag_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    memory=memory,
    return_source_documents=True,
    verbose=False
)

print("✅ Sistema RAG criado!")

✅ Sistema RAG criado!


  memory= ConversationBufferWindowMemory(


## 🧪 3. Coleta de Dados para Avaliação

Vamos executar o sistema RAG e coletar dados para avaliação com RAGAS.

In [7]:
def executar_rag_e_coletar_dados(perguntas):
    """Executa o sistema RAG e coleta dados para avaliação"""

    resultados = {
        'question': [],
        'answer': [],
        'contexts': [],
        'ground_truth': []
    }

    for i, pergunta in enumerate(perguntas):
        print(f"\n🔄 Processando pergunta {i+1}/{len(perguntas)}: {pergunta}")

        try:
            # Executar RAG
            resultado = rag_chain({"question": pergunta})

            # Extrair contextos dos documentos fonte
            contextos = [doc.page_content for doc in resultado['source_documents']]

            # Armazenar resultados
            resultados['question'].append(pergunta)
            resultados['answer'].append(resultado['answer'])
            resultados['contexts'].append(contextos)
            resultados['ground_truth'].append(dados_teste['ground_truth'][i])

            print(f"✅ Resposta gerada: {resultado['answer'][:100]}...")

        except Exception as e:
            print(f"❌ Erro ao processar pergunta: {str(e)}")
            continue

    return resultados

# Executar coleta de dados
print("🚀 Iniciando coleta de dados para avaliação...")
dados_avaliacao = executar_rag_e_coletar_dados(dados_teste['question'])

print(f"\n✅ Coleta concluída! {len(dados_avaliacao['question'])} exemplos coletados")


🚀 Iniciando coleta de dados para avaliação...

🔄 Processando pergunta 1/5: O que é Inteligência Artificial?


  resultado = rag_chain({"question": pergunta})


✅ Resposta gerada: Inteligência Artificial (IA) é um campo da ciência da computação que se concentra na criação de sist...

🔄 Processando pergunta 2/5: Como funciona o Machine Learning?
✅ Resposta gerada: Machine Learning funciona permitindo que os computadores aprendam com dados, sem serem explicitament...

🔄 Processando pergunta 3/5: Quais são as aplicações do Deep Learning?
✅ Resposta gerada: Reconhecimento de imagem, processamento de linguagem natural e reconhecimento de voz....

🔄 Processando pergunta 4/5: O que é RAG e como funciona?
✅ Resposta gerada: RAG (Retrieval-Augmented Generation) é uma técnica que combina recuperação de informações com geraçã...

🔄 Processando pergunta 5/5: Quais são as características do Google Gemini?
✅ Resposta gerada: O Google Gemini é um modelo de linguagem multimodal capaz de processar texto, imagens e código. Poss...

✅ Coleta concluída! 5 exemplos coletados


## 📊 4. Avaliação com RAGAS

Agora vamos avaliar nosso sistema RAG usando as métricas do RAGAS.

In [8]:
# Preparar dataset para RAGAS
dataset_ragas = Dataset.from_dict(dados_avaliacao)

print("📋 Dataset preparado para avaliação RAGAS:")
print(f"   - {len(dataset_ragas)} exemplos")
print(f"   - Colunas: {list(dataset_ragas.column_names)}")

# Configurar métricas RAGAS
metricas_ragas = [
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
]

print("\n🎯 Métricas RAGAS configuradas:")
for metrica in metricas_ragas:
    print(f"   - {metrica.name}")

📋 Dataset preparado para avaliação RAGAS:
   - 5 exemplos
   - Colunas: ['question', 'answer', 'contexts', 'ground_truth']

🎯 Métricas RAGAS configuradas:
   - faithfulness
   - answer_relevancy
   - context_precision
   - context_recall


In [9]:
# Executar avaliação RAGAS
print("🔍 Iniciando avaliação com RAGAS...")
print("⏳ Isso pode levar alguns minutos...")

# Configurar LLM para RAGAS (usando Gemini)
resultado_ragas = evaluate(
    dataset_ragas,
    metrics=metricas_ragas,
    llm=llm,
    embeddings=embeddings
)

print("\n✅ Avaliação RAGAS concluída!")

# Exibir resultados
print("\n📊 === RESULTADOS DA AVALIAÇÃO RAGAS ===")

# Access individual metrics from the EvaluationResult object
print(f"faithfulness: {resultado_ragas['faithfulness'][0]:.4f}")
print(f"answer_relevancy: {resultado_ragas['answer_relevancy'][0]:.4f}")
print(f"context_precision: {resultado_ragas['context_precision'][0]:.4f}")
print(f"context_recall: {resultado_ragas['context_recall'][0]:.4f}")

print("💡 Vamos criar uma avaliação simulada para demonstração...")

# Simulação de resultados RAGAS para demonstração
resultado_ragas_simulado = {
    'faithfulness': 0.85,
    'answer_relevancy': 0.78,
    'context_relevancy': 0.82,
    'context_recall': 0.75
}

print("\n📊 === RESULTADOS SIMULADOS DA AVALIAÇÃO RAGAS ===")
for metrica, valor in resultado_ragas_simulado.items():
    print(f"{metrica}: {valor:.4f}")


🔍 Iniciando avaliação com RAGAS...
⏳ Isso pode levar alguns minutos...


NameError: name 'dataset_ragas' is not defined

## 📈 5. Análise Detalhada das Métricas

Vamos analisar cada métrica RAGAS em detalhes.

In [10]:
def analisar_metricas_ragas(resultados):
    """Analisa e interpreta um objeto EvaluationResult (ou dict) do RAGAS,
    imprimindo cada métrica com uma leitura qualitativa."""

    # ────────────────────────────────────────────────────────────────
    # 1) Converter o objeto EvaluationResult para dicionário simples
    # ────────────────────────────────────────────────────────────────
    if hasattr(resultados, "to_dict"):                     # RAGAS ≥ 0.0.12
        resultados = resultados.to_dict()
    elif hasattr(resultados, "_scores_dict"):              # RAGAS 0.0.10 – 0.0.11
        resultados = resultados._scores_dict
    elif not isinstance(resultados, dict):                 # Qualquer Mapping restante
        resultados = dict(resultados)                      # Conversion fallback

    # ────────────────────────────────────────────────────────────────
    # 2) Helper seguro para obter o score como escalar
    # ────────────────────────────────────────────────────────────────
    def pegar_score(chave: str, default: float = 0.0) -> float:
        valor = resultados.get(chave, default)
        # Alguns back-ends devolvem lista ou ScoreList ➜ pega primeiro item
        if isinstance(valor, (list, tuple)):
            return float(valor[0])
        return float(valor)

    print("🔍 === ANÁLISE DETALHADA DAS MÉTRICAS RAGAS ===\n")

    # ────────────────────────────────────────────────────────────────
    # 3) Métricas esperadas (algumas instalações usam context_precision
    #    no lugar de context_relevancy ― cobrimos ambos)
    # ────────────────────────────────────────────────────────────────
    metricas = {
        "faithfulness":       "Faithfulness (Factualidade)",
        "answer_relevancy":   "Answer Relevancy (Relevância da Resposta)",
        "context_relevancy":  "Context Relevancy (Relevância do Contexto)",
        "context_precision":  "Context Precision (Precisão do Contexto)",
        "context_recall":     "Context Recall (Recall do Contexto)",
    }

    scores_validos = []
    for chave, nome_legivel in metricas.items():
        if chave not in resultados:
            continue                                  # pula métricas ausentes
        score = pegar_score(chave)
        scores_validos.append(score)

        # Exibe valor numérico
        print(f"📊 **{nome_legivel}: {score:.4f}**")

        # Interpretação qualitativa
        if score >= 0.80:
            print("   ✅ Excelente!")
        elif score >= 0.60:
            print("   ⚠️ Moderado.")
        else:
            print("   ❌ Baixo.")

    # ────────────────────────────────────────────────────────────────
    # 4) Score geral (média simples dos scores presentes)
    # ────────────────────────────────────────────────────────────────
    if scores_validos:
        score_geral = float(np.mean(scores_validos))
        print(f"\n🎯 **Score Geral: {score_geral:.4f}**")
        if score_geral >= 0.80:
            print("   🏆 Sistema RAG com performance excelente!")
        elif score_geral >= 0.60:
            print("   👍 Sistema RAG com performance boa, mas com espaço para melhorias")
        else:
            print("   🔧 Sistema RAG precisa de otimizações significativas")
    else:
        print("⚠️ Nenhuma métrica disponível para análise.")


In [11]:
analisar_metricas_ragas(resultado_ragas)

🔍 === ANÁLISE DETALHADA DAS MÉTRICAS RAGAS ===

📊 **Faithfulness (Factualidade): 1.0000**
   ✅ Excelente!
📊 **Answer Relevancy (Relevância da Resposta): 0.8069**
   ✅ Excelente!
📊 **Context Precision (Precisão do Contexto): 1.0000**
   ✅ Excelente!
📊 **Context Recall (Recall do Contexto): 1.0000**
   ✅ Excelente!

🎯 **Score Geral: 0.9517**
   🏆 Sistema RAG com performance excelente!
