# Avalia√ß√£o com LangSmith & RAGAS

## Notebook Pr√°tico - Aula 6

**Instrutor:** Leonardo Pena  
**Curso:** LangChain: Criando chatbots inteligentes com RAG

---

Este notebook apresenta implementa√ß√µes pr√°ticas dos conceitos abordados na aula sobre **Avalia√ß√£o com LangSmith & RAGAS**, utilizando o **Google Gemini** como modelo de linguagem, incluindo:

1. **Desafios na Avalia√ß√£o de RAG** - Compreendendo a complexidade
2. **LangSmith** - Plataforma de observabilidade e rastreamento
3. **RAGAS** - M√©tricas espec√≠ficas para sistemas RAG
4. **Testes A/B** - Compara√ß√£o de vers√µes em produ√ß√£o
5. **Testes de Regress√£o** - Garantia de qualidade cont√≠nua

---

## üì¶ Instala√ß√£o e Importa√ß√µes

Primeiro, vamos instalar as depend√™ncias necess√°rias e importar as bibliotecas.

In [1]:
!pip install langchain langchain-google-genai langchain-community chromadb tiktoken google-generativeai ragas datasets


Defaulting to user installation because normal site-packages is not writeable
Collecting ragas
  Downloading ragas-0.3.1-py3-none-any.whl.metadata (2.6 kB)
Collecting datasets
  Downloading datasets-4.0.0-py3-none-any.whl.metadata (19 kB)
Collecting appdirs (from ragas)
  Downloading appdirs-1.4.4-py2.py3-none-any.whl.metadata (9.0 kB)
Collecting diskcache>=5.6.3 (from ragas)
  Using cached diskcache-5.6.3-py3-none-any.whl.metadata (20 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-21.0.0-cp312-cp312-win_amd64.whl.metadata (3.4 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py312-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2025.3.0,>=2023.1.0 (from fsspec[http]<=2025.3.0,>=2023.1.0->datasets)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Downloading ragas-0.3.1-py3-none-any.whl (190 kB)
Downloading

In [2]:
# Importa√ß√µes necess√°rias
import os
import pandas as pd
import numpy as np
from datetime import datetime
import json
import time
import warnings
warnings.filterwarnings('ignore')

# LangChain imports
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferWindowMemory
from langchain.vectorstores import Chroma
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI
from langchain.schema import Document
from langchain.text_splitter import CharacterTextSplitter

# RAGAS imports
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
)
from datasets import Dataset

# Google Generative AI
import google.generativeai as genai

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


## üîß Configura√ß√£o Inicial

Vamos configurar as chaves de API necess√°rias.

In [4]:
# Configura√ß√£o da chave de API do Google Gemini

os.environ['GOOGLE_API_KEY'] = 'AIzaSyAUx0wPEDlS-2NNVh9TGaWMvJ_HTUtiMGw'
GOOGLE_API_KEY = os.environ["GOOGLE_API_KEY"]

print("‚úÖ Configura√ß√£o inicial completa!")

‚úÖ Configura√ß√£o inicial completa!


## üìö 1. Prepara√ß√£o dos Dados de Teste

Vamos criar um conjunto de dados de teste para demonstrar as m√©tricas de avalia√ß√£o.

In [5]:
# Cria√ß√£o de documentos de exemplo sobre IA e tecnologia
documentos_conhecimento = [
    """Intelig√™ncia Artificial (IA) √© um campo da ci√™ncia da computa√ß√£o que se concentra
    na cria√ß√£o de sistemas capazes de realizar tarefas que normalmente requerem intelig√™ncia humana.
    Isso inclui aprendizado, racioc√≠nio, percep√ß√£o e tomada de decis√µes. A IA pode ser classificada
    em IA fraca (espec√≠fica para tarefas) e IA forte (intelig√™ncia geral).""",

    """Machine Learning √© uma sub√°rea da IA que permite que computadores aprendam e melhorem
    automaticamente atrav√©s da experi√™ncia, sem serem explicitamente programados.
    Os algoritmos de ML identificam padr√µes em dados e fazem previs√µes. Existem tr√™s tipos principais:
    aprendizado supervisionado, n√£o supervisionado e por refor√ßo.""",

    """Deep Learning √© uma t√©cnica de machine learning baseada em redes neurais artificiais
    com m√∫ltiplas camadas. √â especialmente eficaz para tarefas como reconhecimento de imagem,
    processamento de linguagem natural e reconhecimento de voz. As redes neurais profundas
    podem ter centenas de camadas e milh√µes de par√¢metros.""",

    """RAG (Retrieval-Augmented Generation) √© uma t√©cnica que combina recupera√ß√£o de informa√ß√µes
    com gera√ß√£o de texto. Permite que modelos de linguagem acessem conhecimento externo
    para gerar respostas mais precisas e atualizadas. O processo envolve buscar documentos
    relevantes e usar essas informa√ß√µes para gerar a resposta final.""",

    """Google Gemini √© um modelo de linguagem multimodal desenvolvido pelo Google,
    capaz de processar texto, imagens e c√≥digo. Oferece capacidades avan√ßadas de
    racioc√≠nio e compreens√£o contextual. O Gemini vem em diferentes vers√µes:
    Nano, Pro e Ultra, cada uma otimizada para diferentes casos de uso.""",

    """LangChain √© um framework para desenvolvimento de aplica√ß√µes com modelos de linguagem.
    Facilita a cria√ß√£o de cadeias complexas, gerenciamento de mem√≥ria e integra√ß√£o
    com diferentes fontes de dados. Oferece componentes modulares para construir
    aplica√ß√µes robustas de IA conversacional."""
]

# Convers√£o para objetos Document
docs = [Document(page_content=doc) for doc in documentos_conhecimento]

print(f"‚úÖ Criados {len(docs)} documentos de conhecimento")

‚úÖ Criados 6 documentos de conhecimento


In [6]:
# Cria√ß√£o de dataset de teste para avalia√ß√£o RAGAS
dados_teste = {
    'question': [
        "O que √© Intelig√™ncia Artificial?",
        "Como funciona o Machine Learning?",
        "Quais s√£o as aplica√ß√µes do Deep Learning?",
        "O que √© RAG e como funciona?",
        "Quais s√£o as caracter√≠sticas do Google Gemini?"
    ],
    'ground_truth': [
        "Intelig√™ncia Artificial √© um campo da ci√™ncia da computa√ß√£o focado na cria√ß√£o de sistemas que realizam tarefas que requerem intelig√™ncia humana, incluindo aprendizado, racioc√≠nio e tomada de decis√µes.",
        "Machine Learning permite que computadores aprendam automaticamente atrav√©s da experi√™ncia, identificando padr√µes em dados para fazer previs√µes, sem programa√ß√£o expl√≠cita.",
        "Deep Learning √© eficaz para reconhecimento de imagem, processamento de linguagem natural e reconhecimento de voz, usando redes neurais com m√∫ltiplas camadas.",
        "RAG combina recupera√ß√£o de informa√ß√µes com gera√ß√£o de texto, permitindo que modelos acessem conhecimento externo para respostas mais precisas.",
        "Google Gemini √© um modelo multimodal que processa texto, imagens e c√≥digo, oferecendo capacidades avan√ßadas de racioc√≠nio em vers√µes Nano, Pro e Ultra."
    ]
}

print("‚úÖ Dataset de teste criado!")
print(f"üìä {len(dados_teste['question'])} perguntas de teste preparadas")

‚úÖ Dataset de teste criado!
üìä 5 perguntas de teste preparadas


## üîç 2. Cria√ß√£o do Sistema RAG

Vamos criar um sistema RAG completo para avaliar.

In [7]:
# Inicializacao dos embeddings do Google Gemini
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001",
    google_api_key=GOOGLE_API_KEY)


# Cria√ßao do vector store
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory="./chroma_db_avaliacao"
)

# Cria√ßao do modelo Google Gemini
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-pro-latest",
    temperature=0.3,
    google_api_key=GOOGLE_API_KEY,
    convert_system_message_to_human=True
)

# Configuracao da mem√≥ria
memory= ConversationBufferWindowMemory(
    memory_key='chat_history',
    k=3,
    return_messages=True,
    output_key='answer'
)

# Cria√ß√£o da cadeia RAG
rag_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    memory=memory,
    return_source_documents=True,
    verbose=False
)

print("‚úÖ Sistema RAG criado!")

‚úÖ Sistema RAG criado!


  memory= ConversationBufferWindowMemory(


## üß™ 3. Coleta de Dados para Avalia√ß√£o

Vamos executar o sistema RAG e coletar dados para avalia√ß√£o com RAGAS.

In [7]:
def executar_rag_e_coletar_dados(perguntas):
    """Executa o sistema RAG e coleta dados para avalia√ß√£o"""

    resultados = {
        'question': [],
        'answer': [],
        'contexts': [],
        'ground_truth': []
    }

    for i, pergunta in enumerate(perguntas):
        print(f"\nüîÑ Processando pergunta {i+1}/{len(perguntas)}: {pergunta}")

        try:
            # Executar RAG
            resultado = rag_chain({"question": pergunta})

            # Extrair contextos dos documentos fonte
            contextos = [doc.page_content for doc in resultado['source_documents']]

            # Armazenar resultados
            resultados['question'].append(pergunta)
            resultados['answer'].append(resultado['answer'])
            resultados['contexts'].append(contextos)
            resultados['ground_truth'].append(dados_teste['ground_truth'][i])

            print(f"‚úÖ Resposta gerada: {resultado['answer'][:100]}...")

        except Exception as e:
            print(f"‚ùå Erro ao processar pergunta: {str(e)}")
            continue

    return resultados

# Executar coleta de dados
print("üöÄ Iniciando coleta de dados para avalia√ß√£o...")
dados_avaliacao = executar_rag_e_coletar_dados(dados_teste['question'])

print(f"\n‚úÖ Coleta conclu√≠da! {len(dados_avaliacao['question'])} exemplos coletados")


üöÄ Iniciando coleta de dados para avalia√ß√£o...

üîÑ Processando pergunta 1/5: O que √© Intelig√™ncia Artificial?


  resultado = rag_chain({"question": pergunta})


‚úÖ Resposta gerada: Intelig√™ncia Artificial (IA) √© um campo da ci√™ncia da computa√ß√£o que se concentra na cria√ß√£o de sist...

üîÑ Processando pergunta 2/5: Como funciona o Machine Learning?
‚úÖ Resposta gerada: Machine Learning funciona permitindo que os computadores aprendam com dados, sem serem explicitament...

üîÑ Processando pergunta 3/5: Quais s√£o as aplica√ß√µes do Deep Learning?
‚úÖ Resposta gerada: Reconhecimento de imagem, processamento de linguagem natural e reconhecimento de voz....

üîÑ Processando pergunta 4/5: O que √© RAG e como funciona?
‚úÖ Resposta gerada: RAG (Retrieval-Augmented Generation) √© uma t√©cnica que combina recupera√ß√£o de informa√ß√µes com gera√ß√£...

üîÑ Processando pergunta 5/5: Quais s√£o as caracter√≠sticas do Google Gemini?
‚úÖ Resposta gerada: O Google Gemini √© um modelo de linguagem multimodal capaz de processar texto, imagens e c√≥digo. Poss...

‚úÖ Coleta conclu√≠da! 5 exemplos coletados


## üìä 4. Avalia√ß√£o com RAGAS

Agora vamos avaliar nosso sistema RAG usando as m√©tricas do RAGAS.

In [8]:
# Preparar dataset para RAGAS
dataset_ragas = Dataset.from_dict(dados_avaliacao)

print("üìã Dataset preparado para avalia√ß√£o RAGAS:")
print(f"   - {len(dataset_ragas)} exemplos")
print(f"   - Colunas: {list(dataset_ragas.column_names)}")

# Configurar m√©tricas RAGAS
metricas_ragas = [
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
]

print("\nüéØ M√©tricas RAGAS configuradas:")
for metrica in metricas_ragas:
    print(f"   - {metrica.name}")

üìã Dataset preparado para avalia√ß√£o RAGAS:
   - 5 exemplos
   - Colunas: ['question', 'answer', 'contexts', 'ground_truth']

üéØ M√©tricas RAGAS configuradas:
   - faithfulness
   - answer_relevancy
   - context_precision
   - context_recall


In [9]:
# Executar avalia√ß√£o RAGAS
print("üîç Iniciando avalia√ß√£o com RAGAS...")
print("‚è≥ Isso pode levar alguns minutos...")

# Configurar LLM para RAGAS (usando Gemini)
resultado_ragas = evaluate(
    dataset_ragas,
    metrics=metricas_ragas,
    llm=llm,
    embeddings=embeddings
)

print("\n‚úÖ Avalia√ß√£o RAGAS conclu√≠da!")

# Exibir resultados
print("\nüìä === RESULTADOS DA AVALIA√á√ÉO RAGAS ===")

# Access individual metrics from the EvaluationResult object
print(f"faithfulness: {resultado_ragas['faithfulness'][0]:.4f}")
print(f"answer_relevancy: {resultado_ragas['answer_relevancy'][0]:.4f}")
print(f"context_precision: {resultado_ragas['context_precision'][0]:.4f}")
print(f"context_recall: {resultado_ragas['context_recall'][0]:.4f}")

print("üí° Vamos criar uma avalia√ß√£o simulada para demonstra√ß√£o...")

# Simula√ß√£o de resultados RAGAS para demonstra√ß√£o
resultado_ragas_simulado = {
    'faithfulness': 0.85,
    'answer_relevancy': 0.78,
    'context_relevancy': 0.82,
    'context_recall': 0.75
}

print("\nüìä === RESULTADOS SIMULADOS DA AVALIA√á√ÉO RAGAS ===")
for metrica, valor in resultado_ragas_simulado.items():
    print(f"{metrica}: {valor:.4f}")


üîç Iniciando avalia√ß√£o com RAGAS...
‚è≥ Isso pode levar alguns minutos...


NameError: name 'dataset_ragas' is not defined

## üìà 5. An√°lise Detalhada das M√©tricas

Vamos analisar cada m√©trica RAGAS em detalhes.

In [10]:
def analisar_metricas_ragas(resultados):
    """Analisa e interpreta um objeto EvaluationResult (ou dict) do RAGAS,
    imprimindo cada m√©trica com uma leitura qualitativa."""

    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 1) Converter o objeto EvaluationResult para dicion√°rio simples
    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    if hasattr(resultados, "to_dict"):                     # RAGAS ‚â• 0.0.12
        resultados = resultados.to_dict()
    elif hasattr(resultados, "_scores_dict"):              # RAGAS 0.0.10 ‚Äì 0.0.11
        resultados = resultados._scores_dict
    elif not isinstance(resultados, dict):                 # Qualquer Mapping restante
        resultados = dict(resultados)                      # Conversion fallback

    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 2) Helper seguro para obter o score como escalar
    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    def pegar_score(chave: str, default: float = 0.0) -> float:
        valor = resultados.get(chave, default)
        # Alguns back-ends devolvem lista ou ScoreList ‚ûú pega primeiro item
        if isinstance(valor, (list, tuple)):
            return float(valor[0])
        return float(valor)

    print("üîç === AN√ÅLISE DETALHADA DAS M√âTRICAS RAGAS ===\n")

    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 3) M√©tricas esperadas (algumas instala√ß√µes usam context_precision
    #    no lugar de context_relevancy ‚Äï cobrimos ambos)
    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    metricas = {
        "faithfulness":       "Faithfulness (Factualidade)",
        "answer_relevancy":   "Answer Relevancy (Relev√¢ncia da Resposta)",
        "context_relevancy":  "Context Relevancy (Relev√¢ncia do Contexto)",
        "context_precision":  "Context Precision (Precis√£o do Contexto)",
        "context_recall":     "Context Recall (Recall do Contexto)",
    }

    scores_validos = []
    for chave, nome_legivel in metricas.items():
        if chave not in resultados:
            continue                                  # pula m√©tricas ausentes
        score = pegar_score(chave)
        scores_validos.append(score)

        # Exibe valor num√©rico
        print(f"üìä **{nome_legivel}: {score:.4f}**")

        # Interpreta√ß√£o qualitativa
        if score >= 0.80:
            print("   ‚úÖ Excelente!")
        elif score >= 0.60:
            print("   ‚ö†Ô∏è Moderado.")
        else:
            print("   ‚ùå Baixo.")

    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 4) Score geral (m√©dia simples dos scores presentes)
    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    if scores_validos:
        score_geral = float(np.mean(scores_validos))
        print(f"\nüéØ **Score Geral: {score_geral:.4f}**")
        if score_geral >= 0.80:
            print("   üèÜ Sistema RAG com performance excelente!")
        elif score_geral >= 0.60:
            print("   üëç Sistema RAG com performance boa, mas com espa√ßo para melhorias")
        else:
            print("   üîß Sistema RAG precisa de otimiza√ß√µes significativas")
    else:
        print("‚ö†Ô∏è Nenhuma m√©trica dispon√≠vel para an√°lise.")


In [11]:
analisar_metricas_ragas(resultado_ragas)

üîç === AN√ÅLISE DETALHADA DAS M√âTRICAS RAGAS ===

üìä **Faithfulness (Factualidade): 1.0000**
   ‚úÖ Excelente!
üìä **Answer Relevancy (Relev√¢ncia da Resposta): 0.8069**
   ‚úÖ Excelente!
üìä **Context Precision (Precis√£o do Contexto): 1.0000**
   ‚úÖ Excelente!
üìä **Context Recall (Recall do Contexto): 1.0000**
   ‚úÖ Excelente!

üéØ **Score Geral: 0.9517**
   üèÜ Sistema RAG com performance excelente!
