# 📚 DeepEval Foundation và Core Concepts

Chào mừng đến với notebook đầu tiên trong series **DeepEval - Framework Đánh giá LLM Toàn diện**!

## 🎯 Mục tiêu của Notebook này

1. **Cài đặt và Thiết lập** DeepEval environment
2. **Hiểu các khái niệm cơ bản**: LLMTestCase, Metrics, Test Suites
3. **Tích hợp với Pytest** cho automated testing
4. **Thực hành với các metrics cơ bản**: AnswerRelevancy, Hallucination, Bias

## 📖 Tại sao cần DeepEval?

Khi phát triển ứng dụng LLM, việc đánh giá chất lượng output là cực kỳ quan trọng nhưng cũng rất thách thức:
- **Subjective evaluation**: Con người đánh giá khác nhau
- **Scale problems**: Không thể manually test hàng ngàn cases
- **Consistency**: Cần standardized metrics
- **Automation**: Cần integrate vào CI/CD pipeline

DeepEval giải quyết những vấn đề này bằng cách cung cấp:
- ✅ **Automated evaluation** với AI-powered metrics
- ✅ **Standardized testing framework** tương tự unit testing
- ✅ **Comprehensive metrics** cho nhiều use cases
- ✅ **Easy integration** với existing workflows

## 🔧 Phần 1: Cài đặt và Thiết lập

### Bước 1: Cài đặt Dependencies

In [None]:
# Cài đặt các package cần thiết
# Chạy command này nếu chưa cài đặt requirements.txt
# !pip install -r ../requirements.txt

# Import các libraries cần thiết
import os
import json
import pandas as pd
from typing import List, Dict, Any
import warnings
warnings.filterwarnings('ignore')

# DeepEval imports
import deepeval

print(dir(deepeval))
# from deepeval import assert_test
# from deepeval.test_case import LLMTestCase
# from deepeval.metrics import (
#     AnswerRelevancyMetric,
#     HallucinationMetric,
#     BiasMetric
# )

# print(f"✅ DeepEval version: {deepeval.__version__}")
print("✅ All imports successful!")

### Bước 2: Thiết lập API Keys

DeepEval sử dụng LLM để đánh giá output, vì vậy cần API keys:

In [None]:
# Thiết lập environment variables
# Có thể sử dụng .env file hoặc set trực tiếp

# Option 1: Sử dụng .env file (khuyến nghị)
from dotenv import load_dotenv
load_dotenv()

# Option 2: Set trực tiếp (chỉ để demo, không nên commit keys)
# os.environ["OPENAI_API_KEY"] = "your-openai-api-key-here"
# os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-api-key-here"

# Kiểm tra API keys
api_keys_status = {
    "OpenAI": "✅ Configured" if os.getenv("OPENAI_API_KEY") else "❌ Missing",
    "Anthropic": "✅ Configured" if os.getenv("ANTHROPIC_API_KEY") else "❌ Missing"
}

print("🔑 API Keys Status:")
for provider, status in api_keys_status.items():
    print(f"  {provider}: {status}")

if "❌ Missing" in api_keys_status.values():
    print("\n⚠️  Cần thiết lập API keys để chạy evaluations!")
    print("   Tạo file .env với nội dung:")
    print("   OPENAI_API_KEY=your_key_here")
    print("   ANTHROPIC_API_KEY=your_key_here")

## 📋 Phần 2: Khái niệm Cơ bản

### 2.1 LLMTestCase - Building Block của DeepEval

`LLMTestCase` là đơn vị cơ bản nhất trong DeepEval, giống như test case trong unit testing:

In [None]:
# Tạo LLMTestCase đầu tiên
def create_basic_test_case():
    """
    Tạo một test case cơ bản để hiểu cấu trúc
    """
    test_case = LLMTestCase(
        input="Trí tuệ nhân tạo là gì?",
        actual_output="Trí tuệ nhân tạo (AI) là khả năng của máy tính thực hiện các nhiệm vụ thường đòi hỏi trí tuệ con người, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, và ra quyết định.",
        expected_output="AI là công nghệ cho phép máy tính mô phỏng trí tuệ con người.",  # Optional
        context=["AI là một lĩnh vực của khoa học máy tính", "AI bao gồm machine learning và deep learning"]  # Optional
    )
    
    return test_case

# Tạo và kiểm tra test case
basic_test = create_basic_test_case()

print("🧪 Basic Test Case đã tạo:")
print(f"Input: {basic_test.input}")
print(f"Actual Output: {basic_test.actual_output[:100]}...")
print(f"Expected Output: {basic_test.expected_output}")
print(f"Context: {len(basic_test.context)} items")

### 2.2 Các thành phần của LLMTestCase

Hãy hiểu rõ từng thành phần:

In [None]:
def explain_test_case_components():
    """
    Giải thích chi tiết các thành phần của LLMTestCase
    """
    components = {
        "input": {
            "description": "Câu hỏi hoặc prompt được gửi tới LLM",
            "required": True,
            "example": "Giải thích machine learning cho người mới bắt đầu"
        },
        "actual_output": {
            "description": "Câu trả lời thực tế từ LLM mà bạn muốn đánh giá",
            "required": True,
            "example": "Machine learning là..."
        },
        "expected_output": {
            "description": "Câu trả lời mong đợi (dùng cho một số metrics)",
            "required": False,
            "example": "ML is a subset of AI..."
        },
        "context": {
            "description": "Thông tin context/background (quan trọng cho RAG)",
            "required": False,
            "example": "[doc1, doc2, doc3] from knowledge base"
        },
        "retrieval_context": {
            "description": "Context được retrieve từ vector DB (dành riêng cho RAG)",
            "required": False,
            "example": "[retrieved_doc1, retrieved_doc2]"
        }
    }
    
    return components

# Hiển thị thông tin components
components = explain_test_case_components()

print("📋 Các thành phần của LLMTestCase:\n")
for component, info in components.items():
    required_status = "✅ Required" if info["required"] else "⚪ Optional"
    print(f"**{component}** ({required_status})")
    print(f"  📝 {info['description']}")
    print(f"  💡 Ví dụ: {info['example']}")
    print()

## 🎯 Phần 3: Metrics Cơ bản

### 3.1 AnswerRelevancyMetric

Đánh giá mức độ liên quan của câu trả lời với câu hỏi:

In [None]:
# Tạo AnswerRelevancyMetric
def demo_answer_relevancy():
    """
    Demo AnswerRelevancyMetric với các test cases khác nhau
    """
    # Khởi tạo metric
    relevancy_metric = AnswerRelevancyMetric(
        threshold=0.7,  # Ngưỡng pass/fail
        model="gpt-3.5-turbo",  # LLM dùng để evaluate
        include_reason=True  # Bao gồm lý do đánh giá
    )
    
    # Test case 1: Relevant answer
    relevant_test = LLMTestCase(
        input="Machine learning có những loại chính nào?",
        actual_output="Machine learning có 3 loại chính: Supervised Learning (học có giám sát), Unsupervised Learning (học không giám sát), và Reinforcement Learning (học tăng cường). Mỗi loại có ứng dụng và thuật toán riêng."
    )
    
    # Test case 2: Irrelevant answer  
    irrelevant_test = LLMTestCase(
        input="Machine learning có những loại chính nào?",
        actual_output="Hôm nay trời đẹp quá. Tôi thích đi dạo trong công viên và nghe tiếng chim hót."
    )
    
    return relevancy_metric, relevant_test, irrelevant_test

# Chạy demo
relevancy_metric, relevant_test, irrelevant_test = demo_answer_relevancy()

print("🎯 AnswerRelevancyMetric Demo")
print(f"Threshold: {relevancy_metric.threshold}")
print(f"Model: {relevancy_metric.model}")
print("\n📊 Sẽ test 2 cases: relevant vs irrelevant answers")

In [None]:
# Đánh giá relevant test case
print("🧪 Test Case 1: Relevant Answer")
print(f"Input: {relevant_test.input}")
print(f"Output: {relevant_test.actual_output[:100]}...")

try:
    # Chạy evaluation
    relevancy_metric.measure(relevant_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {relevancy_metric.score:.3f}")
    print(f"  Passed: {'✅' if relevancy_metric.is_successful() else '❌'}")
    print(f"  Reason: {relevancy_metric.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")
    print("💡 Đảm bảo đã set OPENAI_API_KEY trong environment")

In [None]:
# Đánh giá irrelevant test case
print("🧪 Test Case 2: Irrelevant Answer")
print(f"Input: {irrelevant_test.input}")
print(f"Output: {irrelevant_test.actual_output}")

try:
    # Tạo metric mới để tránh state conflict
    relevancy_metric_2 = AnswerRelevancyMetric(
        threshold=0.7,
        model="gpt-3.5-turbo",
        include_reason=True
    )
    
    # Chạy evaluation
    relevancy_metric_2.measure(irrelevant_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {relevancy_metric_2.score:.3f}")
    print(f"  Passed: {'✅' if relevancy_metric_2.is_successful() else '❌'}")
    print(f"  Reason: {relevancy_metric_2.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")
    print("💡 Đảm bảo đã set API key và có internet connection")

### 3.2 HallucinationMetric

Phát hiện ảo giác - khi LLM tạo ra thông tin không có trong context:

In [None]:
def demo_hallucination_metric():
    """
    Demo HallucinationMetric với context-based evaluation
    """
    # Khởi tạo metric
    hallucination_metric = HallucinationMetric(
        threshold=0.7,  # Ngưỡng để pass (score cao = ít hallucination)
        model="gpt-3.5-turbo",
        include_reason=True
    )
    
    # Context từ document
    ai_context = [
        "Trí tuệ nhân tạo (AI) là khả năng của máy tính thực hiện các nhiệm vụ thường đòi hỏi trí tuệ con người.",
        "Machine Learning là một nhánh con của AI, tập trung vào việc tạo ra các thuật toán có thể học từ dữ liệu.",
        "Deep Learning sử dụng mạng nơ-ron nhân tạo với nhiều lớp để học biểu diễn phức tạp của dữ liệu."
    ]
    
    # Test case 1: Factual answer (không hallucination)
    factual_test = LLMTestCase(
        input="AI và Machine Learning có mối quan hệ như thế nào?",
        actual_output="Machine Learning là một nhánh con của AI. AI là khái niệm rộng hơn về khả năng máy tính thực hiện các nhiệm vụ đòi hỏi trí tuệ con người, trong khi ML tập trung vào việc tạo thuật toán học từ dữ liệu.",
        context=ai_context
    )
    
    # Test case 2: Hallucinated answer
    hallucinated_test = LLMTestCase(
        input="AI và Machine Learning có mối quan hệ như thế nào?",
        actual_output="AI được phát minh năm 1969 bởi John McCarthy tại MIT. Machine Learning được tạo ra năm 1985 và hoàn toàn độc lập với AI. Hai công nghệ này không có mối liên hệ gì với nhau.",
        context=ai_context
    )
    
    return hallucination_metric, factual_test, hallucinated_test

# Tạo demo
hallucination_metric, factual_test, hallucinated_test = demo_hallucination_metric()

print("🎭 HallucinationMetric Demo")
print(f"Threshold: {hallucination_metric.threshold}")
print("Context được cung cấp:")
for i, ctx in enumerate(factual_test.context, 1):
    print(f"  {i}. {ctx}")

In [None]:
# Test factual answer
print("\n🧪 Test Case 1: Factual Answer")
print(f"Output: {factual_test.actual_output}")

try:
    hallucination_metric.measure(factual_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {hallucination_metric.score:.3f} (cao = ít hallucination)")
    print(f"  Passed: {'✅' if hallucination_metric.is_successful() else '❌'}")
    print(f"  Reason: {hallucination_metric.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")

In [None]:
# Test hallucinated answer
print("\n🧪 Test Case 2: Hallucinated Answer")
print(f"Output: {hallucinated_test.actual_output}")

try:
    # Tạo metric mới
    hallucination_metric_2 = HallucinationMetric(
        threshold=0.7,
        model="gpt-3.5-turbo",
        include_reason=True
    )
    
    hallucination_metric_2.measure(hallucinated_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {hallucination_metric_2.score:.3f} (thấp = nhiều hallucination)")
    print(f"  Passed: {'✅' if hallucination_metric_2.is_successful() else '❌'}")
    print(f"  Reason: {hallucination_metric_2.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")

### 3.3 BiasMetric

Kiểm tra thiên lệch trong output của LLM:

In [None]:
def demo_bias_metric():
    """
    Demo BiasMetric để phát hiện các loại bias
    """
    # Khởi tạo metric
    bias_metric = BiasMetric(
        threshold=0.7,  # Score cao = ít bias
        model="gpt-3.5-turbo",
        include_reason=True
    )
    
    # Test case 1: Neutral answer
    neutral_test = LLMTestCase(
        input="Ai có thể trở thành lập trình viên giỏi?",
        actual_output="Bất kỳ ai có đam mê, sự kiên trì và sẵn sàng học hỏi đều có thể trở thành lập trình viên giỏi. Thành công trong lập trình phụ thuộc vào kỹ năng logic, khả năng giải quyết vấn đề và sự chăm chỉ, không phân biệt giới tính, tuổi tác hay xuất thân."
    )
    
    # Test case 2: Biased answer
    biased_test = LLMTestCase(
        input="Ai có thể trở thành lập trình viên giỏi?",
        actual_output="Đàn ông thường giỏi lập trình hơn phụ nữ vì họ có tư duy logic tốt hơn. Người trẻ cũng học nhanh hơn người già. Ngoài ra, những người từ các nước phát triển sẽ có lợi thế hơn."
    )
    
    return bias_metric, neutral_test, biased_test

bias_metric, neutral_test, biased_test = demo_bias_metric()

print("⚖️ BiasMetric Demo")
print("Sẽ test 2 câu trả lời: neutral vs biased")

In [None]:
# Test neutral answer
print("🧪 Test Case 1: Neutral Answer")
print(f"Output: {neutral_test.actual_output}")

try:
    bias_metric.measure(neutral_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {bias_metric.score:.3f} (cao = ít bias)")
    print(f"  Passed: {'✅' if bias_metric.is_successful() else '❌'}")
    print(f"  Reason: {bias_metric.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")

In [None]:
# Test biased answer
print("\n🧪 Test Case 2: Biased Answer")
print(f"Output: {biased_test.actual_output}")

try:
    # Tạo metric mới
    bias_metric_2 = BiasMetric(
        threshold=0.7,
        model="gpt-3.5-turbo",
        include_reason=True
    )
    
    bias_metric_2.measure(biased_test)
    
    print(f"\n📊 Kết quả:")
    print(f"  Score: {bias_metric_2.score:.3f} (thấp = nhiều bias)")
    print(f"  Passed: {'✅' if bias_metric_2.is_successful() else '❌'}")
    print(f"  Reason: {bias_metric_2.reason}")
    
except Exception as e:
    print(f"❌ Error: {e}")

## 🧪 Phần 4: Sử dụng assert_test()

DeepEval cung cấp `assert_test()` để đánh giá đơn lẻ một cách đơn giản:

In [None]:
def demo_assert_test():
    """
    Demo cách sử dụng assert_test() cho quick evaluation
    """
    # Tạo test case
    test_case = LLMTestCase(
        input="Supervised learning khác gì với unsupervised learning?",
        actual_output="Supervised learning sử dụng dữ liệu có nhãn để đào tạo mô hình, trong khi unsupervised learning tìm kiếm patterns trong dữ liệu không có nhãn. Ví dụ supervised: phân loại email spam. Ví dụ unsupervised: phân cụm khách hàng.",
        context=[
            "Supervised learning sử dụng dữ liệu được gán nhãn để đào tạo mô hình",
            "Unsupervised learning tìm hiểu cấu trúc ẩn trong dữ liệu không có nhãn"
        ]
    )
    
    # Tạo danh sách metrics để test
    metrics = [
        AnswerRelevancyMetric(threshold=0.7),
        HallucinationMetric(threshold=0.7)
    ]
    
    return test_case, metrics

test_case, metrics = demo_assert_test()

print("🧪 Assert Test Demo")
print(f"Input: {test_case.input}")
print(f"Output: {test_case.actual_output[:100]}...")
print(f"Số metrics: {len(metrics)}")

In [None]:
# Chạy assert_test
try:
    print("\n🔍 Đang chạy assert_test...")
    
    # assert_test sẽ raise exception nếu có metric fail
    assert_test(test_case, metrics)
    
    print("✅ Tất cả metrics đều PASSED!")
    
    # Hiển thị kết quả chi tiết
    print("\n📊 Chi tiết kết quả:")
    for i, metric in enumerate(metrics, 1):
        print(f"  {i}. {metric.__class__.__name__}:")
        print(f"     Score: {getattr(metric, 'score', 'N/A')}")
        print(f"     Passed: {'✅' if metric.is_successful() else '❌'}")
        if hasattr(metric, 'reason'):
            print(f"     Reason: {metric.reason[:100]}...")
    
except AssertionError as e:
    print(f"❌ Test FAILED: {e}")
except Exception as e:
    print(f"❌ Error: {e}")
    print("💡 Kiểm tra API key và network connection")

## 🔬 Phần 5: Tích hợp Pytest

DeepEval tích hợp tuyệt vời với pytest cho automated testing:

In [None]:
# Tạo test functions cho pytest
def create_pytest_example():
    """
    Tạo ví dụ về pytest functions
    """
    
    pytest_code = '''
import pytest
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric, HallucinationMetric

# Test function 1
def test_ai_explanation_relevancy():
    """Test relevancy of AI explanation"""
    test_case = LLMTestCase(
        input="AI là gì?",
        actual_output="AI là trí tuệ nhân tạo, khả năng máy tính thực hiện task đòi hỏi trí tuệ con người"
    )
    
    metric = AnswerRelevancyMetric(threshold=0.7)
    assert_test(test_case, [metric])

# Test function 2
def test_ml_explanation_hallucination():
    """Test hallucination in ML explanation"""
    test_case = LLMTestCase(
        input="Machine learning là gì?",
        actual_output="ML là nhánh con của AI, học từ dữ liệu để cải thiện performance",
        context=["Machine learning is a subset of AI that learns from data"]
    )
    
    metric = HallucinationMetric(threshold=0.8)
    assert_test(test_case, [metric])

# Batch test với multiple test cases
@pytest.mark.parametrize("input_text,expected_output", [
    ("Supervised learning là gì?", "Supervised learning sử dụng labeled data"),
    ("Unsupervised learning là gì?", "Unsupervised learning tìm patterns trong unlabeled data"),
    ("Deep learning là gì?", "Deep learning sử dụng neural networks với nhiều layers")
])
def test_ml_concepts_batch(input_text, expected_output):
    """Batch test multiple ML concepts"""
    # Giả sử có function get_llm_response
    actual_output = get_llm_response(input_text)
    
    test_case = LLMTestCase(
        input=input_text,
        actual_output=actual_output,
        expected_output=expected_output
    )
    
    metrics = [
        AnswerRelevancyMetric(threshold=0.7),
        HallucinationMetric(threshold=0.7)
    ]
    
    assert_test(test_case, metrics)
'''
    
    return pytest_code

pytest_example = create_pytest_example()
print("🧪 Pytest Integration Example:")
print(pytest_example)

In [None]:
# Tạo file pytest sample
pytest_content = '''import pytest
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric, HallucinationMetric

def test_ai_basic_explanation():
    """Test basic AI explanation for relevancy"""
    test_case = LLMTestCase(
        input="AI là gì?",
        actual_output="Trí tuệ nhân tạo (AI) là khả năng của máy tính thực hiện các nhiệm vụ thường đòi hỏi trí tuệ con người như nhận dạng, ra quyết định."
    )
    
    metric = AnswerRelevancyMetric(threshold=0.7)
    assert_test(test_case, [metric])

def test_ml_context_hallucination():
    """Test ML explanation against hallucination"""
    test_case = LLMTestCase(
        input="Machine Learning hoạt động như thế nào?",
        actual_output="Machine Learning sử dụng thuật toán để học từ dữ liệu và đưa ra predictions hoặc decisions mà không cần lập trình explicit.",
        context=[
            "Machine learning uses algorithms to learn from data",
            "ML can make predictions without explicit programming"
        ]
    )
    
    metric = HallucinationMetric(threshold=0.8)
    assert_test(test_case, [metric])
'''

# Ghi file pytest
with open('../deepeval_claude_created/test_deepeval_basics.py', 'w', encoding='utf-8') as f:
    f.write(pytest_content)

print("✅ Đã tạo file test_deepeval_basics.py")
print("\n🚀 Để chạy pytest:")
print("  cd deepeval_claude_created")
print("  pytest test_deepeval_basics.py -v")
print("  pytest test_deepeval_basics.py::test_ai_basic_explanation -s")

## 📊 Phần 6: Batch Evaluation và Analysis

Trong thực tế, bạn sẽ cần evaluate nhiều test cases cùng lúc:

In [None]:
def create_batch_evaluation_demo():
    """
    Demo batch evaluation với nhiều test cases
    """
    
    test_cases = [
        LLMTestCase(
            input="Supervised learning là gì?",
            actual_output="Supervised learning sử dụng dữ liệu có nhãn để đào tạo mô hình. Model học từ input-output pairs để predict cho new data.",
            context=["Supervised learning uses labeled data to train models"]
        ),
        LLMTestCase(
            input="Unsupervised learning khác gì?",
            actual_output="Unsupervised learning không có labels, tìm hidden patterns trong data như clustering, dimensionality reduction.",
            context=["Unsupervised learning finds patterns in unlabeled data"]
        ),
        LLMTestCase(
            input="Deep learning có gì đặc biệt?",
            actual_output="Deep learning dùng neural networks với nhiều hidden layers để học complex representations, rất hiệu quả với big data.",
            context=["Deep learning uses neural networks with multiple layers"]
        ),
        LLMTestCase(
            input="Reinforcement learning áp dụng ở đâu?",
            actual_output="RL được dùng trong game AI, robot control, autonomous vehicles, recommendation systems, và financial trading.",
            context=["Reinforcement learning is used in games, robotics, autonomous systems"]
        )
    ]
    
    return test_cases

# Tạo test cases
batch_test_cases = create_batch_evaluation_demo()

print(f"📊 Batch Evaluation Demo với {len(batch_test_cases)} test cases:")
for i, tc in enumerate(batch_test_cases, 1):
    print(f"  {i}. {tc.input}")

In [None]:
def run_batch_evaluation(test_cases, metrics):
    """
    Chạy batch evaluation và thu thập kết quả
    """
    results = []
    
    for i, test_case in enumerate(test_cases):
        print(f"\n🧪 Test Case {i+1}: {test_case.input}")
        
        case_results = {
            'test_case_id': i+1,
            'input': test_case.input,
            'output': test_case.actual_output[:100] + '...',
            'metrics': {}
        }
        
        for metric in metrics:
            try:
                # Tạo metric instance mới cho mỗi test
                metric_instance = metric.__class__(
                    threshold=metric.threshold,
                    model=getattr(metric, 'model', 'gpt-3.5-turbo'),
                    include_reason=True
                )
                
                metric_instance.measure(test_case)
                
                metric_name = metric.__class__.__name__
                case_results['metrics'][metric_name] = {
                    'score': round(metric_instance.score, 3),
                    'passed': metric_instance.is_successful(),
                    'reason': metric_instance.reason[:100] + '...' if len(metric_instance.reason) > 100 else metric_instance.reason
                }
                
                status = "✅" if metric_instance.is_successful() else "❌"
                print(f"  {metric_name}: {status} ({metric_instance.score:.3f})")
                
            except Exception as e:
                print(f"  {metric.__class__.__name__}: ❌ Error - {e}")
                case_results['metrics'][metric.__class__.__name__] = {
                    'score': 0,
                    'passed': False,
                    'reason': f'Error: {e}'
                }
        
        results.append(case_results)
    
    return results

# Tạo metrics cho batch evaluation
batch_metrics = [
    AnswerRelevancyMetric(threshold=0.7),
    HallucinationMetric(threshold=0.7)
]

print("🚀 Đang chạy batch evaluation...")
batch_results = run_batch_evaluation(batch_test_cases, batch_metrics)

In [None]:
# Phân tích kết quả batch evaluation
def analyze_batch_results(results):
    """
    Phân tích và visualize kết quả batch evaluation
    """
    if not results:
        print("❌ Không có kết quả để phân tích")
        return
    
    # Tạo DataFrame để phân tích
    analysis_data = []
    
    for result in results:
        row = {
            'Test_ID': result['test_case_id'],
            'Input': result['input'][:50] + '...',
        }
        
        for metric_name, metric_data in result['metrics'].items():
            row[f'{metric_name}_Score'] = metric_data['score']
            row[f'{metric_name}_Passed'] = metric_data['passed']
        
        analysis_data.append(row)
    
    df = pd.DataFrame(analysis_data)
    
    print("\n📊 Batch Evaluation Results Summary:")
    print(df.to_string(index=False))
    
    # Tính toán statistics
    print("\n📈 Statistics:")
    for metric_name in ['AnswerRelevancyMetric', 'HallucinationMetric']:
        score_col = f'{metric_name}_Score'
        passed_col = f'{metric_name}_Passed'
        
        if score_col in df.columns:
            avg_score = df[score_col].mean()
            pass_rate = df[passed_col].mean() * 100
            
            print(f"  {metric_name}:")
            print(f"    Average Score: {avg_score:.3f}")
            print(f"    Pass Rate: {pass_rate:.1f}%")
    
    return df

# Phân tích kết quả
analysis_df = analyze_batch_results(batch_results)

## 🎯 Phần 7: Best Practices và Tips

### 7.1 Chọn Threshold phù hợp

In [None]:
def threshold_tuning_demo():
    """
    Demo cách tune threshold cho metrics
    """
    
    test_case = LLMTestCase(
        input="Neural networks hoạt động như thế nào?",
        actual_output="Neural networks mô phỏng não bộ con người với neurons kết nối. Data đi qua các layers, mỗi neuron áp dụng activation function để transform input thành output."
    )
    
    # Test với các threshold khác nhau
    thresholds = [0.5, 0.6, 0.7, 0.8, 0.9]
    
    print("🎯 Threshold Tuning Demo")
    print(f"Input: {test_case.input}")
    print(f"Output: {test_case.actual_output}")
    print("\n📊 Results với các threshold khác nhau:")
    
    for threshold in thresholds:
        try:
            metric = AnswerRelevancyMetric(
                threshold=threshold,
                model="gpt-3.5-turbo"
            )
            
            metric.measure(test_case)
            
            status = "✅ PASS" if metric.is_successful() else "❌ FAIL"
            print(f"  Threshold {threshold}: Score {metric.score:.3f} - {status}")
            
        except Exception as e:
            print(f"  Threshold {threshold}: Error - {e}")
    
    print("\n💡 Best Practices cho Threshold:")
    print("  • 0.5-0.6: Relaxed, phù hợp cho creative tasks")
    print("  • 0.7-0.8: Balanced, phù hợp cho general Q&A")
    print("  • 0.8-0.9: Strict, phù hợp cho factual/technical content")
    print("  • > 0.9: Very strict, chỉ dùng cho critical applications")

# Chạy demo (chỉ nếu có API key)
if os.getenv("OPENAI_API_KEY"):
    threshold_tuning_demo()
else:
    print("💡 Set OPENAI_API_KEY để chạy threshold tuning demo")

### 7.2 Error Handling và Debugging

In [None]:
def error_handling_examples():
    """
    Ví dụ về error handling và debugging
    """
    
    print("🐛 Error Handling Examples:\n")
    
    # 1. Missing API Key
    print("1. Missing API Key:")
    old_key = os.environ.get('OPENAI_API_KEY')
    if old_key:
        os.environ.pop('OPENAI_API_KEY')
    
    try:
        test_case = LLMTestCase(
            input="Test",
            actual_output="Test response"
        )
        metric = AnswerRelevancyMetric(threshold=0.7)
        metric.measure(test_case)
    except Exception as e:
        print(f"   ❌ Error: {type(e).__name__}: {e}")
        print(f"   💡 Solution: Set OPENAI_API_KEY environment variable")
    
    # Restore API key
    if old_key:
        os.environ['OPENAI_API_KEY'] = old_key
    
    # 2. Empty Test Case
    print("\n2. Empty/Invalid Test Case:")
    try:
        invalid_test = LLMTestCase(
            input="",  # Empty input
            actual_output=""  # Empty output
        )
        print(f"   ⚠️  Created test case with empty fields")
        print(f"   💡 Always validate input/output before creating test cases")
    except Exception as e:
        print(f"   ❌ Error: {e}")
    
    # 3. Network Issues
    print("\n3. Network/API Issues:")
    print("   💡 Implement retries và fallback strategies:")
    
    retry_code = '''
import time
from typing import Optional

def evaluate_with_retry(test_case, metric, max_retries=3, delay=1):
    """Evaluate với retry mechanism"""
    for attempt in range(max_retries):
        try:
            metric.measure(test_case)
            return metric
        except Exception as e:
            if attempt == max_retries - 1:
                raise e
            print(f"Attempt {attempt + 1} failed: {e}")
            time.sleep(delay * (2 ** attempt))  # Exponential backoff
    return None
'''
    print(retry_code)
    
    # 4. Debugging Tips
    print("\n🔍 Debugging Tips:")
    debugging_tips = [
        "Enable include_reason=True để hiểu evaluation logic",
        "Log input/output/context để verify data quality",
        "Test với sample data trước khi scale up",
        "Monitor API usage và costs",
        "Use verbose mode trong pytest: pytest -v -s",
        "Check model compatibility (gpt-3.5-turbo vs gpt-4)"
    ]
    
    for i, tip in enumerate(debugging_tips, 1):
        print(f"   {i}. {tip}")

error_handling_examples()

## 🎓 Phần 8: Exercises - Thực hành

Hãy thực hành những gì đã học!

### Exercise 1: Tạo Custom Test Cases

**Nhiệm vụ**: Tạo 3 test cases về chủ đề "Python Programming" và evaluate chúng

In [None]:
# Exercise 1: Your code here
def exercise_1_custom_test_cases():
    """
    TODO: Tạo 3 test cases về Python programming
    Gợi ý chủ đề:
    - Python data types
    - Python loops
    - Python functions
    """
    
    # TODO: Tạo test_case_1
    test_case_1 = None  # Replace with your LLMTestCase
    
    # TODO: Tạo test_case_2
    test_case_2 = None  # Replace with your LLMTestCase
    
    # TODO: Tạo test_case_3
    test_case_3 = None  # Replace with your LLMTestCase
    
    return [test_case_1, test_case_2, test_case_3]

# TODO: Uncomment và complete
# my_test_cases = exercise_1_custom_test_cases()
# print(f"Created {len([tc for tc in my_test_cases if tc])} test cases")

print("💡 Exercise 1 Template created. Complete the function above!")

### Exercise 2: Metrics Comparison

**Nhiệm vụ**: So sánh hiệu suất của cùng một câu trả lời với threshold khác nhau

In [None]:
# Exercise 2: Your code here
def exercise_2_metrics_comparison():
    """
    TODO: Tạo 1 test case và evaluate với threshold từ 0.5 đến 0.9
    So sánh kết quả và rút ra insights
    """
    
    # TODO: Tạo test case
    test_case = LLMTestCase(
        input="Your question here",
        actual_output="Your LLM response here"
    )
    
    # TODO: Test với các threshold khác nhau
    thresholds = [0.5, 0.6, 0.7, 0.8, 0.9]
    results = []
    
    # TODO: Implement evaluation loop
    
    return results

print("💡 Exercise 2 Template created. Complete the function above!")

### Exercise 3: Comprehensive Evaluation

**Nhiệm vụ**: Tạo một test case và đánh giá với tất cả 3 metrics (Relevancy, Hallucination, Bias)

In [None]:
# Exercise 3: Your code here
def exercise_3_comprehensive_evaluation():
    """
    TODO: Tạo 1 test case với context và evaluate với tất cả 3 metrics
    Phân tích kết quả và đưa ra nhận xét
    """
    
    # TODO: Tạo test case với context
    test_case = LLMTestCase(
        input="Your question",
        actual_output="Your response",
        context=["Context 1", "Context 2"]  # Add relevant context
    )
    
    # TODO: Tạo tất cả 3 metrics
    metrics = [
        # AnswerRelevancyMetric(...),
        # HallucinationMetric(...),
        # BiasMetric(...)
    ]
    
    # TODO: Evaluate và analyze results
    
    return test_case, metrics

print("💡 Exercise 3 Template created. Complete the function above!")

## 📚 Tổng kết và Next Steps

### 🎯 Những gì đã học trong Notebook này:

1. **✅ Setup DeepEval Environment**
   - Cài đặt dependencies
   - Thiết lập API keys
   - Kiểm tra configuration

2. **✅ Core Concepts**
   - LLMTestCase structure và components
   - Cách tạo và sử dụng test cases
   - Hiểu về input, actual_output, expected_output, context

3. **✅ Basic Metrics**
   - AnswerRelevancyMetric: Đánh giá độ liên quan
   - HallucinationMetric: Phát hiện ảo giác
   - BiasMetric: Kiểm tra thiên lệch

4. **✅ Testing Framework**
   - Sử dụng assert_test() cho quick evaluation
   - Tích hợp với pytest
   - Batch evaluation strategies

5. **✅ Best Practices**
   - Threshold tuning
   - Error handling
   - Debugging techniques

### 🚀 Next Steps - Notebook 2: Advanced RAG Evaluation

Trong notebook tiếp theo, chúng ta sẽ học:

- 🏗️ **Xây dựng RAG Pipeline** với LangChain
- 📊 **RAG-Specific Metrics**: ContextualPrecision, ContextualRecall, Faithfulness
- 🤖 **Automated Dataset Generation** với Synthesizer
- 🔍 **Advanced Evaluation Techniques** cho retrieval systems

### 📖 Tài liệu tham khảo:

- [DeepEval Documentation](https://docs.confident-ai.com/)
- [DeepEval GitHub](https://github.com/confident-ai/deepeval)
- [LangChain Integration Guide](https://docs.confident-ai.com/docs/integrations-langchain)

---

## 🎉 Chúc mừng!

Bạn đã hoàn thành Notebook 1 - Foundation và Core Concepts của DeepEval! 

Hãy chuyển sang **Notebook 2: Advanced RAG Evaluation** để tiếp tục journey học DeepEval! 🚀