Feature/add feature to compare models on different benchmark datasets #964

chakravarthik27 · 2024-01-26T10:01:38Z

harness = Harness(
    task="question-answering",
    model={"model": "gpt-3.5-turbo-instruct", "hub": "openai"},
    data=[
        {"data_source": "BoolQ", "split": "test-tiny"},
        {"data_source": "NQ-open", "split": "test-tiny"},
        {"data_source": "MedQA", "split": "test-tiny"},
        {"data_source": "LogiQA", "split": "test-tiny"},
        ],
    config={
        "model_parameters": {
            "max_tokens": 32,
            "temperature": 0.2,
        },
        "evaluation": {
            "metric": "llm_eval",
            "model": "gpt-3.5-turbo-instruct",
            "hub": "openai",
        },
        "tests": {
            "defaults": {"min_pass_rate": 0.65},
            "robustness": {
                "uppercase": {"min_pass_rate": 0.75},
                "add_typo": {"min_pass_rate": 0.75},
            },
        },
    },
)

generate, run and report

harness.generate().run().report()

… assignment

chakravarthik27 and others added 9 commits January 24, 2024 17:50

Refactor dataset loading logic

1acfeb4

Remove commented out code for loading default data sources

230bb94

Add multi-dataset reporting functionality

ff9b754

Resolved: UnboundLocalError local variable 'o_data' referenced before…

6e800bc

… assignment

Fix data loading issue in langtest.py

2237098

fix linting

4d6423e

Fix pass rate and minimum_pass_rate in report

73ddb0e

update README

420e0db

Add support for actual model name in multi_dataset_report() function

9a7a777

chakravarthik27 requested a review from ArshaanNazir January 26, 2024 18:02

ArshaanNazir linked an issue Jan 26, 2024 that may be closed by this pull request

Add feature to compare models on different benchmark datasets #952

Closed

ArshaanNazir added the v2.1.0 Issue or request to be done in v2.1.0 release label Jan 26, 2024

ArshaanNazir approved these changes Jan 27, 2024

View reviewed changes

ArshaanNazir merged commit 1482364 into release/2.0.0 Jan 27, 2024
3 checks passed

ArshaanNazir deleted the feature/add-feature-to-compare-models-on-different-benchmark-datasets branch February 13, 2024 16:26

chakravarthik27 added v2.0.0 released 2.0.0 and removed v2.1.0 Issue or request to be done in v2.1.0 release labels Mar 12, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature/add feature to compare models on different benchmark datasets #964

Feature/add feature to compare models on different benchmark datasets #964

chakravarthik27 commented Jan 26, 2024 •

edited by ArshaanNazir

Feature/add feature to compare models on different benchmark datasets #964

Feature/add feature to compare models on different benchmark datasets #964

Conversation

chakravarthik27 commented Jan 26, 2024 • edited by ArshaanNazir

chakravarthik27 commented Jan 26, 2024 •

edited by ArshaanNazir