Push on main #16993

Sign in to view logs

GitHub Actions / promptflow-evals test result succeeded May 22, 2024 in 0s

All 33 tests pass, 6 skipped in 1h 15m 17s

9 files 9 suites 1h 15m 17s ⏱️
39 tests 33 ✅ 6 💤 0 ❌
351 runs 297 ✅ 54 💤 0 ❌

Results for commit f17b01e.

Annotations

Check notice on line 0 in .github

github-actions / promptflow-evals test result

6 skipped tests found

There are 6 skipped tests, see "Raw output" for the full list of skipped tests.

Raw output


            tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_content_safety_chat[False-True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_content_safety_chat[True-True]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_track_in_cloud
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_track_in_cloud_no_target
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_content_safety_evaluator
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_prompty_with_threadpool_implementation

Check notice on line 0 in .github

github-actions / promptflow-evals test result

39 tests found

There are 39 tests, see "Raw output" for the full list of tests.

Raw output


            tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_adv_conversation_sim_responds_with_responses
tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_adv_qa_sim_responds_with_one_response
tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_adv_sim_init_with_prod_url
tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_adv_summarization_jailbreak_sim_responds_with_responses
tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_adv_summarization_sim_responds_with_responses
tests.evals.e2etests.test_adv_simulator.TestAdvSimulator ‑ test_incorrect_scenario_raises_error
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_chat[False-True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_chat[True-True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_content_safety
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_content_safety_chat[False-True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_content_safety_chat[True-True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_qa[False]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_composite_evaluator_qa[True]
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_individual_evaluator_prompt_based
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_individual_evaluator_prompt_based_with_dict_input
tests.evals.e2etests.test_builtin_evaluators.TestBuiltInEvaluators ‑ test_individual_evaluator_service_based
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[None]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config1]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config2]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config3]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config4]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config5]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config6]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config7]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_another_questions[evaluation_config8]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[False-answer_evaluator-length]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[False-answer_evaluator_int-output]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[False-answer_evaluator_int_dict-42]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[True-answer_evaluator-length]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[True-answer_evaluator_int-output]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_python_function[True-answer_evaluator_int_dict-42]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_track_in_cloud
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_track_in_cloud_no_target
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_content_safety_evaluator
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_evaluator_config[evaluate_config0]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_evaluator_config[evaluate_config1]
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_groundedness_evaluator
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_evaluate_with_target
tests.evals.e2etests.test_evaluate.TestEvaluate ‑ test_prompty_with_threadpool_implementation

View more details on GitHub Actions