Eval code and dataset

Contains evaluation code, results, dataset for the CodeFusion project.

Metrics

It is critical for any LLM Agentic system to have high quality evals which are the guidance system for gauging performance, quality and robustness.

Overall quality metric:

Architecture-Level Reasoning Measure:

Definition: Measures success in answering higher-level questions about the system's design, module interactions, or architectural decisions.

Reasoning consistency:

Is the reasoning consistent ? Is it logical ? (self consistency). The degree to which the agent's reasoning steps (e.g., in CoT) are internally coherent and syntactically/semantically valid in code logic terms.

Code Reasoning Tiers:

Categorize questions into tiers (e.g., performance-related, runtime-related, inter-module, architectural), and evaluate accuracy per tier.

Grounding score:

Accuracy of answers from a factual perspective.

Human eval (optional):

Human perception of whether the answer was sufficient, accurate and helpful.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
datasets		datasets
eval_ui		eval_ui
.gitignore		.gitignore
README.md		README.md
dataset_fastapi_gemini.txt		dataset_fastapi_gemini.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Eval code and dataset

Metrics

Overall quality metric:

Architecture-Level Reasoning Measure:

Reasoning consistency:

Code Reasoning Tiers:

Grounding score:

Human eval (optional):

About

Uh oh!

Releases

Packages

Languages

CodeFusionAgent/code_eval

Folders and files

Latest commit

History

Repository files navigation

Eval code and dataset

Metrics

Overall quality metric:

Architecture-Level Reasoning Measure:

Reasoning consistency:

Code Reasoning Tiers:

Grounding score:

Human eval (optional):

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages