llm-evaluation

A framework for automatically manipulating and evaluating the political ideology of LLMs with two ideology tests: Wahl-O-Mat and Political Compass Test.

german pct manifesto-project rag wahlomat political-ideology-detection llms llm-evaluation

Updated May 1, 2024
Python

VILA-Lab / Open-LLM-Leaderboard

Star

Open-LLM-Leaderboard: Open-Style Question Evaluation. Paper at https://arxiv.org/abs/2406.07545

leaderboard llms open-ended-question-marker llm-evaluation open-ended-evaluation llm-leaderboard

Updated Jun 12, 2024
Python

kwinkunks / promptly

Star

A prompt collection for testing and evaluation of LLMs.

prompts prompt-engineering chatgpt llm-evaluation

Updated Jun 5, 2024
Jupyter Notebook

prompt-foundry / java-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Java.

java evaluation openai prompt-engineering prompt-manager prompt-management llm-evaluation prompt-evaluation

Updated Jun 16, 2024

gretelai / navigator-helpers

Star

Navigator Helpers

ai agent-based synthetic-data llm llm-evaluation

Updated Jun 18, 2024
Python

rochitasundar / Generative-AI-with-Large-Language-Models

Star

This repository contains the lab work for Coursera course on "Generative AI with Large Language Models".

reinforcement-learning transformer kl-divergence proximal-policy-optimization large-language-models prompt-engineering flan-t5 instruction-finetuning low-rank-adaptation reward-model parameter-efficient-fine-tuning llm-evaluation

Updated Dec 1, 2023
Jupyter Notebook

IteraLabs / knowledge-benchmarks

Star

A compilation of referenced benchmark metrics to evaluate different aspects of knowledge for Large Language Models.

nlp artificial-intelligence benchmarks natural-language-understanding llm llm-evaluation

Updated May 18, 2024

innerNULL / summary-evaluator

Star

Summary Evaluation Tool

nlp deep-learning text-summarization model-evaluation model-evaluation-metrics llm bertscore llm-evaluation

Updated Jun 18, 2024
Python

prompt-foundry / go-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Go.

go golang open-api gpt gpt-4 prompt-engineering prompt-manager prompt-management llm-eval llm-test llm-evaluation prompt-test llm-testing prompt-eva

Updated Jun 16, 2024

AdamCoscia / iScore

Star

Upload, score, and visually compare multiple LLM-graded summaries simultaneously!

transformers visual-analytics summary-evaluation learning-sciences responsible-ai ethical-ai llm-evaluation

Updated Mar 8, 2024
JavaScript

prompt-foundry / kotlin-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Kotlin.

kotlin open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

SharathHebbar / eval_llms

Star

eleutherai llm-evaluation llms-benchmarking

Updated Feb 4, 2024
Jupyter Notebook

wittyicon29 / Custom-Evaluate-LLM

Star

Evaluate LLMs using custom functions for reasoning and RAGs and dataset using Langchain

llms langchain llm-evaluation

Updated Apr 21, 2024
Jupyter Notebook

GURPREETKAURJETHRA / LLMs-Evaluation

Star

LLMs Evaluation

large-language-models llm generative-ai llm-evaluation

Updated May 16, 2024
Jupyter Notebook

nagababumo / Building-and-Evaluating-Advanced-RAG

Star

python rag llamaindex retrieval-augmented-generation llm-evaluation llm-evaluation-framework

Updated Jun 1, 2024
Jupyter Notebook

Improve this page

Add a description, image, and links to the llm-evaluation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-evaluation topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-evaluation

Here are 69 public repositories matching this topic...

fuxiAIlab / CivAgent

euskoog / openai-assistants-evals

prompt-foundry / ruby-sdk

awesome-software / ray-summit-2023-training

nagababumo / Automated-Testing-for-LLMOps

j0st / PoliticalLLM

VILA-Lab / Open-LLM-Leaderboard

kwinkunks / promptly

prompt-foundry / java-sdk

gretelai / navigator-helpers

rochitasundar / Generative-AI-with-Large-Language-Models

IteraLabs / knowledge-benchmarks

innerNULL / summary-evaluator

prompt-foundry / go-sdk

AdamCoscia / iScore

prompt-foundry / kotlin-sdk

SharathHebbar / eval_llms

wittyicon29 / Custom-Evaluate-LLM

GURPREETKAURJETHRA / LLMs-Evaluation

nagababumo / Building-and-Evaluating-Advanced-RAG

Improve this page

Add this topic to your repo