huggingface
Большие языковые модели / LLM (временно оставлю тут)
LMSYS Chatbot Arena Leaderboard
GPT-2, сейчас часто используют в экспериментах
Metrics:
Каталог моделей (extractum)
Holistic Evaluation of Language Models (HELM)
genbench (Создание современного обобщения, тестирующего новый статус-кво в НЛП)