Awesome latest LLMs

Keeping up with the latest LLMs !

NEWS

2024.5 🔥QWen2シリーズが登場！日本語も優秀！
2024.5 🔥MicrosoftからPhi-3シリーズが登場！
2024.5 🔥Stockmarkから100Bの日本語モデルがリリース!さすがGENIAC

History

2024.4 🔥MetaからLlama3がリリース!まずは8Bと70B!
2024.4 🔥CohereからCommand-R+がリリース!研究用に重みも公開.
2024.4 🔥Databricksより132BのMoEモデルが公開されました！大きい！
2024.3 Cohereからプロダクション向けCommand-Rがリリース!研究用に重みも公開.
2024.3 ELYZAからLlama2の追加学習日本語モデルのデモがリリースされました！
2024.3 東工大からMixtralの追加学習日本語モデルSwallow-MX, Swallow-MSがリリースされました！👏
2024.2 GoogleからGeminiで用いられているLLM Gemmaをオープンにするとのお達しが出ました!
2024.2 Kotoba Technologyと東工大から日本語Mamba 2.8Bが公開されました!
2024.2 AlibabaのQWenが1.5にアップグレードされました！！
2024.2 Reka AIから21BでGemini Pro, GPT-3.5超えと発表されました.
2024.2 LLM-jpのモデルが更新されました！v1.1
2024.2 カラクリから70B日本語LLMが公開されました！
2024.1 リコーが13B日本語LLMを発表しました！
2024.1 Phi-2のMoE, Phixtralが公開されました！
2023.12 Phi-2のライセンスがMITに変更されました！
2023.12 ELYZAから日本語13Bモデルがリリースされました.
2023.12 東工大からSwallowがリリースされました.
2023.12 MistralAIからMixtral-8x7Bがリリースされました.
2023.12 日本語LLMの学習データを問題視する記事が公開されました.

English-centric

When?	Name	HF?	Size(max)	License	pretraining/base	finetuning	misc.
2024.5	QWen2	HF	7~72B	tongyi-qianwen	-	-
2024.4	Phi-3(Microsoft)	HF	3.8B, 13B	MIT	Phi-3 datasets	-
2024.4	Llama 3(Meta)	HF	70B	META LLAMA3			extended to 120B
2024.4	Wizart-8x22B(Microsoft)	HF	8x22B	apache-2.0	Mixtral-8x22B(Mistral)		MoE, closed now
2024.4	Mixtral-8x22B(Mistral)	HF	8x22B	apache-2.0			MoE
2024.4	Command-R+(Cohere)	HF	104B	non commercial			RAG capability
2024.4	DBRX(Databricks)	HF	132B	databricks			MoE
2024.3	Grok-1		314B		twitter		MoE
2024.3	BTX(Meta)						MoE
2024.3	Command-R(Cohere)	HF	35B	non commercial			RAG capability
2024.2	Aya(Cohere)	HF	13B	apache-2.0			multilingual
2024.2	Gemma(Google)		8.5B				application open for reseachers
2024.2	Miqu	HF	70B	none			leaked from Mistral
2024.2	Reka Flash		21B				not public
2024.1	Self-Rewarding(Meta)	arxiv	70B	Llama2	Llama2	-	DPO
2024.1	Phixtral	HF	2.7Bx4	MIT			MoE
2023.12	LongNet(Microsoft)	arXiv	-	apache-2.0	MAGNETO	input 1B token
2023.12	Phi-2(Microsoft)	HF	2.7B	MIT
2023.12	gigaGPT(Cerebras)		70B, 175B	apache-2.0
2023.12	Mixtral-8x7B	HF	8x7B	apache-2.0			MoE, offloading
2023.12	Mamba	HF	2.8B	apache-2.0	based on state space model
2023.11	QWen(Alibaba)	HF	72B	license	3T tokens		beats Llama2
2023.10	Self-RAG	HF	apache-2.0	13B			critic model
2023.9	TinyLlama	HF	apache-2.0	1.1B	based on Llama, 3T token
2023.9	Xwin-LM	HF	70B	Llama2	based on Llama2	also codes and math
2023.7	Llama2(Meta)	HF	70B	Llama2	2T tokens	chat-hf seems the best
	name	HF

PaLM(540B), PaLM2(340B) and GPT-4 are not open.
MoE : mixture of experts

Japanese-centric

When?	Name	HF?	Size	License	pretraining	misc.
2024.5	Stockmark-100B	HF	100B	MIT
2024.3	youko(rinna)	HF	8B	Llama3	Llama3
2024.3	EvoLLM-JP	HF	7B	MSR(non-commercial)
2024.3	RakutenAI	HF	7B	apache-2.0	Mistral
2024.3	Swallow-MX(東工大)	HF	8x7B		Mixtralベース
2024.2	KARAKURI	HF	70B	cc-by-sa-4.0	Llama2-70Bベース	note
2023.12	ELYZA-japanese-Llama-2-13b	HF	13B		Llama-2-13b-chatベース
2023.12	Swallow(東工大)	HF	70B		Llama2-70Bベース
2023.11	StableLM(StabilityAI)	HF	70B		Llama2-70Bベース
2023.10	LLM-jp	HF	13B	DPO追加あり
	name	HF

See more on awesome-japanese-llm

Medical-Adaptation

Model

When?	Name	HF?	Size	License	pretraining	finetuning/continual	test	misc.
2024.5	medX(JiviAI)	HF	8B	Apache-2.0	Llama3	100,000+ data, ORPO
2024.4	Meditron(EPFL)	-	8B	-	Llama3		MedQA, MedMCQA, PubmedQA	SOTA
2024.4	OpenBioLLM-70B	HF	?	-				SOTA
2024.4	Med-Gemini(Google)	closed	?	-	Gemini			multimodal
2024.4	Hippocrates	HF	7B
2024.3	AdaptLLM(Microsoft Research)	HF	7B, 13B		reading comprehensive corpora
2024.3	Apollo	HF	~7B
2024.2	BiMediX	HF	non-commercial	8x7B	mixtral8x7B			MoE
2024.2	Health-LLM(Rutgersなど)							RAG
2024.2	BioMistral	HF	7B	-
2024.1	AMIE(Google)	not open	-	-	based on PaLM 2			EHR
2023.12	Medprompt(Microsoft)	not open	-	-	GPT-4	none		multi-modal
2023.12	JMedLoRA(UTokyo)	HF	70B	none	none	QLoRA	IgakuQA	Japanese, insufficient quality
2023.11	Meditron(EPFL)	HF	70B	Llama2	Llama2	GAP-Replay(48.1B)	dataset,score
2023.8	BioMedGPT(Luo et al.)	HF	10B
2023.8	PMC-LLaMa	HF	13B
2023.7	Med-Flamingo	HF	8.3B	?	OpenFlamingo	MTB	Visual USMLE	based on Flamingo
2023.7	LLaVa-Med(Microsoft)	HF	13B	-	LLaVa	medical dataset	VAQ-RAD, SLAKE, PathVQA	multi-modal
2023.7	Med-PaLM M(Google)	not open		-	PaLM2			multi-modal
2023.5	Almanac(Stanford), journal	?	?	text-davinci-003			RAG
2023.5	Med-PaLM2(Google)	not open	340B	-	PaLM2
2022.12	Med-PaLM(Google)	not open	540B	-	PaLM
	name	HF

See also Awesome-Healthcare-Foundation-Models and MedLLMsPracticalGuide.

Evaluation

Dataset

Only Text

MedQA （USMLE）
MedMCQA
PubMedQA
MMLU-Medical : extracted from MMLU
PubHealth
JMMLU : Japanese-translated version of MMLU
IgakuQA（Japanese National Medical License Exam）
J-ResearchCorpus
Apollo Corpus JP

Image + Text

MTB: chopped cleaned text and images collected from 4721 textbooks.
PMC-15M : the largest biomedical image-text dataset
PMC-OA : 1.6M image-caption pairs
MedICaT: image, caption, textual reference
VQA-RAD : 3515 question–answer pairs on 315 radiology images.
SLAKE : bilingual dataset (English&Chinese) consisting of 642 images and 14,028 question-answer pairs
PathVQA :
Visual USMLE : 618 USMLE-style QA
MedVTE: numeric understanding
MedAlign(Stanford)
MIMIC-ECG-IV : ECG-caption dataset
ECG-QA

Curations

Clinical NLP 2023

See more on He et al.(2023).

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
img		img
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

img

img

README.md

README.md

Repository files navigation

Awesome latest LLMs

English-centric

Japanese-centric

Medical-Adaptation

Model

Evaluation

Dataset

About

Releases

Packages

stardust-coder/awesome-latest-LLM

Folders and files

Latest commit

History

img

img

README.md

README.md

Repository files navigation

Awesome latest LLMs

English-centric

Japanese-centric

Medical-Adaptation

Model

Evaluation

Dataset

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages