Skip to content

stardust-coder/awesome-latest-LLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

49 Commits
 
 
 
 

Repository files navigation

Awesome latest LLMs

Keeping up with the latest LLMs !

NEWS

  • 2024.5 🔥QWen2シリーズが登場!日本語も優秀!
  • 2024.5 🔥MicrosoftからPhi-3シリーズが登場!
  • 2024.5 🔥Stockmarkから100Bの日本語モデルがリリース!さすがGENIAC
History
  • 2024.4 🔥MetaからLlama3がリリース!まずは8Bと70B!
  • 2024.4 🔥CohereからCommand-R+がリリース!研究用に重みも公開.
  • 2024.4 🔥Databricksより132BのMoEモデルが公開されました!大きい!
  • 2024.3 Cohereからプロダクション向けCommand-Rがリリース!研究用に重みも公開.
  • 2024.3 ELYZAからLlama2の追加学習日本語モデルのデモがリリースされました!
  • 2024.3 東工大からMixtralの追加学習日本語モデルSwallow-MX, Swallow-MSがリリースされました!👏
  • 2024.2 GoogleからGeminiで用いられているLLM Gemmaをオープンにするとのお達しが出ました!
  • 2024.2 Kotoba Technologyと東工大から日本語Mamba 2.8Bが公開されました!
  • 2024.2 AlibabaのQWenが1.5にアップグレードされました!!
  • 2024.2 Reka AIから21BでGemini Pro, GPT-3.5超えと発表されました.
  • 2024.2 LLM-jpのモデルが更新されました!v1.1
  • 2024.2 カラクリから70B日本語LLMが公開されました!
  • 2024.1 リコーが13B日本語LLMを発表しました!
  • 2024.1 Phi-2のMoE, Phixtralが公開されました!
  • 2023.12 Phi-2のライセンスがMITに変更されました!
  • 2023.12 ELYZAから日本語13Bモデルがリリースされました.
  • 2023.12 東工大からSwallowがリリースされました.
  • 2023.12 MistralAIからMixtral-8x7Bがリリースされました.
  • 2023.12 日本語LLMの学習データを問題視する記事が公開されました.

English-centric

When? Name HF? Size(max) License pretraining/base finetuning misc.
2024.5 QWen2 HF 7~72B tongyi-qianwen - -
2024.4 Phi-3(Microsoft) HF 3.8B, 13B MIT Phi-3 datasets -
2024.4 Llama 3(Meta) HF 70B META LLAMA3 extended to 120B
2024.4 Wizart-8x22B(Microsoft) HF 8x22B apache-2.0 Mixtral-8x22B(Mistral) MoE, closed now
2024.4 Mixtral-8x22B(Mistral) HF 8x22B apache-2.0 MoE
2024.4 Command-R+(Cohere) HF 104B non commercial RAG capability
2024.4 DBRX(Databricks) HF 132B databricks MoE
2024.3 Grok-1 314B twitter MoE
2024.3 BTX(Meta) MoE
2024.3 Command-R(Cohere) HF 35B non commercial RAG capability
2024.2 Aya(Cohere) HF 13B apache-2.0 multilingual
2024.2 Gemma(Google) 8.5B application open for reseachers
2024.2 Miqu HF 70B none leaked from Mistral
2024.2 Reka Flash 21B not public
2024.1 Self-Rewarding(Meta) arxiv 70B Llama2 Llama2 - DPO
2024.1 Phixtral HF 2.7Bx4 MIT MoE
2023.12 LongNet(Microsoft) arXiv - apache-2.0 MAGNETO input 1B token
2023.12 Phi-2(Microsoft) HF 2.7B MIT
2023.12 gigaGPT(Cerebras) 70B, 175B apache-2.0
2023.12 Mixtral-8x7B HF 8x7B apache-2.0 MoE, offloading
2023.12 Mamba HF 2.8B apache-2.0 based on state space model
2023.11 QWen(Alibaba) HF 72B license 3T tokens beats Llama2
2023.10 Self-RAG HF apache-2.0 13B critic model
2023.9 TinyLlama HF apache-2.0 1.1B based on Llama, 3T token
2023.9 Xwin-LM HF 70B Llama2 based on Llama2 also codes and math
2023.7 Llama2(Meta) HF 70B Llama2 2T tokens chat-hf seems the best
name HF
  • PaLM(540B), PaLM2(340B) and GPT-4 are not open.
  • MoE : mixture of experts

Japanese-centric

When? Name HF? Size License pretraining finetuning misc.
2024.5 Stockmark-100B HF 100B MIT
2024.3 youko(rinna) HF 8B Llama3 Llama3
2024.3 EvoLLM-JP HF 7B MSR(non-commercial)
2024.3 RakutenAI HF 7B apache-2.0 Mistral
2024.3 Swallow-MX(東工大) HF 8x7B Mixtralベース
2024.2 KARAKURI HF 70B cc-by-sa-4.0 Llama2-70Bベース note
2023.12 ELYZA-japanese-Llama-2-13b HF 13B Llama-2-13b-chatベース
2023.12 Swallow(東工大) HF 70B Llama2-70Bベース
2023.11 StableLM(StabilityAI) HF 70B Llama2-70Bベース
2023.10 LLM-jp HF 13B DPO追加あり
name HF

See more on awesome-japanese-llm


Medical-Adaptation

Model

When? Name HF? Size License pretraining finetuning/continual test misc.
2024.5 medX(JiviAI) HF 8B Apache-2.0 Llama3 100,000+ data, ORPO
2024.4 Meditron(EPFL) - 8B - Llama3 MedQA, MedMCQA, PubmedQA SOTA
2024.4 OpenBioLLM-70B HF ? - SOTA
2024.4 Med-Gemini(Google) closed ? - Gemini multimodal
2024.4 Hippocrates HF 7B
2024.3 AdaptLLM(Microsoft Research) HF 7B, 13B reading comprehensive corpora
2024.3 Apollo HF ~7B
2024.2 BiMediX HF non-commercial 8x7B mixtral8x7B MoE
2024.2 Health-LLM(Rutgersなど) RAG
2024.2 BioMistral HF 7B -
2024.1 AMIE(Google) not open - - based on PaLM 2 EHR
2023.12 Medprompt(Microsoft) not open - - GPT-4 none multi-modal
2023.12 JMedLoRA(UTokyo) HF 70B none none QLoRA IgakuQA Japanese, insufficient quality
2023.11 Meditron(EPFL) HF 70B Llama2 Llama2 GAP-Replay(48.1B) dataset,score
2023.8 BioMedGPT(Luo et al.) HF 10B
2023.8 PMC-LLaMa HF 13B
2023.7 Med-Flamingo HF 8.3B ? OpenFlamingo MTB Visual USMLE based on Flamingo
2023.7 LLaVa-Med(Microsoft) HF 13B - LLaVa medical dataset VAQ-RAD, SLAKE, PathVQA multi-modal
2023.7 Med-PaLM M(Google) not open - PaLM2 multi-modal
2023.5 Almanac(Stanford), journal ? ? text-davinci-003 RAG
2023.5 Med-PaLM2(Google) not open 340B - PaLM2
2022.12 Med-PaLM(Google) not open 540B - PaLM
name HF

See also Awesome-Healthcare-Foundation-Models and MedLLMsPracticalGuide.

Evaluation

Dataset

Only Text

Image + Text

  • MTB: chopped cleaned text and images collected from 4721 textbooks.
  • PMC-15M : the largest biomedical image-text dataset
  • PMC-OA : 1.6M image-caption pairs
  • MedICaT: image, caption, textual reference
  • VQA-RAD : 3515 question–answer pairs on 315 radiology images.
  • SLAKE : bilingual dataset (English&Chinese) consisting of 642 images and 14,028 question-answer pairs
  • PathVQA :
  • Visual USMLE : 618 USMLE-style QA
  • MedVTE: numeric understanding
  • MedAlign(Stanford)
  • MIMIC-ECG-IV : ECG-caption dataset
  • ECG-QA

Curations

See more on He et al.(2023).

About

最新LLMの一覧を作成します

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published