Skip to content

pedrodev2026/MicroLM-1M

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MicroLM-1M

MicroLM-1M é um modelo de linguagem causal com aproximadamente 1 milhão de parâmetros, treinado em ~500 milhões de tokens.

Este repositório contém todo o código utilizado para:

  • coleta de dados
  • processamento e criação do dataset
  • treinamento do modelo
  • configuração do tokenizer

O modelo pode ser acessado no Hugging Face: 👉 https://huggingface.co/CromIA/MicroLM-1M


📊 Especificações

  • Parâmetros: ~1M
  • Tokens de treino: ~500M
  • Arquitetura: GPT-style causal LM
  • Vocabulário: 2k tokens (BPE)

📚 Datasets

O modelo foi treinado com dados provenientes de:

  • Wikipedia
  • FineWeb-Edu

Licenças:

  • Wikipedia: CC BY-SA 3.0
  • FineWeb-Edu: ODC-BY 1.0

Este modelo não armazena nem reproduz os dados de treinamento de forma literal.
Ele aprende representações estatísticas a partir dos padrões presentes nos dados.


⚖️ Licença

O código e os pesos do modelo são distribuídos sob a licença Apache 2.0.


🚀 Objetivo

Este projeto tem como objetivo explorar o treinamento de modelos de linguagem extremamente pequenos, mantendo um pipeline eficiente e reproduzível.

About

Códigos para o modelo MicroLM-1M

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages