MicroLM-1M é um modelo de linguagem causal com aproximadamente 1 milhão de parâmetros, treinado em ~500 milhões de tokens.
Este repositório contém todo o código utilizado para:
- coleta de dados
- processamento e criação do dataset
- treinamento do modelo
- configuração do tokenizer
O modelo pode ser acessado no Hugging Face: 👉 https://huggingface.co/CromIA/MicroLM-1M
- Parâmetros: ~1M
- Tokens de treino: ~500M
- Arquitetura: GPT-style causal LM
- Vocabulário: 2k tokens (BPE)
O modelo foi treinado com dados provenientes de:
- Wikipedia
- FineWeb-Edu
Licenças:
- Wikipedia: CC BY-SA 3.0
- FineWeb-Edu: ODC-BY 1.0
Este modelo não armazena nem reproduz os dados de treinamento de forma literal.
Ele aprende representações estatísticas a partir dos padrões presentes nos dados.
O código e os pesos do modelo são distribuídos sob a licença Apache 2.0.
Este projeto tem como objetivo explorar o treinamento de modelos de linguagem extremamente pequenos, mantendo um pipeline eficiente e reproduzível.