MicroLM-1M

MicroLM-1M é um modelo de linguagem causal com aproximadamente 1 milhão de parâmetros, treinado em ~500 milhões de tokens.

Este repositório contém todo o código utilizado para:

coleta de dados
processamento e criação do dataset
treinamento do modelo
configuração do tokenizer

O modelo pode ser acessado no Hugging Face: 👉 https://huggingface.co/CromIA/MicroLM-1M

📊 Especificações

Parâmetros: ~1M
Tokens de treino: ~500M
Arquitetura: GPT-style causal LM
Vocabulário: 2k tokens (BPE)

📚 Datasets

O modelo foi treinado com dados provenientes de:

Wikipedia
FineWeb-Edu

Licenças:

Wikipedia: CC BY-SA 3.0
FineWeb-Edu: ODC-BY 1.0

Este modelo não armazena nem reproduz os dados de treinamento de forma literal.
Ele aprende representações estatísticas a partir dos padrões presentes nos dados.

⚖️ Licença

O código e os pesos do modelo são distribuídos sob a licença Apache 2.0.

🚀 Objetivo

Este projeto tem como objetivo explorar o treinamento de modelos de linguagem extremamente pequenos, mantendo um pipeline eficiente e reproduzível.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
dataset		dataset
tokenizer		tokenizer
LICENSE		LICENSE
README.md		README.md
test_model.py		test_model.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MicroLM-1M

📊 Especificações

📚 Datasets

⚖️ Licença

🚀 Objetivo

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MicroLM-1M

📊 Especificações

📚 Datasets

⚖️ Licença

🚀 Objetivo

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages