You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
"Expert parallelism is not supported with fp16 training."
compared to the case when ep=1, the difference when ep>1 is that it introduces additional all-to-all communication operation. I'm a bit confused about why this setup does not support fp16 training.
The text was updated successfully, but these errors were encountered:
razão pela qual o paralelismo especializado pode não ser suportado durante o treinamento FP16 pode ser devido às limitações do próprio FP16. FP16, ou formato de ponto flutuante de meia precisão, usa menos memória e permite que o modelo treine mais rápido. No entanto, nem todas as equações suportam FP16, o que pode limitar seu uso em certos cenários.
No contexto dos modelos MoE, os requisitos de memória podem ser bastante altos. Por exemplo, a saída da rede conjunta no transdutor é um tensor de 4 dimensões que ocupa quantidades significativas de memória. Usar FP16 poderia potencialmente aliviar alguns dos problemas de uso de memória, mas pode não ser suficiente ou compatível com todos os aspectos do processo de treinamento.
Também vale a pena notar que a documentação do Megatron-LM da NVIDIA menciona que ao usar MoE com paralelismo especializado e paralelismo tensorial, o paralelismo de sequência deve ser usado. Isso pode ser outro fator a considerar ao tentar entender as limitações do uso de paralelismo especializado durante o treinamento FP16.
from
Megatron-LM/megatron/training/arguments.py
Line 508 in db3a3f7
compared to the case when ep=1, the difference when ep>1 is that it introduces additional all-to-all communication operation. I'm a bit confused about why this setup does not support fp16 training.
The text was updated successfully, but these errors were encountered: