Nota: Molte delle strategie introdotte nella sezione sulla GPU singola (come mixed precision training o gradient accumulation) e sezione multi-GPU sono generiche e applicabili all'addestramento di modelli in generale quindi assicurati di dargli un'occhiata prima di immergerti in questa sezione.
Questo documento sarà presto completato con informazioni su come effettuare la formazione su hardware specializzato.