huggingface · sgugger · Jun 23, 2020 · Jun 23, 2020 · Jun 23, 2020 · julien-c
diff --git a/src/transformers/trainer.py b/src/transformers/trainer.py
@@ -573,8 +573,7 @@ def _training_step(
         self, model: nn.Module, inputs: Dict[str, torch.Tensor], optimizer: torch.optim.Optimizer
     ) -> float:
         model.train()
-        for k, v in inputs.items():
-            inputs[k] = v.to(self.args.device)
+        inputs = {k: v.to(self.args.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
 
         outputs = model(**inputs)
         loss = outputs[0]  # model outputs are always tuple in transformers (see doc)
@@ -757,8 +756,7 @@ def _prediction_loop(
         for inputs in tqdm(dataloader, desc=description):
             has_labels = any(inputs.get(k) is not None for k in ["labels", "lm_labels", "masked_lm_labels"])
 
-            for k, v in inputs.items():
-                inputs[k] = v.to(self.args.device)
+            inputs = {k: v.to(self.args.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
 
             with torch.no_grad():
                 outputs = model(**inputs)