shap · costrau · Mar 12, 2024 · Mar 15, 2024 · Mar 18, 2024 · Mar 18, 2024
diff --git a/shap/models/_topk_lm.py b/shap/models/_topk_lm.py
@@ -3,7 +3,7 @@
 
 from .._serializable import Deserializer, Serializer
 from ..utils import safe_isinstance
-from ..utils.transformers import MODELS_FOR_CAUSAL_LM, getattr_silent
+from ..utils.transformers import getattr_silent
 from ._model import Model
 
 
@@ -210,31 +210,33 @@
             Logits corresponding to next word/masked word.
 
         """
-        if safe_isinstance(self.inner_model, MODELS_FOR_CAUSAL_LM):
-            inputs = self.get_inputs(X, padding_side="left")
-            if self.model_type == "pt":
-                import torch
-                inputs["position_ids"] = (inputs["attention_mask"].long().cumsum(-1) - 1)
-                inputs["position_ids"].masked_fill_(inputs["attention_mask"] == 0, 0)
-                inputs = inputs.to(self.device)
-                # generate outputs and logits
-                with torch.no_grad():
-                    outputs = self.inner_model(**inputs, return_dict=True)
-                # extract only logits corresponding to target sentence ids
-                logits = outputs.logits.detach().cpu().numpy().astype('float64')[:, -1, :]
-            elif self.model_type == "tf":
-                import tensorflow as tf
-                inputs["position_ids"] = tf.math.cumsum(inputs["attention_mask"], axis=-1) - 1
-                inputs["position_ids"] = tf.where(inputs["attention_mask"] == 0, 0, inputs["position_ids"])
-                if self.device is None:
-                    outputs = self.inner_model(inputs, return_dict=True)
-                else:
-                    try:
-                        with tf.device(self.device):
-                            outputs = self.inner_model(inputs, return_dict=True)
-                    except RuntimeError as err:
-                        print(err)
-                logits = outputs.logits.numpy().astype('float64')[:, -1, :]
+        if self.model_type in ["pt", "tf"]:
+            from transformers import MODEL_FOR_CAUSAL_LM_MAPPING
+            if type(self.inner_model) in MODEL_FOR_CAUSAL_LM_MAPPING.values():
+                inputs = self.get_inputs(X, padding_side="left")
+                if self.model_type == "pt":
+                    import torch
+                    inputs["position_ids"] = (inputs["attention_mask"].long().cumsum(-1) - 1)
+                    inputs["position_ids"].masked_fill_(inputs["attention_mask"] == 0, 0)
+                    inputs = inputs.to(self.device)
+                    # generate outputs and logits
+                    with torch.no_grad():
+                        outputs = self.inner_model(**inputs, return_dict=True)
+                    # extract only logits corresponding to target sentence ids
+                    logits = outputs.logits.detach().cpu().numpy().astype('float64')[:, -1, :]
+                elif self.model_type == "tf":
+                    import tensorflow as tf
+                    inputs["position_ids"] = tf.math.cumsum(inputs["attention_mask"], axis=-1) - 1
+                    inputs["position_ids"] = tf.where(inputs["attention_mask"] == 0, 0, inputs["position_ids"])
+                    if self.device is None:
+                        outputs = self.inner_model(inputs, return_dict=True)
+                    else:
+                        try:
+                            with tf.device(self.device):
+                                outputs = self.inner_model(inputs, return_dict=True)
+                        except RuntimeError as err:
+                            print(err)
+                    logits = outputs.logits.numpy().astype('float64')[:, -1, :]
         return logits
 
     def save(self, out_file):

diff --git a/shap/utils/transformers.py b/shap/utils/transformers.py
@@ -1,80 +1,5 @@
 from ._general import safe_isinstance
 
-MODELS_FOR_SEQ_TO_SEQ_CAUSAL_LM = [
-        "transformers.T5ForConditionalGeneration",
-        "transformers.PegasusForConditionalGeneration",
-        "transformers.MarianMTModel",
-        "transformers.MBartForConditionalGeneration",
-        "transformers.BlenderbotForConditionalGeneration",
-        "transformers.BartForConditionalGeneration",
-        "transformers.FSMTForConditionalGeneration",
-        "transformers.EncoderDecoderModel",
-        "transformers.XLMProphetNetForConditionalGeneration",
-        "transformers.ProphetNetForConditionalGeneration",
-        "transformers.TFMT5ForConditionalGeneration",
-        "transformers.TFT5ForConditionalGeneration",
-        "transformers.TFMarianMTModel",
-        "transformers.TFMBartForConditionalGeneration",
-        "transformers.TFPegasusForConditionalGeneration",
-        "transformers.TFBlenderbotForConditionalGeneration",
-        "transformers.TFBartForConditionalGeneration"
-    ]
-
-MODELS_FOR_CAUSAL_LM = [
-        "transformers.CamembertForCausalLM",
-        "transformers.XLMRobertaForCausalLM",
-        "transformers.RobertaForCausalLM",
-        "transformers.BertLMHeadModel",
-        "transformers.OpenAIGPTLMHeadModel",
-        "transformers.GPT2LMHeadModel",
-        "transformers.TransfoXLLMHeadModel",
-        "transformers.XLNetLMHeadModel",
-        "transformers.XLMWithLMHeadModel",
-        "transformers.CTRLLMHeadModel",
-        "transformers.ReformerModelWithLMHead",
-        "transformers.BertGenerationDecoder",
-        "transformers.XLMProphetNetForCausalLM",
-        "transformers.ProphetNetForCausalLM",
-        "transformers.TFBertLMHeadModel",
-        "transformers.TFOpenAIGPTLMHeadModel",
-        "transformers.TFGPT2LMHeadModel",
-        "transformers.TFTransfoXLLMHeadModel",
-        "transformers.TFXLNetLMHeadModel",
-        "transformers.TFXLMWithLMHeadModel",
-        "transformers.TFCTRLLMHeadModel",
-    ]
-
-MODELS_FOR_MASKED_LM = [
-    "transformers.LayoutLMForMaskedLM",
-    "transformers.DistilBertForMaskedLM",
-    "transformers.AlbertForMaskedLM",
-    "transformers.BartForConditionalGeneration",
-    "transformers.CamembertForMaskedLM",
-    "transformers.XLMRobertaForMaskedLM",
-    "transformers.LongformerForMaskedLM",
-    "transformers.RobertaForMaskedLM",
-    "transformers.SqueezeBertForMaskedLM",
-    "transformers.BertForMaskedLM",
-    "transformers.MobileBertForMaskedLM",
-    "transformers.FlaubertWithLMHeadModel",
-    "transformers.XLMWithLMHeadModel",
-    "transformers.ElectraForMaskedLM",
-    "transformers.ReformerForMaskedLM",
-    "transformers.FunnelForMaskedLM",
-    "transformers.TFDistilBertForMaskedLM",
-    "transformers.TFAlbertForMaskedLM",
-    "transformers.TFCamembertForMaskedLM",
-    "transformers.TFXLMRobertaForMaskedLM",
-    "transformers.TFLongformerForMaskedLM",
-    "transformers.TFRobertaForMaskedLM",
-    "transformers.TFBertForMaskedLM",
-    "transformers.TFMobileBertForMaskedLM",
-    "transformers.TFFlaubertWithLMHeadModel",
-    "transformers.TFXLMWithLMHeadModel",
-    "transformers.TFElectraForMaskedLM",
-    "transformers.TFFunnelForMaskedLM"
-]
-
 SENTENCEPIECE_TOKENIZERS = [
     "transformers.MarianTokenizer",
     "transformers.T5Tokenizer",
@@ -84,8 +9,16 @@
 
 def is_transformers_lm(model):
     """Check if the given model object is a huggingface transformers language model."""
-    return (safe_isinstance(model, "transformers.PreTrainedModel") or safe_isinstance(model, "transformers.TFPreTrainedModel")) and \
-        safe_isinstance(model, MODELS_FOR_SEQ_TO_SEQ_CAUSAL_LM + MODELS_FOR_CAUSAL_LM)
+    if safe_isinstance(
+            model, "transformers.PreTrainedModel") or safe_isinstance(
+            model, "transformers.TFPreTrainedModel"):
+        from transformers import (
+            MODEL_FOR_CAUSAL_LM_MAPPING,
+            MODEL_FOR_SEQ_TO_SEQ_CAUSAL_LM_MAPPING,
+        )
+        return type(model) in MODEL_FOR_SEQ_TO_SEQ_CAUSAL_LM_MAPPING.values() or type(
+            model) in MODEL_FOR_CAUSAL_LM_MAPPING.values()
+    return False
 
 def parse_prefix_suffix_for_tokenizer(tokenizer):
     """Set prefix and suffix tokens based on null tokens.