fix

liuzh47 · Aug 11, 2020 · d651730 · d651730
1 parent e097c3b
commit d651730
Show file tree

Hide file tree

Showing 4 changed files with 5 additions and 3 deletions.
diff --git a/scripts/conversion_toolkits/convert_albert_from_tf_hub.sh b/scripts/conversion_toolkits/convert_albert_from_tf_hub.sh
@@ -1,4 +1,4 @@
-python3 -m pip install tensorflow==1.13.2 --upgrade --user
+python3 -m pip install tensorflow==1.15 --upgrade --user
 python3 -m pip install tensorflow_hub --upgrade --user
 export TF_FORCE_GPU_ALLOW_GROWTH="true"
 for model in base large xlarge xxlarge

diff --git a/scripts/conversion_toolkits/convert_electra.sh b/scripts/conversion_toolkits/convert_electra.sh
@@ -1,4 +1,4 @@
-python3 -m pip install tensorflow==1.13.2 --upgrade --user
+python3 -m pip install tensorflow==1.15 --upgrade --user
 export TF_FORCE_GPU_ALLOW_GROWTH="true"
 git clone https://github.com/ZheyuYe/electra.git
 cd electra

diff --git a/scripts/conversion_toolkits/convert_mobilebert.sh b/scripts/conversion_toolkits/convert_mobilebert.sh
@@ -1,3 +1,4 @@
+python3 -m pip install tensorflow==1.15 --upgrade --user
 export TF_FORCE_GPU_ALLOW_GROWTH="true"
 svn checkout https://github.com/google-research/google-research/trunk/mobilebert
 

diff --git a/scripts/conversion_toolkits/convert_tf_hub_model.py b/scripts/conversion_toolkits/convert_tf_hub_model.py
@@ -152,7 +152,7 @@ def convert_tf_assets(tf_assets_dir, model_type):
     ('LayerNorm', 'layer_norm'),  # albert
     ('attention_1', 'attention'),  # albert
     ('attention/output/dense', 'attention_proj'),
-    ('ffn_1', ''),  # bert & albert
+    ('ffn_1/', ''),  # bert & albert
     ('intermediate/dense', 'ffn.ffn_1'),  # albert
     ('intermediate/output/dense', 'ffn.ffn_2'),  # albert
     ('output/dense', 'ffn.ffn_2'),  # bert
@@ -385,6 +385,7 @@ def convert_tf_model(hub_model_dir, save_dir, test_conversion, model_type, gpu):
         all_keys.remove(dst_name)
         if 'self_attention/attention_output/kernel' in src_name:
             mx_params[dst_name].set_data(tf_param_val.reshape((cfg.MODEL.units, -1)).T)
+            continue
         if src_name.endswith('kernel'):
             mx_params[dst_name].set_data(tf_param_val.T)
         else: