Issues in Running LIT #13

salmanahmed1993 · 2020-08-20T13:53:11Z

Hi There,

I am trying to run LIT Quick-start: sentiment classifier
cd ~/lit
python -m lit_nlp.examples.quickstart_sst_demo --port=5432

The output is:

(lit-nlp) C:~\lit>python -m lit_nlp.examples.quickstart_sst_demo --port=5432
2020-08-20 14:37:27.651045: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2
I0820 14:37:27.670744 33968 quickstart_sst_demo.py:47] Working directory: C:\Users\SB0079~1\AppData\Local\Temp\tmp2582r1b0
W0820 14:37:27.926524 33968 dataset_builder.py:575] Found a different version 1.0.0 of dataset glue in data_dir C:\Users\SB00790107\tensorflow_datasets. Using currently defined version 0.0.2.
I0820 14:37:27.926524 33968 dataset_builder.py:184] Overwrite dataset info from restored data version.
I0820 14:37:27.933496 33968 dataset_builder.py:253] Reusing dataset glue (C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2)
I0820 14:37:27.934466 33968 dataset_builder.py:399] Constructing tf.data.Dataset for split train, from C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2
W0820 14:37:27.934466 33968 dataset_builder.py:439] Warning: Setting shuffle_files=True because split=TRAIN and shuffle_files=None. This behavior will be deprecated on 2019-08-06, at which point shuffle_files=False will be the default for all splits.
W0820 14:37:35.189518 33968 dataset_builder.py:575] Found a different version 1.0.0 of dataset glue in data_dir C:\Users\SB00790107\tensorflow_datasets. Using currently defined version 0.0.2.
I0820 14:37:35.190503 33968 dataset_builder.py:184] Overwrite dataset info from restored data version.
I0820 14:37:35.192508 33968 dataset_builder.py:253] Reusing dataset glue (C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2)
I0820 14:37:35.192508 33968 dataset_builder.py:399] Constructing tf.data.Dataset for split validation, from C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2
I0820 14:37:35.302182 33968 tokenization_utils.py:306] Model name 'google/bert_uncased_L-2_H-128_A-2' not found in model shortcut name list (bert-base-uncased, bert-large-uncased, bert-base-cased, bert-large-cased, bert-base-multilingual-uncased, bert-base-multilingual-cased, bert-base-chinese, bert-base-german-cased, bert-large-uncased-whole-word-masking, bert-large-cased-whole-word-masking, bert-large-uncased-whole-word-masking-finetuned-squad, bert-large-cased-whole-word-masking-finetuned-squad, bert-base-cased-finetuned-mrpc, bert-base-german-dbmdz-cased, bert-base-german-dbmdz-uncased). Assuming 'google/bert_uncased_L-2_H-128_A-2' is a path or url to a directory containing tokenizer files.
I0820 14:37:35.302182 33968 tokenization_utils.py:317] Didn't find file google/bert_uncased_L-2_H-128_A-2. We won't load it.
I0820 14:37:35.303180 33968 tokenization_utils.py:335] Didn't find file google/bert_uncased_L-2_H-128_A-2\added_tokens.json. We won't load it.
I0820 14:37:35.303180 33968 tokenization_utils.py:335] Didn't find file google/bert_uncased_L-2_H-128_A-2\special_tokens_map.json. We won't load it.
I0820 14:37:35.303180 33968 tokenization_utils.py:335] Didn't find file google/bert_uncased_L-2_H-128_A-2\tokenizer_config.json. We won't load it.
Traceback (most recent call last):
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\runpy.py", line 193, in _run_module_as_main
"main", mod_spec)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\runpy.py", line 85, in _run_code
exec(code, run_globals)
File "C:~\lit\lit_nlp\examples\quickstart_sst_demo.py", line 60, in
app.run(main)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\absl\app.py", line 299, in run
_run_main(main, args)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\absl\app.py", line 250, in _run_main
sys.exit(main(argv))
File "C:~\lit\lit_nlp\examples\quickstart_sst_demo.py", line 48, in main
run_finetuning(model_path)
File "C:~\lit\lit_nlp\examples\quickstart_sst_demo.py", line 40, in run_finetuning
model = glue_models.SST2Model(FLAGS.encoder_name, for_training=True)
File "C:~\lit\lit_nlp\examples\models\glue_models.py", line 319, in init
kw)
File "C:~\lit\lit_nlp\examples\models\glue_models.py", line 59, in init**
model_name_or_path)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\transformers\tokenization_auto.py", line 109, in from_pretrained
return BertTokenizer.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\transformers\tokenization_utils.py", line 282, in from_pretrained
return cls._from_pretrained(*inputs, **kwargs)
File "C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\transformers\tokenization_utils.py", line 346, in _from_pretrained
list(cls.vocab_files_names.values())))
OSError: Model name 'google/bert_uncased_L-2_H-128_A-2' was not found in tokenizers model name list (bert-base-uncased, bert-large-uncased, bert-base-cased, bert-large-cased, bert-base-multilingual-uncased, bert-base-multilingual-cased, bert-base-chinese, bert-base-german-cased, bert-large-uncased-whole-word-masking, bert-large-cased-whole-word-masking, bert-large-uncased-whole-word-masking-finetuned-squad, bert-large-cased-whole-word-masking-finetuned-squad, bert-base-cased-finetuned-mrpc, bert-base-german-dbmdz-cased, bert-base-german-dbmdz-uncased). We assumed 'google/bert_uncased_L-2_H-128_A-2' was a path or url to a directory containing vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url.

For Running Quick start: language modeling

cd ~/lit
python -m lit_nlp.examples.pretrained_lm_demo --models=bert-base-uncased
--port=5432

The error output is
(lit-nlp) C:~\lit>python -m lit_nlp.examples.pretrained_lm_demo --models=bert-base-uncased --port=5432
2020-08-20 14:32:20.119230: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2
I0820 14:32:20.634253 32000 tokenization_utils.py:374] loading file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt from cache at C:\Users\SB00790107.cache\torch\transformers\26bc1ad6c0ac742e9b52263248f6d0f00068293b33709fae12320c0e35ccfbbb.542ce4285a40d23a559526243235df47c5f75c197f04f37d1a0c124c32c9a084
I0820 14:32:21.133054 32000 configuration_utils.py:151] loading configuration file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-config.json from cache at C:\Users\SB00790107.cache\torch\transformers\4dad0251492946e18ac39290fcfe91b89d370fee250efe9521476438fe8ca185.7156163d5fdc189c3016baca0775ffce230789d7fa2a42ef516483e4ca884517
I0820 14:32:21.143045 32000 configuration_utils.py:168] Model config {
"architectures": [
"BertForMaskedLM"
],
"attention_probs_dropout_prob": 0.1,
"finetuning_task": null,
"hidden_act": "gelu",
"hidden_dropout_prob": 0.1,
"hidden_size": 768,
"initializer_range": 0.02,
"intermediate_size": 3072,
"layer_norm_eps": 1e-12,
"max_position_embeddings": 512,
"model_type": "bert",
"num_attention_heads": 12,
"num_hidden_layers": 12,
"num_labels": 2,
"output_attentions": true,
"output_hidden_states": true,
"output_past": true,
"pad_token_id": 0,
"pruned_heads": {},
"torchscript": false,
"type_vocab_size": 2,
"use_bfloat16": false,
"vocab_size": 30522
}

I0820 14:32:21.576282 32000 modeling_tf_utils.py:258] loading weights file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-tf_model.h5 from cache at C:\Users\SB00790107.cache\torch\transformers\d667df51ec24c20190f01fb4c20a21debc4c4fc12f7e2f5441ac0a99690e3ee9.4733ec82e81d40e9cf5fd04556267d8958fb150e9339390fc64206b7e5a79c83.h5
W0820 14:32:24.903656 32000 dataset_builder.py:575] Found a different version 1.0.0 of dataset glue in data_dir C:\Users\SB00790107\tensorflow_datasets. Using currently defined version 0.0.2.
I0820 14:32:24.904676 32000 dataset_builder.py:187] Load pre-computed datasetinfo (eg: splits) from bucket.
I0820 14:32:25.158797 32000 dataset_info.py:410] Loading info from GCS for glue/sst2/0.0.2
I0820 14:32:26.526896 32000 dataset_builder.py:273] Generating dataset glue (C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2)
�[1mDownloading and preparing dataset glue (7.09 MiB) to C:\Users\SB00790107\tensorflow_datasets\glue\sst2\0.0.2...�[0m
Dl Completed...: 0 url [00:00, ? url/s]
Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]I0820 14:32:26.530886 32000 download_manager.py:241] Downloading https://firebasestorage.googleapis.com/v0/b/mtl-sentence-representations.appspot.com/o/data%2FSST-2.zip?alt=media&token=aabc5f6b-e466-44a2-b9b4-cf6337f84ac8 into C:\Users\SB00790107\tensorflow_datasets\downloads\fire.goog.com_v0_b_mtl-sent-repr.apps.cowOhVrpNUsvqdZqI70Nq3ISu63l9SOhTqYqoz6uEW3-Y.zipalt=media&token=aabc5f6b-e466-44a2-b9b4-cf6337f84ac8.tmp.6f44416196e74a44a10bca183839e172...
Dl Completed...: 0%| | 0/1 [00:00<?, ? url/s]
Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\urllib3\connectionpool.py:988: InsecureRequestWarning: Unverified HTTPS request is being made to host 'firebasestorage.googleapis.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
InsecureRequestWarning,
Dl Completed...: 0%| | 0/1 [00:00<?, ? url/s]
Dl Size...: 0%| | 0/7 [00:00<?, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]
Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 14%|███████████████████▎ | 1/7 [00:01<00:06, 1.10s/ MiB]

Extraction completed...: 0 file [00:01, ? file/s]
Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 29%|██████████████████████████████████████▌ | 2/7 [00:01<00:04, 1.19 MiB/s]

Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 43%|█████████████████████████████████████████████████████████▊ | 3/7 [00:01<00:03, 1.19 MiB/s]

Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 57%|█████████████████████████████████████████████████████████████████████████████▏ | 4/7 [00:01<00:02, 1.19 MiB/s]

Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 71%|████████████████████████████████████████████████████████████████████████████████████████████████▍ | 5/7 [00:01<00:01, 1.19 MiB/s]

Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 6/7 [00:01<00:00, 1.19 MiB/s]

Dl Completed...: 0%| | 0/1 [00:01<?, ? url/s]
Dl Size...: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 1.19 MiB/s]

Dl Completed...: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00, 1.40s/ url]
Dl Size...: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 1.19 MiB/s]

Extraction completed...: 0%| | 0/1 [00:01<?, ? file/s]

Dl Completed...: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00, 1.40s/ url]
Dl Size...: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 1.19 MiB/s]

Extraction completed...: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00, 1.74s/ file]
Extraction completed...: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00, 1.74s/ file]

Dl Size...: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 4.02 MiB/s]

Dl Completed...: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00, 1.74s/ url]
I0820 14:32:28.270815 32000 dataset_builder.py:812] Generating split train
I0820 14:32:28.270815 32000 file_format_adapter.py:233] Writing TFRecords
Shuffling...: 0%| | 0/1 [00:00<?, ? shard/s]WARNING:tensorflow:From C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\tensorflow_datasets\core\file_format_adapter.py:209: tf_record_iterator (from tensorflow.python.lib.io.tf_record) is deprecated and will be removed in a future version.
Instructions for updating:
Use eager execution and:
tf.data.TFRecordDataset(path)
W0820 14:32:39.338444 32000 deprecation.py:323] From C:\Users\SB00790107\AppData\Local\Continuum\anaconda3\envs\lit-nlp\lib\site-packages\tensorflow_datasets\core\file_format_adapter.py:209: tf_record_iterator (from tensorflow.python.lib.io.tf_record) is deprecated and will be removed in a future version.
Instructions for updating:
Use eager execution and:
tf.data.TFRecordDataset(path)

Reading...: 0 examples [00:00, ? examples/s]
Reading...: 64184 examples [00:00, 637222.07 examples/s]

Writing...: 0%| | 0/67349 [00:00<?, ? examples/s]
Writing...: 15%|█████████████████▊ | 9980/67349 [00:00<00:00, 99082.42 examples/s]
Writing...: 30%|███████████████████████████████████▌ | 20094/67349 [00:00<00:00, 99477.68 examples/s]
Writing...: 45%|█████████████████████████████████████████████████████▎ | 30195/67349 [00:00<00:00, 99709.61 examples/s]
Writing...: 60%|██████████████████████████████████████████████████████████████████████▊ | 40401/67349 [00:00<00:00, 100188.93 examples/s]
Writing...: 75%|████████████████████████████████████████████████████████████████████████████████████████▋ | 50623/67349 [00:00<00:00, 100574.12 examples/s]
Writing...: 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 60780/67349 [00:00<00:00, 100664.57 examples/s]
I0820 14:32:40.169348 32000 dataset_builder.py:812] Generating split validation
I0820 14:32:40.170345 32000 file_format_adapter.py:233] Writing TFRecords
Shuffling...: 0%| | 0/1 [00:00<?, ? shard/s]
Reading...: 0 examples [00:00, ? examples/s]

Writing...: 0%| | 0/872 [00:00<?, ? examples/s]
I0820 14:32:40.370083 32000 dataset_builder.py:812] Generating split test
I0820 14:32:40.373092 32000 file_format_adapter.py:233] Writing TFRecords
Shuffling...: 0%| | 0/1 [00:00<?, ? shard/s]
Reading...: 0 examples [00:00, ? examples/s]

Dl Completed...: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00, 9.60s/ url]
I0820 14:32:52.047359 32000 dataset_builder.py:812] Generating split train
I0820 14:32:52.050351 32000 file_format_adapter.py:233] Writing TFRecords
Shuffling...: 0%| | 0/10 [00:00<?, ? shard/s]
Reading...: 0 examples [00:00, ? examples/s]