In [1]:
from datasets import load_dataset

dataset = load_dataset("squad")

Reusing dataset squad (/home/thushv89/.cache/huggingface/datasets/squad/plain_text/1.0.0/4c81550d83a2ac7c7ce23783bd8ff36642800e6633c1f18417fb58c3ff50cdd7)


In [2]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 87599
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 10570
    })
})


In [3]:
dataset["train"]["answers"][:5]

[{'answer_start': [515], 'text': ['Saint Bernadette Soubirous']},
 {'answer_start': [188], 'text': ['a copper statue of Christ']},
 {'answer_start': [279], 'text': ['the Main Building']},
 {'answer_start': [381], 'text': ['a Marian place of prayer and reflection']},
 {'answer_start': [92], 'text': ['a golden statue of the Virgin Mary']}]

In [4]:
def correct_indices_add_end_idx(answers, contexts):
    
    n_correct, n_fix = 0, 0
    new_answers = []
    for answer, context in zip(answers, contexts):

        gold_text = answer['text'][0]
        answer['text'] = gold_text
        start_idx = answer['answer_start'][0]
        answer['answer_start'] = start_idx
        end_idx = start_idx + len(gold_text)        
        
        # sometimes squad answers are off by a character or two – fix this
        if context[start_idx:end_idx] == gold_text:
            answer['answer_end'] = end_idx
            n_correct += 1
        elif context[start_idx-1:end_idx-1] == gold_text:
            answer['answer_start'] = start_idx - 1
            answer['answer_end'] = end_idx - 1     # When the gold label is off by one character
            n_fix += 1
        elif context[start_idx-2:end_idx-2] == gold_text:
            answer['answer_start'] = start_idx - 2
            answer['answer_end'] = end_idx - 2     # When the gold label is off by two characters
            n_fix +=1
        
        
    print("\t{}/{} examples had the correct answer indices".format(n_correct, len(answers)))
    print("\t{}/{} examples had the wrong answer indices".format(n_fix, len(answers)))
    return answers, contexts

train_questions = dataset["train"]["question"]
print("Training data corrections")
train_answers, train_contexts = correct_indices_add_end_idx(dataset["train"]["answers"], dataset["train"]["context"])
test_questions = dataset["validation"]["question"]
print("\nValidation data correction")
test_answers, test_contexts = correct_indices_add_end_idx(dataset["validation"]["answers"], dataset["validation"]["context"])

Training data corrections
	87341/87599 examples had the correct answer indices
	258/87599 examples had the wrong answer indices

Validation data correction
	10565/10570 examples had the correct answer indices
	5/10570 examples had the wrong answer indices


In [5]:
print(len(train_questions))

87599


In [6]:
from transformers import DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')

In [7]:
context = "This is the context"
question = "This is the question"

token_ids = tokenizer(context, question, return_tensors='tf')
print(token_ids)
print(tokenizer.convert_ids_to_tokens(token_ids['input_ids'].numpy()[0]))

{'input_ids': <tf.Tensor: shape=(1, 11), dtype=int32, numpy=
array([[ 101, 2023, 2003, 1996, 6123,  102, 2023, 2003, 1996, 3160,  102]],
      dtype=int32)>, 'attention_mask': <tf.Tensor: shape=(1, 11), dtype=int32, numpy=array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int32)>}
['[CLS]', 'this', 'is', 'the', 'context', '[SEP]', 'this', 'is', 'the', 'question', '[SEP]']


In [8]:
train_encodings = tokenizer(train_contexts, train_questions, truncation=True, padding=True)
print(len(train_encodings["input_ids"]))
test_encodings = tokenizer(test_contexts, test_questions, truncation=True, padding=True)
print(len(test_encodings["input_ids"]))


87599
10570


In [9]:
type(train_encodings)

transformers.tokenization_utils_base.BatchEncoding

In [10]:
def add_token_positions(encodings, answers):
    start_positions = []
    end_positions = []
    for i in range(len(answers)):
        print(answers[i]['answer_start'])
        start_positions.append(encodings.char_to_token(i, answers[i]['answer_start']))
        end_positions.append(encodings.char_to_token(i, answers[i]['answer_end'] - 1))

        # if start position is None, the answer passage has been truncated
        if start_positions[-1] is None:
            start_positions[-1] = tokenizer.model_max_length
        if end_positions[-1] is None:
            end_positions[-1] = tokenizer.model_max_length

    encodings.update({'start_positions': start_positions, 'end_positions': end_positions})

add_token_positions(train_encodings, train_answers)
add_token_positions(test_encodings, test_answers)

515
188
279
381
92
248
441
598
126
908
119
145
234
356
675
487
46
126
271
155
496
68
155
647
358
624
1163
92
757
4
466
303
377
360
136
145
188
344
394
109
138
213
488
618
32
362
565
155
918
0
353
406
638
85
3
136
123
222
49
0
963
1049
1099
86
0
68
233
4
80
118
427
753
891
71
196
1446
1588
49
6
136
350
32
368
73
197
331
1237
251
702
90
228
385
862
244
595
8
66
430
117
204
354
251
274
297
571
1193
819
842
11
11
292
321
587
428
522
720
4
575
37
181
262
82
439
82
625
921
1199
141
64
314
403
576
191
6
68
138
488
596
162
202
349
474
730
56
73
157
284
535
120
336
398
613
1755
142
471
596
750
198
289
535
210
0
85
122
221
424
78
60
134
242
275
4
159
179
325
624
388
405
538
654
0
162
212
478
519
4
92
220
287
327
62
149
214
372
454
140
294
494
557
887
3
34
111
290
336
51
359
495
516
453
24
40
128
440
42
169
401
249
367
82
293
889
959
384
239
382
674
1223
1398
50
223
392
420
657
74
142
509
715
441
0
362
457
506
562
166
245
594
480
424
30
59
119
154
850
222
173
149
411
677
267
344
513
410
40
185
27

23
400
680
802
187
802
654
678
389
729
389
654
507
695
120
120
515
1373
2118
2982
0
201
252
201
35
257
234
46
46
4
31
206
4
73
171
108
206
407
319
601
20
180
224
319
61
99
205
298
708
99
131
153
205
272
74
317
348
34
317
341
101
139
323
613
101
267
376
577
233
840
172
292
353
684
1290
122
426
128
165
180
348
460
423
95
124
461
335
736
0
90
421
0
210
326
245
424
26
45
90
138
45
5
143
45
123
185
371
456
45
329
626
703
737
71
4
329
329
415
20
193
308
320
691
215
320
596
778
10
137
375
398
35
145
292
375
423
0
156
379
485
0
98
156
253
474
105
125
214
65
105
125
41
40
138
291
63
171
237
390
384
27
278
27
109
129
200
288
44
88
170
95
48
470
834
813
13
94
327
432
4
94
185
269
432
55
85
113
154
270
85
55
113
154
338
30
71
126
133
224
30
120
133
224
395
122
292
338
72
145
376
603
31
111
153
176
155
72
111
153
176
300
81
300
418
450
300
140
418
450
617
29
103
208
104
20
103
208
268
0
22
265
270
36
118
195
68
146
197
27
72
230
312
387
579
143
60
141
220
14
431
101
240
421
457
1123
24
157
232
294


637
164
54
164
231
456
637
86
248
78
248
126
492
0
437
0
492
437
0
94
46
135
329
0
46
135
94
46
97
251
158
97
158
49
251
38
117
117
26
117
117
141
117
278
406
141
117
278
406
219
346
434
20
111
206
67
346
121
121
156
47
11
178
7
181
135
13
3
13
135
284
0
171
0
21
171
0
0
0
0
153
0
231
322
17
93
168
3
17
93
168
48
54
48
54
41
87
29
87
9
227
176
295
9
9
87
176
227
295
26
90
246
26
186
246
29
92
7
7
29
92
37
254
332
0
0
25
98
254
332
363
262
230
39
107
202
262
355
38
328
270
26
328
104
270
153
124
267
78
78
267
124
0
163
279
346
507
33
114
237
346
507
39
39
78
39
256
0
329
256
321
38
258
62
26
26
44
258
64
341
228
289
404
50
64
228
293
352
11
154
41
41
274
11
41
154
23
23
328
260
23
192
260
353
54
93
54
93
167
190
37
88
161
25
133
88
161
0
300
59
0
135
169
300
322
0
45
160
303
0
160
21
10
21
143
31
239
98
35
239
291
50
7
424
288
378
38
378
144
424
0
114
114
35
114
52
170
184
184
52
170
184
273
190
0
229
0
229
79
49
255
322
491
128
49
474
35
137
154
23
154
182
233
9
185
224
9
9
40
0
0
229


71
0
0
148
228
313
112
133
364
68
105
68
751
466
74
263
422
160
190
179
349
426
474
598
49
196
346
48
209
245
290
209
316
622
727
913
159
360
440
598
69
49
27
432
214
43
86
194
223
101
277
396
38
103
53
258
330
503
16
288
364
625
684
3
199
67
144
98
147
266
128
384
529
322
44
117
361
470
852
349
553
593
42
72
290
53
236
88
296
243
354
529
559
3
217
134
671
40
97
190
3
95
57
148
38
159
333
158
311
190
70
88
16
95
7
267
51
138
497
92
1098
497
5
112
477
81
228
135
290
43
1027
131
2155
942
1155
11
240
383
794
21
592
178
750
804
648
459
944
1025
67
212
639
398
200
62
174
86
186
128
27
254
155
45
298
159
32
134
176
227
312
171
64
202
192
230
346
128
635
635
111
29
256
361
121
194
362
530
750
138
599
371
583
154
178
446
91
472
0
108
530
452
81
163
445
27
962
121
38
212
575
715
195
228
3
474
488
714
736
277
36
184
245
213
43
206
112
549
103
325
496
428
694
48
259
378
402
103
52
564
53
0
805
1094
156
25
182
156
811
60
87
143
132
313
220
181
462
311
31
461
528
655
324
3
178
585
99
716
443
171
14

105
132
391
150
384
187
273
0
136
270
35
109
142
161
193
67
4
370
411
540
261
129
113
198
261
242
90
196
464
415
325
81
229
394
463
764
52
543
602
803
56
185
209
314
653
0
88
0
167
238
31
202
466
66
5
97
228
202
389
59
141
264
289
383
11
48
195
439
540
25
23
484
513
527
148
202
242
288
96
43
352
225
247
407
59
118
198
245
301
3
79
163
200
26
102
144
97
156
190
226
371
76
108
230
21
90
129
140
183
3
106
117
3
72
100
111
220
3
55
67
239
452
108
270
307
722
856
12
74
120
183
267
82
127
178
360
449
48
21
128
88
227
95
194
199
9
41
73
181
277
287
13
71
26
28
157
158
265
219
33
193
263
617
412
43
164
355
522
387
41
53
278
278
426
9
186
244
115
49
191
299
331
33
139
218
277
405
53
167
225
359
428
121
3
181
309
435
480
75
48
146
3
471
501
548
80
113
157
198
3
65
3
79
194
257
144
49
4
0
124
248
606
628
6
65
43
170
233
123
151
24
391
489
98
24
152
196
64
59
150
104
4
79
116
174
240
282
0
139
242
310
473
83
121
197
73
128
224
232
166
79
203
306
337
406
51
369
286
330
88
118
199
366
463
69
215
126

363
0
44
145
371
193
52
95
164
371
489
3
20
351
1007
1112
17
146
206
257
432
121
158
255
315
584
0
74
197
254
373
0
34
156
175
314
109
179
39
14
4
143
229
249
364
163
195
540
667
87
144
204
505
518
288
684
747
35
339
229
299
461
126
208
72
328
371
4
151
178
356
61
0
18
98
157
33
121
137
183
298
21
177
167
82
75
148
184
395
304
23
51
284
447
339
260
344
366
395
430
118
154
339
405
446
20
3
121
148
24
105
146
293
247
40
93
268
111
364
39
104
205
284
360
33
96
210
276
48
112
121
348
395
60
197
305
520
566
67
80
136
372
598
159
186
254
299
678
0
83
127
11
131
182
239
2
72
169
19
74
237
515
580
626
140
429
609
719
468
57
193
506
622
886
129
168
256
316
37
71
53
117
233
10
85
153
258
220
39
191
205
302
397
59
133
164
253
111
87
228
249
365
413
0
114
241
392
226
62
190
253
106
240
30
81
209
385
591
199
187
324
378
123
27
93
55
256
264
288
273
51
176
354
521
614
61
133
202
77
120
29
105
162
18
65
239
44
387
63
236
272
494
413
25
58
118
190
65
104
180
309
221
59
77
120
254
127
431
838
1098
30
1

53
130
608
672
723
30
71
128
313
219
91
176
241
343
515
547
829
923
1198
1232
80
133
387
502
573
895
652
1018
1280
1396
61
129
654
803
813
41
57
86
183
528
3
142
237
438
424
148
174
129
245
329
234
389
413
528
175
94
108
225
590
532
53
142
253
702
523
65
205
311
30
448
55
260
428
651
824
204
175
223
398
414
510
32
769
1023
115
467
401
296
207
4
366
340
86
436
259
491
447
228
110
270
0
73
156
360
300
0
146
197
377
194
436
529
584
636
3
109
13
555
393
367
39
109
149
343
375
289
279
343
511
640
62
39
113
4
242
87
141
245
62
81
187
163
487
99
248
293
355
782
23
48
122
320
161
173
224
214
191
314
140
556
538
547
103
46
100
188
215
331
480
151
264
337
440
771
222
135
508
537
619
14
267
516
623
404
0
132
213
464
79
61
48
107
464
1041
46
83
178
384
234
95
144
119
205
147
128
178
65
181
485
563
660
55
134
247
60
200
148
91
118
110
371
358
258
307
320
389
8
55
94
372
334
7
78
325
336
414
162
348
545
595
752
78
109
66
280
141
174
209
234
263
500
382
141
62
83
197
242
340
42
139
388
307
211
83
142

539
33
0
139
349
686
210
1132
722
0
919
19
591
261
327
239
78
186
231
457
513
49
202
392
451
639
18
333
734
973
1176
483
666
181
823
280
251
481
517
550
818
51
335
512
123
255
291
701
918
58
270
316
377
420
44
127
183
200
417
67
139
322
625
755
81
228
528
677
427
0
424
165
566
603
168
405
0
450
162
305
583
21
52
48
88
407
627
733
123
313
221
415
0
110
491
710
553
131
494
466
0
147
183
250
360
717
75
401
751
228
46
115
245
209
468
209
0
153
488
338
72
0
161
516
683
303
531
33
0
457
0
0
246
751
478
433
686
887
592
83
438
9
516
421
173
289
21
327
419
578
630
84
565
0
0
99
195
469
300
57
57
257
620
640
99
64
351
688
553
3
151
611
96
435
3
810
1002
259
509
481
683
866
608
185
3
848
647
188
266
554
613
530
42
102
552
645
7
44
198
443
227
617
108
142
34
443
23
64
438
589
404
438
159
182
3
233
593
749
342
128
295
514
82
0
0
407
748
264
14
137
414
318
450
18
137
210
349
503
179
622
52
727
749
0
185
212
478
777
164
98
205
474
554
0
847
675
559
742
151
200
356
387
397
84
182
352
563
859
833
436
4

86
114
183
589
665
54
122
208
246
337
32
355
405
739
438
0
143
288
510
528
35
97
148
388
802
64
362
564
655
796
71
144
156
334
825
3
97
144
345
690
240
62
325
325
215
384
415
255
782
829
1056
54
0
463
786
833
981
105
163
242
242
50
19
559
281
375
235
0
522
56
94
278
334
68
334
665
975
657
80
420
15
130
344
344
0
80
191
275
335
484
0
148
117
570
725
47
99
145
269
777
340
404
328
139
384
77
420
565
32
120
180
228
190
411
1833
357
855
1050
46
62
809
998
1168
219
105
296
191
402
174
253
321
647
1206
100
564
892
892
27
310
222
174
457
756
284
18
837
891
110
543
871
1209
1756
125
581
432
50
332
852
2330
1786
1916
61
337
430
520
896
562
636
643
1324
1387
554
213
420
134
267
528
397
130
367
987
1408
142
487
563
31
89
501
520
576
172
343
1157
954
531
248
822
436
877
913
1084
806
302
390
962
782
765
797
280
197
143
502
1352
1565
228
670
379
613
959
862
1017
362
161
688
170
19
207
223
278
517
18
45
203
818
93
329
238
365
566
288
433
673
673
822
124
464
257
625
667
49
614
658
0
11
22
317
383
72
13

703
318
554
16
315
553
714
1101
197
59
269
340
641
60
180
211
347
426
209
266
372
392
5
22
36
68
131
222
46
110
389
537
603
121
238
328
670
572
234
254
502
322
353
3
138
181
378
505
113
187
466
1344
1794
57
3
318
524
674
35
4
23
642
930
88
16
486
319
433
98
125
160
543
774
3
213
297
649
859
43
131
283
240
460
89
146
286
317
353
117
557
821
880
970
65
106
150
282
443
146
405
435
536
728
49
24
171
403
490
25
106
130
251
349
263
471
535
556
767
123
183
338
569
0
123
329
569
0
183
0
66
329
497
172
144
205
401
881
283
112
321
526
896
881
126
172
203
309
247
126
302
406
230
127
158
277
380
0
158
273
201
251
306
342
325
0
201
241
420
459
46
297
455
878
49
269
747
878
45
169
344
430
45
130
351
420
900
972
1162
270
281
806
1067
900
75
125
223
440
511
60
205
401
467
0
131
266
340
449
0
136
201
449
0
293
573
620
0
72
302
419
95
422
743
1205
1448
793
1204
1332
131
1469
22
361
110
620
73
101
257
301
620
0
193
316
858
3
241
520
1222
1098
46
223
399
474
4
63
162
330
473
110
222
268
677
764
51
114
307

208
667
48
337
20
0
361
449
40
311
375
60
603
751
91
319
479
236
466
739
45
154
560
106
331
524
0
295
569
159
387
800
116
400
592
48
89
162
3
56
239
0
485
866
935
802
232
147
802
1102
1185
915
1185
1090
124
232
269
849
1185
212
115
978
1376
165
207
207
109
165
44
970
1376
308
349
409
436
427
472
349
222
436
272
368
686
37
708
37
272
335
686
743
156
504
251
531
419
431
533
629
476
105
248
297
473
297
127
274
314
357
519
110
0
154
297
466
53
104
562
727
838
92
92
124
330
511
66
134
303
542
308
243
455
554
651
646
28
70
338
256
296
174
238
274
523
553
27
156
808
1017
1032
158
173
133
260
492
296
456
529
651
989
129
419
373
16
240
93
128
164
454
632
575
297
690
538
533
176
313
732
27
92
47
0
0
264
331
3
215
251
233
548
187
587
700
47
277
129
367
422
562
741
16
100
518
247
784
126
227
246
874
1045
84
416
779
353
195
0
169
180
240
469
206
587
1132
725
587
333
393
406
449
470
57
113
122
296
443
70
546
726
1029
1229
64
658
686
1230
1600
52
192
402
611
893
46
157
742
919
1066
0
176
271
398
430


437
372
297
172
467
216
410
615
555
197
81
683
335
400
53
689
798
148
109
148
314
96
282
345
559
966
11
42
239
785
353
11
395
447
209
451
438
154
239
457
123
188
271
351
411
35
293
556
251
271
386
620
39
322
409
524
351
12
77
122
143
442
150
306
476
496
38
198
138
0
231
301
393
552
96
150
257
730
670
11
66
196
302
102
146
10
429
484
140
160
216
303
419
16
159
214
392
501
35
114
446
467
524
82
541
372
277
69
89
222
58
92
176
316
563
500
456
385
236
317
438
290
425
534
564
584
68
230
553
628
689
34
78
263
683
68
148
299
564
751
0
189
259
428
329
113
252
324
675
62
425
182
693
9
346
433
576
93
175
361
786
66
371
516
545
692
66
250
343
57
75
283
376
210
544
754
800
901
11
108
221
336
495
72
499
39
240
64
47
71
127
193
346
329
0
200
299
481
82
169
523
546
35
88
106
177
359
4
383
620
664
690
25
46
421
341
0
100
313
773
23
276
528
40
247
415
27
158
695
142
200
510
4
333
4
0
333
405
50
376
503
150
470
657
774
51
100
132
182
494
40
73
83
229
513
42
169
329
486
526
172
193
248
463
539
183
231
27

133
474
357
629
25
152
295
253
542
57
309
368
549
216
69
207
485
693
837
0
280
448
509
105
135
314
518
263
72
296
131
343
46
901
1012
1300
1126
111
213
650
839
37
248
599
743
835
923
130
332
176
619
933
57
223
85
359
640
0
80
310
192
398
177
320
406
459
538
41
132
969
577
193
80
256
502
776
349
557
714
870
1249
132
208
318
610
714
17
198
450
499
110
156
788
970
175
202
306
825
9
65
408
682
210
0
65
548
301
0
8
62
181
28
422
71
128
292
446
498
12
134
350
481
712
20
217
258
302
427
42
198
97
392
22
113
234
632
47
111
123
304
350
3
117
185
421
505
100
168
227
298
366
66
94
125
386
217
32
112
161
446
477
88
168
215
461
651
46
167
415
616
777
36
105
304
212
349
0
112
429
686
738
3
105
484
757
1064
3
445
591
816
1059
19
137
406
562
531
0
218
135
513
351
56
150
3
589
1418
3
93
152
417
609
11
176
428
679
806
50
134
552
483
57
396
782
822
1325
32
47
129
372
67
173
328
384
647
4
191
276
313
465
37
111
221
231
926
17
328
134
246
475
28
148
448
584
132
410
90
945
1147
223
283
683
734
770
40
258
37

106
188
546
399
201
146
3
130
496
97
1115
802
92
127
642
87
575
34
39
288
218
155
130
257
446
26
142
257
538
569
861
140
98
248
518
1356
3
54
870
800
741
564
648
1046
1497
58
196
524
277
89
145
570
665
792
60
85
142
155
103
117
317
413
613
0
84
75
258
75
44
114
183
712
776
18
230
419
712
741
202
546
700
1395
676
702
236
15
97
119
461
712
585
31
237
265
711
872
300
220
375
519
32
190
593
612
149
411
3
236
664
822
874
35
64
307
595
95
145
181
470
335
109
142
450
599
590
140
193
372
454
341
20
228
753
822
1066
95
291
339
563
974
17
106
235
599
785
14
244
624
624
392
153
321
343
670
157
213
294
363
436
555
150
300
431
48
70
226
370
442
0
127
174
323
442
438
309
40
378
627
151
263
497
547
659
212
358
438
454
594
64
156
187
288
494
123
234
271
285
391
28
50
83
427
453
199
330
268
499
559
41
194
392
408
521
69
165
463
363
450
57
192
346
448
297
64
298
433
381
259
40
175
248
405
546
53
170
528
334
101
91
357
448
543
20
186
386
303
535
0
177
234
441
711
38
126
266
506
306
103
218
108
287
830
9


706
992
174
618
723
787
3
196
361
463
614
64
112
170
361
1067
90
257
278
489
571
188
859
567
0
213
254
419
519
0
98
250
339
429
32
69
229
458
244
527
724
810
994
8
237
308
602
981
30
252
277
586
675
0
71
231
635
849
167
279
333
391
87
188
230
356
564
178
331
500
1002
869
54
318
404
470
582
19
117
223
435
517
176
203
524
823
1078
74
266
380
868
965
48
404
444
60
278
430
502
147
616
160
5
111
330
365
499
0
96
242
702
783
40
0
153
240
340
62
357
391
517
555
297
418
521
871
61
95
191
385
430
145
198
393
736
44
116
292
496
67
133
327
380
521
0
424
546
89
241
433
519
740
90
236
473
65
317
479
111
315
516
139
219
502
625
226
184
283
327
78
78
184
226
565
283
413
430
143
318
48
216
336
413
430
57
130
244
453
507
101
0
362
549
1051
11
136
208
371
612
255
476
334
153
36
125
198
349
389
575
0
211
267
478
571
62
237
417
741
998
79
140
261
333
560
24
101
197
432
504
28
338
23
440
762
0
83
193
249
523
87
102
251
497
717
83
127
366
614
878
62
88
265
358
423
15
70
322
597
396
108
164
349
463
472
19
23

885
1664
1137
1147
668
738
447
819
690
593
12
76
466
347
447
211
365
486
608
357
738
1180
954
1031
94
305
416
556
587
98
199
468
909
126
77
250
599
695
69
370
703
186
212
492
265
367
160
279
611
223
42
54
251
419
766
548
0
470
522
128
377
59
221
245
494
90
275
650
202
65
135
384
999
1561
1916
157
39
332
457
529
324
565
746
822
517
59
219
819
586
25
251
540
880
205
31
292
141
181
242
184
33
348
386
224
118
324
390
420
573
144
357
464
528
31
572
669
276
46
261
149
552
453
24
78
230
405
97
155
221
239
448
621
104
47
235
432
582
340
8
443
487
616
23
77
98
624
562
91
8
521
840
1300
50
82
197
500
717
361
199
317
646
685
58
96
218
364
469
127
250
456
440
389
24
114
266
543
16
124
298
705
935
177
399
435
512
773
447
105
71
315
69
166
182
495
29
213
320
482
533
370
423
248
0
56
176
262
339
194
373
881
569
74
150
319
464
595
148
43
81
351
217
63
48
137
282
28
39
351
645
673
156
248
488
435
172
384
441
566
222
123
130
9
316
55
82
416
673
934
55
114
266
558
614
79
462
129
829
614
38
235
503
548
33

189
425
756
42
200
451
439
0
90
102
462
849
0
130
282
558
0
79
262
321
487
31
224
371
18
260
446
833
742
13
254
546
955
158
240
472
1068
518
50
393
515
558
48
109
212
523
794
82
497
592
663
0
373
474
1109
156
998
451
487
806
91
74
428
530
646
48
247
171
320
390
334
368
548
83
188
329
753
0
109
131
173
313
55
103
304
614
483
326
633
393
145
37
211
590
882
619
0
120
413
471
110
618
750
67
187
36
56
303
420
667
256
438
216
145
68
253
310
648
555
353
52
163
533
361
0
327
372
394
441
228
491
122
75
256
45
215
278
338
513
32
192
239
275
401
54
365
441
502
4
459
168
266
10
954
324
333
372
344
181
50
378
640
539
262
9
324
136
477
613
499
168
271
15
270
207
406
340
136
315
459
47
359
410
212
338
57
148
222
257
457
499
415
0
334
91
304
338
431
108
376
70
203
439
491
563
185
144
290
21
119
189
418
519
819
1210
928
1019
30
78
111
165
568
113
324
0
271
381
0
114
319
384
536
0
152
627
822
42
137
106
151
243
104
362
453
372
13
154
249
525
767
584
91
122
175
333
352
69
290
183
210
45
182
340
652
17
30

770
952
344
405
604
201
52
360
539
758
338
780
66
546
41
305
595
595
134
134
599
24
233
296
525
55
48
277
376
232
285
351
276
400
283
321
321
432
22
22
234
124
204
682
616
226
377
514
0
35
85
95
104
159
242
73
32
314
213
603
669
0
44
567
223
94
889
721
366
1070
973
1157
23
38
192
218
650
61
102
248
402
509
35
67
329
0
517
372
26
49
0
319
0
25
130
107
12
156
216
366
0
169
71
124
5
298
138
138
129
214
156
462
102
213
245
24
113
622
108
22
399
450
450
450
21
114
340
0
0
1089
47
748
748
183
307
438
386
647
706
736
537
861
972
153
287
414
423
0
267
0
193
493
509
285
404
540
49
0
43
5
159
179
363
89
403
846
973
2201
3
184
231
477
333
19
210
406
478
622
45
261
197
312
514
18
331
591
728
792
52
327
570
133
66
254
365
535
86
26
120
617
558
927
20
108
115
172
462
26
192
287
389
451
31
238
420
604
734
29
48
500
714
309
120
292
266
88
363
49
495
83
140
528
43
154
254
116
427
27
53
275
415
513
174
417
259
633
878
73
295
619
918
1603
62
690
631
815
447
29
218
360
425
51
186
486
614
91
178
344
478
61

549
562
71
301
507
95
49
236
287
451
532
27
91
533
359
609
52
34
365
524
54
436
581
651
150
201
246
394
342
300
455
493
624
24
24
110
247
713
601
107
374
392
462
481
286
336
485
716
942
33
191
507
548
263
76
375
444
328
103
149
362
563
834
67
121
320
526
641
276
124
561
669
772
128
367
638
749
0
226
513
1229
44
111
496
914
409
80
283
220
767
812
83
100
302
510
131
181
503
612
346
79
470
9
9
210
321
371
159
373
395
597
855
1028
181
21
373
511
90
184
370
565
474
77
128
240
399
466
67
300
405
129
103
157
279
383
112
302
544
656
58
43
320
991
357
368
141
206
329
455
570
168
321
459
509
142
317
387
593
623
981
72
237
448
520
112
307
520
656
883
277
422
786
372
8
126
387
622
352
271
285
458
847
508
50
346
397
50
4
88
426
683
4
225
354
476
318
167
41
70
179
118
206
711
733
593
28
148
205
518
386
15
61
614
789
310
101
0
180
551
726
39
81
191
313
882
39
58
191
732
858
247
326
1078
883
137
171
247
732
883
42
380
493
627
1006
39
190
322
627
1006
106
375
669
95
54
95
320
357
775
41
227
412
550
88


720
1111
178
253
760
434
556
0
128
208
490
665
81
189
236
363
436
16
0
170
202
243
4
78
167
345
477
0
54
134
360
546
4
326
173
429
497
13
195
597
681
609
13
110
181
551
616
151
201
265
379
483
144
202
311
583
136
192
225
517
685
118
210
409
639
989
14
53
395
892
1007
66
194
308
445
561
66
120
405
577
95
286
212
178
419
151
351
471
568
129
280
329
473
21
351
316
1292
1472
136
284
1071
733
21
190
369
430
676
141
186
226
748
1601
4
193
277
642
1122
7
133
268
372
577
139
188
188
526
44
247
374
449
4
219
219
332
311
18
201
310
461
21
76
159
302
437
60
142
350
396
456
68
273
351
476
614
0
70
190
260
434
16
28
115
159
406
72
236
263
504
652
15
353
227
688
70
204
472
550
642
95
234
319
656
35
243
330
500
447
123
179
795
309
46
206
391
428
567
227
172
309
365
4
183
149
364
334
434
554
601
402
147
4
452
309
85
167
227
94
504
48
308
367
535
478
69
222
135
217
546
418
217
248
627
440
80
596
304
96
77
276
522
772
1033
79
757
33
544
195
286
208
834
935
197
711
603
36
344
384
676
57
200
558
400
503
3

134
644
840
0
81
350
410
442
84
182
271
435
388
0
48
85
598
36
75
134
149
187
67
400
554
400
341
400
554
750
719
151
400
605
483
174
193
483
626
254
191
0
75
226
316
622
242
117
325
516
782
103
150
289
349
428
78
162
382
464
143
208
440
42
93
246
343
484
10
78
88
120
236
0
269
788
433
269
76
842
228
65
228
336
726
80
365
688
827
971
51
421
487
106
139
179
214
276
201
85
300
408
201
4
108
249
303
268
177
347
280
431
3
82
210
252
234
151
0
366
244
165
154
319
73
217
469
349
137
217
98
202
270
309
530
52
177
251
309
352
0
291
480
620
1643
70
52
156
213
528
0
177
378
491
90
173
491
130
617
719
794
973
124
206
225
376
569
0
279
336
454
573
46
124
195
323
383
0
122
351
474
447
61
202
160
418
494
257
343
458
587
348
511
602
0
445
752
377
318
85
214
495
264
203
504
798
69
225
504
790
873
0
574
295
694
162
240
283
532
650
0
279
442
894
670
311
311
578
911
939
358
0
187
475
573
56
269
345
361
478
0
246
455
571
121
331
495
646
98
208
345
598
0
39
102
328
460
711
0
333
594
516
684
333
333
389
409


691
36
936
691
1075
133
19
254
339
637
0
136
110
365
512
61
128
163
111
741
37
322
307
391
530
107
132
356
489
435
4
336
368
404
541
21
98
185
219
291
93
176
272
380
420
81
67
105
317
521
0
122
175
1109
100
139
390
3
145
373
74
88
292
462
488
537
388
506
217
137
83
129
158
6
181
382
283
657
10
186
413
331
64
199
322
521
630
20
129
751
879
54
128
221
460
61
209
484
561
683
84
448
644
938
1000
121
26
319
392
449
6
450
188
517
1031
263
104
0
328
348
55
39
84
114
126
85
115
158
371
205
66
255
549
596
620
44
100
257
350
428
4
135
251
494
86
135
269
516
627
30
418
531
570
87
194
488
521
1094
238
16
470
6
76
208
456
27
152
514
73
66
74
189
145
213
202
260
288
345
79
93
207
657
196
478
392
506
540
96
224
278
305
362
279
96
224
308
365
51
353
268
325
410
87
131
210
824
945
1214
1172
910
1091
36
218
147
254
419
207
344
802
79
412
163
4
47
47
823
90
84
63
219
472
67
121
153
185
217
192
237
200
437
244
84
330
261
310
561
54
167
319
396
358
54
132
432
388
580
185
443
708
38
290
312
380
491
231
315


200
347
483
79
583
284
95
353
595
121
259
429
200
239
358
0
165
424
538
81
144
287
491
209
577
555
586
831
56
105
299
356
383
151
261
92
170
117
207
346
0
218
387
402
705
3
96
107
295
826
872
877
901
302
607
0
438
291
130
155
231
281
412
59
105
202
463
246
177
319
333
288
345
129
211
346
405
533
137
240
290
543
818
85
133
594
619
773
233
334
10
445
47
34
254
254
708
39
51
445
250
333
638
572
0
99
251
306
330
384
234
535
188
17
254
505
575
711
331
1254
1440
1701
0
375
320
415
486
0
200
401
431
462
97
151
196
283
504
25
117
185
397
457
39
141
230
328
451
3
59
85
783
427
0
101
326
140
478
79
95
205
485
347
65
368
43
720
854
305
116
370
217
493
3
117
516
706
5
52
341
309
611
0
117
238
471
610
96
250
324
379
570
357
87
494
255
662
34
143
235
302
922
22
87
431
695
785
0
135
468
611
699
63
143
382
567
1088
0
168
440
789
1123
33
288
337
550
702
23
164
308
480
706
50
108
284
352
513
123
318
451
647
1527
563
144
239
388
98
779
953
191
268
43
47
203
238
467
806
11
99
228
488
37
220
320
1242
825
1

204
30
187
34
11
148
284
217
0
175
133
46
176
305
440
615
59
59
161
86
187
237
402
67
93
190
400
520
43
131
195
349
411
0
179
212
179
179
67
167
339
22
52
0
277
142
95
284
82
199
388
484
551
347
24
156
183
320
0
427
924
117
0
91
130
398
375
49
330
108
125
248
273
382
110
76
402
468
261
695
873
85
106
170
248
194
194
4
121
91
154
26
155
251
178
399
123
434
676
52
80
281
177
16
90
40
122
218
318
398
597
65
52
15
43
150
209
234
357
113
220
369
472
714
4
186
268
59
122
350
469
511
38
207
109
364
392
315
121
241
503
244
244
513
244
21
167
211
361
472
227
365
595
16
134
164
0
217
381
424
637
0
224
323
641
34
102
269
403
22
115
167
298
30
101
162
206
237
158
673
605
219
276
399
455
539
110
230
211
245
319
137
187
224
265
224
102
215
233
98
104
9
129
433
502
619
328
246
531
66
32
91
101
187
171
59
19
134
204
14
109
133
0
75
155
290
96
155
193
240
150
92
166
218
239
114
307
177
211
21
21
21
123
200
73
23
58
247
555
572
627
74
142
300
229
102
89
758
921
902
1046
96
249
315
48
566
68
165
537
412


28
64
173
459
363
35
109
171
793
552
36
60
104
165
326
72
237
264
470
577
3
59
55
33
463
27
79
161
227
248
49
92
232
243
815
37
166
937
914
1189
132
537
1003
1062
10
93
110
338
311
366
122
258
551
801
51
30
47
75
232
774
3
33
157
698
71
263
431
136
316
47
104
127
233
396
73
145
200
438
224
932
1469
1540
1517
24
183
199
258
294
445
415
328
27
24
149
614
233
207
39
97
146
73
356
51
200
234
265
553
65
217
318
450
511
54
86
242
290
153
0
572
690
134
269
236
75
391
351
202
27
49
222
672
711
61
768
27
449
768
238
355
545
571
381
9
210
368
471
581
124
154
867
1051
959
32
371
592
733
872
693
153
0
960
93
402
717
803
1006
494
130
273
591
430
364
1030
897
517
494
367
64
476
44
621
6
158
452
350
538
95
337
707
53
243
1302
469
80
1357
1138
442
556
157
424
329
429
253
125
93
168
285
572
778
0
212
560
3
355
479
547
123
407
1028
975
212
4
336
4
3
298
644
707
74
319
409
100
78
935
464
1284
462
645
3
164
302
347
393
26
293
322
233
92
327
395
3
397
644
936
63
103
420
496
63
548
641
621
375
524
648
3
181

610
778
8
299
527
706
904
65
157
107
517
607
201
393
470
555
598
170
0
626
448
306
626
19
191
289
563
664
69
225
329
401
611
0
421
149
522
279
15
104
466
159
639
42
188
406
496
754
0
207
350
429
566
0
207
429
569
71
119
214
423
517
104
83
112
252
572
79
157
202
357
435
56
488
183
247
512
4
102
166
279
482
101
13
195
309
594
4
142
82
290
489
9
90
326
530
553
39
222
337
529
601
29
350
152
739
751
6
97
121
235
452
68
156
273
368
486
46
95
571
466
782
108
459
627
1003
694
0
83
239
269
342
29
69
91
273
461
35
160
338
509
598
681
232
182
124
892
95
128
262
220
587
0
188
335
476
615
3
186
429
870
1094
190
278
506
674
348
93
160
362
255
906
47
264
328
369
359
22
100
181
361
446
19
192
336
419
557
85
188
334
519
660
74
240
450
372
71
401
279
517
450
437
161
888
739
167
948
1349
1751
818
48
1222
392
1003
257
0
347
1061
845
1403
74
526
352
737
940
316
349
266
51
121
30
324
389
106
529
247
449
87
562
315
75
605
738
928
663
76
519
405
303
236
669
324
485
559
448
0
687
510
991
765
48
137
299
446
561

In [26]:
import tensorflow as tf

train_dataset = tf.data.Dataset.from_tensor_slices((
    {key: train_encodings[key][:20000] for key in ['input_ids', 'attention_mask']},
    {key: train_encodings[key][:20000] for key in ['start_positions', 'end_positions']}
))

train_dataset = train_dataset.shuffle(1000)

valid_dataset = train_dataset.take(10000)
valid_dataset = train_dataset.map(lambda x, y: (x, (y['start_positions'], y['end_positions'])))
valid_dataset = valid_dataset.batch(16)

train_dataset = train_dataset.skip(10000)
train_dataset = train_dataset.map(lambda x, y: (x, (y['start_positions'], y['end_positions'])))
train_dataset = train_dataset.batch(16)

test_dataset = tf.data.Dataset.from_tensor_slices((
    {key: test_encodings[key] for key in ['input_ids', 'attention_mask']},
    {key: test_encodings[key] for key in ['start_positions', 'end_positions']}
))
test_dataset = test_dataset.map(lambda x, y: (x, (y['start_positions'], y['end_positions'])))
test_dataset = test_dataset.batch(16)


In [22]:
small_x, small_y = [],[]
for x,y in valid_dataset.take(1):
    small_x = (x['input_ids'], x['attention_mask'])
    small_y = y
    
print()




In [35]:
from transformers import TFBertForQuestionAnswering

#config = DistilBertConfig.from_pretrained("distilbert-base-uncased", return_dict=False)
model = TFBertForQuestionAnswering.from_pretrained("bert-base-uncased")#, config=config)

# Keras will assign a separate loss for each output and add them together. So we'll just use the standard CE loss
# instead of using the built-in model.compute_loss, which expects a dict of outputs and averages the two terms.
# Note that this means the loss will be 2x of when using TFTrainer since we're adding instead of averaging them.
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metric = tf.keras.metrics.SparseCategoricalAccuracy()
#model.distilbert.return_dict = False # if using 🤗 Transformers >3.02, make sure outputs are tuples

optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
model.compile(optimizer=optimizer, loss=loss, metrics=[None]) # can also use any keras loss fn
model.fit(train_dataset, epochs=3)

All model checkpoint layers were used when initializing TFBertForQuestionAnswering.

Some layers of TFBertForQuestionAnswering were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['qa_outputs']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch 1/3


TypeError: in user code:

    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/training.py:805 train_function  *
        return step_function(self, iterator)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/training.py:795 step_function  **
        outputs = model.distribute_strategy.run(run_step, args=(data,))
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/distribute/distribute_lib.py:1259 run
        return self._extended.call_for_each_replica(fn, args=args, kwargs=kwargs)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/distribute/distribute_lib.py:2730 call_for_each_replica
        return self._call_for_each_replica(fn, args, kwargs)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/distribute/distribute_lib.py:3417 _call_for_each_replica
        return fn(*args, **kwargs)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/training.py:788 run_step  **
        outputs = model.train_step(data)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/training.py:758 train_step
        self.compiled_metrics.update_state(y, y_pred, sample_weight)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/compile_utils.py:387 update_state
        self.build(y_pred, y_true)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/keras/engine/compile_utils.py:318 build
        self._metrics, y_true, y_pred)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/util/nest.py:1163 map_structure_up_to
        **kwargs)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/util/nest.py:1245 map_structure_with_tuple_paths_up_to
        expand_composites=expand_composites)
    /home/thushv89/anaconda3/envs/manning.tf2/lib/python3.6/site-packages/tensorflow/python/util/nest.py:849 assert_shallow_structure
        shallow_type=type(shallow_tree)))

    TypeError: The two structures don't have the same sequence type. Input structure has type <class 'tuple'>, while shallow structure has type <class 'transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput'>.


In [33]:
from transformers import DistilBertConfig,TFDistilBertForQuestionAnswering
config = DistilBertConfig.from_pretrained("distilbert-base-uncased")#, return_dict=False)
#print(config)
#model = TFDistilBertForQuestionAnswering.from_pretrained("distilbert-base-uncased", config=config)
#model.distilbert.return_dict = False
print(model.distilbert.config)
print(model.distilbert.return_dict)
#model.distilbert.return_dict = False
#
y = model(small_x)

inp = tf.keras.layers.Input()
tf.keras.models.Model()

DistilBertConfig {
  "_name_or_path": "distilbert-base-uncased",
  "activation": "gelu",
  "architectures": [
    "DistilBertForMaskedLM"
  ],
  "attention_dropout": 0.1,
  "dim": 768,
  "dropout": 0.1,
  "hidden_dim": 3072,
  "initializer_range": 0.02,
  "max_position_embeddings": 512,
  "model_type": "distilbert",
  "n_heads": 12,
  "n_layers": 6,
  "pad_token_id": 0,
  "qa_dropout": 0.1,
  "return_dict": false,
  "seq_classif_dropout": 0.2,
  "sinusoidal_pos_embds": false,
  "tie_weights_": true,
  "transformers_version": "4.3.3",
  "vocab_size": 30522
}

False
TFQuestionAnsweringModelOutput(loss=None, start_logits=array([[-0.13234961,  0.13992603,  0.45321158, ..., -0.14213793,
        -0.07353254, -0.04290646],
       [-0.2659102 , -0.05684969,  0.25423315, ...,  0.01697906,
         0.03252614,  0.07651817],
       [-0.21573944,  0.2346316 , -0.03017157, ..., -0.0664077 ,
         0.05725618,  0.06844629],
       ...,
       [-0.0340183 ,  0.2821657 ,  0.37141207, ...,  0.0358705