In [1]:
import sys
import pandas as pd
import numpy as np
import torch

from transformers import AutoTokenizer

from matplotlib import pyplot as plt

pd.set_option("display.max_columns", 300)
pd.set_option("display.max_rows", 600)

%load_ext autoreload
%autoreload 2

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))
%config InlineBackend.figure_formats = {'png', 'retina'}

In [2]:
tokenizer = AutoTokenizer.from_pretrained("../data/dataset/deepset/xlm-roberta-base-squad2")

In [3]:
len("I have a pen. I have a apple. APPLE PEN.")

40

In [4]:
res = tokenizer.encode_plus(
    text="temp temp temp.",
    text_pair="I have a pen. I have a apple. APPLE PEN. temp temp temp temp temp temp temp temp temp temp.",
    padding="max_length",
    truncation="only_second",
    max_length=20,
    stride=3,
    return_overflowing_tokens=True,
    return_offsets_mapping=True
)

In [5]:
res

{'input_ids': [[0, 20805, 20805, 20805, 5, 2, 2, 87, 765, 10, 5551, 5, 87, 765, 10, 108787, 5, 66440, 15300, 2], [0, 20805, 20805, 20805, 5, 2, 2, 5, 66440, 15300, 43815, 5, 20805, 20805, 20805, 20805, 20805, 20805, 20805, 2], [0, 20805, 20805, 20805, 5, 2, 2, 20805, 20805, 20805, 20805, 20805, 20805, 5, 2, 1, 1, 1, 1, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]], 'offset_mapping': [[(0, 0), (0, 4), (4, 9), (9, 14), (14, 15), (0, 0), (0, 0), (0, 1), (1, 6), (6, 8), (8, 12), (12, 13), (13, 15), (15, 20), (20, 22), (22, 28), (28, 29), (29, 33), (33, 35), (0, 0)], [(0, 0), (0, 4), (4, 9), (9, 14), (14, 15), (0, 0), (0, 0), (28, 29), (29, 33), (33, 35), (35, 39), (39, 40), (40, 45), (45, 50), (50, 55), (55, 60), (60, 65), (65, 70), (70, 75), (0, 0)], [(0, 0), (0, 4), (4, 9), (9, 14), (14, 15), (0, 0), (0, 0), (60, 65), (65, 70)

In [7]:
len("I have a pen. I have a apple. APPLE PEN. temp temp temp temp temp temp temp temp temp temp.")

91

In [8]:
res["offset_mapping"]

[[(0, 0),
  (0, 4),
  (4, 9),
  (9, 14),
  (14, 15),
  (0, 0),
  (0, 0),
  (0, 1),
  (1, 6),
  (6, 8),
  (8, 12),
  (12, 13),
  (13, 15),
  (15, 20),
  (20, 22),
  (22, 28),
  (28, 29),
  (29, 33),
  (33, 35),
  (0, 0)],
 [(0, 0),
  (0, 4),
  (4, 9),
  (9, 14),
  (14, 15),
  (0, 0),
  (0, 0),
  (28, 29),
  (29, 33),
  (33, 35),
  (35, 39),
  (39, 40),
  (40, 45),
  (45, 50),
  (50, 55),
  (55, 60),
  (60, 65),
  (65, 70),
  (70, 75),
  (0, 0)],
 [(0, 0),
  (0, 4),
  (4, 9),
  (9, 14),
  (14, 15),
  (0, 0),
  (0, 0),
  (60, 65),
  (65, 70),
  (70, 75),
  (75, 80),
  (80, 85),
  (85, 90),
  (90, 91),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0)]]

## test の1つ目がキレイに offset できない？

In [6]:
tst_df = pd.read_csv("../data/origin/test.csv")
row = tst_df.iloc[0]
res = tokenizer.encode_plus(
    text=row["question"],
    text_pair=row["context"],
    padding="max_length",
    truncation="only_second",
    # max_length=20,
    max_length=200,
    stride=3,
    return_overflowing_tokens=True,
    return_offsets_mapping=True
)

In [8]:
# (0, 0) の後に (0, 2) が来てるやん...
res["offset_mapping"]

[[(0, 0),
  (0, 1),
  (0, 2),
  (2, 6),
  (6, 9),
  (9, 13),
  (13, 16),
  (16, 20),
  (20, 23),
  (23, 27),
  (27, 32),
  (32, 35),
  (0, 0),
  (0, 0),
  (0, 1),
  (0, 2),
  (2, 6),
  (6, 9),
  (9, 13),
  (13, 15),
  (15, 19),
  (19, 20),
  (20, 22),
  (22, 29),
  (29, 34),
  (34, 35),
  (35, 36),
  (36, 40),
  (40, 41),
  (41, 42),
  (42, 53),
  (53, 54),
  (54, 57),
  (57, 64),
  (64, 67),
  (67, 69),
  (69, 71),
  (71, 73),
  (73, 76),
  (76, 78),
  (78, 80),
  (80, 84),
  (84, 85),
  (87, 95),
  (95, 97),
  (97, 102),
  (103, 104),
  (104, 106),
  (106, 110),
  (110, 113),
  (113, 117),
  (117, 120),
  (120, 125),
  (125, 127),
  (127, 134),
  (134, 139),
  (139, 142),
  (142, 143),
  (143, 147),
  (147, 148),
  (148, 149),
  (149, 160),
  (160, 164),
  (164, 168),
  (168, 171),
  (171, 172),
  (172, 177),
  (177, 182),
  (182, 185),
  (185, 186),
  (186, 194),
  (194, 197),
  (197, 199),
  (199, 201),
  (201, 204),
  (204, 208),
  (208, 211),
  (211, 212),
  (212, 213),
  (213, 2

In [10]:
row["context"][0:1]

'ज'

In [11]:
row["context"][0:2]

'ज्'

In [12]:
len("मुम्बई")

6

In [13]:
"मुम्बई"[1:]

'ुम्बई'

In [14]:
"मुम्बई"[2:]

'म्बई'

In [15]:
"मुम्बई"[3:]

'्बई'

In [16]:
"मुम्बई"[4:]

'बई'

In [17]:
"मुम्बई"[5:]

'ई'

In [18]:
"मुम्बई"[6:]

''

In [22]:
len("मुंबई")

5

In [23]:
"मुंबई"[1:]

'ुंबई'

In [24]:
"मुंबई"[2:]

'ंबई'

In [25]:
"मुंबई"[3:]

'बई'

In [26]:
tokenizer.encode("मुंबई")

[0, 17360, 2]

In [27]:
tokenizer.encode("मुम्बई")

[0, 10141, 61441, 5278, 2]

## hindi and muril using XMLRoberta tokenizer

In [56]:
tokenizer = AutoTokenizer.from_pretrained("../data/dataset/deepset/xlm-roberta-base-squad2")

In [57]:
context = "என்பது சத்தோசி நகமோட்டோவால் உருவாக்கப்பட்ட"
question = "பிட்காயின் யாரால் உருவாக்கப்பட்டது?"

res = tokenizer.encode_plus(
    text=question,
    text_pair=context,
    padding="max_length",
    truncation="only_second",
    # max_length=20,
    max_length=200,
    stride=3,
    return_overflowing_tokens=True,
    return_offsets_mapping=True
)

In [58]:
for s, e in res["offset_mapping"][0][12:]:
    if e == 0:
        break
    print(f"({s}, {e}) => {context[s:e]}")

(0, 4) =>  15.
(4, 6) =>  இ
(6, 8) => டு
(8, 10) => ப்
(10, 12) => பெ
(12, 16) => லும்
(16, 18) => பு
(18, 20) =>  (
(20, 23) => ili
(23, 25) => um
(25, 26) => )
(26, 34) =>  மற்றும்
(34, 39) =>  கீழ்
(39, 41) =>  இ
(41, 43) => டு
(43, 45) => ப்
(45, 47) => பெ
(47, 51) => லும்
(51, 53) => பு
(53, 55) =>  (
(55, 59) => isch
(59, 62) => ium
(62, 63) => )
(65, 70) => 
கால்
(70, 73) => கள்
(73, 75) =>  (
(75, 78) => leg
(78, 79) => )
(79, 83) =>  (8)
(83, 84) => :
(86, 90) =>  18.
(90, 93) =>  தொ
(93, 96) => டைய
(96, 97) => ெ
(97, 101) => லும்
(101, 103) => பு
(103, 105) =>  (
(105, 107) => fe
(107, 110) => mur
(110, 111) => )
(111, 115) =>  (2)


In [30]:
context = "என்பது \n\nசத்தோசி நகமோட்டோவால் உருவாக்கப்பட்ட"
question = "பிட்காயின் யாரால் உருவாக்கப்பட்டது?"
res = tokenizer.encode_plus(
    text=question,
    text_pair=context,
    padding="max_length",
    truncation="only_second",
    # max_length=20,
    max_length=200,
    stride=3,
    return_overflowing_tokens=True,
    return_offsets_mapping=True
)

In [15]:
res["offset_mapping"]

[[(0, 0),
  (0, 2),
  (2, 4),
  (4, 6),
  (6, 10),
  (10, 14),
  (14, 17),
  (17, 26),
  (26, 34),
  (34, 35),
  (0, 0),
  (0, 0),
  (0, 6),
  (6, 8),
  (8, 11),
  (11, 12),
  (12, 14),
  (14, 16),
  (16, 17),
  (17, 19),
  (19, 22),
  (22, 23),
  (23, 27),
  (27, 36),
  (36, 42),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0)

In [31]:
for s, e in res["offset_mapping"][0][12:]:
    if e == 0:
        break
    print(f"({s}, {e}) => {context[s:e]}")

(0, 6) => என்பது
(8, 10) => 
ச
(10, 13) => த்த
(13, 14) => ோ
(14, 16) => சி
(16, 18) =>  ந
(18, 19) => க
(19, 21) => மோ
(21, 24) => ட்ட
(24, 25) => ோ
(25, 29) => வால்
(29, 38) =>  உருவாக்க
(38, 44) => ப்பட்ட


## hindi and muril using Bert tokenizer

In [44]:
tokenizer = AutoTokenizer.from_pretrained("../data/dataset/muril-large-cased/")

In [54]:
context = " என்பது \n\nசத்தோசி நகமோட்டோவால் உருவாக்கப்பட்ட"
question = "பிட்காயின் யாரால் உருவாக்கப்பட்டது?"

res = tokenizer.encode_plus(
    text=question,
    text_pair=context,
    padding="max_length",
    truncation="only_second",
    # max_length=20,
    max_length=200,
    stride=3,
    return_overflowing_tokens=True,
    return_offsets_mapping=True
)

In [55]:
for s, e in res["offset_mapping"][0][7:]:
    if e == 0:
        break
    print(f"({s}, {e}) => {context[s:e]}")

(1, 3) => 15
(3, 4) => .
(5, 7) => இட
(7, 10) => ுப்
(10, 11) => ப
(11, 18) => ெலும்பு
(19, 20) => (
(20, 23) => ili
(23, 25) => um
(25, 26) => )
(27, 34) => மற்றும்
(35, 39) => கீழ்
(40, 42) => இட
(42, 45) => ுப்
(45, 46) => ப
(46, 53) => ெலும்பு
(54, 55) => (
(55, 57) => is
(57, 60) => chi
(60, 62) => um
(62, 63) => )
(66, 73) => கால்கள்
(74, 75) => (
(75, 78) => leg
(78, 79) => )
(80, 81) => (
(81, 82) => 8
(82, 83) => )
(83, 84) => :
(87, 89) => 18
(89, 90) => .
(91, 95) => தொடை
(95, 96) => ய
(96, 103) => ெலும்பு
(104, 105) => (
(105, 106) => f
(106, 108) => em
(108, 110) => ur
(110, 111) => )
(112, 113) => (
(113, 114) => 2
(114, 115) => )


In [47]:
df = pd.read_csv("../data/origin/train.csv")
df

Unnamed: 0,id,context,question,answer_text,answer_start,language
0,903deec17,ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின...,மனித உடலில் எத்தனை எலும்புகள் உள்ளன?,206,53,tamil
1,d9841668c,காளிதாசன் (தேவநாகரி: कालिदास) சமஸ்கிருத இலக்கி...,காளிதாசன் எங்கு பிறந்தார்?,காசுமீரில்,2358,tamil
2,29d154b56,சர் அலெக்ஸாண்டர் ஃபிளெமிங் (Sir Alexander Flem...,பென்சிலின் கண்டுபிடித்தவர் யார்?,சர் அலெக்ஸாண்டர் ஃபிளெமிங்,0,tamil
3,41660850a,"குழந்தையின் அழுகையை நிறுத்தவும், தூங்க வைக்கவ...",தமிழ்நாட்டில் குழந்தைகளை தூங்க வைக்க பாடும் பா...,தாலாட்டு,68,tamil
4,b29c82c22,சூரியக் குடும்பம் \nசூரியக் குடும்பம் (Solar S...,பூமியின் அருகில் உள்ள விண்மீன் எது?,சூரியனும்,585,tamil
...,...,...,...,...,...,...
1109,26f356026,स्वामी निगमानन्द परमहंस (18 अगस्त 1880 - 29 नव...,स्वामी निगमानन्द परमहंस के तन्त्र गुरु कौन थे?,बामाक्षेपा,2691,hindi
1110,31179f1bb,भरत मुनि ने नाट्यशास्त्र नामक प्रसिद्ध ग्रन्थ ...,नित्यशास्त्र किसने लिखा है?,भरत मुनि,0,hindi
1111,0d35dc007,अग्नि पंचम (अग्नि-५) भारत की अन्तरमहाद्वीपीय ब...,अग्नि पंचम(५) मिसाइल की लम्बाई कितने मीटर है?,17,155,hindi
1112,7f997884d,"जलाल उद्दीन मोहम्मद अकबर () (१५ अक्तूबर, १५४२-...",मुगल सम्राट अकबर की मृत्यु किस वर्ष में हुई थी?,"२७ अक्तूबर, १६०५",46,hindi


In [48]:
print(df.context.iloc[0])

ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின்வரும் 206 (மார்பெலும்பு மூன்று பகுதிகளாகக் கருதப்பட்டால் 208) எண்ணிக்கையான எலும்புகளைக் கொண்டிருக்கும். இந்த எண்ணிக்கை உடற்கூட்டியல் வேறுபாடுகளைப் பொறுத்து மாறுபடக்கூடும். எடுத்துக்காட்டாக, மிகக் குறைந்த எண்ணிக்கையான மனிதர்களில், ஒரு மேலதிக விலா எலும்பு (கழுத்துவில்) அல்லது ஒரு மேலதிகமான கீழ் முதுகெலும்பு காணப்படுவதுண்டு; இணைந்த சில எலும்புகளைத் தனி எலும்பாகக் கருதாவிடின், ஐந்து இணைந்த திருவெலும்பு; மூன்று (3 - 5) குயிலலகு எலும்புகள் சேர்ந்து 26 எண்ணிக்கையிலான முதுகெலும்புகள் 33 ஆகக் கருதப்படலாம்.
மனித மண்டையோட்டில் 22 எலும்புகள் (காதுச் சிற்றென்புகளைத் தவிர) உள்ளன; இவை எட்டு மண்டையறை (cranium) எலும்புகளாகவும் 14 முக எலும்புகளாகவும் (facial bones) பிரிக்கப்பட்டுள்ளன. (தடித்த எண்கள் அருகிலுள்ள படத்தில் காணும் எண்களைக் குறிக்கின்றன.)



மண்டையறை எலும்புகள் (8)
 1 நுதலெலும்பு (frontal bone) 
 2 சுவரெலும்பு (parietal bone) (2)
 3 கடைநுதலெலும்பு (temporal bone) (2)
 4 பிடர் எலும்பு (occipital bone)
 ஆப்புரு எலும்பு (sphenoid bone)
 நெய்யரியெலும