In [1]:
from transformers import AutoTokenizer, AutoModelForTokenClassification, TokenClassificationPipeline
from pythainlp.tokenize import word_tokenize

model_path = 'kittisak612/bias-tagger'

tokenizer = AutoTokenizer.from_pretrained(model_path,  model_max_length=512)
model = AutoModelForTokenClassification.from_pretrained(model_path)
pipe = TokenClassificationPipeline(model=model, tokenizer=tokenizer)


In [2]:
def predict(text):
    # word tokenize
    text_token = word_tokenize(text)
    print(text_token)
    text_token = ' '.join(text_token)
    prediction = pipe(text_token, grouped_entities=True, ignore_labels=[])
#     print(prediction)
    # covert predict to html tag
    text_pred = ""
    for dict_pred in prediction:
        print(dict_pred)
        open_tag = f"<{dict_pred['entity_group'].lower()}>"
        close_tag = f"</{dict_pred['entity_group'].lower()}>"
        group_word = dict_pred['word']

        if group_word.strip() == "":
            text_pred += group_word
        elif open_tag == "<o>":
            text_pred += ''.join(group_word.split(" "))
        else:
            group_word = ''.join(group_word.split(" "))
            text_pred += open_tag + group_word + close_tag
    return text_pred

In [6]:

text = '''ในเดือนพฤศจิกายน 2555 ฮาร์ตได้รับรอง mitt romney ให้เป็นประธานาธิบดี อย่างน่าเสียดาย'''

predict(text)

['ใน', 'เดือน', 'พฤศจิกายน', ' ', '2555', ' ', 'ฮา', 'ร์ต', 'ได้', 'รับรอง', ' ', 'mitt', ' ', 'romney', ' ', 'ให้', 'เป็น', 'ประธานาธิบดี', ' ', 'อย่าง', 'น่าเสียดาย']
{'entity_group': 'O', 'score': 0.956949, 'word': 'ใน เดือน พฤศจิกายน 2555 ฮา ร์ต ได้ รับรอง mitt romney ให้ เป็น ประธานาธิบ', 'start': 0, 'end': 83}
{'entity_group': 'DELETE', 'score': 0.42201674, 'word': 'ดี', 'start': 83, 'end': 85}
{'entity_group': 'DELETE', 'score': 0.95574135, 'word': '', 'start': 87, 'end': 88}
{'entity_group': 'DELETE', 'score': 0.7673953, 'word': 'อย่าง น่าเสียดาย', 'start': 88, 'end': 104}


'ในเดือนพฤศจิกายน2555ฮาร์ตได้รับรองmittromneyให้เป็นประธานาธิบ<delete>ดี</delete><delete>อย่างน่าเสียดาย</delete>'