In [1]:
import io
import icu
import json
import HanComparator
import pywikibot

with io.open("rawdata/kangxi-radicals-compat.json", "r", encoding = "utf-8") as r:
    radicals = json.loads(r.read())
with io.open("data/sortkey-rev.json", "r", encoding = "utf-8") as s:
    sortkeys = json.loads(s.read())

# preloaded data
multiples = [
    '㚇', '䁀', '䍇', '䧹', '丬', '亀', '初', '勗', '卤', '卿',
    '唾', '囊', '垂', '捶', '斉', '欽', '歯', '氽', '渠', '牢',
    '着', '竜', '耆', '辶', '迸', '遷', '靖', '黄', '齐', '龽',
    '鿂', '着', '靖', '𠁣', '𠁤', '𠂙', '𠃛', '𠎤', '𠔾', '𡙶',
    '𢆡', '𢘅', '𣯡', '𤄯', '𤏲', '𤓰', '𤮖', '𥉩', '𥪝', '𥪞',
    '𧢛', '𪁠', '𪥛', '𪪩', '𪱯', '𪷹', '𪽞', '𪿁', '𫏽', '𫠠',
    '𫡏', '𫣙', '𫣚', '𬂀', '𬂙', '𬔔', '𬺱', '𬼉', '𭠍', '𮄿',
    '灰'
]
normalPUAs = [
    0xFA0E, 0xFA0F, 0xFA11, 0xFA13, 0xFA14, 0xFA1F,
    0xFA21, 0xFA23, 0xFA24, 0xFA27, 0xFA28, 0xFA29
]

comp = HanComparator.HanComparator()
site = pywikibot.Site("th", "wiktionary", "OctraBot")

length = len(radicals["original"])
for index in range(length):
    radical = radicals["original"][index]
    radicalAlt = radicals["alternative"][index]
    index += 1

    buffer = "{{สารบัญดัชนีอักษรจีน}}\nข้อมูลอักษรจีนจากยูนิฮัน โดยยูนิโคดรุ่น 15.0.0 รายการหลักเรียงตามจำนวนขีดที่เพิ่มขึ้น \
รายการย่อยเรียงตามบล็อก CJK และ CJK ส่วนขยาย A-H อุปกรณ์ของท่านอาจแสดงผลได้ไม่ครบทุกตัวอักษร \
รายการเหล่านี้สร้างขึ้นด้วยบอต ไม่ควรแก้ไขด้วยมือ \n\nเครื่องหมาย ⁕ คือตัวอักษรที่มีการจัดหมวดได้มากกว่าหนึ่งแบบ __NOTOC__\n\n"
    buffer += "== {} (รากอักษรจีนที่ {}) ==\n\n".format(radical, index)

    for stroke in range(-10, 90):
        sortkey = radical + "{:+03d}".format(stroke).replace("+", "")
        sortkeyAlt = radicalAlt + "{:+03d}".format(stroke).replace("+", "")
        
        if sortkey in sortkeys and sortkeyAlt in sortkeys:
            if radical == radicalAlt:
                hanList = sortkeys[sortkey]
            else:
                hanList = list(set(sortkeys[sortkey] + sortkeys[sortkeyAlt])) # to sort later
        elif sortkey in sortkeys and sortkeyAlt not in sortkeys:
            hanList = sortkeys[sortkey]
        elif sortkey not in sortkeys and sortkeyAlt in sortkeys:
            hanList = sortkeys[sortkeyAlt]
        else:
            hanList = []
        
        if len(hanList) > 0:
            marklist = ""
            for hanChar in hanList[:]:
                # compatibility chars result in duplicated chars on web, so remove them
                blockID = icu.Char.ublock_getCode(hanChar)
                if blockID == getattr(icu.UBlockCode, "CJK_COMPATIBILITY_IDEOGRAPHS") \
                    or blockID == getattr(icu.UBlockCode, "CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT"):
                    if ord(hanChar) not in normalPUAs:
                        hanList.remove(hanChar)
                if hanChar in multiples:
                    marklist += hanChar

            buffer += "=== {:+d} ขีด ===\n\n".format(stroke).replace("-", "−") # true minus
            buffer += "{{charlist|sep=、|sc=Hani|"
            hanList.sort(key = comp.getCollationKey)
            buffer += "".join(hanList)
            if marklist != "":
                buffer += "|marklist=" + marklist
            buffer += "}}\n\n"

    pagename = "ดัชนี:รากอักษรจีน/" + radical
    page = pywikibot.Page(site, pagename)
    page.text = buffer
    page.save("updated")


Page [[ดัชนี:รากอักษรจีน/一]] saved
Page [[ดัชนี:รากอักษรจีน/丨]] saved
Page [[ดัชนี:รากอักษรจีน/丶]] saved
Page [[ดัชนี:รากอักษรจีน/丿]] saved
Page [[ดัชนี:รากอักษรจีน/乙]] saved
Page [[ดัชนี:รากอักษรจีน/亅]] saved
Page [[ดัชนี:รากอักษรจีน/二]] saved
Page [[ดัชนี:รากอักษรจีน/亠]] saved
Page [[ดัชนี:รากอักษรจีน/人]] saved
Page [[ดัชนี:รากอักษรจีน/儿]] saved
Page [[ดัชนี:รากอักษรจีน/入]] saved
Page [[ดัชนี:รากอักษรจีน/八]] saved
Page [[ดัชนี:รากอักษรจีน/冂]] saved
Page [[ดัชนี:รากอักษรจีน/冖]] saved
Page [[ดัชนี:รากอักษรจีน/冫]] saved
Page [[ดัชนี:รากอักษรจีน/几]] saved
Page [[ดัชนี:รากอักษรจีน/凵]] saved
Page [[ดัชนี:รากอักษรจีน/刀]] saved
Page [[ดัชนี:รากอักษรจีน/力]] saved
Page [[ดัชนี:รากอักษรจีน/勹]] saved
Page [[ดัชนี:รากอักษรจีน/匕]] saved
Page [[ดัชนี:รากอักษรจีน/匚]] saved
Page [[ดัชนี:รากอักษรจีน/匸]] saved
Page [[ดัชนี:รากอักษรจีน/十]] saved
Page [[ดัชนี:รากอักษรจีน/卜]] saved
Page [[ดัชนี:รากอักษรจีน/卩]] saved
Page [[ดัชนี:รากอักษรจีน/厂]] saved
Page [[ดัชนี:รากอักษรจีน/厶]] saved
Page [[ดัชนี:รากอักษ