### unicodedata

`unicodedata`は Unicode 文字データベースへのアクセスを提供する標準ライブラリ

- 世界中の文字、記号、絵文字を統一管理している
- 主な使用用途

  - 特定の名称からの変換
  - Unicode の正規化
    - 検索正規化して表記を統一して比較

- 注意

  - 同じ見た目の文字でもコードポイントが異なるケースあり

### 資料

[unicodedata --- Unicode データベース](https://docs.python.org/ja/3.13/library/unicodedata.html)

[ユニコードテーブル](https://symbl.cc/jp/)


In [1]:
import unicodedata

In [2]:
# unicode文字と文字の名称を変換する
# ⛩ / データがない場合はKeyErrorになる(defaultを指定していればそれが返される)
print(unicodedata.lookup("SHINTO SHRINE"))
# CURRY AND RICE / データがない場合はValueErrorになる(defaultを指定していればそれが返される)
print(unicodedata.name("🍛"))

# unicode文字列の正規化
# 半角全角の文字を全角に統一したりするといった用途で使用する
# https://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96
print(unicodedata.normalize("NFC", "アｱ"))
print(unicodedata.normalize("NFKC", "アｱ"))
print(unicodedata.normalize("NFD", "ガ"))
nfd = unicodedata.normalize("NFD", "ガ")
nfc = unicodedata.normalize("NFC", "ガ")
nfkc = unicodedata.normalize("NFKC", "ガ")
nfkd = unicodedata.normalize("NFKD", "ガ")

# 同一に見える
# ガ ガ
print(nfd, nfkc, nfkd)

# 実際は違う
# b'\xe3\x82\xac' : b'\xe3\x82\xab\xe3\x82\x99'
print(
    "\n".join(
        f"{name}={val.encode('utf-8')!r}"
        for name, val in zip(["NFD", "NFKD", "NFC", "NFKC"], [nfd, nfkd, nfc, nfkc])
    )
)

# カ
print(nfkd.encode("utf-8")[:3].decode("utf-8"))
# 濁点
print(nfkd.encode("utf-8")[3:].decode("utf-8"))

# NFD/NFKD = バラす(ガで試したように文字をバラす)
# NFC/NFKC = まとめる(アｱで試したように文字をまとめる)
# NFK系 = 似てたらまとめる


⛩
CURRY AND RICE
アｱ
アア
ガ
ガ ガ ガ
NFD=b'\xe3\x82\xab\xe3\x82\x99'
NFKD=b'\xe3\x82\xab\xe3\x82\x99'
NFC=b'\xe3\x82\xac'
NFKC=b'\xe3\x82\xac'
カ
゙
