#### Unicode文字1つ→コードポイント→Unicode文字

In [1]:
# Unicode文字をコードポイントに変換。
# 整数で返ってくる。
codepoint = ord("日")  
codepoint

26085

In [2]:
# コードポイントを16進数表示にする。
hex(codepoint)  

'0x65e5'

つまり「日」のコードポイントはU+65E5とわかります。

In [3]:
# コードポイントをUnicode文字にする。
chr(codepoint)  

'日'

これで元の文字に戻せました。

これら関数ord()とchar()は一文字ずつしか変換できません。

#### Unicodeリテラル→Unicode文字列→unicode_escapeエンコーディング→utf-8としてデコード→utf-8エンコーディング→unicode_escapeとしてデコード→Unicode文字列

In [4]:
# UnicodeリテラルをUnicode文字列にする。\uに続けて4桁の16進数でコードポイントを与える。
u = "3\u65e5Sun."  
u

'3日Sun.'

In [5]:
# Unicode文字列をunicode_escapeでエンコード。ASCII文字はASCII文字のまま表示される。
b = u.encode('unicode_escape')  
b

b'3\\u65e5Sun.'

In [6]:
# unicode_escapeエンコーディングをutf-8として文字列にデコードする。
# Unocode文字はエスケープされているのでUnicodeリテラルのまま文字列になる。
s = b.decode()  
s

'3\\u65e5Sun.'

In [7]:
# Unicodeリテラルを書き出す。
# UnicodeリテラルはエスケープされているのでUnicodeリテラルのままで出力される。
print(s)  

3\u65e5Sun.


In [8]:
# 文字列をutf-8エンコーディングに戻す。
b = s.encode()  
b

b'3\\u65e5Sun.'

In [9]:
# バイト列をunicode_escapeとしてデコード。
b.decode('unicode_escape')  

'3日Sun.'

#### 関数ascii()を使ってUnicode文字をASCII文字にする

関数ascii()を使えば、unicode_escapeエンコーディング→utf-8としてデコード、のステップを一括でできます。

In [10]:
# ASCII文字にはシングルクォーテーションがついてくる。
a = ascii(u)  
a

"'3\\u65e5Sun.'"

In [11]:
# シングルクォーテーションを削除すると、
# Unicode文字→unicode_escapeエンコーディング→utf-8としてデコード、と同じ結果になる。
s = a[1:-2]  
s

'3\\u65e5Sun'

#### Unicode文字→utf-8エンコーディング→16進数→バイト列→Unicode文字

In [12]:
# Unicode文字をutf-8エンコーディングする。
# Unicode文字は\xエスケープで2桁ずつ16進数で表示される。
# バイト列内で2桁の16進数のASCII文字コードに一致する部分はASCII文字で表示される。
u8 = u.encode()
u8

b'3\xe6\x97\xa5Sun.'

In [13]:
# バイト列を16進数にする。ASCII文字もすべて16進数になる。
h = u8.hex()
h

'33e697a553756e2e'

In [14]:
# 16進数をバイト列に変換する。bytesは組み込みクラスでfromhex()はクラスメソッド、
b = bytes.fromhex(h)
b

b'3\xe6\x97\xa5Sun.'

In [15]:
# バイト列をutf-8としてデコードする。
b.decode()

'3日Sun.'

#### Unicode文字→utf-16エンコーディング→16進数→バイト列→Unicode文字

In [16]:
# Unicode文字をutf-16エンコーディングにする。
# バイト列内で2桁の16進数のASCII文字コードに一致する部分はASCII文字で表示される。
u16 = u.encode("utf-16")
u16

b'\xff\xfe3\x00\xe5eS\x00u\x00n\x00.\x00'

\xの次に2桁の16進数が続くはずですが、バイト列だとASCII文字コードに一致してしまうとASCII文字で表示されるので、正確な16進数表示をみたいときはhex()メソッドで16進数にしないといけません。

In [17]:
# バイト列を16進数にする。
h = u16.hex()
h

'fffe3300e565530075006e002e00'

In [18]:
# 16進数をバイト列に変換する。bytesは組み込みクラスでfromhex()はクラスメソッド、
b = bytes.fromhex(h)
b

b'\xff\xfe3\x00\xe5eS\x00u\x00n\x00.\x00'

In [19]:
# バイト列をutf-16としてデコードする。
b.decode("utf-16")

'3日Sun.'

#### ノーブレークスペースを、Unicodeリテラル→Unicode文字→utf-8エンコーディング→16進数→バイト列→Unicode文字、に変換する。

In [20]:
# ノーブレークスペースのコードポイントはU+00A0
# ノーブレークスペースはコードポイントのまま表示される。
u = "\u00A0"
u

'\xa0'

In [21]:
# Unicode文字をutf-8エンコーディングにする。
u8 = u.encode()
u8

b'\xc2\xa0'

In [22]:
# バイト列を16進数にする。
h = u8.hex()
h

'c2a0'

In [23]:
# 16進数をバイト列にする。
b = bytes.fromhex(h)
b

b'\xc2\xa0'

In [24]:
# バイト列をutf-8としてデコードしてUnicode文字列にする。
s = b.decode()
s

'\xa0'

In [25]:
# Unicode文字列をコードポイントにする。
codepoint = ord(s)
codepoint

160

In [26]:
# コードポイントを16進数表示する。
hex(codepoint)

'0xa0'