In [2]:
s = "\uD801\uDC37"

In [4]:
print(s.encode('utf-16', 'surrogatepass').decode('utf-16').encode('unicode_escape').decode())

\U00010437


In [5]:
print("\uD83C\uDF1F".encode('utf-16', 'surrogatepass').decode('utf-16').encode('unicode_escape').decode())

\U0001f31f


In [6]:
"\U0001f31f"

'🌟'

In [2]:
"\u0020".encode().hex()

'20'

In [3]:
"\u00A0".encode().hex()

'c2a0'

#### 文字列→utf-8エンコーディング→16進数表示→バイト列→文字列

In [1]:
# 文字列をutf-8エンコーディングのバイト列にする。
# Unicode文字は\xエスケープで2桁ずつ16進数で表示される。
# バイト列内で2桁の16進数のASCII文字コードに一致する部分はASCII文字で表示される。
u8 = '3日Sun.'.encode()
u8

b'3\xe6\x97\xa5Sun.'

ASCII文字のutf-8エンコーディングはASCII文字コードと一致するのでASCII文字でない文字だけ2桁の16進数で表示されています。

In [2]:
# バイト列を16進数表示の文字列にする。ASCII文字もすべて16進数表示になる。
h = u8.hex()
h

'33e697a553756e2e'

In [3]:
# 16進数表示の文字列をバイト列に変換する。
# bytesは組み込みクラスでfromhex()はクラスメソッド、
b = bytes.fromhex(h)
b

b'3\xe6\x97\xa5Sun.'

In [4]:
# バイト列をutf-8として文字列にデコードする。
b.decode()

'3日Sun.'

#### 文字列→utf-16エンコーディング→16進数表示→バイト列→文字列

In [5]:
# 文字列をutf-16エンコーディングのバイト列にする。
# バイト列内で2桁の16進数のASCII文字コードに一致する部分はASCII文字で表示される。
u16 = '3日Sun.'.encode("utf-16")
u16

b'\xff\xfe3\x00\xe5eS\x00u\x00n\x00.\x00'

\xの次に2桁の16進数が続くはずですが、バイト列だとASCII文字コードに一致してしまうとASCII文字で表示されます。

正確な16進数表示をみたいときはhex()メソッドで16進数にしないといけません。

In [6]:
# バイト列を16進数表示の文字列にする。
h = u16.hex()
h

'fffe3300e565530075006e002e00'

In [7]:
# 16進数の文字列をバイト列に変換する。
# bytesは組み込みクラスでfromhex()はクラスメソッド。
b = bytes.fromhex(h)
b

b'\xff\xfe3\x00\xe5eS\x00u\x00n\x00.\x00'

In [8]:
# バイト列をutf-16として文字列にデコードする。
b.decode("utf-16")

'3日Sun.'

#### サロゲートペアのコードポイントを取得する

サロゲートペアというのはUnicodeが16ビット(4桁の16進数、2バイト)から拡張するときに、16ビットを前提としたシステムへの影響を最小限にするために考えだされたものだそうです(<a href="https://ja.wikipedia.org/wiki/Unicode#%E3%82%B5%E3%83%AD%E3%82%B2%E3%83%BC%E3%83%88%E3%83%9A%E3%82%A2">Unicode - Wikipedia</a>)。

なので、サロゲートペアは2桁の16進数を2つ組み合わせたものになっています。

In [9]:
s = "\ud83d\ude4f"  # サロゲートペアのUnicodeラテラル。
s

'\ud83d\ude4f'

Pythonでは、サロゲートペアのUnicodeラテラルは文字に変換されないのでこれを文字に変換されるUnicodeラテラルにします。

In [10]:
# surrogatepassエラーハンドラをつけてutf-16でバイト列にエンコードする。
b = s.encode('utf-16', 'surrogatepass')
b

b'\xff\xfe=\xd8O\xde'

In [11]:
d = b.decode('utf-16')  # utf-16として文字列にデコードする。
d

'🙏'

これでサロゲートペアの文字が表示されるようになりました。

In [12]:
print(d.encode('unicode_escape').decode())  # 文字列をUnicodeラテラルにする。

\U0001f64f


これでこのサロゲートペアのコードポイントがU+1F64Fとわかりました。

In [13]:
u = "\U0001F64F"  # \Uでエスケープして8桁の16進数のUnicodeラテラルにする。
u

'🙏'

utf-8やutf-32のエンコーディングでもsurrogatepassエラーハンドラが使えますが、utf-16以外ではうまく文字列にデコードできませんでした。

In [14]:
"\uD83C\uDF1F".encode('utf-16', 'surrogatepass').decode('utf-16')

'🌟'

これで1行でサロゲートペアを文字列にできます。

#### ノーブレークスペースを、Unicodeリテラル→文字→utf-8エンコーディング→16進数→バイト列→文字、に変換する。

In [15]:
# ノーブレークスペースのコードポイントはU+00A0
# ノーブレークスペースはグリフ(文字)がないので\xエスケープで16進数が表示される。
u = "\u00A0"
u

'\xa0'

In [16]:
# utf-8エンコーディングでバイト列にする。
u8 = u.encode()
u8

b'\xc2\xa0'

In [17]:
# バイト列を16進数表示の文字列にする。
h = u8.hex()
h

'c2a0'

In [18]:
# 16進数表示の文字列をバイト列にする。
b = bytes.fromhex(h)
b

b'\xc2\xa0'

In [19]:
# バイト列をutf-8としてデコードして文字列にする。
s = b.decode()
s

'\xa0'

In [20]:
print(s.encode('unicode_escape').decode()) 

\xa0


もとの文字がUnicode文字ではなくASCII文字だけなので\u00a0にはなりませんでした。