## Python `unicodedata`モジュールについて
**Pythonでは、日本語は次のような文字コードを使って扱うことができます**  
  
**UTF-8 (utf_8)**・・・Unicodeの文字符号化の一つで、OSX環境の日本語の文字コード。  
**Shift-JIS (shift_jis)**・・・ちょっと昔のパソコンで用いられる、日本語の文字コード。  
**ISO-2022-JP (iso2022_jp)**・・・電子メールの送受信に用いられる、日本語の文字コード。  
**EUC-JP (euc_jp)**…Unix環境で用いられていた、日本語の文字コード。  
**Code Page 932 (cp932)**…Windows環境における、日本語の文字コード。Shift-JISの派生。  
  
Pythonで扱える文字コードの一覧は，
[標準エンコーディング](https://docs.python.org/ja/3/library/codecs.html#standard-encodings)で確認できます。

Unicodeについて、[Unicodeあれこれ](http://ar.nyx.link/unicode/) が参考になりそう

**参照している、[UnicodeData.txt](http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt)について**

In [1]:
import unicodedata

### `unicodedata`メソッド
**`unicodedata.lookup(name)`**  
名前に対応する文字を探します。その名前の文字が見つかった場合、その文字が返されます。  
見つからなかった場合には、 `KeyError` が返ります。

In [5]:
unicodedata.lookup('LATIN SMALL LETTER N')

'n'

In [4]:
unicodedata.lookup('HIRAGANA LETTER NE')

'ね'

In [13]:
unicodedata.lookup('HIRAGANA LETTER KO')

'こ'

In [11]:
 unicodedata.lookup('NEKO')

KeyError: "undefined character name 'NEKO'"

In [12]:
 unicodedata.lookup('NECO')

KeyError: "undefined character name 'NECO'"

In [10]:
 unicodedata.lookup('CAT')

'🐈'

**`unicodedata.name(chr[, default])`**  
文字 `chr` に付いている名前を、文字列で返します。  
名前が定義されていない場合には `default` が返されますが、この引数が与えられていなければ `ValueError` が返されます。

In [20]:
unicodedata.name('n')

'LATIN SMALL LETTER N'

In [21]:
unicodedata.name('N')

'LATIN CAPITAL LETTER N'

In [17]:
unicodedata.name('猫')

'CJK UNIFIED IDEOGRAPH-732B'

In [18]:
unicodedata.name('ねこ')

TypeError: name() argument 1 must be a unicode character, not str

In [19]:
unicodedata.name('ね')

'HIRAGANA LETTER NE'

In [22]:
unicodedata.name('こ')

'HIRAGANA LETTER KO'

In [23]:
unicodedata.name('🐈')

'CAT'

**`unicodedata.decimal(chr[, default])`**  
文字 `chr` に割り当てられている十進数を、整数で返します。  
この値が定義されていない場合には `default` が返されますが、この引数が与えられていなければ `ValueError` が返されます。

In [24]:
unicodedata.decimal('A')

ValueError: not a decimal

In [25]:
unicodedata.decimal('1')

1

In [29]:
unicodedata.decimal('2')

2

In [30]:
unicodedata.decimal('10011')

TypeError: decimal() argument 1 must be a unicode character, not str

In [31]:
unicodedata.decimal('9')

9

In [32]:
type(unicodedata.decimal('9'))

int

**`unicodedata.digit(chr[, default])`**  
文字 `chr` に割り当てられている数値を、整数で返します。  
この値が定義されていない場合には `default` が返されますが、この引数が与えられていなければ `ValueError` が返されます。

In [34]:
unicodedata.digit('1')

1

In [35]:
unicodedata.digit('A')

ValueError: not a digit

In [37]:
unicodedata.digit(u'\u2462')

3

In [39]:
unicodedata.digit('3')

3

In [40]:
type(unicodedata.digit('3'))

int

**`unicodedata.numeric(chr[, default])`**  
文字 `chr` に割り当てられている数値を、`float` で返します。  
この値が定義されていない場合には `default` が返されますが、この引数が与えられていなければ `ValueError` が返されます。

In [50]:
unicodedata.numeric(u'\u215b')

0.125

In [51]:
print(u'\u215b'.encode('utf8').decode('utf8'))

⅛


In [52]:
unicodedata.numeric('0.125')

TypeError: numeric() argument 1 must be a unicode character, not str

**`unicodedata.category(chr)`**  
文字 `chr` に割り当てられた、汎用カテゴリを返します。

In [41]:
unicodedata.category(u'\u00a0')

'Zs'

In [43]:
unicodedata.name(u'\u00a0')

'NO-BREAK SPACE'

In [44]:
unicodedata.lookup('NO-BREAK SPACE')

'\xa0'

In [49]:
print('\xa0'.encode('utf8').decode('utf8'))

 


In [55]:
unicodedata.category(u'a') # Letter, Lowercase

'Ll'

In [56]:
unicodedata.category(u'A') # Letter, Uppercase

'Lu'

In [57]:
unicodedata.category(u'あ') # Letter, Other

'Lo'

**`unicodedata.combining(chr)`**  
文字 chr に割り当てられた正規結合クラスを返します。結合クラス定義されていない場合、0 が返されます。

**`unicodedata.east_asian_width(chr)`**  
ユニコード文字 `chr` に割り当てられた`east asian width`を文字列で返します。  
  
```「東アジアの文字幅」（英: East Asian Width）は、  
Unicode標準の附属書 (英: Unicode Standard Annex) の一つ。  
Unicodeに収録されている各文字の文字幅に関するヒントを与える East_Asian_Width 参考特性（英: informative property）を定めている。
東アジアの文字幅 - Wikipedia
```  
  
全角（= 2文字分）、半角（= 1文字分）と覚えておけばいい気がします。  
そして、返ってきた値が、

**`F`, `W`, `A`は全角**  
**`H`, `Na`, `N`は半角**  
となります。

In [53]:
unicodedata.east_asian_width('あ')

'W'

In [54]:
unicodedata.east_asian_width('ｱ')

'H'

**`unicodedata.normalize(form, unistr)`**  
Unicode 文字列 `unistr` の正規形 `form` を返します。 `form` の有効な値は、`NFC`、`NFKC`、`NFD`、`NFKD` です。

In [67]:
text_before = '①：１2三㌔ｂy  teのTEXTﾃﾞｰﾀを，ＣＬＥＡＮingする。'

In [68]:
text_after = unicodedata.normalize('NFKC', text_before)

In [69]:
print(text_before)

①：１2三㌔ｂy  teのTEXTﾃﾞｰﾀを，ＣＬＥＡＮingする。


In [70]:
print(text_after)

1:12三キロby  teのTEXTデータを,CLEANingする。


#### [Unicodeの正規化について](http://nomenclator.la.coocan.jp/unicode/normalization.htm)

### Unicode って結局何？
プログラムというものは、広範囲の文字を扱える必要があります。   
アプリケーションはインターネットを介して、国際化され、ユーザーが選べる様々な言語でメッセージや出力を表示します。  
同じプログラムが、英語、フランス語、日本語、ヘブライ語、ロシア語でエラーメッセージを出力する必要があるかもしれません。   
Webコンテンツはどんな言語でも書かれる可能性がありますし、様々な絵文字が含まれることもあります。   
Python の文字列型は文字表現のための Unicode 標準を使っていて、 Python プログラムは有り得る様々な文字を全て扱えます。

Unicode (https://www.unicode.org/) は、人類の言語で使われる全ての文字を列挙し、  
それぞれの文字自身の一意な符号を与えるのを目的とした仕様です。   
Unicode 仕様は継続的に改訂され、新しい言語や記号を追加する更新がなされています。  

文字 は文章の最小の構成要素です。   
'A', 'B', 'C' などは全て異なる文字です。 'È' と 'Í' も同様に異なる文字です。   
文字は、話している言語や文脈によって変わってきます。 例えば、「ローマ数字の 1」という文字 'Ⅰ' は大文字の 'I' とは別の文字です。   
両者は通常は同じに見えますが、異なる意味を持つ別々の2つの文字です。


In [76]:
unicodedata.lookup('GRINNING FACE')

'😀'

In [78]:
unicodedata.name('😀')

'GRINNING FACE'

### エンコーディング
Unicode 文字列はコードポイントの列であり、コードポイントとは 0 から 0x10FFFF (10 進表記で 1,114,111) までの数値です。  
このコードポイント列はメモリ上では コードユニット列として表され、その コードユニット 列は 8-bit のバイト列にマップされます。  
  
ただし、Unicodeは大規模なマッピングと辞書を提供してくれるものの、  
かなり膨大な情報量を持っているため、よく扱われるunicodeの部分的なものを集約した軽量版  
`UTF-8`が使われたりします。よく使われている文字の大多数は 1 バイトか 2 バイトで表現できます。

In [79]:
"\N{GREEK CAPITAL LETTER DELTA}"

'Δ'

In [80]:
"\u0394" # 16-bit hex value

'Δ'

In [81]:
"\U00000394" # 32-bit hex value

'Δ'

In [82]:
u = chr(40960) + 'abcd' + chr(1972)

In [83]:
print(u)

ꀀabcd޴


In [84]:
u.encode('utf-8')

b'\xea\x80\x80abcd\xde\xb4'

In [85]:
u.encode('ascii', 'ignore')

b'abcd'

In [86]:
u.encode('ascii', 'replace')

b'?abcd?'

In [87]:
u.encode('ascii', 'namereplace')

b'\\N{YI SYLLABLE IT}abcd\\u07b4'

In [101]:
unicodedata.lookup(b'YI SYLLABLE IT')

'ꀀ'

In [100]:
unicodedata.lookup(b'\u07b4')

KeyError: "undefined character name '\\u07b4'"

## `stringprep `モジュール

**(ホスト名のような) インターネット上にある存在に識別名をつける際、  
しばしば識別名間の "等価性" 比較を行う必要があります。**  
  
**より厳密には、**  
**インターネット内のさまざまなものを識別するには、同等性についてさまざまな識別を比較する必要があります。**  
  
**比較手順は、アプリケーションドメインによって異なります。**  
**たとえば、大文字と小文字を区別しないものなどがあります。これらの種類の情報を確認するには、stringprepを使用します。**  

[RFC 3454](https://datatracker.ietf.org/doc/html/rfc3454)は、  
ネットワークを介して送信する前に、Unicode文字列を準備する手順を定義しています。  
準備手順を経た後、それらは特定の正規化された形式になります。  
  
RFCは、一連のテーブルを定義しています。  
これらのテーブルは、プロファイルに組み合わせることができます。  
例えば、文字列準備のプロフィールがあるNAMEPREP、国際化ドメイン名があります。  
  
テーブルには、セットとマッピングの2種類があります。  
セットテーブルに1つの文字が存在する場合、`true`を返し、それ以外の場合は`false`を返します。  
マッピングテーブルの場合、キーが渡されると、関連付けられた値が返されます。  

**[古い資料](https://www.ipa.go.jp/security/fy16/reports/pki-utf8string/documents/PKI-part4.pdf)**

In [71]:
import stringprep

In [72]:
print('\u0020') #The space character

 


In [73]:
print(stringprep.in_table_c11('\u0020')) # ASCII文字のスペースであるかどうかを、確認できる

True


In [74]:
print(stringprep.in_table_d2('L')) # 文字Lには、左から右への双方向のプロパティがある

True


In [75]:
print(stringprep.in_table_d1('L')) # 文字Lには、右から左への双方向のプロパティがある

False


## 次回は、GNUインタフェース関連の、`readline`モジュールなどみていきます