# 7.1.1  Unicode

In [1]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print(f"value={value}, name={name}, value2={value2}")

In [2]:
unicode_test("あ")

value=あ, name=HIRAGANA LETTER A, value2=あ


In [3]:
unicode_test("$")

value=$, name=DOLLAR SIGN, value2=$


In [4]:
unicode_test("🥐")

value=🥐, name=CROISSANT, value2=🥐


Pythonの文字列はバイト列ではなく、Unicode文字列で管理されていて文字のUnicode IDまたは文字の名前を知っている場合Pythonで文字列を扱うことができる  
unicodedataモジュールを使うことで文字と文字の名前を変換することができる  
unicodedataモジュールの name 関数に文字を渡すことで大文字の文字の名前を返してくれる  
unicodedataモジュールの lookup 関数に大文字の名前を渡すことで対応する文字を返してくれる

In [5]:
unicode_test("\u00a2")

value=¢, name=CENT SIGN, value2=¢


In [6]:
unicode_test("\u20ac")

value=€, name=EURO SIGN, value2=€


In [7]:
unicode_test("\u2603")

value=☃, name=SNOWMAN, value2=☃


\uの後ろに4個の16進数字ものは基本多言語面のどれかに含まれる文字に対応する  
最初の2桁は面番号で後半の2桁はその面の中のインデックスになっている(面00はASCIIになり、インデックスの位置もASCIIと同じ値になっている)

In [8]:
place = "café"

In [9]:
place

'café'

In [10]:
unicode_test("é")

value=é, name=LATIN SMALL LETTER E WITH ACUTE, value2=é


In [11]:
import unicodedata
unicodedata.name("\u00e9")

'LATIN SMALL LETTER E WITH ACUTE'

In [12]:
place = "caf\u00e9"

In [13]:
place

'café'

In [14]:
place = "caf\N{LATIN SMALL LETTER E WITH ACUTE}"

In [15]:
place

'café'

éの文字は LATIN SMALL LETTER E WITH ACUTE という名前を持っていて 00e9 の値が割り振られている  
éの文字をPythonで表示させるには\u00e9を文字列として入れるか、\N{}のエスケープシーケンスの中に大文字の名前を入れることでできる

### 7.1.1.3  エンコーディング

In [16]:
snowman = "\u2603"
len(snowman)

1

In [17]:
ds = snowman.encode("utf-8")

In [18]:
len(ds)

3

In [19]:
ds

b'\xe2\x98\x83'

文字列をバイト型(エンコード)に変換することをエンコーディングという  
エンコーディングするには文字列に encode メソッドを使いエンコーディング名を渡すことでできる

|エンコーディング名|説明|
|:-|:-|
|ascii|古き良き7ビットASCII|
|utf-8|8ビット可変長エンコーディング。ほとんど必ずこれを使うことになる|
|latin-1|ISO 8859-1 とも呼ばれるもの|
|cp-1252|一般的なWindowsエンコーディング|
|unicode-escape|Python Unicodeリテラル形式。\uxxxxまたは\uxxxxxxxx|

バイト文字をlen関数に渡すとバイト数を返してくれる

In [20]:
ds = snowman.encode("ascii")

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

In [22]:
snowman.encode("ascii", "ignore")

b''

In [23]:
snowman.encode("ascii","replace")

b'?'

In [24]:
snowman.encode("ascii","backslashreplace")

b'\\u2603'

In [25]:
snowman.encode("ascii","xmlcharrefreplace")

b'&#9731;'

encodeメソッドはエンコーディング名が変換できない文字列に渡された場合例外エラーを起こす  
これを回避したい場合はencodeメソッドの第二引数に"ignore"や"replace"といった文字列を与えることで回避できる  
ignoreを渡すと変換できなかった文字を無視して空欄にする  
replaceを渡すと変換できなかった文字を?にして返す  
backslashreplaceを渡すとunicode-escape形式のPython Unicode文字列を返す  
xmlcharrefreplaceを渡すとウェブページで使えるエンティティの文字列を返す

### 7.1.1.4  デコーディング

In [26]:
place = "caf\u00e9"

In [27]:
place

'café'

In [28]:
place_bytes = place.encode("utf-8")

In [29]:
place_bytes

b'caf\xc3\xa9'

In [30]:
len(place_bytes)

5

In [31]:
place2 = place_bytes.decode("utf-8")

In [32]:
place2

'café'

バイト文字列をUnicode文字列にすることをデコーディングといい、バイト文字列に decode メソッドを使うことでできる  
渡す引数はencodeの時と同じでエンコーディング名を渡す

In [33]:
place3 = place_bytes.decode("ascii")

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [34]:
place4 = place_bytes.decode("latin-1")
place4

'cafÃ©'

In [35]:
place5 = place_bytes.decode("windows-1252")
place5

'cafÃ©'

decodeメソッドに渡したエンコーディング名がバイト列を変換できなかった場合例外エラーを起こす  
また、変換できたとしても期待した値が返ってこない可能性もあるのでできるだけUTF-8エンコーディングを使うことが推奨される

## 7.1.2  書式指定

## %を使った古いスタイル

In [36]:
"%s" % 42

'42'

In [37]:
"%d" % 42

'42'

In [38]:
"%x" % 42

'2a'

In [39]:
"%o" % 42

'52'

In [40]:
"%f" % 7.03

'7.030000'

In [41]:
"%e" % 7.03

'7.030000e+00'

In [42]:
"%g %g" % (7.03, 0.000001) 

'7.03 1e-06'

In [43]:
"%d%%" % 100

'100%'

古い書式指定は *string* % *data* という書き方をすることででき、文字列(string)の中にデータ(data)を差し込むポイントを%とデータ型を示す文字でしている必要がある

|指定|データ型|
|:-|:-|
|%s|文字列|
|%d|10進整数|
|%x|16進整数|
|%o|8進整数|
|%f|10進float|
|%e|指数形式float
|%g|10進floatまたは指数形式float|
|%%|リテラルの%|

In [44]:
actor = "Richard Gere"
cat = "Chester"
weight = 28

In [45]:
"My wife's favorite actor is %s" % actor

"My wife's favorite actor is Richard Gere"

In [46]:
"Our cat %s weight %s pounds" % (cat,weight)

'Our cat Chester weight 28 pounds'

1つのデータを入れたい場合は % の後にそのままデータを置けばよいが、2つ以上のデータを入れたい場合はデータをタプルとしてまとめたうえで、文字列の中の % の数とデータの数は合わせなければならない

上のweightの値は整数だが、%sを使うことで文字列に変換され入れられている

In [47]:
n = 42
f = 7.03
s = "string cheese"

In [48]:
"%d %f %s" % (n,f,s) # デフォルト

'42 7.030000 string cheese'

In [49]:
"%10d %10f %10s" % (n,f,s) # 幅10の間で右揃え

'        42   7.030000 string cheese'

In [50]:
"%-10d %-10f %-10s" % (n,f,s) # 幅10の間で左揃え

'42         7.030000   string cheese'

In [51]:
"%10.4d %10.4f %10.4s" % (n,f,s) # 幅10の間で右揃え、文字数の上限を4文字に指定

'      0042     7.0300       stri'

In [52]:
"%.4d %.4f %.4s" % (n,f,s) # (幅を指定せず)文字数の上限を4文字に指定

'0042 7.0300 stri'

In [53]:
"%10.*d %*.4f %*.*s" % (4,n,10,f,10,4,s) # 一部の幅と文字数の上限を引数から指定

'      0042     7.0300       stri'

%の型指定の中では、文字の幅、文字の配置、文字の上限数、を変更することができる  
文字の幅は整数で指定でき、文字の配置は+で右揃え -で左揃えにでき、文字の上限数は小数点以下の数字を入れることでできる  
また、その指定はデータを一緒にして引数のように渡すこともでき、そのようにしたい場合は指定したい個所を \* にすることでデータと同じ順番で値を入れることができる

### 7.1.2.2  {}書式指定を使った新しいスタイル

In [54]:
n = 42
f = 7.03
s = "string cheese"

In [55]:
"{} {} {}".format(n,f,s)

'42 7.03 string cheese'

In [56]:
"{2} {0} {1}".format(f,s,n)

'42 7.03 string cheese'

In [57]:
"{n} {f} {s}".format(n=42, f=7.03, s="string cheese")

'42 7.03 string cheese'

In [58]:
d ={"n":42,"f":7.03,"s":"string cheese"}
"{0[n]} {0[f]} {0[s]} {1}".format(d,"others")

'42 7.03 string cheese others'

In [59]:
"{0:d} {1:f} {2:s}".format(n,f,s)

'42 7.030000 string cheese'

.formatの方指定はコロンの右に入れる(左は丸カッコ内のインデックス指定)

In [60]:
"{n:d} {f:f} {s:s}".format(n=42,f=7.03,s="string cheese")

'42 7.030000 string cheese'

In [61]:
"{0:10d} {1:10f} {2:10s}".format(n,f,s)

'        42   7.030000 string cheese'

In [62]:
"{0:>10d} {1:>10f} {2:>10s}".format(n,f,s)

'        42   7.030000 string cheese'

In [63]:
"{0:<10d} {1:<10f} {2:<10s}".format(n,f,s)

'42         7.030000   string cheese'

In [64]:
"{0:^10d} {1:^10f} {2:^10s}".format(n,f,s)

'    42      7.030000  string cheese'

文字列を右揃えにするならコロンの後に幅分の整数を入れるか > の後に幅分の整数を入れる  
左揃えなら < 、中央ぞろえなら ^ を入れる

In [65]:
"{0:>10d} {1:>10.4f} {2:>10.4s}".format(n,f,s)

'        42     7.0300       stri'

文字数を制限するなら小数点以下に数をいれればいいが、%の時と違って整数では使えなくなった

In [66]:
"{0:!^20s}".format(" BIG SALE ")

'!!!!! BIG SALE !!!!!'

空白部分をスペース以外で埋めたい場合はコロンの後に入れたい文字を指定することができる

## 7.1.3  正規表現とのマッチング

### 7.1.3.1  matchによる正確なマッチ

In [67]:
import re
source = "Young Frankenstein"

In [68]:
m = re.match("You", source)
if m:
    print(m.group())

You


In [69]:
m = re.match("Frank", source)
if m:
    print(m.group())

In [70]:
m = re.match(".*Frank",source)
if m:
    print(m.group())

Young Frank


matchはパターンが文の先頭から始まっている場合にマッチする

### 7.1.3.2  searchによる最初のマッチ

In [71]:
m = re.search("Frank", source)
if m:
    print(m.group())

Frank


searchは文のどこかにマッチする最初の部分にマッチする

### 7.1.3.3  findallによるすべてのマッチの検索

In [72]:
m = re.findall("n",source)
print(m, len(m))

['n', 'n', 'n', 'n'] 4


findallは文の中でマッチした部分をすべて見つけ出しリストにして返す

### 7.1.3.4  splitによるマッチを利用した分割

In [73]:
m = re.split("n",source)
m

['You', 'g Fra', 'ke', 'stei', '']

splitは文の中でマッチした部分をすべて見つけ出し、その部分で区切った文字列をリストにして返す

### 7.1.3.5  subによるマッチした部分の置換

In [74]:
m = re.sub("n","?",source)
m

'You?g Fra?ke?stei?'

subは文の中でマッチした部分をすべて見つけ出し、その部分を別の文字列に置換して、置換した後の全体の文字列を返す

### 7.1.3.6  パターンの特殊文字

In [75]:
import string
printable = string.printable

In [76]:
printable

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [77]:
re.findall("\d",printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [78]:
print(
    re.findall("\w",printable) 
)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


In [79]:
re.findall("\s",printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

In [80]:
x = "abc123-\*あア亜☃\u00ea"
re.findall("\w",x)

['a', 'b', 'c', '1', '2', '3', 'あ', 'ア', '亜', 'ê']

In [81]:
re.findall("\W",x)

['-', '\\', '*', '☃']

パターンの指定に特殊文字を使うことで広い範囲をカバーするパターンを作成できる

|特殊文字のパターン|マッチ対象|
|:-|:-|
|\d|1個の数字|
|\D|1個の数字以外の文字|
|\w|1個の英数字(ひらがななども含む)|
|\W|1個の英数字以外の文字|
|\s|1個の空白文字|
|\S|1個の空白文字以外の文字|
|\b|単語の境界(\wと\Wの間)|
|\B|単語の境界以外の文字間|

### 7.1.3.7  パターン：メタ文字

In [82]:
source ="""
I wish I may, I wish I might
Have a dish of fish tonight.
"""

In [83]:
re.findall("wish",source) # wishにマッチする

['wish', 'wish']

In [84]:
re.findall("wish|fish",source) # wishかfishにマッチする

['wish', 'wish', 'fish']

In [85]:
re.findall("^wish",source) # 先頭がwishにマッチする

[]

In [86]:
re.findall("^I wish",source) # 先頭がI wishにマッチする

[]

In [87]:
re.findall("fish$",source) # 末尾がfishにマッチする

[]

In [88]:
re.findall(r"fish tonight.$",source) # 末尾がfish tonight.にマッチする

['fish tonight.']

In [89]:
re.findall("[wf]ish",source) # wかfの後にishが続いているものにマッチする

['wish', 'wish', 'fish']

In [90]:
re.findall("[wsh]+",source) # wかsかhが1文字以上続いているものにマッチする

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [91]:
re.findall(r"ght\W",source) # ghtの後に英数字以外のものが続いているものにマッチする

['ght\n', 'ght.']

In [92]:
re.findall(r"I (?=wish)",source) # Iとスペースの後にwishが続いているIとスペースにマッチする

['I ', 'I ']

In [93]:
re.findall(r"(?<=I) wish",source) # Iの後にスペースとwishが続いているスペースとwishにマッチする

[' wish', ' wish']

パターンにメタ文字を使うことで様々なシチュエーションに対応できる正規表現を実現できる

|パターンのメタ文字|マッチ対象|
|:-|:-|
|*文字列*|リテラルの文字列|
|(*文字列*)|文字列|
|*文字列1*\|*文字列2*|文字列1もしくは文字列2|
|.|\n(改行)以外の任意の文字|
|^|ソース文字列の先頭|
|\$|ソース文字列の末尾|
|*a*?|0個か1個のa|
|*a*\*|0個以上のa(できるだけ長い文字列になる範囲でマッチする)|
|*a*\*?|0個以上のa(できるだけ短い文字列になる範囲でマッチする)|
|*a*+|1個以上のa(できるだけ長い文字列になる範囲でマッチする)|
|*a*+?|1個以上のa(できるだけ短い文字列になる範囲でマッチする)|
|*a*{m}|m個の連続したa|
|*a*{m,n}|m個以上n個以下の連続したa(できるだけ長い範囲にマッチする)|
|*a*{m,n}?|m個以上n個以下の連続したa(できるだけ短い範囲にマッチする)|
|[*abc*]|aまたはbまたはc|
|[^*abc*]|aまたはbまたはc以外|
|*文字列1*(?=*文字列2*)|文字列2が後に続いている文字列1|
|*文字列1*(?!*文字列2*)|文字列2が後に続いていない文字列1|
|(?<=*文字列2*)*文字列1*|文字列2の後に続いている文字列1|
|(?<!*文字列2*)*文字列1*|文字列2の後に続いていない文字列1|

### 7.1.3.8  パターン：マッチした文字列の出力の指定

In [94]:
m = re.search(r"(. dish\b).*(\bfish)",source)

In [95]:
m.group()

'a dish of fish'

In [96]:
m.groups()

('a dish', 'fish')

In [97]:
m.group(1)

'a dish'

In [98]:
m.group(2)

'fish'

パターンを丸カッコで囲えば独自のグループに分けながら検索できる  
group()もしくはgroup(0)で全体を返し、groupにインデックスを渡すことでグループごとのマッチした個所を返してくれる  
groups()を呼ぶことで、グループのタプルを返してくれる

In [99]:
m = re.search(r"(?P<DISH>. dish\b).*(?P<FISH>\bfish)",source)

In [100]:
m.group("DISH")

'a dish'

In [101]:
m.group("FISH")

'fish'

(?P<*名前*>*パターン*)という形式を使うことでマッチした部分のグループに名前を付けることができる

# 7.2  バイナリデータ

## 7.2.1  バイトとバイト列

In [102]:
blist = [1,2,3,255]
the_bytes = bytes(blist)
the_bytes

b'\x01\x02\x03\xff'

In [103]:
the_byte_array = bytearray(blist)
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [104]:
the_byte_array[1] = 127
the_byte_array

bytearray(b'\x01\x7f\x03\xff')

In [105]:
bytes(range(0,256))

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'

Python3では0から255までの値を取る8ビット整数の2種類のシーケンスを導入した  
1つが bytes 関数を使ってbytes型に変換して納めるbytesオブジェクトを作る方法で、bytesオブジェクトはイミュータブル(変更不可)である  
もう1つが bytearray 関数を使ってbytes型に変換して収めるbytearrayオブジェクトを作る方法で、bytesarrayオブジェクトはミュータブル(変更可)である

## 7.2.2  structによるバイナリデータの変換

In [106]:
import struct

In [107]:
struct.pack("H",65535)

b'\xff\xff'

In [108]:
struct.pack("h",-1)

b'\xff\xff'

In [109]:
with open(r"C:\Users\kumak\pydata\ziguzaguma.png","rb") as f:
    data = f.read()

In [110]:
data[:8]

b'\x89PNG\r\n\x1a\n'

In [111]:
data[16:24]

b'\x00\x00\x07\xf7\x00\x00\x05\xa7'

In [112]:
struct.unpack(">LL",data[16:24])

(2039, 1447)

structモジュールの pack 関数を使うと文字列をバイナリデータに、unpack 関数を使うとバイナリデータを文字列に変換することができる  
渡す引数は、第一引数が書式指定子(フォーマット)で、第二引数が文字列しくはバイナリデータになる  
エンディアン(コンピュータのプロセッサがデータをどのように分割するか)や整数の符号ビットなどを書式指定子で指定できる

エンディアン指定子

|指定子|バイト順|
|:-|:-|
|<|リトルエンディアン|
|>|ビッグエンディアン|

書式指定子

|指定子|説明|バイト数|
|:-|:-|:-|
|x|1バイト読み飛ばし|1|
|b|符号付きバイト|1|
|B|符号なしバイト|1|
|h|符号付き短整数|2|
|H|符号なし短整数|2|
|i|符号付き整数|4|
|I|符号なし整数|4|
|l|符号付き長整数|4|
|L|符号なし長整数|4|
|Q|符号なし長長整数|8|
|f|単精度浮動小数点数|4|
|d|倍精度浮動小数点数|8|
|p|*count*と文字シーケンス|1+*count*|
|s|文字シーケンス|*count*|

In [113]:
struct.unpack(">16x2L",data[:24])

(2039, 1447)

書式指定子には数値をつけることができ、その数値は*count*をあらわす  
つまり上の16x2LはxxxxxxxxxxxxxxxxLLと同じ意味になる

## 7.2.4  binasciiによるバイト/文字列の変換

In [114]:
import binascii

In [115]:
valid_png_header = data[:8]

In [116]:
valid_png_header

b'\x89PNG\r\n\x1a\n'

In [117]:
hexlity = binascii.hexlify(valid_png_header)
hexlity

b'89504e470d0a1a0a'

In [118]:
binascii.unhexlify(hexlity)

b'\x89PNG\r\n\x1a\n'

binasciiモジュールにはバイナリデータと様々な文字列表現を相互変換する関数が含まれている  
たとえば、16進、base64、uuencidedなどと変換できる  
上ではバイナリデータを16進数のシーケンスという形で表現している

## 7.2.5  ビット演算子

In [119]:
a = 0b1010
b = 0b1001

In [120]:
a

10

In [121]:
b

9

In [122]:
c = a & b
print(c, bin(c))

8 0b1000


In [123]:
c = a | b
print(c, bin(c))

11 0b1011


In [124]:
c = a ^ b
print(c, bin(c))

3 0b11


In [125]:
c = ~a
print(c, bin(c))

-11 -0b1011


In [126]:
c = a << 1
print(c, bin(c))

20 0b10100


In [127]:
c = a >> 1
print(c, bin(c))

5 0b101


|演算子|説明|
|:-|:-|
|&|AND|
|\||OR|
|^|排他的OR|
|~|ビット反転|
|<<|左シフト|
|>>|右シフト|