####  文字字串
Unicode參考資料:
* [Unicode HowTo](http://bit.ly/unicode-howto)
* [Pragmatic Unicode](http://bit.ly/pragmatic-uni)

In [1]:
#unicode
ｈ=15
print(ｈ)

15


In [8]:
import unicodedata
def unicode_test(value):
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print('value = %s,name = %s,value2 = %s'%(value,name,value2))

In [9]:
unicode_test('\u2603')

value = ☃,name = SNOWMAN,value2 = ☃


In [10]:
unicode_test('\u00e9')

value = é,name = LATIN SMALL LETTER E WITH ACUTE,value2 = é


In [13]:
unicodedata.lookup('LATIN SMALL LETTER E WITH ACUTE')  #lookup()可以檢視

'é'

In [14]:
#用別的方式顯示文字字串
place = 'caf\u00e9'
place

'café'

In [15]:
place = 'caf\N{LATIN SMALL LETTER E WITH ACUTE}'
place

'café'

In [16]:
len('$')

1

In [17]:
len('\U0001f47b')

1

#### 編碼
* 'ascii': 七位元ASCII
* 'utf-8': 八位元,可變長度編碼,你會經常使用的
* 'latin-1': 也稱為ISO 8859-1
* 'cp-1252': 一般的windows 編碼
* 'unicode-escape': Python Unicode 常值格式, \uxxxx或\Uxxxxxxxx

In [2]:
snowman = '\u2603'
ds = snowman.encode('utf-8')
print(len(snowman))
print(len(ds))
print(ds)

1
3
b'\xe2\x98\x83'


In [22]:
ds = snowman.encode('ascii')   #有時你指定的編碼會無法處理你給出的資料，因為目標編碼沒有對應的字元

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

In [3]:
ds = snowman.encode('ascii','ignore')   #將未知字元省略
print(ds)

b''


In [26]:
ds = snowman.encode('ascii','replace')   #將未知字元換成?
ds

b'?'

In [27]:
ds = snowman.encode('ascii','backslashreplace')  #轉成unicode-escape字串
ds

b'\\u2603'

In [29]:
ds = snowman.encode('ascii','xmlcharrefreplace')  #轉成可供網頁使用的字串
ds

b'&#9731;'

#### 解碼
我們要從別的網站來源取得資料時，會得到來源自動編碼為byte字串的檔案，最棘手的部分就是我們要了解他是用哪一種編碼，才能反推回去，解碼為Unicode字串

In [30]:
place = 'caf\u00e9'
print(place)
type(place)

café


str

In [31]:
place_bytes = place.encode('utf-8')
print(place_bytes)   #caf各占一位元 後面的é則占兩位元
type(place_bytes)   

b'caf\xc3\xa9'


bytes

In [33]:
place = place_bytes.decode('utf-8')
place

'café'

In [35]:
place3 = place_bytes.decode('ascii','replace')
place

'café'

In [36]:
place4 = place_bytes.decode('latin-1')
place

'café'

In [37]:
place5 = place_bytes.decode('windows-1252')
place
#所以 可以的話就盡量使用unicode 有效且支援性又高 且可以快速的編碼和解碼

'café'

#### 格式

In [40]:
#用%來使用舊方式
#像是 %s字串 %f十進制浮點數 %e指數浮點數 %g十進制或指數浮點數
#%d十進制整數 %x十六進制整數
# %% 如果你想要使用%
print('%s'%42)
print('%d'%42)
print('%x'%42)
print('%o'%42)

42
42
2a
52


In [41]:
print('%d%%' %100)

100%


In [43]:
#多個資料項
print('%d %s'%(100,'kg'))

100 kg


In [45]:
#設定最小寬度
n =42
f =7.89
s ='string cheese'
print('%5d %5f %10s'%(n, f, s))  #最小寬度5且靠右對齊

   42 7.890000 string cheese


In [46]:
print('%-10d %-10f %-10s'%(n, f, s))  #最小寬度10且靠左對齊

42         7.890000   string cheese


In [48]:
print('%.3d %.3f %.5s'%(n, f, s)) #使字串擁有輸出字元數的限制

042 7.890 strin


In [49]:
print('%*.*d %*.*f %*.*s'%(10,4,n,10,4,f,10,4,s)) #令引數來收集欄位寬度和字數 而不是寫死

      0042     7.8900       stri


In [52]:
#使用{}和format的新格式化方式
'{} {} {}'.format(n,f,s)

'42 7.89 string cheese'

In [53]:
'{2} {0} {1}'.format(n,f,s) #你可以指定順序

'string cheese 42 7.89'

In [54]:
'{n} {f} {s}'.format(n=42,f=7.03,s='string cheese')

'42 7.03 string cheese'

In [7]:
#結合字典
d = {'n':42,'f':7.03,'s':'String Cheese'}
'{0[n]} {0[f]} {0[s]}'.format(d)

'42 7.03 String Cheese'

In [59]:
'{0:d} {1:f} {2:s}'.format(n ,f ,s)   #新方式在:後面放上類型指定符 {format中資料位置:類型指定符}

'42 7.890000 string cheese'

In [60]:
'{n:d} {f:f} {s:s}'.format(n=42, f=7.03 ,s=s)

'42 7.030000 string cheese'

In [62]:
'{0:10d} {1:10f} {2:10s}'.format(n ,f ,s)   #一樣可以控制間格

'        42   7.890000 string cheese'

In [63]:
'{0:>10d} {1:>10f} {2:>10s}'.format(n ,f ,s)  #讓他更容易看出是靠右對齊 

'        42   7.890000 string cheese'

In [64]:
'{0:^10d} {1:^10f} {2:^10s}'.format(n ,f ,s)  #置中

'    42      7.890000  string cheese'

In [65]:
#一點點小不同 你不能在除了小數點的資料後加上精度值
'{0:10.4d} {1:10.4f} {2:10.4s}'.format(n ,f ,s)

ValueError: Precision not allowed in integer format specifier

In [70]:
#填充字元 讓空格填滿你想要的字元
'{0:!^20s}'.format('big sale')

'!!!!!!big sale!!!!!!'

In [71]:
#用正規表達式來匹配
#match() 檢查目標開頭的模式自否符合
import re
source = 'Young Frankenstein'
m = re.match('You',source)
if m:
    print(m.group())

You


In [77]:
m = re.match('^You',source)
if m:
    print(m.group())

You


In [78]:
#不管模式在任何地方都會生效的search()
m = re.search('Frank',source)
if m:
    print(m.group())

Frank


In [80]:
m = re.match('.*Frank',source)  #更改模式
if m:
    print(m.group())

Young Frank


In [81]:
#用search來找出第一個匹配項目
m = re.search('Frank',source)
if m:
    print(m.group())

Frank


In [84]:
#使用findall來匹配全部
m = re.findall('n',source)
print(m)
print('Found',len(m),',matches')

['n', 'n', 'n', 'n']
Found 4 ,matches


In [85]:
m = re.findall('n.',source)   #找到那些n後面有字元的組合
m

['ng', 'nk', 'ns']

In [86]:
m= re.findall('n.?',source)  #告訴他後面有字元不是必要的
m

['ng', 'nk', 'ns', 'n']

In [87]:
#使用spilt()分割
m = re.split('n',source)
m

['You', 'g Fra', 'ke', 'stei', '']

In [88]:
#使用sub()來替換匹配項目  很像replace() 但這僅供模式使用而不是字串
m =re.sub('n','?',source)
m

'You?g Fra?ke?stei?'

#### 模式:特殊字元
基本語法:
* 以任何非特殊的字元做字面匹配
* 用.來匹配\n以外的任何單一字元
* 用*來匹配任何數字
* 用?來匹配非必須項目

In [90]:
import string
printable = string.printable
len(printable)

100

In [91]:
print(printable[0:50])
print(printable[50:])

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN
OPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [92]:
re.findall('\d',printable)  #數字

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [94]:
n = re.findall('\w',printable)  #數字 字母 底線
print(n)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


In [96]:
re.findall('\s',printable)   #那些是空白

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

In [101]:
#丟入一些其他的東西做測試
x = 'abc' +'-/*' +'\u00ea' +'\u0115'

abc-/*êĕ


In [102]:
re.findall('\w',x)

['a', 'b', 'c', 'ê', 'ĕ']

In [109]:
#模式:使用指定符
source = '''I wish I may, I wish I might
Have a dish of fish tonight.'''
re.findall('wish',source)

['wish', 'wish']

In [105]:
re.findall('wish|fish',source)

['wish', 'wish', 'fish']

In [106]:
re.findall('^I wish',source)  #找出開頭的I wish

['I wish']

In [107]:
re.findall('fish$',source)  #找出結尾的fish

[]

In [111]:
re.findall('fish tonight.$',source)  #找出結尾的fish tonight

['fish tonight.']

In [112]:
# ^ 和 $稱為錨點(anchor) ^會循動作錨定到搜尋字串的開頭，$會錨定至結尾
#.$會匹配任何在結尾的字元 包括句點 所以可以做點調整讓他更符合我們要的意思
re.findall('fish tonight\.$',source)

['fish tonight.']

In [113]:
#用ish來尋找 w 和 f
re.findall('[wf]ish',source)

['wish', 'wish', 'fish']

In [115]:
#尋找任何wsh的組合
re.findall('[wsh]+',source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [116]:
#尋找後面有英數字元的ght
re.findall('ght\W',source)

['ght\n', 'ght.']

In [120]:
#尋找任何在wish 之前的 I
re.findall('I (?=wish)',source)

['I ', 'I ']

In [122]:
#尋找任何在I 之後的wish
re.findall('(?<=I) wish',source)

[' wish', ' wish']

In [123]:
re.findall('\bfish',source)

[]

In [124]:
re.findall(r'\bfish',source)  #因為正規表達式的語言中會使原始語言變為轉譯字元
#所以要使用r來停用python的轉義字元

['fish']

In [125]:
#模式:指定匹配輸出
m = re.search(r'(. dish\b).*(\bfish)', source)
m.group()

'a dish of fish'

In [126]:
m.groups()

('a dish', 'fish')

In [133]:
# 使用 (?P<name> expr) 會匹配expr並存在name群組之內
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)',source)

In [128]:
m.group()

'a dish of fish'

In [129]:
m.groups()

('a dish', 'fish')

In [131]:
m.group('DISH')

'a dish'

In [132]:
m.group('FISH')

'fish'

### 二進制資料

In [137]:
#byte是不可變的 就像tuple一樣
#bytearray是可變的 就像一串byte串列
blist = [1,2,3,255]
the_bytes = bytes(blist)
the_bytes

b'\x01\x02\x03\xff'

In [138]:
the_bytes[1] = 127   #不能更改!!

TypeError: 'bytes' object does not support item assignment

In [139]:
the_bytes_array = bytearray(blist)
the_bytes_array

bytearray(b'\x01\x02\x03\xff')

In [146]:
the_bytes_array[1]=128
the_bytes_array

bytearray(b'\x01\x80\x03\xff')

In [148]:
the_bytes = bytes(range(0,256))
the_bytes_array = bytearray(range(0,256))

In [150]:
#用struct來轉換二進位資料
import struct
valid_png_header = b'\x89PNG\r\n\x1a\n'
data = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR' +\
b'\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0'
if data[:8] ==valid_png_header:
    width,height = struct.unpack('>LL',data[16:24])
    print('Valid PNG, width', width, 'height', height)
else:
    print('Not a valid PNG')

Valid PNG, width 154 height 141


In [152]:
struct.pack('>L',154)

b'\x00\x00\x00\x9a'

In [153]:
struct.pack('>L',141)

b'\x00\x00\x00\x8d'

In [154]:
#struct.unpack('>LL',data[16:24]) 也可以寫成 跳過16個byte擷取8byte(兩個常整數) 在跳過最後的6個
struct.unpack('>16x2L6x',data)

(154, 141)

In [161]:
#安裝完construct之後
from construct import Struct,Magic,UBInt32,Const,String
fmt = Struct('png',
            Magic(b'\x89PNG\r\n\x1a\n'),
            UBInt32('length'),
            Const(String('type',4),b'IHDR'),
            UBInt32('width'),
            UBInt32('height')
            )
data = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR' +\
b'\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0'
result = fmt.parse(data)
print(result)

ModuleNotFoundError: No module named 'construct'

In [2]:
import ipy_importer

In [3]:
from construct import Struct,Magic,UBInt32,Const,String

ModuleNotFoundError: No module named 'construct'

In [4]:
import binascii  #轉換字串

In [5]:
valid_png_header = b'\x89PNG\r\n\x1a\n'
print(binascii.hexlify(valid_png_header))

b'89504e470d0a1a0a'


In [6]:
print(binascii.unhexlify(b'89504e470d0a1a0a'))

b'\x89PNG\r\n\x1a\n'
