# Chap7

## 7.1 텍스트 문자열

### 7.1.1 유니코드

#### 파이썬3 유니코드 문자열

In [1]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print('value="%s", name="%s", value2="%s"' % (value, name, value2))

In [2]:
unicode_test('A')

value="A", name="LATIN CAPITAL LETTER A", value2="A"


In [3]:
unicode_test('$')

value="$", name="DOLLAR SIGN", value2="$"


In [4]:
unicode_test('\u00a2')

value="¢", name="CENT SIGN", value2="¢"


In [5]:
unicode_test('\u2603')

value="☃", name="SNOWMAN", value2="☃"


In [6]:
unicode_test('\u00e9')

value="é", name="LATIN SMALL LETTER E WITH ACUTE", value2="é"


In [9]:
import unicodedata

In [10]:
unicodedata.name('\u00e9')

'LATIN SMALL LETTER E WITH ACUTE'

In [11]:
unicodedata.lookup('LATIN SMALL LETTER E WITH ACUTE')

'é'

In [14]:
place = 'caf\u00e9'
print(place)
place = 'caf\N{LATIN SMALL LETTER E WITH ACUTE}'
print(place)

café
café


In [16]:
print(len('$'))
print(len('\U0001f47b'))

1
1


##### 인코딩

In [1]:
snowman = '\u2603'
len(snowman)

1

In [2]:
ds = snowman.encode('utf-8')
len(ds)

3

In [3]:
ds

b'\xe2\x98\x83'

UTF-8 이외의 다른 인코딩도 사용 가능  
유니코드 문자열을 인코딩할 수 없다면 에러 발생. 

In [5]:
# 아스키 인코딩시, 유니코드 문자가 유효한 아스키 문자가 아닌경우
ds = snowman.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

encode() 함수의 예외를 피하기 위해 두번째 인자에 'ignore'를 사용

In [6]:
snowman.encode('ascii', 'ignore')

b''

In [7]:
snowman.encode('ascii', 'replace')

b'?'

In [9]:
snowman.encode('ascii', 'backslashreplace')

b'\\u2603'

In [10]:
snowman.encode('ascii', 'xmlcharrefreplace')

b'&#9731;'

##### 디코딩

In [12]:
# 'café' 유니코드 문자열을 생성
place = 'caf\u00e9'
place

'café'

In [13]:
type(place)

str

In [14]:
place_bytes = place.encode('utf-8')
place_bytes

b'caf\xc3\xa9'

In [15]:
type(place_bytes)

bytes

In [16]:
len(place_bytes)

5

In [18]:
place2 = place_bytes.decode('utf-8')
place2

'café'

In [19]:
place3 = place_bytes.decode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [20]:
place4 = place_bytes.decode('latin-1')
place4

'cafÃ©'

In [21]:
place5 = place_bytes.decode('windows-1252')
place5

'cafÃ©'

### 7.1.2 포맷

기호 | 설명
---|---
%s | 문자열
%d | 10진 정수
%x | 16진 정수
%o | 8진 정수
%f | 10진 부동소수점수
%e | 지수로 나타낸 부동소수점수
%g | 10진 부동소수점수 혹은 지수로 나타낸 부동소수점수
%% | 리터럴 %

In [22]:
# 정수 n, 부동소수점수 f, 문자열 s
n = 42
f = 7.03
s = 'string'

In [23]:
# 기본 포맷 출력
'%d %f %s' % (n, f, s)

'42 7.030000 string'

In [24]:
# 각 변수에 102ㅏ의 필드를 설정, 오른쪽 정렬
'%10d %10f %10s' % (n, f, s)

'        42   7.030000     string'

In [25]:
# 왼쪽 정렬
'%-10d %-10f %-10s' % (n, f, s)

'42         7.030000   string    '

In [26]:
# 최대 문자 길이가 4, 오른쪽 정렬
# 이 설정은 문자열을 잘라내고, 소수점 이후의 숫자 길이를 4로 제한한다.
'%10.4d %10.4f %10.4s' % (n, f, s)

'      0042     7.0300       stri'

In [27]:
# 오른쪽 정렬
'%.4d %.4f %.4s' % (n, f, s)

'0042 7.0300 stri'

In [28]:
# 하드코딩하지 않고, 인자로 필드 길이를 지정
'%*.*d %*.*f %*.*s' % (10, 4, n, 10, 4, f, 10, 4, s)

'      0042     7.0300       stri'

In [29]:
'{} {} {}'.format(n, f, s)

'42 7.03 string'

In [30]:
# 새로운 스타일에서 순서 지정
# 0은 첫 번째 인자인 부동소수점수 f, 1은 문자열 s, 2는 마지막 인자인 정수 n을 참조
'{2} {0} {1}'.format(f, s, n)

'42 7.03 string'

In [31]:
# 인자는 딕셔너리 혹은 이름을 지정한 인자가 될 수 있다.
'{n} {f} {s}'.format(n=42, f=7.03, s='string')

'42 7.03 string'

In [32]:
d = {'n':42, 'f':7.03, 's':'string'}
# 0은 딕셔너리 전체, 1은 딕셔너리 다음에 오는 문자열
'{0[n]} {0[f]} {0[s]} {1}'.format(d, 'other')

'42 7.03 string other'

In [33]:
'{0:d} {1:f} {2:s}'.format(n, f, s)

'42 7.030000 string'

In [34]:
'{n:d} {f:f} {s:s}'.format(n=42, f=7.03, s='stirng')

'42 7.030000 stirng'

In [50]:
'{0:10d} {1:10f} {2:10s} {2:7s}'.format(n, f, s)

'        42   7.030000 string     string '

In [36]:
'{0:>10d} {1:>10f} {2:>10s}'.format(n, f, s)

'        42   7.030000     string'

In [53]:
'{0:<10d} {1:<10f} {2:<10s}'.format(n, f, s)

'42         7.030000   string    '

In [54]:
'{0:^10d} {1:^10f} {2:^10s}'.format(n, f, s)

'    42      7.030000    string  '

In [57]:
'{0:>10.4d} {1:>10.4f} {2:>10.4s}'.format(n, f, s)

ValueError: Precision not allowed in integer format specifier

In [58]:
'{0:>10d} {1:>10.4f} {2:>10.4s}'.format(n, f, s)

'        42     7.0300       stri'

In [59]:
'{0:!^20s}'.format('BIGGG')

'!!!!!!!BIGGG!!!!!!!!'

### 7.1.3 정규표현식

In [1]:
import re

In [2]:
result = re.match('You', 'Young Frankenstein')

In [3]:
print(result)

<_sre.SRE_Match object; span=(0, 3), match='You'>


In [4]:
youpattern = re.compile('You')

In [6]:
result = youpattern.match('Young Frankenstein')
print(result)

<_sre.SRE_Match object; span=(0, 3), match='You'>


### match()

In [7]:
import re
source = 'Young Frankenstein'
m = re.match('You', source)
if m:
    print(m.group())

You


In [8]:
m = re.match('^You', source)
if m:
    print(m.group())

You


In [9]:
m = re.match('Frank', source)
if m:
    print(m.group())

In [10]:
m = re.search('Frank', source)
if m:
    print(m.group())

Frank


In [11]:
m = re.match('.*Frank', source)
if m:
    print(m.group())

Young Frank


### findall()

In [12]:
m = re.findall('n', source)
m

['n', 'n', 'n', 'n']

In [13]:
print('Found', len(m), 'matches')

Found 4 matches


In [14]:
m = re.findall('n.', source)
m

['ng', 'nk', 'ns']

In [15]:
m = re.findall('n.?', source)
m

['ng', 'nk', 'ns', 'n']

### split()

In [16]:
m = re.split('n', source)
m

['You', 'g Fra', 'ke', 'stei', '']

### sub()

In [17]:
m = re.sub('n', '?', source)
m

'You?g Fra?ke?stei?'

###  패턴 : 특수 문자

In [18]:
import string
printable = string.printable
len(printable)

100

In [19]:
printable[0:50]

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN'

In [20]:
printable[50:]

'OPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [22]:
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [23]:
re.findall('\w', printable)

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']

In [24]:
re.findall('\s', printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

In [25]:
x = 'abc' + '-/*' + '\u00ea' + '\u0115'
re.findall('\w', x)

['a', 'b', 'c', 'ê', 'ĕ']

### 패턴: 지정자

In [3]:
import re

In [11]:
source = '''I wish I may, I wish I might
            Have a dish of fish tonight.'''

In [5]:
re.findall('wish', source)

['wish', 'wish']

In [6]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [7]:
re.findall('^wish', source)

[]

In [8]:
re.findall('^I wish', source)

['I wish']

In [9]:
re.findall('fish$', source)

[]

In [12]:
re.findall('fish tonight.$', source)

['fish tonight.']

In [13]:
re.findall('fish tonight\.$', source)

['fish tonight.']

In [14]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

In [15]:
re.findall('[wsh]+', source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [16]:
re.findall('ght\W', source)

['ght\n', 'ght.']

In [17]:
re.findall('I (?=wish)', source)

['I ', 'I ']

In [18]:
re.findall('(?<=I) wish', source)

[' wish', ' wish']

In [19]:
re.findall('\bfish', source)

[]

In [20]:
re.findall(r'\bfish', source)

['fish']

### 패턴: 매칭 결과 저장하기

In [22]:
m = re.search(r'(. dish\b).*(\bfish)', source)
m.group()

'a dish of fish'

In [23]:
m.groups()

('a dish', 'fish')

In [24]:
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)

In [25]:
m.group()

'a dish of fish'

In [26]:
m.groups()

('a dish', 'fish')

In [27]:
m.group('DISH')

'a dish'

In [28]:
m.group('FISH')

'fish'

## 7.2 이진 데이터
### 7.2.1 바이트와 바이트 배열

In [1]:
blist = [1,2,3,255]
the_bytes = bytes(blist)
the_bytes

b'\x01\x02\x03\xff'

In [2]:
the_byte_array = bytearray(blist)
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [3]:
# 바이트 변수는 불변
the_bytes[1] = 127

TypeError: 'bytes' object does not support item assignment

In [4]:
# 바이트 배열 변수는 변경 가능
the_byte_array = bytearray(blist)
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [5]:
the_byte_array[1] = 127
the_byte_array

bytearray(b'\x01\x7f\x03\xff')

In [6]:
# 0에서 255까지의 결과를 생성
the_bytes = bytes(range(0, 256))
the_byte_array = bytearray(range(0, 256))

In [7]:
the_bytes

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'

In [8]:
the_byte_array

bytearray(b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff')