# Text & Byte

## 학습목표
 1. python3 str의 이해
 2. unicode, code point의 이해

### Unicode 
 - 세계에서 사용되는 모든 문자를 일관되게 표현하기 위한 문자 표기 방식
 - code point라는 값이 각 문자마다 할당되어 있음
 - 영어의 경우 ASCII코드값에 1바이트(0) 패딩이 추가되어있음
 - python3에서 str은 유니코드 사용

In [1]:
a = 'A'
a, type(a), hex(ord(a)), len(a) #hex는 16진수로 바꾸는 함수

('A', str, '0x41', 1)

In [2]:
a = '가'
a, type(a), hex(ord(a)), len(a)

('가', str, '0xac00', 1)

 ### Encoding, Decoding
  - encoding : code point to bytes
  - decoding : bytes to code point

### bytes, bytearray
 - byte(0-255) container

* **bytes**
 - immutable(불변 타입)
 - 0 - 255사이의 값
 - 유니코드가 code point값이 아닌 인코딩된 문자열

In [3]:
b1 = bytes([65, 255, 200, 0])
b1, type(b1)

(b'A\xff\xc8\x00', bytes)

In [4]:
b1[0], b1[1]

(65, 255)

In [12]:
b1[0] = 244 # immutable!

TypeError: 'bytes' object does not support item assignment

In [6]:
for b in b1:
    print(b, end=' ')

65 255 200 0 

In [7]:
b1 = bytes(b'hello') #문자열 앞에 b가 들어가야 byte형식임
b1

b'hello'

In [8]:
for b in b1:
    print(b, end=' ')

104 101 108 108 111 

* **bytearray**
 - mutable byte array

In [9]:
b2 = bytearray([65, 255, 200, 0])
b2, type(b2)

(bytearray(b'A\xff\xc8\x00'), bytearray)

In [10]:
b2[0], b2[1]

(65, 255)

In [11]:
b2[0] = 67
b2

bytearray(b'C\xff\xc8\x00')

### Unicode(str)와 bytes변환 

In [13]:
a = 'hello'
b = a.encode('utf-8')
b, type(b)

(b'hello', bytes)

In [14]:
c = b.decode('utf-8')
c, type(c)

('hello', str)

In [15]:
a = '한글'
b = a.encode('utf-8')
b, type(b)

(b'\xed\x95\x9c\xea\xb8\x80', bytes)

In [16]:
b = a.encode('euc-kr')
b, type(b)

(b'\xc7\xd1\xb1\xdb', bytes)

### Web, Database에서 한글 사용하는 경우
 - b'\xc0\xa5\xbf\xa1\xbc\xad \xc5\xa9\xb7\xd1\xb8\xb5\xc7\xd1 \xb5\xa5\xc0\xcc\xc5\xcd'
 - 외부에서 데이터를 읽어왔는데 위와 같이 표시 된다면, 이것은 인코딩된 byte형태
 - 해당 데이터는 문자열(unicode)로 다시 디코딩하여 사용가능

In [17]:
data = b'\xc0\xa5\xbf\xa1\xbc\xad \xc5\xa9\xb7\xd1\xb8\xb5\xc7\xd1 \xb5\xa5\xc0\xcc\xc5\xcd'

# 문자열이 인코딩된 방식은 web page에서 확인 가능
data_str = data.decode('euc-kr')
data_str

'웹에서 크롤링한 데이터'

### 정규표현식 한글 선택하기

In [18]:
import re

In [19]:
pattern = r'[가-힣]+'
re.findall(pattern, 'this is a english string 한글이 숨어있다. haha python good 여기도 있다 gogo')

['한글이', '숨어있다', '여기도', '있다']

In [22]:
# 혹은 유니코드 포인트 범위로 명시 가능
pattern = '[\u3131-\ud7a3]+'
re.findall(pattern, 'this is a english string 한글이 숨어있다. ㄱㄷㄹㄴㅇㄹhㄴㅇㄹㄴㅇ라ㅓㅓㅑㅓaha python good 한글만 추출됩니다 gogo')

['한글이', '숨어있다', 'ㄱㄷㄹㄴㅇㄹ', 'ㄴㅇㄹㄴㅇ라ㅓㅓㅑㅓ', '한글만', '추출됩니다']