# Unicode

> 1bit: 0 or 1<br>
> 1byte: 8bit<br>

- ACSII: 1byte로 표현되며 이중에 7bit만 씁니다.
- 필요한 문자가 많아지면서 Unicode가 등장합니다.

```
Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language.
    — The Unicode Consortium
```

> 유니코드는 현재 십만개 이상의 문자를 표현가능하며, 지금도 계속 늘어나고 있습니다.<br>
> 각 문자마다 고유 아이디가 있습니다.<br>
> 모든 문자는 plane이라는 8비트 크기 집합에 할당됩니다.<br>

- 유니코드 아이디는 16진수로 표현합니다.
- 16진수: 0 1 2 3 4 5 6 7 8 9 a b c d e f

> 기본으로 사용하는 대부분의 문자를 2바이트로 표현합니다.<br>
> 한자나 악보, 적분기호같은 문자는 2바이트보다 많아집니다.

- [자세한건 나무위키에!](https://namu.wiki/w/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C)


0000 ~ 007f
```
처음두자리 00이 기존의 아스키 코드들이 할당된 plane집합입니다.
뒤에 두자리는 00~7f까지 기존 아스키문자를 할당하던 방식 그대로 인덱싱되어있습니다.
ex)
아스키코드에서 A: 0x41
유니코드에서 A:  0041
```

### 유니코드를 기반으로 utf-8, utf-16 등등의 인코딩을 적용합니다.

## Python3 Unicode String

> 파이썬2의 문자열은 Unicode가 아닙니다. <br>
> 파이썬3만 Unicode입니다.

In [2]:
print("\u0041")
# 0000~ffff

A


In [63]:
print("\U00000041")
print("\U00009999")
print("\U00101020")
print("\U0001f47b")

A
香
􁀠
👻


In [45]:
print("\N{LATIN CAPITAL LETTER A}")

A


In [53]:
import unicodedata
print(
    unicodedata.name("A"))
print(
    unicodedata.lookup("LATIN CAPITAL LETTER A"))

LATIN CAPITAL LETTER A
A


# Snow Mans!

In [49]:
"\u2603\u2603\u2603\u2603\u2603\u2603\u2603"

'☃☃☃☃☃☃☃'

In [64]:
"\U0001f47b\U0001f47b\U0001f47b\U0001f47b\U0001f47b"

'👻👻👻👻👻'

In [51]:
cafe = 'café'
print(cafe)

café


> 표준에 따르는 대부분의 웹페이지는<br>
> utf-8인코딩 방식을 사용하기 때문에,<br>
> 웹사이트에서 텍스트를 복사해<br>
> 파이썬 문자열로 붙여넣는 것이 가능합니다.

In [55]:
unicodedata.name("$")

'DOLLAR SIGN'

## Encode and Decode with UTF-8

> 보통 프로그래밍(아스키 코드를 사용하는)에서<br>
> 문자는 1바이트로 표현할수 있다고 말합니다.<br>
> 주요 표음문자는 2바이트로 표현할수 있다고 말합니다.<br>
> 하지만 세상에는 한자를 포함한 10만개가 넘는 문자가 있습니다.<br>
> 10만개가 넘는 문자열을 다 표현할 수 있는 자료형은 4바이트까지 필요합니다.

- utf-8은 파이썬, 리눅스, HTML의 표준 인코딩 방식입니다.

### Encoding [unicode string => byte string]

In [70]:
snowman = '\u2603'
len(snowman)

1

In [75]:
encoded = snowman.encode('utf-8')
print(encoded)
len(encoded)

b'\xe2\x98\x83'


3

In [77]:
encoded = snowman.encode('ascii', 'ignore')
print(encoded)
len(encoded)

b''


0

In [78]:
encoded = '\u0041'.encode('ascii', 'ignore')
print(encoded)
len(encoded)

b'A'


1

In [80]:
print(snowman.encode('ascii', 'replace'))
print(snowman.encode('ascii', 'backslashreplace'))

b'?'
b'\\u2603'


### Decoding [byte string => unicode string]

In [85]:
cafe = "caf\u00e9"
print(cafe)
type(cafe)

café


str

In [86]:
en_cafe = cafe.encode('utf-8')
print(en_cafe)
type(en_cafe)

b'caf\xc3\xa9'


bytes

In [87]:
de_cafe = en_cafe.decode('utf-8')
print(de_cafe)
type(de_cafe)

café


str

### Decoding 주의할점

- 바이트로 인코딩된 텍스트는 무엇으로 인코딩 되었는지에 대한 정보가 없습니다.

In [88]:
de_cafe = en_cafe.decode('ascii')
print(de_cafe)
type(de_cafe)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [89]:
de_cafe = en_cafe.decode('windows-1252')
print(de_cafe)
type(de_cafe)

cafÃ©


str

# Format

In [108]:
print(1,2,3,4,"five")
print(1,2,3,4,"five", sep="! ")

1 2 3 4 five
1! 2! 3! 4! five


### Old Style Formating

In [220]:
print(
    "%s"%7.03,  # string
    "%d"%7.03,  # integer
    "%f"%7.03,  # float
    "%e"%7.03,  # exponential float
    "%s%%"%7.03,# %표기는 이렇게
    sep="\n"
)

7.03
7
7.030000
7.030000e+00
7.03%


In [218]:
print(
    "%d %s %f"%(10, 10, 10),
    "%10d %10f %10s"%(10, 10, 10),
    "%-10d %-10f %-10s"%(10, 10, 10),
    "%.5d %.5f %.5s"%(10, 10, 10),
    sep="\n"
)

10 10 10.000000
        10  10.000000         10
10         10.000000  10        
00010 10.00000 10


In [123]:
"%*.*d"%(3,3,3)

'003'

### New Style Formating

In [125]:
'{} is {}'.format("seoha", "pizza")

'seoha is pizza'

In [126]:
'{1} is {0}'.format("seoha", "pizza")

'pizza is seoha'

In [127]:
'{nick} is {name}'.format(name="seoha", nick="pizza")

'pizza is seoha'

In [130]:
d = {"name": "seoha", "nick": "pizza"}
"{0[name]} is {0[nick]} and {1}".format(d, "computer")

'seoha is pizza and computer'

In [143]:
print(
    "{:5}\n{:!<6.2f}\n{:>10}".format(10,10,10)
)

   10
10.00!
        10


In [147]:
'{0:!^20s}'.format('BIG SALE')

'!!!!!!BIG SALE!!!!!!'

# Regular Expressions

- match()
- search()
- findall()
- split()
- sub()

In [248]:
import re
source = "Young Frankenstein"
m = re.match("You", source)
if m:
    print(m.group())
    
m2 = re.match("Frank", source)
print(m2)

You
None


- . : 어떤 문자든 하나!
- \* : 바로 앞의 문자 몇개든 상관없이 연속해서 (0개도 포함)
- ?: 바로 앞의 문자 0개 또는 한개

In [252]:
re.search("Frank", source).group()

'Frank'

In [167]:
re.findall("n", source)

['n', 'n', 'n', 'n']

In [173]:
re.findall("n.?", source)

['ng', 'nk', 'ns', 'n']

In [174]:
re.split('n', source)

['You', 'g Fra', 'ke', 'stei', '']

In [175]:
re.sub('n', '?', source)

'You?g Fra?ke?stei?'

# 더 자세한것은 책에 너무너무 잘 나와있어요!

# Binary Data

In [258]:
blist = [1,2,3,255]
b = bytes(blist)
b

b'\x01\x02\x03\xff'

In [254]:
ba = bytearray(blist)

In [259]:
print(
    b[1],
    ba[1],
    sep="\n"
)

2
2


In [260]:
b[1]=127

TypeError: 'bytes' object does not support item assignment

In [261]:
ba[1]=127
ba

bytearray(b'\x01\x7f\x03\xff')

In [229]:
bytes(range(256))

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'

In [232]:
import struct
valid_png_header = b'\x89PNG\r\n\x1a\n'
data = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0'
if data[:8] == valid_png_header:
    width, height = struct.unpack('>LL', data[16:24])
    print('Valid PNG, width', width, 'height', height)
else:
    print('Not a valid PNG')

Valid PNG, width 154 height 141


In [243]:
print(
    data[16:20],
    data[20:24],
    sep="\n"
)

b'\x00\x00\x00\x9a'
b'\x00\x00\x00\x8d'


In [244]:
print(
    0x9a,
    0x8d
)

154 141


# 마찬가지로.. 자세한건 책에...