# UTF-8 디코딩 
[UTF-8 인코딩과 디코딩](https://github.com/DoranLyong/Introducing_Python/blob/master/Ch7_%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A3%BC%EB%AC%B4%EB%A5%B4%EA%B8%B0/L2-1_UTF-8_Encoding.ipynb)

### 바이트 문자열을 유니코드 문자열로 디코팅해보자(= 차원 복원) 

외부 소스<sup>(파일, DB, 웹사이트, 네트워크 API 등)</sup>에서 텍스트를 얻는다면, <br/> 
이런 텍스트는 얻을 때마다 __바이트 문자열__로 인코딩되어 있음(=차원 축소)

이 소스에서 인코딩 과정을 거꾸로 수행하면 유니코드 문자열을 얻을 수 있음 

![](./images/encode_decode.png)

#### 문제는 '바이트 문자열'이 어떻게 인코딩되었는지 안알랴쥼 

앞서 웹사이트에서 텍스트를 복사/붙여넣기했을 때 일어날 수 있는 위험 상황을 설명함[link](https://github.com/DoranLyong/Introducing_Python/blob/master/Ch7_%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A3%BC%EB%AC%B4%EB%A5%B4%EA%B8%B0/L2-1_UTF-8_Encoding.ipynb)
> 웹 텍스트가  'Latin-1' 혹은 'Windows 1252' 로 인코딩 됐으면 __바이트 시퀀스__가 유효하지 않다는 에러 발생 

__Eample__ 웹사이트 텍스트의 문자을 ASCII로 예상했는데, 다른 문자로 되어 있는 경우 

(1) café 의 유니코드 문자열을 생성해보자 

In [3]:
place = "caf\u00e9"
print(place)
type(place)

café


str

(2) 이것을 UTF-8 형식의 place_bytes라는 바이트 변수로 인코딩 

In [6]:
place_bytes = place.encode("utf-8")
print( place_bytes )
type( place_bytes )

b'caf\xc3\xa9'


bytes

In [7]:
len(place_bytes)

5

place_bytes는 5바이트로 되어 있음 
> * 첫 3바이트는 UTF-8 과 똑같이 표현되는 ASCII문자 - ' caf ' 
> * 마지막 2바이트에서 'é'를 인코딩  

(3) 바이트 문자열을 유니코드 문자열로 디코딩
* 역변환 (차원 복원)

In [10]:
place2 = place_bytes.decode("utf-8")
print(place2)

café


### 지금까지 'café' 를 UTF-8로 인코딩한 후, 다시 UTF-8로 디코딩했다. 

<span style="color:red">만약</span>, UTF-8로 인코딩된 'café'를 다른 방식으로 디코딩하면 어떨까? 

In [12]:
place3 = place_bytes.decode("ascii")

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

ASCII 디코더는 예외(=에러)를 던짐. 
* 0xc3 바이트 값이 ASCII에 유효하지 않기 때문 

> ASCII는 128<sup>(16진수 80)</sup>에서 255<sup>(16진수 FF)</sup> 사이에 있는 일부 8비트 문자 셋의 인코딩에 유효하지만, UTF-8과는 다름 

***

In [13]:
place4 = place_bytes.decode("latin-1")
print(place4)

cafÃ©


In [15]:
place5 = place_bytes.decode("windows-1252")
print(place5)

cafÃ©


헐... 예는또 왜이래 

## 이 예제의 교훈은 가능하면 UTF-8을 사용하라는 것
> UTF-8은 모든 유니코드 문자를 표현할 수 있고, 어디에서나 지원되기 때문 

그리고 빠르게 인코딩-디코딩을 수행한다. 

### [Reference]
* [유니코드 HOWTO](https://docs.python.org/3/howto/unicode.html)
* [실용적인 Pragmatic 유니코드](https://nedbatchelder.com/text/unipain.html)
* [유니코드와 문자셋에 대한 기고 글](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)