# 한국어 윈도우 + 한글 데이터 = ...............

운영체제마다 기본 인코딩이 있다.

- Windows KO: CP949
- Linux, Mac: UTF-8

The Truth: 인터넷 세계에서 utf-8이 표준처럼 사용된다.

문제의 시발점: MS windows는 CP949다.

영어 데이터에서는 별 문제가 없지만, 한글 데이터를 처리할 때 아래와 같은 에러가 발생하기 일쑤다.

```
UnicodeDecodeError: 'cp949' codec can't decode byte 0xed in position 0: illegal multibyte sequence
```

![](./img/giphy.gif)

In [None]:
# this is unicode
# it can be encoded to both utf 8 and cp949
s = 'MS Windows + 한글 데이터 = 호옹이!!!!!!!' 

print('-'*50)
print('original:', s)
print('type:', type(s))
print('')

print('encoded to utf-8:')
print(s.encode('utf-8'))
print('')

print('encoded to cp949:')
print(s.encode('cp949'))
print('-'*50)
print('')
print('')

In [None]:
# this is utf-8
# it can be decoded by utf-8 only
u = s.encode('utf-8') 

print('-'*50)
print('original:', u)
print('type:', type(u))
print('')
print('decoded to utf-8:')
print(u.decode('utf-8'))
print('')
print('decoded to cp949:')
try:
    print(u.decode('cp949'))
except UnicodeDecodeError:
    print('........UnicodeDecodeError')
print('-'*50)
print('')
print('')

# this is cp949
# it can be decoded by cp949 only
c = s.encode('cp949') 

print('-'*50)
print('original:', c)
print('type:', type(c))
print('')
print('decoded by utf-8:')
try:
    print(c.decode('utf-8'))
except UnicodeDecodeError:
    print('........UnicodeDecodeError')
print('')
print('decoded by cp949:')
print(c.decode('cp949')) #error
print('-'*50)

## 윈도우 파이썬에서 한글 데이터를 다루고 싶다면 인코딩 문제는 피할 수 없는 숙명이니... 어떻게 대처해야할지 알아보자.

### 1. `cp949`로 작업하기

윈도우 사용자인 나는 괜찮지만, 맥, 리눅스를 쓰는 친구와 함께 프로젝트를 해야 한다면...? 크롤링을 하려는데 인터넷 표준은 utf-8이고... OMG

### 2. `UTF-8`로 작업할 수 있는 환경을 만들기

이게 장기적으로 좋은 선택이다.

---
# 한국어 버전 윈도우에서  파이썬을 사용하는 사용자가 `utf-8`에 대처하는 방법

### 0. 현재 사용하는 윈도우 운영체제의 인코딩을 확인해보자.

In [None]:
import locale
import sys

print(locale.getpreferredencoding())
print(sys.stdout.encoding)          
print(sys.getdefaultencoding())     

아마 cp949, cp949, utf-8이 나올 것이다. 사용자 환경변수에 `PYTHONIOENCODING`을 추가하고, 그 값을 `utf-8`로 설정하자.

![](./img/pythonencoding.png)

### 1. 스크립트 맨 위에 소스코드 인코딩을 명시하기 위해 아래와 같은 한 줄을 추가해주자. 일종의 컨벤션이다.  

```
# -*- coding: utf-8 -*-
```

### 2. cmd에서 한글이 깨진다면?

cmd 명령줄에서 아래 코드를 실행하자.
```
chcp 65001
```

UTF-8 인코딩이 적용되어 깨지는 문제가 사라진다.

다만, 매번 새 cmd창에서 실행해줘야 되는 단점이 있다....ㅠㅠ

### 3. 파일에 데이터를 저장할 때 `utf-8`을 지정해주자. 파일을 불러올 때도 마찬가지다.

```python
with open(save_to, 'w', encoding='utf-8') as fout:
    json.dump(news, fout, ensure_ascii=False)
    
with open(save_to, 'r', encoding='utf-8') as fin:
    data = json.load(fin)
```

### 4. 소스코드 내에서는 유니코드 문자열을 사용하자. 외부에서 읽을 때 유니코드로 변환하고, 내부에서 밖으로 내보낼 때 인코딩하자.


### 5. 인코딩 관련 오류가 발생하면 잘 읽어보자. 오류 메시지를 이해하면 어떻게 해결할 지 알 수 있다. 해결 방법을 모르면, 오류 메시지로 구글링을 해보면 된다.

Ref: http://juehan.github.io/DiveIntoPython3_Korean_Translation/strings.html