## 학습목표
 1. unicode란?
 1. python2에서 문자열과 unicode 문자열
 2. python2에서 한글 표기

### 문자 집합
 - 초기 컴퓨터 설계 당시, 수치 계산이 주 목적이었기 때문에 문자를 표시해야할 요구가 없었음
 - 하지만, 시간이 지나면서 자연스럽게 문자를 표시하거나, 기기 사이에 문자 데이터를 전송해야 하는 요구가 생김
 - 이렇게 다양한 기기 사이에 문자를 사용해야하는 이유로 표준이 필요했는데, 이 것이 ASCII

### 인코딩
 - 문자를 표시하기 위해서는 일단, 사용될 문자의 종류와 그들의 순서가 정의되어 있어야 함
 - 위와 같은 문자 집합은 정수 하나에 대응되는데, 컴퓨터에서는 내부적으로 각 문자가 정수로 표현됨
 - 컴퓨터에 비트 단위로 코드화 되어 문자를 저장하는 것을 encoding(인코딩)이라고 함

### 다양한 인코딩의 문제점
 - 초기에 영어문자와 특수기호를 표현하기 위해 7비트 ASCII code 사용 됨
 - 추가적으로 유럽의 알파벳을 사용하기 위해 8비트 확장 ASCII code 사용 됨
   - 각 인코딩마다 다른 값이 할당되는 문제가 존재
 - CJK(중국, 일본, 한국) 문자 표현을 위해 각 나라마다 다른 인코딩 방식 사용
   - 한글의 경우, 완성형, 조합형 등 다양한 인코딩이 사용 
 
### 한 문서에서 여러 언어를 표현할 일이 생긴다면 어떤 인코딩을 사용해야 하나?
 - 모든 언어를 하나의 집합으로 표현해야하 요구가 발생

### Unicode
 - 전세계 언어를 표현하기 위한 codepage
 - 각 언어의 글자가 정수값과 대응됨
 - 일반적으로 prefix로 U+를 사용
   - A : U+0041
   - 한 : U+d55c

### 한글 문자열

In [None]:
hg = '한글'
print hg, type(hg)

In [None]:
hg

In [None]:
# 문자열의 경우 바이트 수로 길이를 나타냄
len(hg)

In [None]:
len('array')

In [None]:
len('세종대왕')

### 한글 유니코드 문자열
 - 유니코드 문자열은 앞에 u를 붙여 정의
 - [유니코드 확인](http://www.unicodemap.org)
   * [한](http://www.unicodemap.org/details/0xD55C/index.html)
   * [글](http://www.unicodemap.org/details/0xAE00/index.html)

In [None]:
uhg = u'한글'
print uhg, type(uhg)

In [None]:
uhg

In [None]:
# 유니코드의 경우 바이트가 아닌, 문자열의 길이를 반환
len(uhg)

### 유니코드 인코딩
  - 유니코드의 경우 컴퓨터에서 표현하기 위해 인코딩 되어야 함
  - 다양한 인코딩이 존재하나 UTF-8이 가장 많이 사용
  - UTF-8으로 인코딩 할 경우, 한글은 글자당 3바이트로 인코딩 됨
    - encode함수 : 유니코드 -> 문자열 
    - decode함수 : 문자열   -> 유니코드

In [None]:
hg.decode('utf-8').encode('euc-kr')

In [None]:
print hg.decode('utf-8').encode('euc-kr')

In [None]:
uhg.encode('utf-8')

In [None]:
print uhg.encode('utf-8')

In [None]:
print uhg.encode('euc-kr')

### str, unicode 함수
  - str, uicode 함수를 이용하여 각각 타입 변환 가능
  - 하지만, 각 함수는 기본적으로 ascii 인코딩을 이용하기 때문에 에러 발생
  - 이를 해결하기 위해 .py 파일 상단 혹은 notebook 상에 아래와 같이 기본 인코딩 변경 명시 가능
  ```python
  import sys
  reload(sys)
  sys.setdefaultencoding('utf-8')
  ```

In [None]:
str(uhg)

In [None]:
unicode(hg)

In [None]:
unicode(hg, encoding='utf-8')

In [None]:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

In [None]:
str(uhg)

In [None]:
unicode(hg)

In [None]:
import sys
reload(sys)
sys.setdefaultencoding('euc-kr')

In [None]:
str(uhg)

In [None]:
unicode(str(uhg))

### 웹에서 한글처리 하기
 - 각 웹 사이트 마다 해당 페이지를 인코딩 한 방식과 맞지 않게 문자열을 해석하면 글씨가 제대로 출력되지 않음
 - 브라우져는 자동으로 해당 페이지의 인코딩을 추출
  
     <head> 하위 태그에서 아래와 같이 content에 명시 되어 있거나,
       <meta http-equiv="Content-Type" content="text/html; charset=euc-kr" />
     response의 header에서 encoding 확인
 - requests 모듈의 Response객체의 encoding속성으로 확인 가능

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
res = requests.get('http://v.media.daum.net/v/20170701111544355?rcmd=rn')
res.encoding # 사이트의 문자열 인코딩 확인

### .text vs .content
 - .content : 문자열 반환
 - .text    : 유니코드 반환

In [None]:
res.content

In [None]:
type(res.content)

In [None]:
res.text

In [None]:
type(res.text)

### Tag.get_text 함수
 - soup에서 명시된 인코딩 혹은 내부적으로 파악한 인코딩을 이용하여 유니코드로 디코딩한 결과 바환

* daum 뉴스 웹사이트

In [None]:
soup = BeautifulSoup(res.content, 'html5lib')

# content 속성을 이용하여도 아래 title의 경우 unicode로 반환 됨
title = soup.find('h3', class_='tit_view').get_text()

print title
title # unicode 표현

In [None]:
# 명시적으로 encoding 설정 가능
soup = BeautifulSoup(res.content, 'html5lib', from_encoding='utf-8')

# content 속성을 이용하여도 아래 title의 경우 unicode로 반환 됨
title = soup.find('h3', class_='tit_view').get_text()

print title
title # unicode 표현

In [None]:
soup = BeautifulSoup(res.text)
soup.find('h3', class_='tit_view').get_text()

* socar 웹사이트
 - utf-8으로 명시되어 있지만, encoding을 확인하면 ISO-8859-1(latin1)으로 표시 됨
 - 사이트의 헤더에서 인코딩을 명시하지 않으면 아래 규약에 따라 default 값인 ISO-8859-1로 처리
   - [RFC2616](https://www.ietf.org/rfc/rfc2616.txt)
   - RFC(Request for Comment) : 인터넷이나 네트워크등의 공학 분야에서 적용 가능한 새로운 연구, 혁신 등에 관한 노트

In [None]:
res = requests.get('http://socar.kr')
res.encoding

In [None]:
res.content

In [None]:
# 제대로 unicode로 디코딩 하지 못함
res.text

* 인코딩이 다르게 나올 경우
 - **아래 코드에서와 같이 명시적으로 인코딩 설정 가능**

In [None]:
res = requests.get('http://socar.kr')
res.encoding = 'utf-8'
res.encoding

In [None]:
res.content

In [None]:
# unicode로 제대로 디코딩 함
res.text

* 혹은 아래와 같이 content 속성을 이용하고, from_encoding 속성을 이용

In [None]:
soup = BeautifulSoup(res.content, from_encoding='utf-8')
print soup.title.get_text()

In [None]:
soup = BeautifulSoup(res.text)
print soup.title.get_text()

* 경향신문 웹사이트
 - 인코딩으로 euc-kr 사용

In [None]:
res = requests.get('http://www.khan.co.kr/', allow_redirects = False)
res.encoding

In [None]:
type(res.content)

In [None]:
type(res.text)

In [None]:
res.content

In [None]:
res.text

In [None]:
res = requests.get('http://www.khan.co.kr/', allow_redirects = False)
res.encoding = 'euc-kr'

In [None]:
res.content

In [None]:
res.text

In [None]:
soup = BeautifulSoup(res.content, from_encoding='euc-kr')
print soup.title.get_text()

In [None]:
soup = BeautifulSoup(res.text)
print soup.title.get_text()