# Encoding 

In [2]:
import requests
import lxml.html 

### 꼭 알아둬야할 인코딩 
 - ASCII
 - EUC-KR
 - CP949
 - UTF8

### 16진수
 - Hexadecimal (흔히 hex)
 - 0~F까지 16개의 수로 한 자리를 나타냄

|A|B|C|D|E|F|
|--|--|--|--|--|--|
|10|11|12|13|14|15|

- 프로그래밍에서는 0x를 앞에 붙여 표시 
- 2진수 4자리  = 16진수 1자리 

### Bit 와 Byte
 - Bit : 2진수 1자리(0 or 1)
 - Byte = 8bit

### ASCII
 - American Standard Code for Information Interchange
  - 미국 정보 교환 표준 부호

 - 7bit 코드: 0x00 ~ 0x7F까지 128개
  - 000 0000(2) ~ 111 1111(2)
  - 알파벳, 문장부호 등을 포함

 - 첫 1bit는 parity bit (1의 개수가 홀수면 1)
  - 에러 검출 목적


### ISO 8859
 - 8bit: 0x00 ~ 0xFF까지 256개
  - ASCII에서 쓸 수 없는 문자들까지 포함 
  - 언어권에 따라 여러 가지 변형
  - 서유럽용 ISO 8859-1을 가장 많이 씀(Latin-1)

 - 공백이 2종류
  - 0x20 Space
  - 0xA0 NBSP


### 한글 인코딩
 - 현대 한글: 11,172글자
  - 초성(19개) X 중성(21) X 종성(28)
  - 14bit (0~16,384) 필요
  - 한자도 있음

 - 조합형:
  - 16bit 한글
  - 한글표시 1bit + 초성 5bit + 중성 5 bit + 종성 5bit
  - 장점: 모든 현대 한글을 표현
  - 단점: 처리가 복잡

### 완성형 EUC-KR
 - EUC-KR
  - KS X 1001
  - 행망용, KS C 5601

 - ISO 8859에서 A1~FE 까지 94 글자 범위 이용
  - 영어는 1 byte, 한글은 2 byte로 표현
  - 94 x 94 = 8,836 글자 표현 가능

 - 현대 한글 2,350자만 사용(쓩, 쌰 등 제외)
  - 0x5C Backslash를 원화 표시로 대체

### 확장완성형 CP949
- 현대 한글 11,172자 모두 표현
 - MS에서 개발, 윈도 95부터 기본 인코딩
 - ASCII(0x00-0x7F)와 완성형(0xA1-0xFE) 사이의 남는 영역 사용

- 비표준: CP 949, MS 949
 - EUC-KR로 잘못 표기되는 경우가 흔함

- 국내에서 널리 사용

![encoding](img/15.PNG)

### 유니코드 

 - UNICODE
  - 모든 문자를 포함하는 국제표준
  - 21bit 2,097,152 글자
 - U+를 앞에 붙임 U+00A0 == 0x00A0
 - 기존 표준과 호환

 - U+AC00 ~ U+D7AF에 한글 11,172글자 할당

 - 대부분 OS, 프로그래밍 언어 내부에 사용

### UTF-8 

 - 유니코드 인코딩 방식 중 하나

 - 1~4 byte: 영어는 1 byte, 한글은 3 byte

 - ASCII와 호환
  - m: U+006D -> 0x6D
  - 쓩: U+C4E9 -> 0xEC 0x93 0xA9

 - 대부분 웹 사이트에서 사용 (국내는 아님)
 
![encoding](img/16.PNG)

## 네이버에서 '딥러닝'으로 뉴스 검색

In [3]:
res = requests.get("http://naver.com")
res.encoding

'UTF-8'

In [4]:
res.text[1000:4000]

' content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/>\n\n<link rel="shortcut icon" type="image/x-icon" href="/favicon.ico" />\n\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/main_v170430.css"/>\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/api_atcmp_170413.css"/>\n<script type="text/javascript" src="https://s.pstatic.net/pm2/js/c/nlog_170414.js"></script>\n<script type="text/javascript">\nvar nsc = "navertop.v3";\ndocument.domain = "naver.com";\nvar jindoAll = "https://s.pstatic.net/pm2/js/c/jindo_170307a.js";\nif (!!!window.console) {window.console={};window.console["log"]=function(){}}\nvar isLogin = false; \nfunction refreshLcs(etc) {if(document.cookie.indexOf("nrefreshx=1") != -1) {etc=etc?etc:{};etc["mrf"]="1";return etc;}return null;}\nlcs_do(refreshLcs());\n</script>\n<title>NAVER</title>\n</head>\n\n\n\n\n\n\n\n<body class=\'\'>\n\t<!-- 스킵 내비게이션 -->\n\t<div class="u_skip">\n\t\t<a href="#news_cast" onclick="do

In [5]:
res.encoding = 'cp949'

In [6]:
res.text[1000:4000]

'me="twitter:description" content="�꽕�씠踰� 硫붿씤�뿉�꽌 �떎�뼇�븳 �젙蹂댁�� �쑀�슜�븳 而⑦뀗痢좊�� 留뚮굹 蹂댁꽭�슂"/>\n\n<link rel="shortcut icon" type="image/x-icon" href="/favicon.ico" />\n\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/main_v170430.css"/>\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/api_atcmp_170413.css"/>\n<script type="text/javascript" src="https://s.pstatic.net/pm2/js/c/nlog_170414.js"></script>\n<script type="text/javascript">\nvar nsc = "navertop.v3";\ndocument.domain = "naver.com";\nvar jindoAll = "https://s.pstatic.net/pm2/js/c/jindo_170307a.js";\nif (!!!window.console) {window.console={};window.console["log"]=function(){}}\nvar isLogin = false; \nfunction refreshLcs(etc) {if(document.cookie.indexOf("nrefreshx=1") != -1) {etc=etc?etc:{};etc["mrf"]="1";return etc;}return null;}\nlcs_do(refreshLcs());\n</script>\n<title>NAVER</title>\n</head>\n\n\n\n\n\n\n\n<body class=\'\'>\n\t<!-- �뒪�궢 �궡鍮꾧쾶�씠�뀡 -->\n\t<div cl

In [7]:
url = 'http://news.naver.com/main/search/search.nhn?query=%B5%F6%B7%AF%B4%D7&ie=MS949'

In [8]:
res = requests.get(url)

In [9]:
res.encoding

'EUC-KR'

In [10]:
root = lxml.html.fromstring(res.text)

In [11]:
for link in root.cssselect('a.tit'):
    print(link.text_content())

딥러닝 탑재 '삼성 자율주행차' 도로 달린다
AI는 `딥러닝` 통해 스스로 진화…공장 자동화와는 달라
자율주행차 시험 나선 삼성전자, "목적은 車 아닌 부품"
창작자를 위한 인공지능 공부법
[체인지코리아]⑤4차 산업혁명 중심 AI…숨어있는 AI 스타트업 발굴해야
엑셀에서 딥러닝까지…게임기획자, 데이터에 빠지다
딥러닝 마친 AI 의사, 환자 진단부터 치료법도 제시
‘AI 딥러닝 기술로 안구 질환 진단’
AI 딥러닝으로 게임 캐릭터 만들기
28일 동서대 인공지능과 딥러닝 세미나…사례 등 소개


## Encoding 이란?
 - 글자를 숫자로 어떻게 나타내느냐?

In [12]:
'딥러닝'

'딥러닝'

In [13]:
'\uB525\uB7EC\uB2DD'

'딥러닝'

In [14]:
'딥러닝'.encode('utf8') 

b'\xeb\x94\xa5\xeb\x9f\xac\xeb\x8b\x9d'

In [15]:
'딥러닝'.encode('cp949')

b'\xb5\xf6\xb7\xaf\xb4\xd7'

In [16]:
'딥러닝'.encode('euc-kr')

b'\xb5\xf6\xb7\xaf\xb4\xd7'

## '%B5%F6%B7%AF%B4%D7'은 무엇인가?

In [17]:
from urllib.parse import quote_plus

 - %형태로 변환해준다. 

In [18]:
quote_plus('딥러닝'.encode('euc-kr'))

'%B5%F6%B7%AF%B4%D7'

In [19]:
quote_plus('딥러닝'.encode('utf-8'))

'%EB%94%A5%EB%9F%AC%EB%8B%9D'

## 네이버 뉴스 자동 수집

In [20]:
query = '딥러닝'

In [21]:
query_percent = quote_plus(query.encode('cp949'))
query_percent

'%B5%F6%B7%AF%B4%D7'

In [22]:
url = ('http://news.naver.com/main/search/search.nhn?refresh=&so=rel.dsc&stPhoto=&stPaper='
       '&stRelease=&ie=MS949&detail=0&rcsection=&sm=all.basic&pd=4&'
       'query={query}&startDate={start}&endDate={end}&page={page}')

In [23]:
url.format(query=query_percent, start='2017-04-05', end='2017-04-06', page=1)

'http://news.naver.com/main/search/search.nhn?refresh=&so=rel.dsc&stPhoto=&stPaper=&stRelease=&ie=MS949&detail=0&rcsection=&sm=all.basic&pd=4&query=%B5%F6%B7%AF%B4%D7&startDate=2017-04-05&endDate=2017-04-06&page=1'

In [27]:
articles = []
for page in range(1, 3):
    page_url = url.format(query=query_percent, start='2017-04-05', end='2017-04-06', page=page)
    res = requests.get(page_url)
    root = lxml.html.fromstring(res.text)
    titles = root.cssselect('a.go_naver')
    for title in titles:
        article_url = title.attrib['href']
        art_res = requests.get(article_url)
        art_root = lxml.html.fromstring(art_res.text)
        body = art_root.cssselect('#articleBodyContents')[0]
        articles.append(body.text_content())

In [28]:
len(articles)

16

In [29]:
articles[0]

'\n\t\n\t\n\n\n\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n\t\n\t[아시아경제 강희종 기자]4차 산업 혁명 시대를 맞아 이동통신사들도 변신을 시도하고 있다. 과거 문자와 음성만을 제공하던 이동통신사들이 인공지능(AI)으로 대표되는 4차 산업혁명 시대에 살아남고, 더 나아가 승자가 되기 위해 가장 필요한 것은 무엇일까?이강원 SK텔레콤 NIC기술원장은 6일 아시아경제가 주최한 \'2017 아시아미래기업포럼에서 "4차 산업혁명 시대에는 디지털 트랜스포메이션의 승자가 ICT(정보통신기술) 세상의 패권을 차지할 수 것"이라며 "디지털 트랜스포메이션을 위해서는 딥러닝 기술이 AI, 사물인터넷(IoT), 빅데이터 등 다양한 분야에서 핵심 경쟁력으로 부각되고 있다"고 강조했다.3세대(3G) 이동통신 시대까지만 해도 이동통신사들은 언제 어디서나 음성통화와 문자메시지를 제공하는 것이 핵심 경쟁력이었다. 4G 이동통신과 스마트폰 시대로 넘어오면서부터는 빠른 데이터 속도를 제공이 경쟁력을 좌우했다.하지만 4차 산업혁명 시대에 이동통신사들은 단순히 음성, 문자, 데이터만 제공해서는 살아남을 수 없다. SK텔레콤이 지난해 말 박정호 사장이 취임하면서 \'디지털 트랜스포메이션\'을 강조하고 있는 이유다.SK텔레콤의 디지털트랜스포메이션 전략은 AI, 자율 주행, 가상/증강현실을 가능케 하는 5G 통신망과 소프트웨어(SW) 정의 기술을 기반으로 한 올IT(All-IT) 네트워크를 특징으로 한다.이강원 원장은 "시장에서의 승자들은 디지털 트랜스포메이션으로의 전환을 추진하고 있으며 이러한 과정에서 AI(딥러닝)의 중요성은 더욱 커질 것"이라고 전망하면서 "통신 사업자 관점에서는 커넥티비티(연결성) 및 클라우드 인프라를 기반으로 AI, IoT, 빅데이터 분야에서 디지털 트랜스포메이션을 추진하고 있다"고 소개했다.AI와 관련, SK텔레콤은 딥러닝 기반의 AI 플랫폼을 통해 다양한 스마트 서비스를 제공하

In [30]:
articles[0].replace('flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}', '')

'\n\t\n\t\n\n\n\n// \n\n\t\n\t[아시아경제 강희종 기자]4차 산업 혁명 시대를 맞아 이동통신사들도 변신을 시도하고 있다. 과거 문자와 음성만을 제공하던 이동통신사들이 인공지능(AI)으로 대표되는 4차 산업혁명 시대에 살아남고, 더 나아가 승자가 되기 위해 가장 필요한 것은 무엇일까?이강원 SK텔레콤 NIC기술원장은 6일 아시아경제가 주최한 \'2017 아시아미래기업포럼에서 "4차 산업혁명 시대에는 디지털 트랜스포메이션의 승자가 ICT(정보통신기술) 세상의 패권을 차지할 수 것"이라며 "디지털 트랜스포메이션을 위해서는 딥러닝 기술이 AI, 사물인터넷(IoT), 빅데이터 등 다양한 분야에서 핵심 경쟁력으로 부각되고 있다"고 강조했다.3세대(3G) 이동통신 시대까지만 해도 이동통신사들은 언제 어디서나 음성통화와 문자메시지를 제공하는 것이 핵심 경쟁력이었다. 4G 이동통신과 스마트폰 시대로 넘어오면서부터는 빠른 데이터 속도를 제공이 경쟁력을 좌우했다.하지만 4차 산업혁명 시대에 이동통신사들은 단순히 음성, 문자, 데이터만 제공해서는 살아남을 수 없다. SK텔레콤이 지난해 말 박정호 사장이 취임하면서 \'디지털 트랜스포메이션\'을 강조하고 있는 이유다.SK텔레콤의 디지털트랜스포메이션 전략은 AI, 자율 주행, 가상/증강현실을 가능케 하는 5G 통신망과 소프트웨어(SW) 정의 기술을 기반으로 한 올IT(All-IT) 네트워크를 특징으로 한다.이강원 원장은 "시장에서의 승자들은 디지털 트랜스포메이션으로의 전환을 추진하고 있으며 이러한 과정에서 AI(딥러닝)의 중요성은 더욱 커질 것"이라고 전망하면서 "통신 사업자 관점에서는 커넥티비티(연결성) 및 클라우드 인프라를 기반으로 AI, IoT, 빅데이터 분야에서 디지털 트랜스포메이션을 추진하고 있다"고 소개했다.AI와 관련, SK텔레콤은 딥러닝 기반의 AI 플랫폼을 통해 다양한 스마트 서비스를 제공하고 있다. SK텔레콤이 지난해 선보인 AI 기반 음성인식 스피커인 누구(NUGU)가 대표적이다. 누구에서는 