# Encoding 

In [1]:
import requests
import lxml.html 

### 꼭 알아둬야할 인코딩 
 - ASCII
 - EUC-KR
 - CP949
 - UTF8

### 16진수
 - Hexadecimal (흔히 hex)
 - 0~F까지 16개의 수로 한 자리를 나타냄

|A|B|C|D|E|F|
|--|--|--|--|--|--|
|10|11|12|13|14|15|

- 프로그래밍에서는 0x를 앞에 붙여 표시 
- 2진수 4자리  = 16진수 1자리 

### Bit 와 Byte
 - Bit : 2진수 1자리(0 or 1)
 - Byte = 8bit

### ASCII
 - American Standard Code for Information Interchange
  - 미국 정보 교환 표준 부호

 - 7bit 코드: 0x00 ~ 0x7F까지 128개
  - 000 0000(2) ~ 111 1111(2)
  - 알파벳, 문장부호 등을 포함

 - 첫 1bit는 parity bit (1의 개수가 홀수면 1)
  - 에러 검출 목적


### ISO 8859
 - 8bit: 0x00 ~ 0xFF까지 256개
  - ASCII에서 쓸 수 없는 문자들까지 포함 
  - 언어권에 따라 여러 가지 변형
  - 서유럽용 ISO 8859-1을 가장 많이 씀(Latin-1)

 - 공백이 2종류
  - 0x20 Space
  - 0xA0 NBSP


### 한글 인코딩
 - 현대 한글: 11,172글자
  - 초성(19개) X 중성(21) X 종성(28)
  - 14bit (0~16,384) 필요
  - 한자도 있음

 - 조합형:
  - 16bit 한글
  - 한글표시 1bit + 초성 5bit + 중성 5 bit + 종성 5bit
  - 장점: 모든 현대 한글을 표현
  - 단점: 처리가 복잡

### 완성형 EUC-KR
 - EUC-KR
  - KS X 1001
  - 행망용, KS C 5601

 - ISO 8859에서 A1~FE 까지 94 글자 범위 이용
  - 영어는 1 byte, 한글은 2 byte로 표현
  - 94 x 94 = 8,836 글자 표현 가능

 - 현대 한글 2,350자만 사용(쓩, 쌰 등 제외)
  - 0x5C Backslash를 원화 표시로 대체

### 확장완성형 CP949
- 현대 한글 11,172자 모두 표현
 - MS에서 개발, 윈도 95부터 기본 인코딩
 - ASCII(0x00-0x7F)와 완성형(0xA1-0xFE) 사이의 남는 영역 사용

- 비표준: CP 949, MS 949
 - EUC-KR로 잘못 표기되는 경우가 흔함

- 국내에서 널리 사용

![encoding](4.PNG)

### 유니코드 

 - UNICODE
  - 모든 문자를 포함하는 국제표준
  - 21bit 2,097,152 글자
 - U+를 앞에 붙임 U+00A0 == 0x00A0
 - 기존 표준과 호환

 - U+AC00 ~ U+D7AF에 한글 11,172글자 할당

 - 대부분 OS, 프로그래밍 언어 내부에 사용

### UTF-8 

 - 유니코드 인코딩 방식 중 하나

 - 1~4 byte: 영어는 1 byte, 한글은 3 byte

 - ASCII와 호환
  - m: U+006D -> 0x6D
  - 쓩: U+C4E9 -> 0xEC 0x93 0xA9

 - 대부분 웹 사이트에서 사용 (국내는 아님)
 
![encoding](5.PNG)

## 네이버에서 '딥러닝'으로 뉴스 검색

In [2]:
res = requests.get("http://naver.com")
res.encoding

'UTF-8'

In [5]:
res.text[1000:4000]

'ink rel="shortcut icon" type="image/x-icon" href="/favicon.ico" />\n\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/main_v170406.css"/>\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/newslogo_v170405.css"/>\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/api_atcmp_170323.css"/>\n<script type="text/javascript" src="https://s.pstatic.net/pm2/js/lib/nlog/lcslog.js"></script>\n<script type="text/javascript">\nvar nsc = "navertop.v3";\ndocument.domain = "naver.com";\nvar jindoAll = "https://s.pstatic.net/pm2/js/c/jindo_170307a.js";\nif (!!!window.console) {window.console={};window.console["log"]=function(){}}\nvar isLogin = false; \nfunction refreshLcs(etc) {if(document.cookie.indexOf("nrefreshx=1") != -1) {etc=etc?etc:{};etc["mrf"]="1";return etc;}return null;}\nlcs_do(refreshLcs());\n</script>\n<title>NAVER</title>\n</head>\n\n\n\n\n\n\n\n<body class=\'\'>\n\t<!-- 스킵 내비게이션 -->\n\t<div cl

In [6]:
res.encoding = 'cp949'

In [8]:
res.text[1000:4000]

'�떎�뼇�븳 �젙蹂댁�� �쑀�슜�븳 而⑦뀗痢좊�� 留뚮굹 蹂댁꽭�슂"/>\n\n<link rel="shortcut icon" type="image/x-icon" href="/favicon.ico" />\n\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/main_v170406.css"/>\n<link rel="stylesheet" type="text/css" href="https://s.pstatic.net/pm2/css/newslogo_v170405.css"/>\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/api_atcmp_170323.css"/>\n<script type="text/javascript" src="https://s.pstatic.net/pm2/js/lib/nlog/lcslog.js"></script>\n<script type="text/javascript">\nvar nsc = "navertop.v3";\ndocument.domain = "naver.com";\nvar jindoAll = "https://s.pstatic.net/pm2/js/c/jindo_170307a.js";\nif (!!!window.console) {window.console={};window.console["log"]=function(){}}\nvar isLogin = false; \nfunction refreshLcs(etc) {if(document.cookie.indexOf("nrefreshx=1") != -1) {etc=etc?etc:{};etc["mrf"]="1";return etc;}return null;}\nlcs_do(refreshLcs());\n</script>\n<title>NAVER</title>\n</head>\n\n\n\n\n\n\n\n<b

In [2]:
url = 'http://news.naver.com/main/search/search.nhn?query=%B5%F6%B7%AF%B4%D7&ie=MS949'

In [3]:
res = requests.get(url)

In [4]:
res.encoding

'EUC-KR'

In [5]:
root = lxml.html.fromstring(res.text)

In [6]:
for link in root.cssselect('a.tit'):
    print(link.text_content())

네이버, 검색 적용 AI 공개…핵심은 이미지·자연어·추천
[대한민국 名병원]②'수술 잘하는 병원' 명성…빅데이터 등 미래 의료 기술 선점 나선 서울아산병원
김광현 리더 “상상 속 AI 현실로…네이버도 진화”
만만찮은 개인화 서비스…네이버의 해법은?
엔비디아 '파스칼' GPU, IBM 클라우드 AI컴퓨팅 가속화
인텔PFN, 딥러닝 오픈소스 프레임워크 개발 '맞손'...인공지능 개발 쉽고 경제적으로
인텔, 구글에 맞선 일본 딥러닝 스타트업과 협력
[아시아미래기업포럼]이강원 SKT NIC기술원장, "딥러닝이 핵심 경쟁력"
"자율주행차 경쟁력 ‘딥러닝 기술’이 가른다"
[더벨]네이버 자율주행차, V2X 배제한 딥러닝만…한계는?


## Encoding 이란?
 - 글자를 숫자로 어떻게 나타내느냐?

In [7]:
'딥러닝'

'딥러닝'

In [8]:
'\uB525\uB7EC\uB2DD'

'딥러닝'

In [9]:
'딥러닝'.encode('utf8') 

b'\xeb\x94\xa5\xeb\x9f\xac\xeb\x8b\x9d'

In [10]:
'딥러닝'.encode('cp949')

b'\xb5\xf6\xb7\xaf\xb4\xd7'

In [11]:
'딥러닝'.encode('euc-kr')

b'\xb5\xf6\xb7\xaf\xb4\xd7'

## '%B5%F6%B7%AF%B4%D7'은 무엇인가?

In [12]:
from urllib.parse import quote_plus

 - %형태로 변환해준다. 

In [13]:
quote_plus('딥러닝'.encode('euc-kr'))

'%B5%F6%B7%AF%B4%D7'

In [14]:
quote_plus('딥러닝'.encode('utf-8'))

'%EB%94%A5%EB%9F%AC%EB%8B%9D'

## 네이버 뉴스 자동 수집

In [15]:
query = '딥러닝'

In [16]:
query_percent = quote_plus(query.encode('cp949'))
query_percent

'%B5%F6%B7%AF%B4%D7'

In [17]:
url = ('http://news.naver.com/main/search/search.nhn?refresh=&so=rel.dsc&stPhoto=&stPaper='
       '&stRelease=&ie=MS949&detail=0&rcsection=&sm=all.basic&pd=4&'
       'query={query}&startDate={start}&endDate={end}&page={page}')

In [18]:
url.format(query=query_percent, start='2017-04-05', end='2017-04-06', page=1)

'http://news.naver.com/main/search/search.nhn?refresh=&so=rel.dsc&stPhoto=&stPaper=&stRelease=&ie=MS949&detail=0&rcsection=&sm=all.basic&pd=4&query=%B5%F6%B7%AF%B4%D7&startDate=2017-04-05&endDate=2017-04-06&page=1'

In [19]:
articles = []
for page in range(1, 3):
    page_url = url.format(query=query_percent, start='2017-04-05', end='2017-04-06', page=page)
    res = requests.get(page_url)
    root = lxml.html.fromstring(res.text)
    titles = root.cssselect('a.go_naver')
    for title in titles:
        article_url = title.attrib['href']
        art_res = requests.get(article_url)
        art_root = lxml.html.fromstring(art_res.text)
        body = art_root.cssselect('#articleBodyContents')[0]
        articles.append(body.text_content())

In [20]:
len(articles)

16

In [21]:
articles[0]

'\n\t\n\t\n\n\n\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n\t\n\t엔비디아, GPU 경쟁력으로 자율주행 시스템 상용화 앞장\r\r(지디넷코리아=이은정 기자)"딥러닝 기술은 여러 분야로 퍼지고 있는데 특히 자율주행에서 가장 중요한 이정표를 만들고 있습니다. 자율주행차는 완성도를 끌어올리지 않으면 실제로 제품화되기는 어렵기 때문에 자율주행 플랫폼 개발인력 비중을 늘리는 등 포션을 확대하고 있습니다."\r\r엔비디아 오민석 이사는 2017 서울모터쇼에서 진행된 자율주행 자동차 미래 기술 세미나의 ‘Deep Learning을 활용한 NVIDIA 자율주행 플랫폼’을 주제로 한 강연에서 이같이 말했다. 그는 컴퓨터비전 기술로는 구현하기 어려웠던 자율주행 솔루션을 딥러닝에서 찾을 수 있을 것이라고 보고 있다.\r\r                      엔비디아 오민석 이사가 \'자율주행 자동차 미래 기술 세미나\'에서 강연자로 나섰다.(사진=지디넷코리아)\r\r딥 러닝(Deep Learning)은 인간의 뇌 신경망을 본따 데이터에 포함된 다양한 변수를 파악하지 못 하는 머신러닝의 한계를 보완한 방법이다. 머신러닝(기계학습)은 빅데이터를 확률적, 통계적으로 분석해 가장 가치 있는 데이터를 찾아내 분류하는 능력을 학습한 기술이다.\r\r이 기술은 2012년 1천개가 넘는 카테고리로 분류된 100만개 이미지에 대해 가장 높은 인식률을 보이는 알고리즘이 선발되는 이미지넷(ImageNet) 대회에서 주목받기 시작했다. 이 대회에서 딥 러닝 기술을 기반으로 이미지 인식률을 10% 이상 높인 알렉스넷(Alexnet)이 등장하면서다.\r\r오만석 이사는 자율주행 기술의 발전 역시 딥 러닝 기술을 통해 획기적으로 개선될 것이라고 보고 있다.\r\r그는 "최근에는 딥 러닝을 이용해 이미지를 오인식하는 확률이 3.99%에 불과하다"며 "하나의 물체를 인식하는 기술과 컴퓨터가 스스로 판단해 액션을 

In [22]:
articles[0].replace('flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}', '')

'\n\t\n\t\n\n\n\n// \n\n\t\n\t엔비디아, GPU 경쟁력으로 자율주행 시스템 상용화 앞장\r\r(지디넷코리아=이은정 기자)"딥러닝 기술은 여러 분야로 퍼지고 있는데 특히 자율주행에서 가장 중요한 이정표를 만들고 있습니다. 자율주행차는 완성도를 끌어올리지 않으면 실제로 제품화되기는 어렵기 때문에 자율주행 플랫폼 개발인력 비중을 늘리는 등 포션을 확대하고 있습니다."\r\r엔비디아 오민석 이사는 2017 서울모터쇼에서 진행된 자율주행 자동차 미래 기술 세미나의 ‘Deep Learning을 활용한 NVIDIA 자율주행 플랫폼’을 주제로 한 강연에서 이같이 말했다. 그는 컴퓨터비전 기술로는 구현하기 어려웠던 자율주행 솔루션을 딥러닝에서 찾을 수 있을 것이라고 보고 있다.\r\r                      엔비디아 오민석 이사가 \'자율주행 자동차 미래 기술 세미나\'에서 강연자로 나섰다.(사진=지디넷코리아)\r\r딥 러닝(Deep Learning)은 인간의 뇌 신경망을 본따 데이터에 포함된 다양한 변수를 파악하지 못 하는 머신러닝의 한계를 보완한 방법이다. 머신러닝(기계학습)은 빅데이터를 확률적, 통계적으로 분석해 가장 가치 있는 데이터를 찾아내 분류하는 능력을 학습한 기술이다.\r\r이 기술은 2012년 1천개가 넘는 카테고리로 분류된 100만개 이미지에 대해 가장 높은 인식률을 보이는 알고리즘이 선발되는 이미지넷(ImageNet) 대회에서 주목받기 시작했다. 이 대회에서 딥 러닝 기술을 기반으로 이미지 인식률을 10% 이상 높인 알렉스넷(Alexnet)이 등장하면서다.\r\r오만석 이사는 자율주행 기술의 발전 역시 딥 러닝 기술을 통해 획기적으로 개선될 것이라고 보고 있다.\r\r그는 "최근에는 딥 러닝을 이용해 이미지를 오인식하는 확률이 3.99%에 불과하다"며 "하나의 물체를 인식하는 기술과 컴퓨터가 스스로 판단해 액션을 취할 수 있게 하는 게 자율주행 기술의 핵심으로 작용하는 만큼 딥 러닝은 중요하다"고 말했다.\r\r최근 자