## 1. JSON

representor는 Python의 dict로 이뤄진 데이터구조임. JSON은 dict의 key가 str이며, 그 value는 int, float, str, 그리고 이로 이뤄진 또 다른 dict, list가 될 수 있다는 것을 기억

In [1]:
representor = {
    'name' : '김예찬',
    'age' : 29,
    'interests' : ['text mining', 'natural language processing'],
    'friends' : {
        'name' : '강병욱',
        'id' : 'kbw'
    }
}

representor['name']을 하면 해당 값이 return 됩니다. 

In [2]:
representor['name']

'김예찬'

representor의 friends는 또 다른 dict이며, JSON은 이처럼 depth가 1보다 더 깊어질 수 있습니다. 만약 특정 키가 존재함을 알고 있다면 representor['friends']의 ['name']을 통하여 직접 해당 값도 가져올 수 있음

In [3]:
representor['friends']['name']

'강병욱'

dict를 print 하면 길이가 짧을 경우, 한 줄로 표시가 되어서 읽기 어려움. 이 때에는 pretty print를 사용해보는 것을 권장

In [4]:
print(representor)

{'name': '김예찬', 'age': 29, 'interests': ['text mining', 'natural language processing'], 'friends': {'name': '강병욱', 'id': 'kbw'}}


In [5]:
from pprint import pprint
pprint(representor)

{'age': 29,
 'friends': {'id': 'kbw', 'name': '강병욱'},
 'interests': ['text mining', 'natural language processing'],
 'name': '김예찬'}


representor를 저장하고, 다시 불러올 것입니다. 만약 저장하려는 path의 폴더가 존재하지 않는다면 이 폴더를 생성하여 저장하도록 한다

In [6]:
fname = "tmp/representor.json"
folder = fname.split('/')[0]

print(fname, folder)

tmp/representor.json tmp


In [7]:
import os

print(os.path.exists(folder))

True


In [8]:
if not os.path.exists(folder):
    os.mkdir(folder)
    print('created %s'%folder)

Python에서 파일을 읽거나 쓸 때 (File I/O)는 open을 이용하면 됨. 이 때 반드시 인코딩을 utf-8로 지정하는 것을 추천함

인코딩이란 쉽게 말하면 'a'라는 글자를 어떤 숫자로 저장할 것이냐라는 언어포임. 컴퓨터는 정보를 2진수로 이뤄진 숫자로 저아함. 'a'라는 글자는 어떤 인코딩에서는 0일 수도 있고, 다른 어떤 인코딩에서는 100일 수 있음. 각 인코딩이 표현할 수 있는 언어의 폭도 다름. 처음 컴퓨터가 만들어질 때 나왔던 인코딩은 한글, 중국어 등의 세계 각 국의 언어를 고려하지 않았음. 영어/숫자/특수기호 등으로 이뤄진 인코딩을 이용하였으나 컴퓨터를 사용하는 지역이 넓어짐에 따라 각 언어를 반영하도록 기술이 발전했다는 것을 기억해야 함

현재는 utf-8이 표준 인코딩으로 사용되고 있으며 여기에는 한국어를 포함한 많은 언어들이 등록되어 있음.

그런데 컴퓨터 입장에서 001010처럼 써진 숫자들만 보고 이 숫자가 어떤 글자를 의미하는지 추측하려면 때에 따라서 틀릴 수 있음. 반대로 사용자가 001010을 어떤 인코딩으로 읽으라고 지정할 수 도 있음. 또한 파일에 데이터를 쓸 때에도 'a'라는 글자를 어떤 인코딩 방식을 통해서 이진수로 표현하는지를 결정할 수 있음 

파이썬은 해당 OS의 기본 인코딩을 사용함. 윈도우의 기본 인코딩을 cp949이며, ubuntu, MacOS에서 이 포멧이 잘 열리지 않을 수 있기 때문에 표준 인코딩인 utf-8을 명시하는 것을 권장한다는 것을 기억해라

JSON형식의 데이터를 저장할 때에는 
 - json.dump(object, file)

In [9]:
import json

with open('tmp/representor.json', 'w', encoding='utf-8') as f:
    json.dump(representor, f)

파이썬에서 File I/O를 하기 위해 open을 이용할 때 2가지 방식이 가능함.
- open으로 파일을 열어둔 통로를 f라는 변수로 받은 뒤 json을 등록하고 f를 close()하여 파일을 완전히 닫을 수 있음

그렇지만 아래 방식은 실수로 f.close()를 하지 않는 경우 python이 해당 파일에 언제든지 쓸 준비를 하도록 만들어줌. 이렇게 열린 파일들이 많아지면 python이 중간에 죽는 일이 발생하며, 특히 아래 코드에서 매우 위험함

```python
for name in fnames:
    f = open(fname)
    ...
```
with open...은 해당 구문이 끝나면 f.close()를 자동으로 시켜주는 구문으로 위처럼 File I/O를 하는 것을 추천함

In [10]:
f = open('tmp/representor.json', 'w', encoding='utf-8')
json.dump(representor, f)
f.close()

JSON형식의 데이터를 파일로부터 불러들일 때에는 json.load(file)을 하면 됨. 이전에 만든 representor와 같은지 확인하기 위해 다른 이름인 loaded_representor로 불러들여보자

In [11]:
with open('tmp/representor.json', encoding='utf-8') as f:
    loaded_representor = json.load(f)
    
pprint(loaded_representor)

{'age': 29,
 'friends': {'id': 'kbw', 'name': '강병욱'},
 'interests': ['text mining', 'natural language processing'],
 'name': '김예찬'}


새로운 정보를 추가하고 싶을 때에는 JSONObject['str_key'] =value를 입력하면 됨

In [12]:
representor['likes'] = ['coffee', 'drinks']
pprint(representor)

{'age': 29,
 'friends': {'id': 'kbw', 'name': '강병욱'},
 'interests': ['text mining', 'natural language processing'],
 'likes': ['coffee', 'drinks'],
 'name': '김예찬'}


JSONObject에 어떤 keys가 들어있는지 확인할 수 있음

In [13]:
print('representor keys : ', representor.keys())
print('representor["friends"] keys : ', representor['friends'].keys())
print('representor has age? : ', 'age' in representor)

representor keys :  dict_keys(['name', 'age', 'interests', 'friends', 'likes'])
representor["friends"] keys :  dict_keys(['name', 'id'])
representor has age? :  True


JSONObject는 dict이기 때문에 존재하지 않는 key를 입력하면 에러가 남. 이를 방지하기 위하여 default return value를 지정할 수 있는 dict.get('key', default value)를 이용하면 좋음

In [14]:
representor['wrong key']

KeyError: 'wrong key'

In [15]:
representor.get('name',[])

'김예찬'

## 2. KoNLPy

KoNLPy는 python에서 한국어 텍스트의 전처리를 할 수 있도록 토크나이징 / 품사 태깅 / 명사 추출을 하는 패키지임

KoNLPy에서 트위터 형태소 분석기, 한나눔, 꼬꼬마, 코모란, 한국어-매캅 등 다양한 종류의 공개된 한국어 형태소 분석기들이 들어있음. 각 형태소 분석기마다 구현된 언어가 다름. 특히 자바로 구현된 형태소 분석디들을 사용하기 위해서는 JPype1을 먼저 설치해야 함

꼬꼬마, 트위터, 한나눔을 사용해보자

In [16]:
from konlpy.tag import Kkma, Twitter, Hannanum
from pprint import pprint

여러 개의 형태소 분석기를 비교하기 위해서 각 형태소 분석기들을 이름과 함께 tuple로 만들어, 이를 list에 넣어보자

In [17]:
taggers = [('kkma', Kkma()), ('twitter', Twitter()), ('hannanum', Hannanum())]

print를 할 때 %s는 해당 자리에 str이 들어간다는 의미임. 해당되는 값은 %뒤의 튜플 안에 넣어줄 수 있음.

String format에 넣을 수 있는 것들은 %d(int), %f(float), %r(boolean) 등이 있음

%10s를 이용하면 우측 정렬로 해당 str의 길이가 10보다 짧을 경우, 나머지를 모두 빈 칸으로 채워 넣어준다

In [18]:
for tagger in taggers:
    name = tagger[0]
    tagger = tagger[1]
    print('tagger name = %10s\tclass_name = %s'%(name, tagger.__class__))

tagger name =       kkma	class_name = <class 'konlpy.tag._kkma.Kkma'>
tagger name =    twitter	class_name = <class 'konlpy.tag._twitter.Twitter'>
tagger name =   hannanum	class_name = <class 'konlpy.tag._hannanum.Hannanum'>


비슷하게 %.3f를 이용하면 float의 소수점 3자리 까지만 출력해줌

In [19]:
'%.3f'%1.32342523

'1.323'

참고로 http://pyformat.info/를 살펴보면 {}를 이용하는 format도 볼 수 있음. %s를 이용하면 아비을 지정할 수 있다는 장점도 있음

taggers list안의 자료들이 다른 자료 2개로 이뤄진 튜플이란 것을 알기 때문에

```python
    for tagger in taggers:
```
대신 tagger[0], tagger[1]을 미리 지정할 수 있음
```python
for name, tagger in taggers:
```

In [20]:
for name, tagger in taggers:
    print('tagger name = %10s\tclass_name = %s'%(name, tagger.__class__))

tagger name =       kkma	class_name = <class 'konlpy.tag._kkma.Kkma'>
tagger name =    twitter	class_name = <class 'konlpy.tag._twitter.Twitter'>
tagger name =   hannanum	class_name = <class 'konlpy.tag._hannanum.Hannanum'>


함수를 실해하는 시간을 보고 싶을 때에는 '%%time' 예약어를 이용하면 됨

패키지마다 품사표가 다름. Hannanum에서 '이건'이란 어절이 [('이', 'N'), ('이', 'J'), ('건', 'E')]으로 나오는 것은 '이'라는 글자가 명사(N), 조사(J)가 있기 때문임

In [21]:
%%time
print('pos_tagger name = %s'%taggers[2][0])
pprint(taggers[2][1].pos('이건 테스트 문장임'))

pos_tagger name = hannanum
[('이', 'N'), ('이', 'J'), ('건', 'E'), ('테스트', 'N'), ('문장임', 'N')]
CPU times: user 2.13 s, sys: 58.9 ms, total: 2.19 s
Wall time: 522 ms


In [22]:
%%time
for name, tagger in taggers:
    print('pos_tagger name = %s'%name)
    pprint(tagger.pos('이건 테스트 문장임'))

pos_tagger name = kkma
[('이건', 'NNP'), ('테스트', 'NNG'), ('문장', 'NNG'), ('임', 'NNG')]
pos_tagger name = twitter
[('이건', 'Noun'), ('테스트', 'Noun'), ('문장', 'Noun'), ('임', 'Noun')]
pos_tagger name = hannanum
[('이', 'N'), ('이', 'J'), ('건', 'E'), ('테스트', 'N'), ('문장임', 'N')]
CPU times: user 25.3 s, sys: 272 ms, total: 25.6 s
Wall time: 5.75 s


패키지마다 품사표가 조금씩 다름. 각 품사표를 확인하고자 한다면 [KoNLPy][konlpy_page]의  [품사 태그 비교표][tag_table]을 확인하거나 각 형태소 분석기의 태그셋을 확인하면 된다

[konlpy_page]: http://konlpy.org/ko/v0.4.4/morph/
[tag_table]: https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [23]:
print('pos_tagger name = %s'%taggers[0][0])
pprint(taggers[0][1].tagset)

pos_tagger name = kkma
{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부

In [24]:
print('pos_tagger name = %s'%taggers[1][0])
pprint(taggers[1][1].tagset)

pos_tagger name = twitter
{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}


12개로 이뤄진 실제 뉴스 기사에 대하여 각각의 형태소 분석기를 적용해보자

In [25]:
sents = ['최순실 씨가 외국인투자촉진법 개정안 통과와 예산안 반영까지 꼼꼼이 챙긴 건데, 이른바 외촉법, 어떤 법이길래 최 씨가 열심히 챙긴 걸까요. 자신의 이해관계와 맞아 떨어지는 부분이 없었는지 취재기자와 한걸음 더 들여다보겠습니다. 이서준 기자, 우선 외국인투자촉진법 개정안, 어떤 내용입니까?',
        '한마디로 대기업이 외국 투자를 받아 계열사를 설립할 때 규제를 완화시켜 주는 법안입니다. 대기업 지주사의 손자 회사가 이른바 증손회사를 만들 때 지분 100%를 출자해야 합니다. 대기업의 문어발식 계열사 확장을 막기 위한 조치인데요. 외촉법 개정안은 손자회사가 외국 투자를 받아서 증손회사를 만들 땐 예외적으로 50% 지분만 투자해도 되게끔 해주는 내용입니다.',
        '그만큼 쉽게 완화해주는 거잖아요. 그때 기억을 더듬어보면 야당의 반발이 매우 심했습니다. 그 이유가 뭐였죠? ',
        '대기업 특혜 법안이라는 취지였는데요. (당연히 그랬겠죠.) 당시 박영선 의원의 국회 발언을 들어보시겠습니다. [박영선 의원/더불어민주당 (2013년 12월 31일) : 경제의 근간을 흔드는 법을 무원칙적으로 이렇게 특정 재벌 회사에게 특혜를 주기 위해 간청하는 민원법을 우리가 새해부터 왜 통과시켜야 합니까.]',
        '최순실 씨 사건을 쫓아가다 보면 본의 아니게 이번 정부의 과거로 올라가면서 복기하는 듯한 느낌이 드는데 이것도 바로 그중 하나입니다. 생생하게 기억합니다. 이 때 장면들은. 특정 재벌 회사를 위한 특혜라고 말하는데, 어떤 기업을 말하는 건가요?',
        'SK와 GS 입니다. 개정안이 통과되는 걸 전제로 두 회사는 외국 투자를 받아 증손회사 설립을 진행중이었기 때문인데요. 당시 개정안이 통과되지 않으면 두 기업이 수조원의 손실이 생길 수 있는 것으로 알려져 있었습니다. 허창수 GS 회장과 김창근 SK회장은 2013년 8월 박 대통령과 청와대에서 대기업 회장단 오찬자리에서 외촉법 통과를 요청한 바도 있습니다. ',
        '물론 두 기업과 최순실 씨와 연결고리가 나온 건 아니지만, 정 전 비서관 녹취파일 속 최 씨는 외촉법에 상당히 집착을 하는 걸로 보이긴 합니다.',
        '네 그렇습니다. 통화 내용을 다시 짚어보면요. 최 씨는 외촉법 관련 예산이 12월 2일, 반드시 되어야 한다, 작년 예산으로 돼서는 안 된다고 얘기하고 있는데요. 다시 말해서 외촉법 관련 예산안이 내년에 반영되어야 한다고 압박을 하고 있는 겁니다. 그러면서 "국민을 볼모로 잡고 있다"며 "국회와 정치권에 책임을 묻겠다"고 으름장까지 놓고 있는데요. 매우 집착하는 모습인데요. 이에 대해서 정 전 비서관이 "예산이 그렇게 빨리 통과된 적 없습니다"고 말하자 말을 끊으면서 매우 흥분한 듯, "그렇더라도, 그렇더라도" 하면서 "야당이 공약 지키라고 하면서 협조는 안 한다", "대통령으로 할 수 있는 일이 없다", "불공정 사태와 난맥상이 나온다"며 굉장한 압박까지 하고 있습니다.',
        '이 얘기들만 들여다봐도 마치 본인이 대통령처럼 얘기하고 있습니다. 내용들 보면 그렇지 않습니까? 혹시 최 씨가 이 외촉법 통과로 이득을 본 경우도 있습니까. ',
        '최 씨가 입김을 넣어 차은택 씨가 주도를 한 걸로 알려진 K컬처밸리 사업이 그렇다는 얘기가 나오고 있습니다. 외촉법을 편법으로 활용해 1% 금리를 적용받았다는 지적이 나오고 있습니다. 본격 사업이 추진되기 전 최순실 국정개입 사건이 터지기는 했지만, 이외에도 다른 혜택을 받았는지는 조사가 필요해 보입니다. ',
        '그런데 녹취파일을 보면 "남자1"이 등장합니다. 이 사람은 누구입니까?',
        '정 전 비서관을 "정 과장님"으로 부르며 반말을 하는 남자인데요. 최순실 씨처럼 정 전 비서관을 하대하고 있습니다. 또 청와대 내부 정보를 알고 있는 듯하고 또 인사에까지 개입하려고 하고 있습니다. 그렇기 때문에 정윤회 씨로 추정은 됩니다만 확인은 되지 않습니다.'
]

In [26]:
len(sents)

12

어떤 라이브러리를 쓸지 선택하기 전에, 데이터의 프로세싱 시간은 얼마나 걸리는지, 그리고 그 처리 품질을 어떤지 먼저 확인해야 함. 1개의 기사에 대해 각각의 형태소 분석기 별 프로세싱 시간을 비교해보자
```python
    time.time()
```
은 컴퓨터 시간의 기준점으로부터의 현재 시간을 초단위로 나타내줌. 그렇기 때문에 작업 전의 시간을
```python
process_time = time.time()
```
으로 정한 뒤, 작어비 모두 끝난 시간을 빼주면, 작업 시간이 초 단위로 계산됨
```python
    ...
    process_time = time.time() - process_time
```
각 tagger의 결과물을 tokens 안에 넣어둠

In [27]:
import time

tokens = []
taggers = [('kkma', Kkma()), ('twitter', Twitter()), ('hannanum', Hannanum())]

for name, tagger in taggers:
    process_time = time.time()
    _tokens = []
    
    for sent in sents:
        _tokens += tagger.pos(sent)
        
    process_time = time.time() - process_time
    tokens.append(_tokens)
    
    print('tagger name = %10s, %.3f secs'%(name, process_time))

tagger name =       kkma, 1.670 secs
tagger name =    twitter, 0.199 secs
tagger name =   hannanum, 0.436 secs


whos명령어는 현재 파일의 kernel이 메모리에 올려둔 변수들을 보여줌. 이 때 앞에 under-bar, _ 가 들어간 변수들을 whos에 보이지 않음

In [28]:
whos

Variable             Type                          Data/Info
------------------------------------------------------------
Hannanum             type                          <class 'konlpy.tag._hannanum.Hannanum'>
Kkma                 type                          <class 'konlpy.tag._kkma.Kkma'>
NamespaceMagics      MetaHasTraits                 <class 'IPython.core.magi<...>mespace.NamespaceMagics'>
Twitter              type                          <class 'konlpy.tag._twitter.Twitter'>
f                    TextIOWrapper                 <_io.TextIOWrapper name='<...>ode='r' encoding='utf-8'>
fname                str                           tmp/representor.json
folder               str                           tmp
get_ipython          function                      <function get_ipython at 0x7f38ccff9b70>
getsizeof            builtin_function_or_method    <built-in function getsizeof>
json                 module                        <module 'json' from '/hom<...>hon3.6/json/__init__

모든 토큰을 그대로 나열해 보는 것은 무리가 있어보임. 
형태소 분석기 별로 고유한 단어와 그 개수를 세어보자. 그리고 그 전에도 **'최순실'**이라는 이름이 꼬꼬마 형태소 분석기에서 '최', '순', '실'로 나누어지는 것이 보이는지 확인해보자. 만약 나누어진다면 이는 꼬꼬마 형태소 분석기가 학습할 때, '최순실'이라는 이름이 학습데이터에 없었기 때문임. 이러한 문제는 **out of vocabulary problem**이라 부름

In [29]:
pprint(tokens[0]) # 꼬꼬마 형태소 분석기로 토큰나이즈된 단어들임

[('최', 'NNP'),
 ('순', 'NNG'),
 ('실', 'NNG'),
 ('씨', 'NNB'),
 ('가', 'JKS'),
 ('외국인', 'NNG'),
 ('투자', 'NNG'),
 ('촉진법', 'NNG'),
 ('개정안', 'NNG'),
 ('통과', 'NNG'),
 ('와', 'JC'),
 ('예산안', 'NNG'),
 ('반영', 'NNG'),
 ('까지', 'JX'),
 ('꼼꼼이', 'MAG'),
 ('챙기', 'VV'),
 ('ㄴ', 'ETD'),
 ('것', 'NNB'),
 ('이', 'VCP'),
 ('ㄴ데', 'ECD'),
 (',', 'SP'),
 ('이른바', 'MAG'),
 ('외촉', 'NNG'),
 ('법', 'NNG'),
 (',', 'SP'),
 ('어떤', 'MDT'),
 ('법', 'NNG'),
 ('이', 'VCP'),
 ('길래', 'ECD'),
 ('최', 'NNP'),
 ('씨', 'NNB'),
 ('가', 'JKS'),
 ('열심히', 'MAG'),
 ('챙기', 'VV'),
 ('ㄴ', 'ETD'),
 ('걸', 'VV'),
 ('ㄹ까요', 'EFQ'),
 ('.', 'SF'),
 ('자신', 'NNG'),
 ('의', 'JKG'),
 ('이해관계', 'NNG'),
 ('와', 'JKM'),
 ('맞', 'VV'),
 ('아', 'ECD'),
 ('떨어지', 'VV'),
 ('는', 'ETD'),
 ('부분', 'NNG'),
 ('이', 'JKS'),
 ('없', 'VA'),
 ('었', 'EPT'),
 ('는지', 'ECS'),
 ('취재', 'NNG'),
 ('기자', 'NNG'),
 ('와', 'JKM'),
 ('한걸음', 'NNG'),
 ('더', 'MAG'),
 ('들여다보', 'VV'),
 ('겠', 'EPT'),
 ('습니다', 'EFN'),
 ('.', 'SF'),
 ('이서', 'NNG'),
 ('주', 'VV'),
 ('ㄴ', 'ETD'),
 ('기자', 'NNG'),
 (',', 'S

 ('외촉', 'NNG'),
 ('법', 'NNG'),
 ('관련', 'NNG'),
 ('예산안', 'NNG'),
 ('이', 'JKS'),
 ('내년', 'NNG'),
 ('에', 'JKM'),
 ('반영', 'NNG'),
 ('되', 'XSV'),
 ('어야', 'ECD'),
 ('하', 'VV'),
 ('ㄴ다고', 'ECE'),
 ('압박', 'NNG'),
 ('을', 'JKO'),
 ('하', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('는', 'ETD'),
 ('것', 'NNB'),
 ('이', 'VCP'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('그러', 'VV'),
 ('면서', 'ECE'),
 ('"', 'SS'),
 ('국민', 'NNG'),
 ('을', 'JKO'),
 ('볼모', 'NNG'),
 ('로', 'JKM'),
 ('잡', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('다', 'ECS'),
 ('"', 'SS'),
 ('며', 'JC'),
 ('"', 'SS'),
 ('국회', 'NNG'),
 ('와', 'JKM'),
 ('정치권', 'NNG'),
 ('에', 'JKM'),
 ('책임', 'NNG'),
 ('을', 'JKO'),
 ('묻', 'VV'),
 ('겠', 'EPT'),
 ('다', 'ECS'),
 ('"', 'SS'),
 ('고', 'NNG'),
 ('으름장', 'NNG'),
 ('까지', 'JX'),
 ('놓', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('는데요', 'ECD'),
 ('.', 'SF'),
 ('매우', 'MAG'),
 ('집착', 'NNG'),
 ('하', 'XSV'),
 ('는', 'ETD'),
 ('모습', 'NNG'),
 ('이', 'VCP'),
 ('ㄴ데요', 'EFN'),
 ('.', 'SF'),
 ('이에', 'MAG'),
 ('대하', 'VV'),
 ('어서', 'ECD'),
 ('정', '

각 단어들이 몇 번 등장하였는지 그 횟수를 카운팅해보자. 
- 이 때 가장 좋지 않은 방법인 **(1) dict**를 이용하는 법, 
- 조금 더 나은 **(2) defaultdict**를 이용하는 법
- **(3) collections.Counter**를 이용하는 법

### 1. dict를 이용하는 방법

In [30]:
counter = {}

# 꼬꼬마만 확인해보자
for word in tokens[0]:
    if word in counter:
        counter[word] = counter[word] + 1
    else:
        counter[word] = 1

print(list(counter.items())[:10]) # list(counter.items())[:10], '...'

[(('최', 'NNP'), 10), (('순', 'NNG'), 5), (('실', 'NNG'), 5), (('씨', 'NNB'), 11), (('가', 'JKS'), 12), (('외국인', 'NNG'), 2), (('투자', 'NNG'), 6), (('촉진법', 'NNG'), 2), (('개정안', 'NNG'), 5), (('통과', 'NNG'), 7)]


정렬은 sorted를 이용함. sorted함수의 key를 통하여 정렬의 기준을 지정할 수 있음.

lambda는 이름이 없는 함수를 의미함. counter는 dict이므로 keys(), values, items()를 갖음. 이 때 items()의 return은 [(key, value), (key, value), ...]형태이기 때문에 정렬 대상(key, value)를 x로 볼 때, x의 1번째 값 x[1]을 기준으로 정렬하라는 의미임, 순서는 1, 2, 3, ..의 오름차순이 아닌 역순으로 하라는 의미임

sorted의 return type은 list이기 때문에 가장 앞쪽의 5개만 slice해서 살펴보자

In [31]:
sorted(counter.items(), key=lambda x:x[1], reverse=True)[:5]

[(('.', 'SF'), 37),
 (('을', 'JKO'), 24),
 (('이', 'JKS'), 20),
 (('"', 'SS'), 18),
 (('이', 'VCP'), 17)]

lambda대신에 sorting함수를 지정할 수도 있음. my_key는 x라는 값을 입력받아서 sorting에 이용할 변수를 만들어 줌. 이 때 함수 안에서 다양한 값의 변형을 할 수도 있음. reverse를 False로 하면서 같은 결과를 얻기 위해서는 return x[1] 대신 return -1 * x[1]을 해줄 수도 있음

In [32]:
def my_key(x):
    return -1 * x[1]

In [33]:
sorted(counter.items(), key=my_key)[:5]

[(('.', 'SF'), 37),
 (('을', 'JKO'), 24),
 (('이', 'JKS'), 20),
 (('"', 'SS'), 18),
 (('이', 'VCP'), 17)]

그런데 Python에서는 if word in counter: else: 와 같은 구문을 한 줄로 아름답게 코딩할 수 있도록 defaultdict를 제공해줌. **dict.get(key, 0)**과 같은 효과가 있음. 더해서 명사, tag의 첫 글자가 NN으로 시작하는 것만 선택해서 카운팅해보자

### 2. defaultdict를 사용하는 방법

In [34]:
from collections import defaultdict

counter = defaultdict(lambda : 0)
nouns = [word for word in tokens[0] if word[1][:2] == 'NN']

for word in nouns:
    counter[word] += 1
    
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('통과', 'NNG'), 7),
 (('것', 'NNB'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('외국', 'NNG'), 3),
 (('때', 'NNG'), 3),
 (('증손', 'NNG'), 3),
 (('특혜', 'NNG'), 3),
 (('박', 'NNG'), 3),
 (('월', 'NNM'), 3),
 (('기업', 'NNG'), 3),
 (('대통령', 'NNG'), 3),
 (('예산', 'NNG'), 3),
 (('외국인', 'NNG'), 2),
 (('촉진법', 'NNG'), 2),
 (('예산안', 'NNG'), 2),
 (('반영', 'NNG'), 2),
 (('기자', 'NNG'), 2),
 (('계열사', 'NNG'), 2),
 (('설립', 'NNG'), 2),
 (('완화', 'NNG'), 2),
 (('법안', 'NNG'), 2),
 (('손자', 'NNG'), 2),
 (('지분', 'NNG'), 2),
 (('기억', 'NNG'), 2),
 (('야당', 'NNG'), 2),
 (('당시', 'NNG'), 2),
 (('영선', 'NNG'), 2),
 (('의원', 'NNG'), 2),
 (('국회', 'NNG'), 2),
 (('일', 'NNM'), 2),
 (('특정', 'NNG'), 2),
 (('재벌', 'NNG'), 2),
 (('사건', 'NNG'), 2),
 (('때문', 'NNB'

빈도수가 작은 경우도 많아서 좀 복잡해보임. 최소한 2번 이상 나온 단어들만 살펴보자

In [35]:
counter = { word:freq for word, freq in counter.items() if (freq >= 2) and (word[1][:2] == 'NN')}
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('통과', 'NNG'), 7),
 (('것', 'NNB'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('외국', 'NNG'), 3),
 (('때', 'NNG'), 3),
 (('증손', 'NNG'), 3),
 (('특혜', 'NNG'), 3),
 (('박', 'NNG'), 3),
 (('월', 'NNM'), 3),
 (('기업', 'NNG'), 3),
 (('대통령', 'NNG'), 3),
 (('예산', 'NNG'), 3),
 (('외국인', 'NNG'), 2),
 (('촉진법', 'NNG'), 2),
 (('예산안', 'NNG'), 2),
 (('반영', 'NNG'), 2),
 (('기자', 'NNG'), 2),
 (('계열사', 'NNG'), 2),
 (('설립', 'NNG'), 2),
 (('완화', 'NNG'), 2),
 (('법안', 'NNG'), 2),
 (('손자', 'NNG'), 2),
 (('지분', 'NNG'), 2),
 (('기억', 'NNG'), 2),
 (('야당', 'NNG'), 2),
 (('당시', 'NNG'), 2),
 (('영선', 'NNG'), 2),
 (('의원', 'NNG'), 2),
 (('국회', 'NNG'), 2),
 (('일', 'NNM'), 2),
 (('특정', 'NNG'), 2),
 (('재벌', 'NNG'), 2),
 (('사건', 'NNG'), 2),
 (('때문', 'NNB'

최순실 -> [최, 순, 실], 박영선 -> [ 박, 영선]으로 나눠진 것을 볼 수 있음. 그런데 적어도 지금 시기의 뉴스 분석을 하기 위해서는 놓쳐서는 안되는 이름같음

그리고 카운팅을 하기 위해선 사실 더 좋은 클래스를 python에서 제공해주고 있음. 위 작업을 가장 짧게 코딩해보자

### 3. Collection.Counter

In [36]:
from collections import Counter

counter = Counter(tokens[0])
counter = {word:freq for word, freq in counter.items() if (freq >= 4) and (word[1][:2] == 'NN')}
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('통과', 'NNG'), 7),
 (('것', 'NNB'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('얘기', 'NNG'), 4)]


이제 모든 형태소 분석기들로부터, '최순실'이라는 이름이 제대로 잡혔는지, 그리고 빈도수가 4이상인 명사들은 어떤 것들이 있는지를 확인해보자

두 개의 리스트에 있는 아이템을 동시에 가져오는 방법으로 **zip**이 있음. 이것 역시 python의 유용한 기능임.

In [37]:
list_1 = [1, 2, 3, 4]
list_2 = ['a', 'b', 'c']

for entry_1, entry_2 in zip(list_1, list_2):
    print(entry_1, entry_2)

1 a
2 b
3 c


이제 제대로 **zip**과 **collection.Counter**를 이용하여 카운팅을 해보자

```python
sents = ['최순실 씨가 외국인투자촉진법 개정안 통과와 예산안 반영까지 꼼꼼이 챙긴 건데, 이른바 외촉법, 어떤 법이길래 최 씨가 열심히 챙긴 걸까요. 자신의 이해관계와 맞아 떨어지는 부분이 없었는지 취재기자와 한걸음 더 들여다보겠습니다. 이서준 기자, 우선 외국인투자촉진법 개정안, 어떤 내용입니까?',
        '한마디로 대기업이 외국 투자를 받아 계열사를 설립할 때 규제를 완화시켜 주는 법안입니다. 대기업 지주사의 손자 회사가 이른바 증손회사를 만들 때 지분 100%를 출자해야 합니다. 대기업의 문어발식 계열사 확장을 막기 위한 조치인데요. 외촉법 개정안은 손자회사가 외국 투자를 받아서 증손회사를 만들 땐 예외적으로 50% 지분만 투자해도 되게끔 해주는 내용입니다.',
        '그만큼 쉽게 완화해주는 거잖아요. 그때 기억을 더듬어보면 야당의 반발이 매우 심했습니다. 그 이유가 뭐였죠? ',
        '대기업 특혜 법안이라는 취지였는데요. (당연히 그랬겠죠.) 당시 박영선 의원의 국회 발언을 들어보시겠습니다. [박영선 의원/더불어민주당 (2013년 12월 31일) : 경제의 근간을 흔드는 법을 무원칙적으로 이렇게 특정 재벌 회사에게 특혜를 주기 위해 간청하는 민원법을 우리가 새해부터 왜 통과시켜야 합니까.]',
        '최순실 씨 사건을 쫓아가다 보면 본의 아니게 이번 정부의 과거로 올라가면서 복기하는 듯한 느낌이 드는데 이것도 바로 그중 하나입니다. 생생하게 기억합니다. 이 때 장면들은. 특정 재벌 회사를 위한 특혜라고 말하는데, 어떤 기업을 말하는 건가요?',
        'SK와 GS 입니다. 개정안이 통과되는 걸 전제로 두 회사는 외국 투자를 받아 증손회사 설립을 진행중이었기 때문인데요. 당시 개정안이 통과되지 않으면 두 기업이 수조원의 손실이 생길 수 있는 것으로 알려져 있었습니다. 허창수 GS 회장과 김창근 SK회장은 2013년 8월 박 대통령과 청와대에서 대기업 회장단 오찬자리에서 외촉법 통과를 요청한 바도 있습니다. ',
        '물론 두 기업과 최순실 씨와 연결고리가 나온 건 아니지만, 정 전 비서관 녹취파일 속 최 씨는 외촉법에 상당히 집착을 하는 걸로 보이긴 합니다.',
        '네 그렇습니다. 통화 내용을 다시 짚어보면요. 최 씨는 외촉법 관련 예산이 12월 2일, 반드시 되어야 한다, 작년 예산으로 돼서는 안 된다고 얘기하고 있는데요. 다시 말해서 외촉법 관련 예산안이 내년에 반영되어야 한다고 압박을 하고 있는 겁니다. 그러면서 "국민을 볼모로 잡고 있다"며 "국회와 정치권에 책임을 묻겠다"고 으름장까지 놓고 있는데요. 매우 집착하는 모습인데요. 이에 대해서 정 전 비서관이 "예산이 그렇게 빨리 통과된 적 없습니다"고 말하자 말을 끊으면서 매우 흥분한 듯, "그렇더라도, 그렇더라도" 하면서 "야당이 공약 지키라고 하면서 협조는 안 한다", "대통령으로 할 수 있는 일이 없다", "불공정 사태와 난맥상이 나온다"며 굉장한 압박까지 하고 있습니다.',
        '이 얘기들만 들여다봐도 마치 본인이 대통령처럼 얘기하고 있습니다. 내용들 보면 그렇지 않습니까? 혹시 최 씨가 이 외촉법 통과로 이득을 본 경우도 있습니까. ',
        '최 씨가 입김을 넣어 차은택 씨가 주도를 한 걸로 알려진 K컬처밸리 사업이 그렇다는 얘기가 나오고 있습니다. 외촉법을 편법으로 활용해 1% 금리를 적용받았다는 지적이 나오고 있습니다. 본격 사업이 추진되기 전 최순실 국정개입 사건이 터지기는 했지만, 이외에도 다른 혜택을 받았는지는 조사가 필요해 보입니다. ',
        '그런데 녹취파일을 보면 "남자1"이 등장합니다. 이 사람은 누구입니까?',
        '정 전 비서관을 "정 과장님"으로 부르며 반말을 하는 남자인데요. 최순실 씨처럼 정 전 비서관을 하대하고 있습니다. 또 청와대 내부 정보를 알고 있는 듯하고 또 인사에까지 개입하려고 하고 있습니다. 그렇기 때문에 정윤회 씨로 추정은 됩니다만 확인은 되지 않습니다.'
]
```

코드가 헷갈릴 수 있으니 tokens를 다시 재정의

In [38]:
tokens = []
taggers = [('kkma', Kkma()), ('twitter', Twitter()), ('hannanum', Hannanum())]

for name, tagger in taggers:
    process_time = time.time()
    _tokens = []
    
    for sent in sents:
        _tokens += tagger.pos(sent)
        
    process_time = time.time() - process_time
    tokens.append(_tokens)

In [39]:
tokens[1][:5]

[('최순실', 'Noun'),
 ('씨', 'Noun'),
 ('가', 'Josa'),
 ('외국인투자', 'Noun'),
 ('촉진법', 'Noun')]

In [40]:
for (name, _), _tokens in zip(taggers, tokens):
    print('\n\nPart of speech tagger: %s'%name)
    counter = Counter(_tokens)
    counter = {word:freq for word, freq in counter.items() if (freq >= 4) and (word[1][:1]) == 'N'}
    pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))



Part of speech tagger: kkma
[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('통과', 'NNG'), 7),
 (('것', 'NNB'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('얘기', 'NNG'), 4)]


Part of speech tagger: twitter
[(('씨', 'Noun'), 11),
 (('외촉법', 'Noun'), 8),
 (('회사', 'Noun'), 8),
 (('통과', 'Noun'), 7),
 (('이', 'Noun'), 6),
 (('최순실', 'Noun'), 5),
 (('개정안', 'Noun'), 5),
 (('최', 'Noun'), 5),
 (('대기업', 'Noun'), 5),
 (('정', 'Noun'), 5),
 (('전', 'Noun'), 5),
 (('요', 'Noun'), 4),
 (('내용', 'Noun'), 4),
 (('투자', 'Noun'), 4),
 (('비서', 'Noun'), 4),
 (('관', 'Noun'), 4)]


Part of speech tagger: hannanum
[(('통과', 'N'), 7),
 (('외촉법', 'N'), 7),
 (('최순실', 'N'), 5),
 (('개정안', 'N'), 5),
 (('최', 'N'), 5),
 (('대기업', 'N'), 5),
 (('말', 'N'), 5),
 (('전', 'N'), 5),
 (('것', 'N'), 4),
 (('회사', 'N'), 4),
 (('비서관'

모든 데이터에 적합할 정도로 universial corpus로부터 학습된 한국어 형태소 분석기는 '아직'까지는 없음. 그리고 한국어로 기술되었다고 하더라도, 차용한 글자만 한글일 뿐, 한국어는 아닌 언어들도 많이 있음. 특히 도메인 특수 용어들이 이에 해당함

사용할 수 있는 알고리즘들이 여러개일 경우에는 주어진 시간 안에 작업이 끝날 수 있는지와 주어진 데이터에 대한 형태소 분석기의 경향, 정성석 품질이 어느 정도인지 반드시 확인하고 이용해야 한다는 것을 기억해야함

# 3. Scraping_naver_movie

웹 브라우저로 접근할 수 있는 페이지에 있는 정보 중, 각자가 운하는 정보를 선택하여 로컬 컴퓨터로 가져오는 과정을 스크래핑(Scraping)이라 하며, 크롤링(crawling)이라고 불리고 이지만, 그롤링은 정확히 스크래핑과는 차이가 있는 의미임

스크래핑을 하기 위하여 beautifula soup 4라는 HTML parser와 beautiful soup 4가 이용하는 lxml이라는 XML parser를 이용함. 이 외에도 다양한 스크래핑 도구들은 있음

또한 HTTP를 통하여 웹서버와 통신하기 위한 requests라는 패키지를 이용함

'http://movie.naver.com/movie/bi/mi/basic.nhn?code=134963' # 라라랜드
'http://movie.naver.com/movie/bi/mi/basic.nhn?code=126034' # 그래이트 월
'http://movie.naver.com/movie/bi/mi/basic.nhn?code=127382' # 조작된 도시

영화 아이디와 url의 공통된 부분을 합치면 각 영화에 해당하는 영화 url을 얻을 수 있음. 그렇기 때문에 url을 base와 id부분으로 나눠서 만들며, 영화 아이디를 넣을 부분을 %s로 표시함

In [41]:
from bs4 import BeautifulSoup
import os
import re
import requests
import sys
from pprint import pprint

url_basic_base = 'http://movie.naver.com/movie/bi/mi/basic.nhn?code=%s'

라라랜드 영화 아이디는 movie_id = 134963임. 라라랜드 영화와 관련된 메타 데이터를 수집해보자

In [42]:
movie_id = 134963 # La La Land

### 웹페이지 가져오기

requests는 네이버 영화 서버에 어떤 것을 요청할 수 있는 라이브러리임. request의 requests.get(url)을 하면 해당 url의 서버로부터 웹페이지의 정보들을 얻어옴.
requests.get(url)의 return은 텍스트 외에도 header와 같은 많은 정보들을 포함함. 이 중에서 우리가 필요한 것은 text(html source)이기 때문에 requests.get(url).text를 html로 저장함.
html의 type은 str임

BeautifulSoup(html, 'lxml')은 스트링 형식의 html을 lxml이라는 XML parser를 이용하여 문서를 구조화함. 웹페이지는 매우 긴 소스 코드로 이뤄져 있음. 브라우저(크럼, 익스플로러 등)은 이러한 복잡한 소스코드를 잘 구조화하여 화면에 보여주는 프로그램임. 매우 긴 코드지만 HTML은 구조화가 잘 되어 있음. 역으로 이 구조를 잘 파악하면 우리가 원하는 정보를 손쉽게 가져올 수 있는 거임. BeautifulSoup(html, 'lxml')을 한 번 실행함으로써 이미 HTML 문서는 다 구조화 되어있음. 이제부터는 그 구조화된 문소로부터 우리가 원하는 정보를 가져올 것임

In [43]:
url = url_basic_base % movie_id
print(url)

http://movie.naver.com/movie/bi/mi/basic.nhn?code=134963


In [44]:
r = requests.get(url)
html = r.text
page = BeautifulSoup(html, 'lxml')

requests.get(url)의 결과물의 headers를 살펴보면, 해당 통신과 관련된 메타 정보들이 포함됨을 볼 수 있음

In [45]:
r.headers

{'Pragma': 'no-cache', 'Expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'Cache-Control': 'no-cache, no-store', 'Content-Language': 'ko-KR', 'P3P': 'CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC", CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html;charset=UTF-8', 'Content-Length': '37377', 'Accept-Ranges': 'bytes', 'Date': 'Sat, 17 Mar 2018 13:12:57 GMT', 'X-Varnish': '371908191', 'Age': '0', 'Via': '1.1 varnish', 'X-Varnish-Cache': 'MISS', 'Referrer-Policy': 'unsafe-url', 'Server': 'nfront'}

### 영화 제목 가져오기

영화의 영어 제목을 가져와 보자

![lalaland_1.png](LaLaLand01.png)

좌측 상단에 영화 이름이 있음. 원하는 정보를 드래그한 뒤, 그롬의 Inspect을 눌러보면 해당 부분의 source code가 우측에 하이라이팅 되어 나타남. La La Land라는 영화 제목은 strong이라는 태그 안에 들어있으며, 그 태그의 class는 h_movie임. HTML에서 태그라는 것은 "<>"으로 시작하여 "</ >"으로 끝나는 부분임. 링크의 경우에는 "\<a>"로 시작하여 "\</a>"로 끝남

"\<strong class=h_movie2">"는 "\<div class=mv_info>"아래에 있다는 것도 볼 수 있음

    page.select('div[class=mv_info] strong[class=h_movie2]'>

위 코드는 mv_info라는 클래스 이름을 갖는 div 아래에 속한, class이름이 h_movie2인 strong이라는 것을 찾아서 가져온다는 의미임

![lalaland_2.png](LaLaLand02.png)

select의 결과는 하나가 아닐 수 있기 때문에 return type은 list임. 실제 데이터에서도 select에 해당하는 부분이 2개가 있는 것을 확인할 수 있음. 그 중 첫번째 부분만을 이용하자

In [46]:
title = page.select('div[class=mv_info] strong[class=h_movie2]')
print(type(title))
print(len(title), '\n')

<class 'list'>
2 



In [47]:
print(title, '\n')

[<strong class="h_movie2" title="La La Land										, 					2016">La La Land
					
					, 
					2016</strong>, <strong class="h_movie2" title="La La Land, 2016">La La Land, 2016</strong>] 



In [48]:
print(title[0], '\n')

<strong class="h_movie2" title="La La Land										, 					2016">La La Land
					
					, 
					2016</strong> 



In [49]:
print(title[1], '\n')

<strong class="h_movie2" title="La La Land, 2016">La La Land, 2016</strong> 



BeautifulSoup.select()의 return type은 **bs4에서 만들어둔 클래스**임

In [50]:
print(type(title[0]))

<class 'bs4.element.Tag'>


bs4.element.Tag 안에는 HTML tag의 attribute 종류나 값과 같은 태그 정보를 가져오거나 텍스트 부분을 가져올 수 있는 기능이 있음. 영화 제목 La La Land, 2016은 텍스트 부분에 있으니 가져와보자

In [51]:
title[0].text

'La La Land\r\n\t\t\t\t\t\r\n\t\t\t\t\t, \r\n\t\t\t\t\t2016'

\n\r과 같은 줄바꿈 기호나 \t과 같은 탭, 띄어스기 때문에 텍스트가 깔끔해 보이지 않음. 이를 제거하여 깔끔한 영화 제목을 가져오자

In [52]:
title[0].text.replace("\t","").replace("\r","").replace("\n","")

'La La Land, 2016'

비슷하게 한국어 영화 제목도 가져와보자

In [53]:
title = page.select('div[class=mv_info] h3[class=h_movie] a')
title[0].text

'라라랜드'

네이버 영화 페이지는 모든 영화에 대하여 각 영화에 해당하는 페이지의 내용만 바뀌며, 그 형식은 일정한 것을 확인할 수 있음. 템플릿이 존재하는 웹페이지에서 스크래핑을 할 때는 해당 웹페이지들의 구조를 파악하면 됨

### try-except를 통한 에러 방지

for loop을 돌면서 여러 영화의 메타 정보를 가져와보자. 그런데 중간에 Exception이 날 수 있음. 인터넷이 끊길 수도 있고, 형식이 잘 맞지 않는 HTML이 있을 수도 있음. 이 때 한 번 오류가 나면 프러그램이 멈출텐데, 오류가 나는 영화는 건너띄고 다음 영화의 정보를 얻어오고 싶다면 try - except 구문을 사용하면 됨

아래의 코드는 i가 3일 때 3앞에 a라는 문자를 붙여서 출력하는 코드임. 그리고 그 아래 코드는 i가 3일때 a를 붙인 뒤, j를 다시 integer로 casting하는 코드임. 그렇다면 i=3일 때에는 a3을 인티저로 캐스팅 하지 못하여 오류가 남. 그리고 그 다음 i=4일때는 실행되지 않음

In [54]:
for i in range(5):
    s = str(i) if i != 3 else 'a%d'%i
    print(s)

0
1
2
a3
4


In [55]:
for i in range(5):
    s = str(i) if i != 3 else 'a%d'%i
    j = int(s)
    
    print('s = %s, j = %d'%(s, j))

s = 0, j = 0
s = 1, j = 1
s = 2, j = 2


ValueError: invalid literal for int() with base 10: 'a3'

오류가 날 수 있는 부분을 try-except로 감싸면 오류가 난 경우 print(e)에 의하여 오류 형태를 출력해주고 다음 for loop(i=4)일때로 넘어감. Exception을 e라는 이름으로 받은 뒤 except안에서 출력하면 해당 예외가 무엇이었는지 알 수 있음

In [56]:
errors = []

for i in range(5):
    try:
        s = str(i) if i != 3 else 'a%d'%i
        j = int(s)
        
        print('s = %s, j = %d'%(s, j))
    except Exception as e:
        print(e)
        continue

s = 0, j = 0
s = 1, j = 1
s = 2, j = 2
invalid literal for int() with base 10: 'a3'
s = 4, j = 4


### 여러 영화에 대하여 영화마다 제목 가져오기
기능별로 함수화를 하면 코드가 가독성이 좋아짐

In [57]:
def get_soup(url):
    try:
        r = requests.get(url).text
        return BeautifulSoup(r, 'lxml')
    except Exception as e:
        exc_type, exc_value, exc_traceback = sys.exc_info()
        traceback_details = {
            'filename' : exc_traceback.tb_frame.f_code.co_filename,
            'lineno': exc_traceback.tb_lineno,
            'name' : exc_traceback.tb_frame.f_code.co_name,
            'type' : exc_type.__name__,
            'message' : str(e)
        }
        pprint(traceback_details)
        return ''
    
def _parse_title(page):
    try:
        return page.select('div[class=mv_info] h3[class=h_movie] a')[0].text.strip()
    except:
        return ''

range는 range(b, e)에 대하여 b부터 e까지의 숫자를 1씩 증가시키면서 yield(return과 비슷) 함

In [58]:
for movie_id in range(134960, 134965):
    url = url_basic_base % movie_id
    page = get_soup(url)
    title = _parse_title(page)
    print('%d: %s'%(movie_id, title))

134960: 그놈이다
134961: 어 라 말라
134962: 아이
134963: 라라랜드
134964: 콜 포 헬프


range(b, e,s)를 하면 b부터 e까지 s간격으로 출력됨

In [59]:
list(range(1, 6, 2))

[1, 3, 5]

### Packing
코드를 짤 때, 기능별로 함수를 나눠서 적어두면 좋음. parse_basic_page라는 함수를 보면, 제목을 가져오는 부분, 장르를 가져오는 부분 등을 나눠서 적어두었음. 가독성을 높여주며, 코드에 오류가 있을 대 수정하지 용이해짐

In [60]:
def get_soup(url):
    try:
        r = requests.get(url).text
        return BeautifulSoup(r, 'lxml')
    except Exception as e:
        exc_type, exc_value, exc_traceback = sys.exc_info()
        traceback_details = {
            'filename' : exc_traceback.tb_frame.f_code.co_filename,
            'lineno': exc_traceback.tb_lineno,
            'name' : exc_traceback.tb_frame.f_code.co_name,
            'type' : exc_type.__name__,
            'message' : str(e)
        }
        pprint(traceback_details)
        return ''

# Basic pages
def get_basic_page(movie_id):
    url = url_basic_base % movie_id
    return get_soup(url)

def parse_basic_page(page):
    movie = {}

    score = _parse_main_score(page)
    movie['expert_score'] = score[0]
    movie['netizen_score'] = score[1]

    movie['title'] = _parse_title(page)
    movie['e_title'] = _parse_e_title(page)

    try:
        basic_inf = page.select('dl[class=info_spec]')[0]
        movie['genres'] = _parse_genres(page)
        movie['countries'] = _parse_countries(page)
        movie['running_time'] = _parse_running_time(page)
        movie['open_dates'] = _parse_open_date(page)
        movie['grade'] = _parse_grade(page)
        return movie
    except Exception as e:
        exc_type, exc_value, exc_traceback = sys.exc_info()
        traceback_details = {
                     'filename': exc_traceback.tb_frame.f_code.co_filename,
                     'lineno'  : exc_traceback.tb_lineno,
                     'name'    : exc_traceback.tb_frame.f_code.co_name,
                     'type'    : exc_type.__name__,
                     'message' : str(e)
                    }
        return movie
    
def _parse_title(page):
    try:
        return page.select('div[class=mv_info] h3[class=h_movie] a')[0].text.strip()
    except:
        return ''
    
def _parse_e_title(page):
    try:
        return page.select('div[class=mv_info] strong[class=h_movie2]')[0].text.replace('\r', '').replace('\t', '').replace('\n', '').strip()
    except:
        return ''

def _parse_genres(page):
    genres = page.select('a[href^=/movie/sdb/browsing/bmovie.nhn?genre=]')
    return list({ genre.text for genre in genres})

def _parse_countries(page):
    countries = page.select('a[href^=/movie/sdb/browsing/bmovie.nhn?nation=]')
    return list({country.text for country in countries})

def _parse_running_time(page):
    running_time = 0
    try:
        running_time = re.search(r"\d+분", page.text).group()[:-1]
    except:
        running_time = 0
    return running_time

# 다시 확인해보자
def _parse_open_date(page):
    return list({d for d in re.findall(r"\d+\.\d+\.\d+ 재*개봉", page.text)})

def _parse_grade(page):
    try:
        return page.select('a[href^=/movie/sdb/browsing/bmovie.nhn?grade]')[0].text
    except:
        return ''
    
def _parse_main_score(page):
    try:
        main_score = page.select('div[class=main_score]')[0]
        expert_score = main_score.select('div[class=spc_score_area] div[class=star_score]')[0].text.replace('\n','')
        netizen_score = main_score.select('div[class=score] div[class=star_score] span[class=st_off]')[0].text.replace('관람객 평점 ', '').replace('점', '')
        return expert_score, netizen_score
    except Exception as e:
        # print('error from _parse_main_score', e)
        return -1, -1

In [61]:
movie_id = 134963
url = url_basic_base % movie_id
page = get_soup(url)
parse_basic_page(page)

{'countries': ['미국'],
 'e_title': 'La La Land, 2016',
 'expert_score': '8.34',
 'genres': ['뮤지컬', '드라마', '멜로/로맨스'],
 'grade': '12세 관람가',
 'netizen_score': '8.90',
 'open_dates': [],
 'running_time': '127',
 'title': '라라랜드'}

In [62]:
import time

for movie_id in range(134960, 134965):
    url = url_basic_base % movie_id
    page = get_soup(url)
    title = _parse_title(page)
    print('%d: %s'%(movie_id, title))
    time.sleep(1.0)

134960: 그놈이다
134961: 어 라 말라
134962: 아이
134963: 라라랜드
134964: 콜 포 헬프


### User agent 설정

또한 네이버 영화 서버의 입장에서, 위의 코드는 자신의 정보를 제공하지 않을 체, 무명으로 접근하는 프로그램으로 인식할 수 있음. 어떤 서버들은 (예, IMDB) 이러한 요청에 대해서는 답변을 주지 않음. 이를 해결하기 위하여 requests를 보낼 때, 자신이 누구인지에 대한 정보를 넣어주면 좋음. user-agent를 header에 넣어서 requests를 보낼 수 있음

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

    response = requests.get(url, headers=headers)

위와 같이 requests.get을 할 때, headers에 자신에 대한 정보를 적어주면 좋음. 어떤 user-agent를 적어야 하는지는 구글에 python requests user agent라는 제목으로 검색을 해보자.

아래는 참고한 stackoverflow 주소입니다. **fake_useragent**라는 라이브러리도 있다고 함

http://stackoverflow.com/questions/27652543/how-to-use-python-requests-to-fake-a-browser-visit

### 파일 다운로드
파이썬에도 음악/사진 파일들을 다운로드 받을 수 있음. 다운로드라는 것도 서버와 내 컴퓨터 간의 통로를 열어두고, 전송이 되는 byte 정보들을 모아서 다시 음악, 사진 포멧으로 읽는 것임. 물론 스트리밍 서비스들을 temporal하게 내 컴퓨터에 데이터가 쌓이지 않게 막을 수도 있음. 그런 종류가 아니라 \< a>라는 태그로 링크가 걸려있는 이미지 파일들을 다운로드 해보자

아래 코드는 url.requests.urlopen을 통해 서버와 내 컴퓨터 간의 통신 통로를 열어둠.
while loop 안에서 열려진 통로에서 100000000 byte 만큼의 정보를 가져와서 buffer에 넣음. 그리고 이 정보를 미리 열어둔 downloaded_file이라는 파일에 적음. 주고 받은 정보가 텍스트가 아니라 바이트이기 때문에 'wb'로 파일을 열어둠. 다운로드가 모두 끝나면 열어둔 통신 서버를 닫고

```python
    opened.close()
```
열어둔 파일도 닫음

```python
    downloaded_file.close()
```

다운로드가 성공적으로 되었다면 True가, 실패했다면 False가 return 되도록 try-except로 이 코드 부분을 감싸준다

In [63]:
import os
import sys
import urllib

def download_image(url, fname):
    try:
        downloaded_file = open(fname, 'wb')
        opened = urllib.request.urlopen(url)
        while True:
            buffer = opened.read(100000000)
            if len(buffer) == 0:
                break
            downloaded_file.write(buffer)
        downloaded_file.close()
        opened.close()
        return True
    except:
        return False

In [64]:
download_image('http://cfile29.uf.tistory.com/image/26437D3F56A668C21BC92D', 'dsimage.png')

True

# 4. from json to doubleline corpus

glob은 해당하는 파일을 찾아줌. ../은 상위 폴더 주소임

실험 파일 전체에 적용되는 값들은 한 쪽(주로 Jupyter notebook 맨 왼쪽)에 몰아두는 것이 실수를 방지할 수 있음(config.py를 만드는 것도 좋은 방법임)

In [65]:
import glob

RAW_DATA_FOLDER = '/home/paulkim/workspace/python/Korean_NLP/data/small_naver_news/raw/'
PREPROSSED_DATA_FOLDER = '/home/paulkim/workspace/python/Korean_NLP/data/small_naver_news/processed/'

json_fnames = glob.glob('%s/*.json'%RAW_DATA_FOLDER)
print(len(json_fnames))

1355


In [66]:
import json

with open(json_fnames[14], encoding='utf-8') as f:
    json_article = json.load(f)

해당 문서는 네이버 뉴스의 내용을 수집한 것. contentHtml은 뉴스 본문 부분의 html을 태그를 제거하지 않고서 저장한 부분이고 content는 이 중에서 텍스트만 추린 부분

In [67]:
json_article.keys()

dict_keys(['crawledTime', 'sid1', 'writtenTime', 'office', 'oid', 'title', 'contentHtml', 'aid', 'content', 'url', 'crawlerVersion'])

In [68]:
json_article

{'aid': '0008914673',
 'content': '의결정족수 미달하면 비대위 전환 불발로 정치적 타격\n친박계, 인원점검 하고 전국위 \'동원령\'\n(서울=연합뉴스) 안용수 류미나 기자 = 새누리당 비박(비박근혜)계의 연쇄 탈당 사태에 따라, 인명진 비상대책위원장 선출을 위해 오는 29일 열리는 전국위원회 개최에 비상이 걸렸다.\n전국위에서 안건 의결을 위해서는 26일 현재 800여명인 재적 위원의 과반 출석에 과반 찬성이 필요하지만 비박계가 대거 탈당할 경우 의결 정족수를 채우지 못할 가능성도 있기 때문이다.\n비박계에서는 27일 현역 국회의원 30명 안팎이 탈당할 예정으로 해당 지역의 지방자치단체장과 지방의원들까지 동반 탈당할 경우 전국위 재적위원이 크게 줄어들게 된다.\n전국위는 당 대표, 최고위원, 시·도당위원장, 국회의원, 시·도지사, 기초단체장, 시·도의회 의장, 당원협의회 운영위원장 등으로 구성돼 있다.\n비박계 탈당에 대한 대응 성격으로 내세운 인 위원장 카드가 무산돼 비대위 전환이 불발될 경우 보수 진영의 선명성 경쟁을 위한 주류 친박(친박근혜)계의 첫 행보부터 타격이 불가피하다.\n정우택 원내대표는 26일 연합뉴스와의 통화에서 "지금은 전국위를 정상적으로 개최하는 게 제일 중요하며 전국위 무산은 상상도 할 수 없는 일"이라면서 "전국위원 400명 이상의 참석을 목표로 의결 정족수를 채우기 위해 최선을 다할 수밖에 없다"고 말했다.\n일단 당 사무처는 내부적으로 전국위원이 탈당할 경우 재적 위원도 그만큼 줄어든다는 당헌·당규에 대한 유권해석을 내린 상태다.\n한 핵심 당직자는 "탈당을 선언하는 순간 전국위의 재적 위원에서 제외키로 했다"면서 "전국위의 재적 위원이 줄어들게 되면 의결 정족수도 낮아진다"고 설명했다.\n전국위 의장인 친박계 정갑윤 의원은 이날 오후 국회에서 재적 위원 현황과 예정 참석 인원을 점검하는 등 전국위 개최를 위한 자체 회의를 개최할 방침이다.\n문제는 오는 1월5일 40명 가까운 원외 당협위원장을 시작으로

a line a document로 텍스트를 저장하자. 나중에 term frequency matrix를 만들거나 Word2Vec, Doc2Vec을 학습할 때 편리함

하나의 문서는 여러 줄로 구성될 수 있음. 그래서 실제 줄바꿈이 있는 경우에는 **두 칸 띄어쓰기**를 이용하여 구분. 기호에 따라서 탭 구분도 사용하면 괜찮음. 이 때 줄 구분기호(두 칸 띄어쓰기)는 반드시 한 문장에서 없어야 함

그리고 뉴스에서 필요한 메타 정보들도 line number를 맞춰서 index파일로 만드는 것이 좋음. 이렇게 line number가 맞으면 필요할 때 해당 문서의 메타 정보들을 이용할 수 있음

JSON 문서에 만약 content, title과 같은 정보가 존재하지 않아 오류가 날 것을 대비해서 dict.get(key, '')를 이용해서 json parser를 만듦.

In [69]:
import json

def parse_json(json_fname):
    with open(json_fname, encoding='utf-8') as f:
        json_object = json.load(f)
        text = json_object.get('content', '').replace('\n', '  ')
        title = json_object.get('title', '')
        idx = json_fname.split('/')[-1].split('.')[0]
        return text, title, idx
    
text, title, idx = parse_json(json_fnames[14])

print('title: %s' % title)
print('idx: %s' % idx)
print('text: %s' % text)

title: 與, 연쇄탈당에 '인명진 추인' 비상…전국위 의결정족수 '불안'
idx: 0008914673
text: 의결정족수 미달하면 비대위 전환 불발로 정치적 타격  친박계, 인원점검 하고 전국위 '동원령'  (서울=연합뉴스) 안용수 류미나 기자 = 새누리당 비박(비박근혜)계의 연쇄 탈당 사태에 따라, 인명진 비상대책위원장 선출을 위해 오는 29일 열리는 전국위원회 개최에 비상이 걸렸다.  전국위에서 안건 의결을 위해서는 26일 현재 800여명인 재적 위원의 과반 출석에 과반 찬성이 필요하지만 비박계가 대거 탈당할 경우 의결 정족수를 채우지 못할 가능성도 있기 때문이다.  비박계에서는 27일 현역 국회의원 30명 안팎이 탈당할 예정으로 해당 지역의 지방자치단체장과 지방의원들까지 동반 탈당할 경우 전국위 재적위원이 크게 줄어들게 된다.  전국위는 당 대표, 최고위원, 시·도당위원장, 국회의원, 시·도지사, 기초단체장, 시·도의회 의장, 당원협의회 운영위원장 등으로 구성돼 있다.  비박계 탈당에 대한 대응 성격으로 내세운 인 위원장 카드가 무산돼 비대위 전환이 불발될 경우 보수 진영의 선명성 경쟁을 위한 주류 친박(친박근혜)계의 첫 행보부터 타격이 불가피하다.  정우택 원내대표는 26일 연합뉴스와의 통화에서 "지금은 전국위를 정상적으로 개최하는 게 제일 중요하며 전국위 무산은 상상도 할 수 없는 일"이라면서 "전국위원 400명 이상의 참석을 목표로 의결 정족수를 채우기 위해 최선을 다할 수밖에 없다"고 말했다.  일단 당 사무처는 내부적으로 전국위원이 탈당할 경우 재적 위원도 그만큼 줄어든다는 당헌·당규에 대한 유권해석을 내린 상태다.  한 핵심 당직자는 "탈당을 선언하는 순간 전국위의 재적 위원에서 제외키로 했다"면서 "전국위의 재적 위원이 줄어들게 되면 의결 정족수도 낮아진다"고 설명했다.  전국위 의장인 친박계 정갑윤 의원은 이날 오후 국회에서 재적 위원 현황과 예정 참석 인원을 점검하는 등 전국위 개최를 위한 자체 회의를 개최할 방침이다.  문제는 오는

두 칸 띄어쓰기로 각 문장을 나누었기 때문에 return 된 text를 두 칸 띄어쓰기로 다시 나눠보자. 한 기사에 16줄이 잇엇음을 확인할 수 있음

In [70]:
len(text.split('  '))

17

a line a document 형식의 corpus.txt 파일과 이에 해당하는 corpus_index.txt파일을 만듦

In [71]:
with open('%s/corpus.txt'%PREPROSSED_DATA_FOLDER, 'w', encoding='utf-8') as fc:
    with open('%s/corpus_index.txt'%PREPROSSED_DATA_FOLDER, 'w', encoding='utf-8') as fi:
        for json_fname in json_fnames:
            text, title, idx = parse_json(json_fname)
            fc.write('%s\n'%text)
            fi.write('%s\t%s\n'%(title, idx))
            
print('done')

done


In [72]:
with open('%s/corpus.txt'%PREPROSSED_DATA_FOLDER , encoding='utf-8') as f:
    docs = [doc.strip() for doc in f]
    
print('num docs = %d'%len(docs))
print('num sents of docs[14] = %d'%len(docs[14].split('  ')))
print('docs[14]\n%s'%docs[14])

num docs = 1355
num sents of docs[14] = 16
docs[14]
의결정족수 미달하면 비대위 전환 불발로 정치적 타격  친박계, 인원점검 하고 전국위 '동원령'  (서울=연합뉴스) 안용수 류미나 기자 = 새누리당 비박(비박근혜)계의 연쇄 탈당 사태에 따라, 인명진 비상대책위원장 선출을 위해 오는 29일 열리는 전국위원회 개최에 비상이 걸렸다.  전국위에서 안건 의결을 위해서는 26일 현재 800여명인 재적 위원의 과반 출석에 과반 찬성이 필요하지만 비박계가 대거 탈당할 경우 의결 정족수를 채우지 못할 가능성도 있기 때문이다.  비박계에서는 27일 현역 국회의원 30명 안팎이 탈당할 예정으로 해당 지역의 지방자치단체장과 지방의원들까지 동반 탈당할 경우 전국위 재적위원이 크게 줄어들게 된다.  전국위는 당 대표, 최고위원, 시·도당위원장, 국회의원, 시·도지사, 기초단체장, 시·도의회 의장, 당원협의회 운영위원장 등으로 구성돼 있다.  비박계 탈당에 대한 대응 성격으로 내세운 인 위원장 카드가 무산돼 비대위 전환이 불발될 경우 보수 진영의 선명성 경쟁을 위한 주류 친박(친박근혜)계의 첫 행보부터 타격이 불가피하다.  정우택 원내대표는 26일 연합뉴스와의 통화에서 "지금은 전국위를 정상적으로 개최하는 게 제일 중요하며 전국위 무산은 상상도 할 수 없는 일"이라면서 "전국위원 400명 이상의 참석을 목표로 의결 정족수를 채우기 위해 최선을 다할 수밖에 없다"고 말했다.  일단 당 사무처는 내부적으로 전국위원이 탈당할 경우 재적 위원도 그만큼 줄어든다는 당헌·당규에 대한 유권해석을 내린 상태다.  한 핵심 당직자는 "탈당을 선언하는 순간 전국위의 재적 위원에서 제외키로 했다"면서 "전국위의 재적 위원이 줄어들게 되면 의결 정족수도 낮아진다"고 설명했다.  전국위 의장인 친박계 정갑윤 의원은 이날 오후 국회에서 재적 위원 현황과 예정 참석 인원을 점검하는 등 전국위 개최를 위한 자체 회의를 개최할 방침이다.  문제는 오는 1월5일 40명 가까운

In [73]:
docs[14].split('  ')[-1]

'aayyss@yna.co.kr'

In [74]:
text.split('  ')[-1]

''

In [75]:
text.split('  ')[-2]

'hye1@yna.co.kr'

# 5 Keyword extraction 

In [76]:
preprocessed_data_fname = '/home/paulkim/workspace/python/Korean_NLP/data/small_naver_news/processed/corpus.txt'
model_folder = './tmp/'

In [77]:
with open(preprocessed_data_fname, encoding='utf-8') as f:
    docs = [doc.strip() for doc in f]
    
print('num docs = %d'%len(docs))

num docs = 1355


### From corpus to noun term frequency sparse matrix
Twitter.nouns(sent)를 사용. type은 list of str

In [78]:
from collections import defaultdict
from pprint import pprint
from konlpy.tag import Twitter

twitter = Twitter()
twitter.nouns('이건 테스트얌~')

['이건', '테스트', '얌']

a line a document이기 때문에 docs[i]은 하나의 문서를 의미하고, 하나의 문서는 두 칸 띄어쓰기로 줄이 나뉘어져 있음. 모든 문서에서 명사를 추출한 뒤, 각 명사들이 몇 번 나왔었는지를 알아보자. 굳이 한 줄 한 줄을 나눌 필요는 없음

In [79]:
from collections import Counter

noun_counter = Counter([noun for doc in docs for noun in twitter.nouns(doc)])
print('num of nouns : %d'%len(noun_counter))

num of nouns : 12612


term frequency matrix를 만들 때, 거의 등장하지 않는 단어들은 의미가 없음. min count를 설정하여 각 threshold별로 몇 개의 명사가 살아남는지 확인

In [80]:
for min_count in [2, 3, 5, 10]:
    _counter = {word for word, freq in noun_counter.items() if freq >= min_count}
    print('num of nouns (min_count = %d): %d'%(min_count, len(_counter)))

num of nouns (min_count = 2): 7772
num of nouns (min_count = 3): 5900
num of nouns (min_count = 5): 4102
num of nouns (min_count = 10): 2424


5번 이상 나오는 4102개의 명사를 이용하여 term frequency matrix를 만듦. CountVectorizer는 문서가 주어지면 띄어쓰기를 tokenizer로 이용함. filtering이 되지 않음. 이를 방지하기 위해 빈도수가 5 이상인 명사만 return 하는 custom tokenizer를 만듦

Twitter.nouns()와 custom_tokenizer의 결과가 달라짐을 확인할 수 있음

In [81]:
noun_dict = {word for word, freq in noun_counter.items() if freq >= 5}

def custom_tokenizer(doc):
    return [word for word in twitter.nouns(doc) if word in noun_dict]

print(twitter.nouns(docs[1]))
print(custom_tokenizer(docs[1]))

['연합뉴스', '제공', '김성태', '청문회', '회', '불참', '최순실', '국회', '모독', '죄', '고발', '조치', '속보']
['연합뉴스', '제공', '김성태', '청문회', '회', '최순실', '국회', '죄', '고발', '조치', '속보']


In [82]:
len(noun_dict)

4102

CounterVectorizer는 document frequency를 기준으로 대부분 문서에 등장하거나 거의 등장하지 않는 극단적인 단어들을 제거할 수 있음. min_df와 max_df를 이용하면 되며, df는 비율임. [0, 1]사이의 값을 입력

In [83]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(tokenizer=custom_tokenizer, min_df=0.005, max_df=0.95)
x_sparse = vectorizer.fit_transform(docs)

x_sparse는 scipy의 sparse matrix임. Sparse matrix는 0 값이 많은 행렬에 대하여 0이 아닌 (i, j)의 값만을 저장한 matrix를 의미함. Term frequency matrix는 very sparse matrix에 속하므로 dense matrix보다 sparse matrix가 훨씬 효율적임. dense matrix는 문서의 양이 조금만 커도 메모리가 폭발함

1355개의 문서가 2283개의 단어로 이뤄졌으며 0이 아닌 (i, j)의 갯수가 62633개라는 의미임. min_df, max_df에 의하여 또 한번 극단적인 단어들이 제거되었기 때문에 4102개의 명사 중 2283개만이 이용된 것임

In [84]:
x_sparse

<1355x2283 sparse matrix of type '<class 'numpy.int64'>'
	with 62633 stored elements in Compressed Sparse Row format>

## CountVectorizer에서 각 column에 해당하는 term 알아내기

vectorizer.vocabulary_는 dict형식으로, {word:index} 임

이를 이용하여 vocab to index, index to vocab을 만듦. 정부라는 단어가 1633에 해당함

In [85]:
vocab2int = vectorizer.vocabulary_
vocab2int['정부']

1663

index는 0부터 시작함. 그러므로 int2vocab은 dictionay형태보다 list형태로 갖고 있어도 좋음. 이를 위해서 sorted함수를 이용

In [86]:
int2vocab = [word for word, index in sorted(vocab2int.items(), key=lambda x:x[1])]
int2vocab[1663]

'정부'

# Sparse matrix와 dense matrix

In [87]:
from scipy.io import mmwrite, mmread

mmwrite('./tmp/x.mm', x_sparse)
loaded_x_sparse = mmread('./tmp/x.mm')
loaded_x_sparse

<1355x2283 sparse matrix of type '<class 'numpy.int64'>'
	with 62633 stored elements in COOrdinate format>

todense()를 이용하면 sparse matrix는 모든 (i, j)의 값을 갖는 numpy.ndarray의 dense matrix로 변환됨

In [88]:
x_dense = loaded_x_sparse.todense()

실제로 x_dense는 많은 값들이 0으로 채워져 있음

In [89]:
x_dense

matrix([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ..., 
        [0, 0, 0, ..., 0, 0, 1],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]])

In [90]:
x_dense[0]

matrix([[0, 0, 0, ..., 0, 0, 0]])

## term proportion vector 계산
직관적으로 키워드 추출 알고리즘의 작동 원리를 알아보기 위해 작은 데이터를 이용한 예제에서는 dense matrix를 이용함. 하지만 큰 데이터는 반드시 sparse matrix로 코딩해야함

In [91]:
# 5 by 10의 random matrix를 생성
import numpy as np

x_tmp = np.random.random((5, 10))
x_tmp

array([[ 0.61647896,  0.5677124 ,  0.81465657,  0.32410236,  0.49841311,
         0.81960365,  0.71650195,  0.03794535,  0.32227134,  0.06778488],
       [ 0.79163931,  0.91608892,  0.23679768,  0.22312053,  0.65196836,
         0.06585335,  0.57140033,  0.36864503,  0.71569353,  0.66606222],
       [ 0.11639113,  0.9393842 ,  0.56372578,  0.4665309 ,  0.51005806,
         0.07494885,  0.74646413,  0.45102108,  0.0753941 ,  0.10611035],
       [ 0.14338196,  0.52807858,  0.38412838,  0.51981315,  0.20744972,
         0.91801829,  0.77545301,  0.65732648,  0.24402909,  0.274855  ],
       [ 0.76822197,  0.17702738,  0.56053734,  0.64662298,  0.60289627,
         0.00537096,  0.99155485,  0.07049531,  0.36484568,  0.13946796]])

x_tmp.sum()은 50개의 값의 합, x_tmp.sum(axis=0)은 row, x_tmp.sum(axis=1)은 column sum

In [92]:
x_tmp.sum(axis = 0) # row들의 합

array([ 2.43611333,  3.12829148,  2.55984575,  2.18018993,  2.47078552,
        1.88379511,  3.80137428,  1.58543325,  1.72223375,  1.25428042])

In [93]:
x_tmp.sum(axis = 1) # 각 row들의 column의 합

array([ 4.78547058,  5.20726927,  4.05002858,  4.65253366,  4.32704071])

하나의 row가 하나의 문서에 해당한다면, 모든 문서들에서 단어의 출현 빈도 비율을 아래와 같이 계산할 수 있음

In [94]:
x_tmp.sum(axis = 0) / x_tmp.sum()

array([ 0.10581518,  0.13588068,  0.11118963,  0.09469887,  0.1073212 ,
        0.08182465,  0.16511674,  0.06886498,  0.07480706,  0.05448101])

row sum을 한 뒤 1 by 10 행렬을 각각 x1, x2라 할 때, x1 / (x1 + x2)를 하면 notes의 공식을 구현할 수 있음

In [95]:
x1 = np.random.random((1, 10))
x2 = np.random.random((1, 10))
x_score = x1 / (x1 + x2)
x_score

array([[ 0.36080941,  0.54754391,  0.58121417,  0.80110717,  0.13234422,
         0.13093606,  0.69573128,  0.68658259,  0.61354319,  0.24880674]])

## enumerate를 이용하여 list에서 조건에 해당하는 값들의 index 가져오기
enumerate는 list, generator 등처럼 for loop을 돌면서 값이 하나씩 출력되는 객체들에 대하여 출력된 값의 순서를 0, 1, 2처럼 번호를 붙여주는 함수임

x_score에서 0.5보다 높은 숫자들을 지닌 list index를 가져올 수 있음

In [96]:
[word_idx for word_idx, value in enumerate(x_score[0]) if value > 0.5]

[1, 2, 3, 6, 7, 8]

## keyword_extraction 함수

score가 0.7인 이상인 단어들을 aspect_word_index에 대한 키워드로 추출하는 함수를 만듦.

numpy.ndarray에서 x[:,3]은 모든 rows에 대해 3번째 column을 가져오라는 의미임. 이 때 return은 (n by 1) shape의 numpy.ndarray임

(1 by n)이나 (n by 1)의 ndarraysms .reshape(-1)을 해주면 column vector(list 같은)가 됨

In [97]:
def keyword_extraction(x_dense, aspect_word_index, int2vocab, threshold=0.7):
    dt_idx = []
    dr_idx = []
    
    # 모든 문서에서 aspect_word의 column가져오기
    for idx, tf in enumerate(x_dense[:, aspect_word_index]):
        # tf가 0보다 크면 target (positive) document set
        if tf > 0:
            dt_idx.append(idx)
        # tf == 0은 aspect word가 등장하지 않았으므로 reference document set
        else:
            dr_idx.append(idx)
            
    # x_dense에 list로 이뤄진 dt_idx를 넣으면, 해당 index의 rows만을 추려서 submatrix를 만듦        
    x_dt = x_dense[dt_idx]
    x_dr = x_dense[dr_idx]
    
    # term proportion matrix를 만듦
    x_dt = x_dt.sum(axis = 0) / x_dt.sum()
    x_dr = x_dr.sum(axis = 0) / x_dr.sum()
    
    # score를 구한 뒤 reshape를 이용하여 column vector 형태로 만들어줌
    x_score = x_dt / (x_dt + x_dr)
    x_score = np.asarray(x_score).reshape(-1)
    
    # score가 threshold 이상인 단어들의 index를 keywords list에 넣어둠
    keywords = [(word_idx, score ) for word_idx, score in enumerate(x_score) if score >= threshold]
    
    # index2word를 이용하여 word index를 키워드로 바꿔줌
    keywords = [(int2vocab[word_idx], score) for word_idx, score in keywords]
    
    return keywords

threshold = 0.7을 넘는 키워드 중에서 빈도수 기준으로 정렬을 설정하여 top keyword 20개를 선택함

길이가 1인 글자들은 해석하기가 너무 어려움. 제거

In [99]:
for word in ['가요대전', '국정조사', '최순실', '트럼프', '롯데', '삼성']:
    if not word in vocab2int:
        continue
        
    print('\n\nAspect word = %s (%d)'%(word, vocab2int[word]))
    
    word_index = vocab2int[word]
    keywords = keyword_extraction(x_dense, word_index, int2vocab, threshold=0.7)
    
    # 길이가 1인 단어들 제거
    keywords = [(word, score) for word, score in keywords if len(word) > 1]
    
    # 추출된 키워드들 term frequency 기준으로 정렬하여 상위 20개 선택
    keywords_tops = sorted(keywords, key=lambda x:noun_counter.get(x[0], 0), reverse=True)[:20]
    
    for keyword, score in keywords_tops:
        print("%10s\t%.3f"%(keyword, score))



Aspect word = 가요대전 (12)
      연합뉴스	0.786
        서울	0.911
        기자	0.867
        오후	0.966
        에서	0.982
        사회	0.812
       강남구	0.992
        그룹	0.932
       코엑스	0.999
       어워즈	1.000
      페스티벌	1.000
      가요대전	1.000
       이재희	1.000
        보이	0.934
        포즈	0.999
       걸그룹	1.000
      레드카펫	1.000
        유리	0.991
      트와이스	1.000


Aspect word = 국정조사 (263)
       대통령	0.819
        의원	0.723
        정부	0.703
       최순실	0.898
        의혹	0.869
        국회	0.843
       박근혜	0.856
        특검	0.816
       청문회	0.971
        현장	0.873
       위원회	0.828
        실장	0.871
        국정	0.895
       위원장	0.755
        사건	0.859
       청와대	0.899
        위원	0.868
        최씨	0.876
      압수수색	0.804
        수석	0.867


Aspect word = 최순실 (1936)
       대통령	0.831
       최순실	1.000
        의혹	0.934
        수사	0.947
        국회	0.800
        문화	0.796
       박근혜	0.952
        특검	0.961
       청문회	0.998
        현장	0.827
        실장	0.902
        국정	0.911
        사건	0.837
       청와대	0.990
        위원	0.767
  