# Collocation(연어)

In [1]:
from nltk.corpus import gutenberg

gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [2]:
corpus = gutenberg.open('austen-emma.txt').read()

In [3]:
from nltk import regexp_tokenize, Text

In [4]:
pattern = r'([a-zA-Z0-9]+)+'

In [5]:
tokens = regexp_tokenize(corpus, pattern)
len(tokens)

161980

In [6]:
en = Text(tokens)
type(en)

nltk.text.Text

영문 corpus를 정규식 형태로 주어진 패턴으로 tokenize하여 영어, 숫자만 뽑아낸 후 Text 객체에 저장.

In [7]:
from konlpy.corpus import kolaw

kolaw.fileids()

['constitution.txt']

In [8]:
corpus = kolaw.open('constitution.txt').read()

In [9]:
from konlpy.tag import Kkma

In [10]:
kkma = Kkma()

In [11]:
tokens = kkma.morphs(corpus)

morphs: 한글 corpus를 형태소 단위로 분석.

In [12]:
tokens[:5]

['대한민국', '헌법', '유구', '하', 'ㄴ']

In [13]:
ko = Text(tokens)

한글 corpus를 형태소 단위로 tokenize한 후 Text 객체에 저장.

In [14]:
sentence = 'The little yellow dog barked at the Persian cat'

In [15]:
tokens = sentence.split(' ')
tokens

['The', 'little', 'yellow', 'dog', 'barked', 'at', 'the', 'Persian', 'cat']

In [16]:
import nltk

In [17]:
nltk.pos_tag(tokens)

[('The', 'DT'),
 ('little', 'JJ'),
 ('yellow', 'JJ'),
 ('dog', 'NN'),
 ('barked', 'VBD'),
 ('at', 'IN'),
 ('the', 'DT'),
 ('Persian', 'JJ'),
 ('cat', 'NN')]

nltk 모듈을 활용하여 각 단어들의 품사 분석.

In [18]:
entags = nltk.pos_tag(tokens)

In [19]:
sentence = '내 친구는 잠을 많이 잔다.'

In [20]:
kkma.pos(sentence)

[('내', 'NP'),
 ('친구', 'NNG'),
 ('는', 'JX'),
 ('잠', 'NNG'),
 ('을', 'JKO'),
 ('많이', 'MAG'),
 ('자', 'VV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF')]

Kkma를 활용하여 한글 단어 품사 분석. nltk와 달리 문장을 tokenize하지 않고 그대로 넣어도 동작한다.

In [21]:
kotags = kkma.pos(sentence)

In [22]:
enParser = nltk.RegexpParser('NP: {<DT>?<JJ>*<NN.*>*}')

명사구 = 관사가 하나 오거나 오지 않거나, 형용사가 없거나 여러개 오거나, 명사구가 없거나 여러개 오거나.

In [25]:
tree = enParser.parse(entags)
tree.draw()

정의한 parser를 이용한 영문 문장 분석 결과를 tree형태로 보여준다.

In [26]:
koParser = nltk.RegexpParser("""
    NP: {<N.*>*<N.*>*?}
    VP: {<M.*>*<V.*>*<E.*>*}
""")

Kkma가 아닌 다른 형태소 분석기 사용시 분석 결과로 나오는 품사 tag가 다를 수 있으므로 Parser를 따로 정의해줘야 한다.

In [27]:
tree = koParser.parse(kotags)
tree.draw()

In [28]:
koParser = nltk.RegexpParser("""
    NP: {<N.*>*<N.*>*?}
    OP: {<N.*>*<JKO>*}
    VP: {<M.*>*<V.*>*<E.*>*}
""")

In [29]:
tree = koParser.parse(kotags)
tree.draw()

목적어구를 찾기 위해 Parser 수정.

In [30]:
for subtree in tree.subtrees():
    if subtree.label() == "NP":
        print(subtree, type(subtree))
        print(' '.join(e[0] for e in list(subtree)))

(NP 내/NP 친구/NNG) <class 'nltk.tree.Tree'>
내 친구
(NP 잠/NNG) <class 'nltk.tree.Tree'>
잠


명사구의 단어들만 가져왔다.

In [32]:
for subtree in tree.subtrees():
    if subtree.label() == "VP":
        print(subtree, type(subtree))
        print(' '.join(e[0] for e in list(subtree)))

(VP 많이/MAG 자/VV ㄴ다/EFN) <class 'nltk.tree.Tree'>
많이 자 ㄴ다


동사구의 단어들만 가져왔다.

In [33]:
en.collocations()

Mrs Weston; Frank Churchill; Miss Woodhouse; Mrs Elton; Miss Bates;
Jane Fairfax; Miss Fairfax; every thing; young man; every body; great
deal; Mrs Goddard; dare say; Maple Grove; John Knightley; Miss Taylor;
Miss Smith; Robert Martin; Colonel Campbell; Box Hill


In [34]:
ko.collocations()

정치적 중립성; 재판소 재판관


단어의 위치에 기반하여 해당 Text에서 자주 나온 단어 쌍을 찾을수 있다.

In [35]:
ko.collocations(window_size=3)

정치적 중립성; 재판소 재판관; 대법원장 대법관; 대통령 국무총리; 그러하 아니하


앞 뒤 3개의 단어를 기준으로 해당 Text에서 자주 나온 단어 쌍을 찾는다.

In [36]:
from nltk import collocations

In [37]:
measure = collocations.BigramAssocMeasures()

In [38]:
taggedWords = kkma.pos(corpus)

In [40]:
finder = collocations.BigramCollocationFinder.from_words(taggedWords)

for row in finder.nbest(measure.pmi, 5):
    print(row)

(('가부', 'NNG'), ('동수', 'NNG'))
(('강제', 'NNG'), ('노역', 'NNG'))
(('경자', 'NNG'), ('유전', 'NNG'))
(('고', 'ECS'), ('채취', 'NNG'))
(('공무', 'NNG'), ('담임', 'NNG'))


pmi를 적용하여 tokenize된 문장에서 collocation을 찾는다.(단어, 태그 쌍으로 들어감)

pmi(x, y) = lg(p(x, y) / (p(x) * p(y)))

In [41]:
tags = [t for (w, t) in taggedWords]
tags

['NNG',
 'NNG',
 'NNG',
 'XSV',
 'ETD',
 'NNG',
 'JC',
 'NNG',
 'JKM',
 'VV',
 'ETD',
 'NNM',
 'VV',
 'ETD',
 'NNG',
 'JX',
 'NR',
 'SP',
 'NR',
 'NNG',
 'JKM',
 'NNG',
 'XSV',
 'ETD',
 'NNG',
 'NNG',
 'NNG',
 'JKG',
 'NNG',
 'JC',
 'NNG',
 'JKM',
 'NNG',
 'XSV',
 'ETD',
 'NR',
 'SP',
 'NR',
 'NNG',
 'NNG',
 'JKO',
 'NNG',
 'XSV',
 'ECE',
 'SP',
 'NNG',
 'JKG',
 'NNG',
 'NNG',
 'JKM',
 'NNG',
 'NNG',
 'JKG',
 'NNG',
 'JKM',
 'NNG',
 'XSV',
 'ECS',
 'NNG',
 'SP',
 'NNG',
 'JC',
 'NNG',
 'JKM',
 'NNG',
 'JKG',
 'NNG',
 'JKO',
 'MAG',
 'VV',
 'ECE',
 'SP',
 'MDT',
 'NNG',
 'NNG',
 'JC',
 'NNG',
 'JKO',
 'NNG',
 'XSV',
 'ECE',
 'SP',
 'NNG',
 'JC',
 'NNG',
 'JKO',
 'NNG',
 'JKM',
 'NNG',
 'NNG',
 'NNG',
 'NNG',
 'JKO',
 'MAG',
 'MAG',
 'MAG',
 'NNG',
 'SP',
 'NNG',
 'SP',
 'NNG',
 'SP',
 'NNG',
 'JKG',
 'MDT',
 'NNG',
 'JKM',
 'VV',
 'ECD',
 'NNG',
 'JKG',
 'NNG',
 'JKO',
 'NNG',
 'NNG',
 'VV',
 'ECE',
 'SP',
 'NNG',
 'JKO',
 'NNG',
 'NNG',
 'NNG',
 'XSV',
 'ECD',
 'VV',
 'ECE',
 'SP',
 'N

In [42]:
words = [w for (w, t) in taggedWords]
words

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국',
 '임시',
 '정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거',
 '하',
 'ㄴ',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하',
 '고',
 ',',
 '조국',
 '의',
 '민주',
 '개혁',
 '과',
 '평화적',
 '통일',
 '의',
 '사명',
 '에',
 '입각',
 '하',
 '여',
 '정의',
 '·',
 '인도',
 '와',
 '동포애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고히',
 '하',
 '고',
 ',',
 '모든',
 '사회적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하',
 '며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유',
 '민주적',
 '기본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하여',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있',
 '어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등',
 '히',
 '하',
 '고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하',
 '게',
 '하',
 '며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르',
 '는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하',
 '게',
 '하여',
 ',',
 '안',
 '으로',
 '는',
 '국민',
 '생활',
 '의',
 '균등',
 '하',
 'ㄴ',
 

In [43]:
finder = collocations.BigramCollocationFinder.from_words(tags)

for row in finder.nbest(measure.pmi, 5):
    print(row)

('XR', 'XSA')
('JKC', 'VCN')
('EPT', 'EPT')
('VCN', 'ECD')
('ECD', 'VX')


tag를 대상으로 collocation을 찾음으로써 어떤 tag끼리 주로 붙어서 나오는지 알 수 있다.

In [44]:
finder = collocations.BigramCollocationFinder.from_words(words)

for row in finder.nbest(measure.pmi, 5):
    print(row)

('가부', '동수')
('강제', '노역')
('경자', '유전')
('공무', '담임')
('공중', '도덕')


word를 대상으로 collocation을 찾음으로써 어떤 word끼리 주로 붙어서 나오는지 알 수 있다.

In [45]:
ko.vocab()

FreqDist({'의': 532, '하': 457, '.': 359, '에': 328, '는': 281, 'ㄴ다': 243, 'ㄴ': 234, '을': 232, '은': 195, '이': 192, ...})

corpus내 단어 등장 횟수를 나열하여 dict로 만들어준다.

___

## Making Wordcloud

In [46]:
for k, v in ko.vocab().items():
    print(k, v)

대한민국 11
헌법 69
유구 1
하 457
ㄴ 234
역사 1
와 42
전통 1
에 328
빛나 1
는 281
우리 3
대하 19
국민 69
은 195
3 24
· 145
1 28
운동 3
으로 57
건립 1
되 113
임시 3
정부 23
의 532
법통 1
과 82
불의 2
항거 1
4 14
19 2
민주 6
이념 1
을 232
계승 2
고 39
, 101
조국 3
개혁 1
평화적 4
통일 9
사명 2
입각 2
여 149
정의 2
인도 1
동포애 1
로써 5
민족 3
단결 1
공고히 1
모든 37
사회적 5
폐습 1
를 135
타파 1
며 45
자율 2
조화 2
바탕 1
자유 21
민주적 4
기본 8
질서 8
더욱 1
확고히 1
하여 3
정치 4
경제 18
사회 4
문화 3
영역 4
있 99
어서 9
각인 1
기회 4
균등 4
히 1
능력 3
최고 3
도로 1
발휘 1
게 6
권리 21
따르 7
책임 5
의무 20
완수 1
안 15
생활 8
향상 4
기하 1
밖 1
항구적 1
이 192
세계 1
평화 5
인류 1
공영 1
이바지 1
ㅁ 6
으로써 4
들 2
자손 1
안전 11
행복 2
영원히 1
확보 1
ㄹ 141
것 7
다짐 1
면서 1
1948 1
년 12
7 4
월 3
12 3
일 19
제정 8
8 4
차 3
걸치 1
어 13
개정 9
이제 1
국회 55
의결 16
거치 2
투표 8
의하 83
ㄴ다 243
. 359
저 155
장 15
총 1
강 1
제 20
조 136
① 78
공화국 1
다 88
② 78
주권 2
에게 10
권력 1
부터 13
나오 1
2 19
요건 1
법률 121
로 62
정하 88
국가 73
바 37
재외 1
보호 15
질 13
영토 2
한반도 1
그 46
부속 1
도 8
서로 1
지향 2
정책 14
수립 7
이르 14
추진 1
5 10
국제 3
유지 7
노력 13
침략 1
적 2
전쟁 1
부인 1
국 21
군은 1
보장 24
국토 3
방위 2
신성 1
수행 4
정치적 5
중립성 3
준수 2
6 10
체결 4
공포 11
조약 11

In [48]:
with open('cloud.csv', 'w') as fp:
    fp.write('word, freq\n')
    
    for k, v in ko.vocab().items():
        fp.write('{0}, {1}\n'.format(k, v))
        
wordList = [k for (k, v) in kkma.pos(corpus)]

형태소 분석 결과에서 단어만 가져와 리스트를 만들었다.

In [49]:
wordList

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국',
 '임시',
 '정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거',
 '하',
 'ㄴ',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하',
 '고',
 ',',
 '조국',
 '의',
 '민주',
 '개혁',
 '과',
 '평화적',
 '통일',
 '의',
 '사명',
 '에',
 '입각',
 '하',
 '여',
 '정의',
 '·',
 '인도',
 '와',
 '동포애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고히',
 '하',
 '고',
 ',',
 '모든',
 '사회적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하',
 '며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유',
 '민주적',
 '기본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하여',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있',
 '어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등',
 '히',
 '하',
 '고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하',
 '게',
 '하',
 '며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르',
 '는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하',
 '게',
 '하여',
 ',',
 '안',
 '으로',
 '는',
 '국민',
 '생활',
 '의',
 '균등',
 '하',
 'ㄴ',
 

In [50]:
wordList = [k for (k, v) in kkma.pos(corpus) if v.startswith('NN')]
wordList

['대한민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '운동',
 '건립',
 '대한민국',
 '임시',
 '정부',
 '법통',
 '불의',
 '항거',
 '민주',
 '이념',
 '계승',
 '조국',
 '민주',
 '개혁',
 '평화적',
 '통일',
 '사명',
 '입각',
 '정의',
 '인도',
 '동포애',
 '민족',
 '단결',
 '사회적',
 '폐습',
 '불의',
 '타파',
 '자율',
 '조화',
 '바탕',
 '자유',
 '민주적',
 '기본',
 '질서',
 '정치',
 '경제',
 '사회',
 '문화',
 '영역',
 '각인',
 '기회',
 '균등',
 '히',
 '능력',
 '최고',
 '도로',
 '발휘',
 '자유',
 '권리',
 '책임',
 '의무',
 '완수',
 '안',
 '국민',
 '생활',
 '균등',
 '향상',
 '밖',
 '항구적',
 '세계',
 '평화',
 '인류',
 '공영',
 '이바지',
 '자손',
 '안전',
 '자유',
 '행복',
 '확보',
 '것',
 '다짐',
 '년',
 '월',
 '일',
 '제정',
 '차',
 '개정',
 '헌법',
 '이제',
 '국회',
 '의결',
 '국민',
 '투표',
 '개정',
 '장',
 '강',
 '제',
 '대한민국',
 '민주',
 '공화국',
 '대한민국',
 '주권',
 '국민',
 '권력',
 '국민',
 '대한민국',
 '국민',
 '요건',
 '법률',
 '국가',
 '법률',
 '바',
 '재외',
 '국민',
 '보호',
 '의무',
 '조',
 '대한민국',
 '영토',
 '한반도',
 '부속',
 '조',
 '대한민국',
 '통일',
 '지향',
 '자유',
 '민주적',
 '기본',
 '질서',
 '입각',
 '평화적',
 '통일',
 '정책',
 '수립',
 '추진',
 '대한민국',
 '국제',
 '평화',
 '유지',
 '노력',
 '침략',
 '전쟁',
 '부인',
 '국',
 '

단어 리스트 중 명사만 뽑아냈다.

In [51]:
from collections import Counter

In [58]:
wordCount = Counter(wordList)
wordCount

Counter({'대한민국': 11,
         '헌법': 69,
         '유구': 1,
         '역사': 1,
         '전통': 1,
         '우리': 1,
         '국민': 69,
         '운동': 3,
         '건립': 1,
         '임시': 3,
         '정부': 23,
         '법통': 1,
         '불의': 2,
         '항거': 1,
         '민주': 6,
         '이념': 1,
         '계승': 2,
         '조국': 3,
         '개혁': 1,
         '평화적': 4,
         '통일': 9,
         '사명': 2,
         '입각': 2,
         '정의': 2,
         '인도': 1,
         '동포애': 1,
         '민족': 3,
         '단결': 1,
         '사회적': 5,
         '폐습': 1,
         '타파': 1,
         '자율': 2,
         '조화': 2,
         '바탕': 1,
         '자유': 21,
         '민주적': 4,
         '기본': 8,
         '질서': 8,
         '정치': 4,
         '경제': 18,
         '사회': 4,
         '문화': 3,
         '영역': 4,
         '각인': 1,
         '기회': 4,
         '균등': 4,
         '히': 1,
         '능력': 3,
         '최고': 3,
         '도로': 1,
         '발휘': 1,
         '권리': 21,
         '책임': 5,
         '의무': 20,
         '완수': 

In [59]:
type(wordCount)

collections.Counter

추려낸 명사들이 corpus 내에서 몇번 나왔는지 count하여 Counter 객체로 저장.

In [60]:
wordCount = wordCount.most_common(40)
wordCount

[('법률', 121),
 ('수', 88),
 ('대통령', 84),
 ('국가', 73),
 ('헌법', 69),
 ('국민', 69),
 ('조', 58),
 ('국회', 55),
 ('때', 55),
 ('회의', 42),
 ('바', 37),
 ('필요', 31),
 ('위원', 31),
 ('국무', 30),
 ('기타', 26),
 ('선거', 26),
 ('보장', 24),
 ('정부', 23),
 ('사항', 23),
 ('의원', 23),
 ('항', 22),
 ('자유', 21),
 ('권리', 21),
 ('국', 21),
 ('모든', 21),
 ('의무', 20),
 ('제', 20),
 ('일', 19),
 ('직무', 19),
 ('임명', 19),
 ('경제', 18),
 ('조직', 18),
 ('이상', 18),
 ('국회의원', 18),
 ('임기', 18),
 ('공무원', 17),
 ('경우', 17),
 ('법원', 17),
 ('의결', 16),
 ('단체', 16)]

가장 많이 등장한 40개의 단어만 추려 list로 저장했다.

In [61]:
import pytagcloud

pygame 1.9.4
Hello from the pygame community. https://www.pygame.org/contribute.html


In [62]:
tagList = pytagcloud.make_tags(wordCount, maxsize=40)
tagList

[{'color': (124, 63, 84), 'size': 44, 'tag': '법률'},
 {'color': (132, 129, 138), 'size': 35, 'tag': '수'},
 {'color': (81, 183, 68), 'size': 33, 'tag': '대통령'},
 {'color': (12, 197, 16), 'size': 30, 'tag': '국가'},
 {'color': (131, 139, 101), 'size': 29, 'tag': '헌법'},
 {'color': (207, 205, 24), 'size': 29, 'tag': '국민'},
 {'color': (146, 152, 200), 'size': 26, 'tag': '조'},
 {'color': (107, 83, 12), 'size': 25, 'tag': '국회'},
 {'color': (134, 172, 40), 'size': 25, 'tag': '때'},
 {'color': (220, 43, 102), 'size': 20, 'tag': '회의'},
 {'color': (208, 179, 130), 'size': 19, 'tag': '바'},
 {'color': (89, 129, 27), 'size': 16, 'tag': '필요'},
 {'color': (202, 189, 96), 'size': 16, 'tag': '위원'},
 {'color': (141, 123, 106), 'size': 16, 'tag': '국무'},
 {'color': (134, 205, 114), 'size': 15, 'tag': '기타'},
 {'color': (138, 20, 176), 'size': 15, 'tag': '선거'},
 {'color': (103, 153, 152), 'size': 14, 'tag': '보장'},
 {'color': (175, 135, 194), 'size': 13, 'tag': '정부'},
 {'color': (41, 201, 106), 'size': 13, 'tag': 

In [63]:
pytagcloud.create_tag_image(tagList, 'cloud.jpg', fontname='Nanum')

분석한 빈도에 비례하게 글자 크기를 조절하여 Wordcloud 생성후 저장.