## Bag of words

In [1]:
from nltk.tokenize import TreebankWordTokenizer

sentence = """남수가 NLP를 더 빨리 학습할 수록, 남수가 더 빨리 챗봇을 만들 것이다.
남수가 챗봇과 관련된 더 많은 내용이 알고 싶다고 한다."""
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence)
tokens

['남수가',
 'NLP를',
 '더',
 '빨리',
 '학습할',
 '수록',
 ',',
 '남수가',
 '더',
 '빨리',
 '챗봇을',
 '만들',
 '것이다.',
 '남수가',
 '챗봇과',
 '관련된',
 '더',
 '많은',
 '내용이',
 '알고',
 '싶다고',
 '한다',
 '.']

In [2]:
import pos_tag

for sent in sentence.splitlines():
    print(pos_tag.twitter_pos(sent))

[ 남수가 NLP를 더 빨리 학습할 수록, 남수가 더 빨리 챗봇을 만들 것이다. ] 
형태소 분석중... : 너무 오래 걸림
None
[ 남수가 챗봇과 관련된 더 많은 내용이 알고 싶다고 한다. ] 
형태소 분석중... : 너무 오래 걸림
None


#### Counter

In [3]:
from collections import Counter
bag_of_words = Counter(tokens)
bag_of_words

Counter({'남수가': 3,
         'NLP를': 1,
         '더': 3,
         '빨리': 2,
         '학습할': 1,
         '수록': 1,
         ',': 1,
         '챗봇을': 1,
         '만들': 1,
         '것이다.': 1,
         '챗봇과': 1,
         '관련된': 1,
         '많은': 1,
         '내용이': 1,
         '알고': 1,
         '싶다고': 1,
         '한다': 1,
         '.': 1})

In [4]:
bag_of_words.most_common(3)

[('남수가', 3), ('더', 3), ('빨리', 2)]

## TF (Term Frequency)확인

In [5]:
times_hurry_appears = bag_of_words['더']
print('times_hurry_appears =', times_hurry_appears)
num_uniqe_words = len(bag_of_words)
print('num_uniqe_words =', num_uniqe_words)
tf = times_hurry_appears / num_uniqe_words
print('times_hurry_appears / num_uniqe_words =', round(tf, 4))

times_hurry_appears = 3
num_uniqe_words = 18
times_hurry_appears / num_uniqe_words = 0.1667


#### 단순히 단어의 개수 만으로는 문서의 중요 단어라 할 수 없음
- dog가 3번 나온 A 문서 vs dog가 100번 나온 B 문서
- B 문서에서 dog가 더 중요한가?

#### 과연 그럴까?
###### A 문서는 총 30단어 였음
- TF("dog", documentA) = 3/30 = .1

###### B 문서는 총 580000단어 였음
- TF("dog", documentB) = 100/580000 = .00017


#### `단순 단어의 개수가 아닌 전체 문서중 나타나는 해당 단어의 빈도 수에 집중할 필요가 있음`

## 큰 텍스트 다뤄보기

In [6]:
import os
os.listdir(os.getcwd())  # 현재 위치의 파일 목록 확인

['.ipynb_checkpoints',
 'chap3.ipynb',
 'img',
 'nlp_wiki.txt',
 'pos_tag.py',
 '__pycache__']

In [7]:
from collections import Counter
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

with open('nlp_wiki.txt', 'r', encoding='utf-8') as f:
    sentences = f.read()
    
sentences

"자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다.\n자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람' 정보검색' '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사' 의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리즘이 있을 수 있다. 일반적으로, 다양하

In [8]:
tokens = tokenizer.tokenize(sentences)
tokens

['자연어',
 '처리',
 '(',
 '自然語處理',
 ')',
 '또는',
 '자연',
 '언어',
 '처리',
 '(',
 '自然言語處理',
 ')',
 '는',
 '인간의',
 '언어',
 '현상을',
 '컴퓨터와',
 '같은',
 '기계를',
 '이용해서',
 '모사',
 '할수',
 '있도록',
 '연구하고',
 '이를',
 '구현하는',
 '인공지능의',
 '주요',
 '분야',
 '중',
 '하나다.',
 '자연',
 '언어',
 '처리는',
 '연구',
 '대상이',
 '언어',
 '이기',
 '때문에',
 '당연하게도',
 '언어',
 '자체를',
 '연구하는',
 '언어학과',
 '언어',
 '현상의',
 '내적',
 '기재를',
 '탐구하는',
 '언어',
 '인지',
 '과학과',
 '연관이',
 '깊다.',
 '구현을',
 '위해',
 '수학적',
 '통계적',
 '도구를',
 '많이',
 '활용하며',
 '특히',
 '기계학습',
 '도구를',
 '많이',
 '사용하는',
 '대표적인',
 '분야이다.',
 '정보검색',
 ',',
 'QA',
 '시스템',
 ',',
 '문서',
 '자동',
 '분류',
 ',',
 '신문기사',
 '클러스터링',
 ',',
 '대화형',
 'Agent',
 '등',
 '다양한',
 '응용이',
 '이루어',
 '지고',
 '있다.',
 '자연',
 '언어',
 '처리에서',
 '말하는',
 '형태소',
 '분석이란',
 '어떤',
 '대상',
 '어절을',
 '최소의',
 '의미',
 '단위인',
 "'형태소'로",
 '분석하는',
 '것을',
 '의미한다.',
 '(',
 '형태소는',
 '단어',
 '그',
 '자체가',
 '될',
 '수도',
 '있고',
 ',',
 '일반적으로는',
 '단어보다',
 '작은',
 '단위이다.',
 ')',
 '정보',
 '검색',
 '엔진에서',
 '한국어의',
 '색인어',
 '추출에',
 '많이',
 '사용한다.',
 '형태소',
 '분석',
 '단계에

In [10]:
tokens = []

for sent in sentences.splitlines():
    tokens.extend(pos_tag.twitter_pos(sent, concat=True))
    
    
tokens

[ 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다. ] 
형태소 분석중... : OK

[ 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람' 정보검색' '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사' 의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리

['자연어/Noun',
 '처리/Noun',
 '(/Punctuation',
 '自然語處理/Foreign',
 ')/Punctuation',
 '또는/Adverb',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '(/Punctuation',
 '自然言語處理/Foreign',
 ')/Punctuation',
 '는/Verb(늘다)',
 '인간/Noun',
 '의/Josa',
 '언어/Noun',
 '현상/Noun',
 '을/Josa',
 '컴퓨터/Noun',
 '와/Josa',
 '같은/Adjective(같다)',
 '기계/Noun',
 '를/Josa',
 '이용/Noun',
 '해서/Verb(하다)',
 '모사/Noun',
 '할수/Verb(하다)',
 '있도록/Adjective(있다)',
 '연구/Noun',
 '하고/Josa',
 '이를/Verb(이르다)',
 '구현/Noun',
 '하는/Verb(하다)',
 '인공/Noun',
 '지능/Noun',
 '의/Josa',
 '주요/Noun',
 '분야/Noun',
 '중/Noun',
 '하나/Noun',
 '다/Josa',
 './Punctuation',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '는/Josa',
 '연구/Noun',
 '대상/Noun',
 '이/Josa',
 '언어/Noun',
 '이기/Noun',
 '때문/Noun',
 '에/Josa',
 '당연하게도/Adjective(당연하다)',
 '언어/Noun',
 '자체/Noun',
 '를/Josa',
 '연구/Noun',
 '하는/Verb(하다)',
 '언어학/Noun',
 '과/Josa',
 '언어/Noun',
 '현상/Noun',
 '의/Josa',
 '내적/Noun',
 '기재/Noun',
 '를/Josa',
 '탐구/Noun',
 '하는/Verb(하다)',
 '언어/Noun',
 '인지/Noun',
 '과학/Noun',
 '과/Josa',
 '연관/Noun',
 '이/Josa',
 '깊다/Ad

In [11]:
token_counts = Counter(tokens)
token_counts

Counter({'자연어/Noun': 1,
         '처리/Noun': 6,
         '(/Punctuation': 4,
         '自然語處理/Foreign': 1,
         ')/Punctuation': 3,
         '또는/Adverb': 1,
         '자연/Noun': 3,
         '언어/Noun': 8,
         '自然言語處理/Foreign': 1,
         '는/Verb(늘다)': 2,
         '인간/Noun': 1,
         '의/Josa': 15,
         '현상/Noun': 2,
         '을/Josa': 10,
         '컴퓨터/Noun': 1,
         '와/Josa': 1,
         '같은/Adjective(같다)': 1,
         '기계/Noun': 2,
         '를/Josa': 18,
         '이용/Noun': 3,
         '해서/Verb(하다)': 3,
         '모사/Noun': 1,
         '할수/Verb(하다)': 1,
         '있도록/Adjective(있다)': 1,
         '연구/Noun': 3,
         '하고/Josa': 1,
         '이를/Verb(이르다)': 1,
         '구현/Noun': 3,
         '하는/Verb(하다)': 14,
         '인공/Noun': 1,
         '지능/Noun': 1,
         '주요/Noun': 1,
         '분야/Noun': 2,
         '중/Noun': 9,
         '하나/Noun': 5,
         '다/Josa': 1,
         './Punctuation': 18,
         '는/Josa': 5,
         '대상/Noun': 2,
         '이/Josa': 6,
         

In [12]:
token_counts.most_common(3)

[('를/Josa', 18), ('./Punctuation', 18), ('의/Josa', 15)]

## stopwords 적용

In [13]:
import nltk

In [14]:
nltk.download('stopwords', quiet=True)

True

In [15]:
stopwords = nltk.corpus.stopwords.words('korean')

OSError: No such file or directory: 'C:\\Users\\ghdsk\\AppData\\Roaming\\nltk_data\\corpora\\stopwords\\korean'

## 한글을 위한 stopwords가 없다
- 형태소 분석 결과에서 `Punctuation`과 `Josa`를 제거하고 사용하자

In [16]:
tokens = []

for sent in sentences.splitlines():
    tokens.extend(pos_tag.twitter_pos(sent, concat=True, discard_stopwords=True, discard_verb=True))
    
    
tokens

[ 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다. ] 
형태소 분석중... : OK

[ 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람' 정보검색' '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사' 의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리

['자연어/Noun',
 '처리/Noun',
 '自然語處理/Foreign',
 '또는/Adverb',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '自然言語處理/Foreign',
 '인간/Noun',
 '언어/Noun',
 '현상/Noun',
 '컴퓨터/Noun',
 '같은/Adjective(같다)',
 '기계/Noun',
 '이용/Noun',
 '모사/Noun',
 '있도록/Adjective(있다)',
 '연구/Noun',
 '구현/Noun',
 '인공/Noun',
 '지능/Noun',
 '주요/Noun',
 '분야/Noun',
 '중/Noun',
 '하나/Noun',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '연구/Noun',
 '대상/Noun',
 '언어/Noun',
 '이기/Noun',
 '때문/Noun',
 '당연하게도/Adjective(당연하다)',
 '언어/Noun',
 '자체/Noun',
 '연구/Noun',
 '언어학/Noun',
 '언어/Noun',
 '현상/Noun',
 '내적/Noun',
 '기재/Noun',
 '탐구/Noun',
 '언어/Noun',
 '인지/Noun',
 '과학/Noun',
 '연관/Noun',
 '깊다/Adjective(깊다)',
 '구현/Noun',
 '위해/Noun',
 '수학/Noun',
 '적/Suffix',
 '통계/Noun',
 '적/Suffix',
 '도구/Noun',
 '많이/Adverb',
 '활용/Noun',
 '특히/Adverb',
 '기계학습/Noun',
 '도구/Noun',
 '많이/Adverb',
 '사용/Noun',
 '대표/Noun',
 '적/Suffix',
 '분야/Noun',
 '정보검색/Noun',
 'QA/Alpha',
 '시스템/Noun',
 '문서/Noun',
 '자동/Noun',
 '분류/Noun',
 '신문/Noun',
 '기사/Noun',
 '클러스터링/Noun',
 '대화/Noun',
 '형/Suffix',
 'Agent/Al

In [17]:
nlp_counts = Counter(tokens)
nlp_counts

Counter({'자연어/Noun': 1,
         '처리/Noun': 6,
         '自然語處理/Foreign': 1,
         '또는/Adverb': 1,
         '자연/Noun': 3,
         '언어/Noun': 8,
         '自然言語處理/Foreign': 1,
         '인간/Noun': 1,
         '현상/Noun': 2,
         '컴퓨터/Noun': 1,
         '같은/Adjective(같다)': 1,
         '기계/Noun': 2,
         '이용/Noun': 3,
         '모사/Noun': 1,
         '있도록/Adjective(있다)': 1,
         '연구/Noun': 3,
         '구현/Noun': 3,
         '인공/Noun': 1,
         '지능/Noun': 1,
         '주요/Noun': 1,
         '분야/Noun': 2,
         '중/Noun': 9,
         '하나/Noun': 5,
         '대상/Noun': 2,
         '이기/Noun': 1,
         '때문/Noun': 2,
         '당연하게도/Adjective(당연하다)': 1,
         '자체/Noun': 2,
         '언어학/Noun': 1,
         '내적/Noun': 1,
         '기재/Noun': 1,
         '탐구/Noun': 1,
         '인지/Noun': 1,
         '과학/Noun': 1,
         '연관/Noun': 1,
         '깊다/Adjective(깊다)': 1,
         '위해/Noun': 2,
         '수학/Noun': 1,
         '적/Suffix': 7,
         '통계/Noun': 1,
         '도구/Noun': 

In [18]:
nlp_counts.most_common(7)

[('분석/Noun', 14),
 ('형태소/Noun', 10),
 ('중/Noun', 9),
 ('언어/Noun', 8),
 ('적/Suffix', 7),
 ('있다/Adjective(있다)', 7),
 ('복합/Noun', 7)]

## 벡터화

In [19]:
document_vector = []
doc_length = len(tokens)

for key, value in nlp_counts.most_common():
    document_vector.append(value / doc_length)
    
document_vector

[0.04081632653061224,
 0.029154518950437316,
 0.026239067055393587,
 0.023323615160349854,
 0.02040816326530612,
 0.02040816326530612,
 0.02040816326530612,
 0.02040816326530612,
 0.01749271137026239,
 0.01749271137026239,
 0.01749271137026239,
 0.01749271137026239,
 0.014577259475218658,
 0.014577259475218658,
 0.014577259475218658,
 0.014577259475218658,
 0.011661807580174927,
 0.011661807580174927,
 0.011661807580174927,
 0.011661807580174927,
 0.011661807580174927,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.008746355685131196,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058309037900874635,
 0.0058

#### 짧은 여러개의 문장 벡터화

In [20]:
docs = ['포챠펭이 NLP를 더 빨리 공부할 수록, 포챠펭은 챗봇을 더 빨리 만들 것이다.']
docs.append('포챠펭은 챗봇을 좋아하고 장욱진 보다 관심이 많다.')
docs.append('장욱진은 포챠펭 만큼 챗봇을 좋아하지 않는다.')

In [21]:
doc_tokens = []

for doc in docs:
    doc_tokens += [sorted(pos_tag.twitter_pos(doc, concat=True))]
print(len(doc_tokens))
print(doc_tokens)
print(type(doc_tokens))

[ 포챠펭이 NLP를 더 빨리 공부할 수록, 포챠펭은 챗봇을 더 빨리 만들 것이다. ] 
형태소 분석중... : OK

[ 포챠펭은 챗봇을 좋아하고 장욱진 보다 관심이 많다. ] 
형태소 분석중... : OK

[ 장욱진은 포챠펭 만큼 챗봇을 좋아하지 않는다. ] 
형태소 분석중... : OK

3
[[',/Punctuation', './Punctuation', 'NLP/Alpha', '것/Noun', '공부/Noun', '더/Noun', '더/Noun', '를/Noun', '만들/Verb(만들다)', '빨리/Adverb', '빨리/Adverb', '수록/Noun', '은/Josa', '을/Josa', '이/Josa', '이다/Josa', '챗봇*/Noun', '포챠펭*/Noun', '포챠펭*/Noun', '할/Verb(하다)'], ['./Punctuation', '관심/Noun', '많다/Adjective(많다)', '보다/Verb(보다)', '은/Josa', '을/Josa', '이/Josa', '장욱진/Noun', '좋아하고/Adjective(좋아하다)', '챗봇*/Noun', '포챠펭*/Noun'], ['./Punctuation', '만큼/Noun', '않는다/Verb(않다)', '은/Josa', '을/Josa', '장욱진/Noun', '좋아하지/Adjective(좋아하다)', '챗봇*/Noun', '포챠펭*/Noun']]
<class 'list'>


In [22]:
all_doc_tokens = sum(doc_tokens, [])  # 2차원 리스트를 1차원으로 변환
len(all_doc_tokens)

40

In [23]:
lexicon = sorted(set(all_doc_tokens))  # 중복되는 단어 필터링 및 정렬
len(lexicon)

25

In [24]:
lexicon  # 단어집

[',/Punctuation',
 './Punctuation',
 'NLP/Alpha',
 '것/Noun',
 '공부/Noun',
 '관심/Noun',
 '더/Noun',
 '를/Noun',
 '만들/Verb(만들다)',
 '만큼/Noun',
 '많다/Adjective(많다)',
 '보다/Verb(보다)',
 '빨리/Adverb',
 '수록/Noun',
 '않는다/Verb(않다)',
 '은/Josa',
 '을/Josa',
 '이/Josa',
 '이다/Josa',
 '장욱진/Noun',
 '좋아하고/Adjective(좋아하다)',
 '좋아하지/Adjective(좋아하다)',
 '챗봇*/Noun',
 '포챠펭*/Noun',
 '할/Verb(하다)']

In [25]:
from collections import OrderedDict  # 순서를 유지하는 딕셔너리

zero_vector = OrderedDict((token, 0) for token in lexicon)
zero_vector

OrderedDict([(',/Punctuation', 0),
             ('./Punctuation', 0),
             ('NLP/Alpha', 0),
             ('것/Noun', 0),
             ('공부/Noun', 0),
             ('관심/Noun', 0),
             ('더/Noun', 0),
             ('를/Noun', 0),
             ('만들/Verb(만들다)', 0),
             ('만큼/Noun', 0),
             ('많다/Adjective(많다)', 0),
             ('보다/Verb(보다)', 0),
             ('빨리/Adverb', 0),
             ('수록/Noun', 0),
             ('않는다/Verb(않다)', 0),
             ('은/Josa', 0),
             ('을/Josa', 0),
             ('이/Josa', 0),
             ('이다/Josa', 0),
             ('장욱진/Noun', 0),
             ('좋아하고/Adjective(좋아하다)', 0),
             ('좋아하지/Adjective(좋아하다)', 0),
             ('챗봇*/Noun', 0),
             ('포챠펭*/Noun', 0),
             ('할/Verb(하다)', 0)])

In [33]:
import copy

doc_vectors = []

for doc in docs:
    vec = copy.copy(zero_vector)  # 복사
    tokens = pos_tag.twitter_pos(doc, concat=True)
    token_counts = Counter(tokens)
    
    for key, value in token_counts.items():
        vec[key] = value / len(lexicon)
    
    doc_vectors.append(vec)
    
doc_vectors

[ 포챠펭이 NLP를 더 빨리 공부할 수록, 포챠펭은 챗봇을 더 빨리 만들 것이다. ] 
형태소 분석중... : OK

[ 포챠펭은 챗봇을 좋아하고 장욱진 보다 관심이 많다. ] 
형태소 분석중... : OK

[ 장욱진은 포챠펭 만큼 챗봇을 좋아하지 않는다. ] 
형태소 분석중... : OK



[OrderedDict([(',/Punctuation', 0.04),
              ('./Punctuation', 0.04),
              ('NLP/Alpha', 0.04),
              ('것/Noun', 0.04),
              ('공부/Noun', 0.04),
              ('관심/Noun', 0),
              ('더/Noun', 0.08),
              ('를/Noun', 0.04),
              ('만들/Verb(만들다)', 0.04),
              ('만큼/Noun', 0),
              ('많다/Adjective(많다)', 0),
              ('보다/Verb(보다)', 0),
              ('빨리/Adverb', 0.08),
              ('수록/Noun', 0.04),
              ('않는다/Verb(않다)', 0),
              ('은/Josa', 0.04),
              ('을/Josa', 0.04),
              ('이/Josa', 0.04),
              ('이다/Josa', 0.04),
              ('장욱진/Noun', 0),
              ('좋아하고/Adjective(좋아하다)', 0),
              ('좋아하지/Adjective(좋아하다)', 0),
              ('챗봇*/Noun', 0.04),
              ('포챠펭*/Noun', 0.08),
              ('할/Verb(하다)', 0.04)]),
 OrderedDict([(',/Punctuation', 0),
              ('./Punctuation', 0.04),
              ('NLP/Alpha', 0),
              ('것/Noun',

In [34]:
import pandas as pd

df = pd.DataFrame(doc_vectors)
df.T

Unnamed: 0,0,1,2
",/Punctuation",0.04,0.0,0.0
./Punctuation,0.04,0.04,0.04
NLP/Alpha,0.04,0.0,0.0
것/Noun,0.04,0.0,0.0
공부/Noun,0.04,0.0,0.0
관심/Noun,0.0,0.04,0.0
더/Noun,0.08,0.0,0.0
를/Noun,0.04,0.0,0.0
만들/Verb(만들다),0.04,0.0,0.0
만큼/Noun,0.0,0.0,0.04


## 코사인 유사도

#### 두 벡터의 내적
![3.3](./img/3.3.png)

```python
a.dot(b) == np.linalg.norm(a) * np.linalg.norm(b) / np.cos(theta)
```
- norm은 각 원소의 제곱의 합의 제곱근

#### 내적에서 코사인 세타 유도 가능
![3.4](./img/3.4.png)

#### 코사인 유사도 값에 따른 의미
- 1일 때: 같은 벡터
- 0일 때: 수직(완전 다른 단어들로 이루어짐)
- -1일 때: 완전 반대 벡터(TF상에서는 발생하지 않음)

#### numpy를 사용하지 않고 코사인 유사도 계산하기

In [35]:
import math

def cosine_sim(vec1, vec2):
    vec1 = [val for val in vec1.values()]  # 위에서 만든 벡터들로 가정하고 벨류만 획득
    vec2 = [val for val in vec2.values()]  # 위에서 만든 벡터들로 가정하고 벨류만 획득
    
    dot_prod = 0
    
    for i, v in enumerate(vec1):
        dot_prod += v * vec2[i]  # 내적
        
    mag_1 = math.sqrt(sum([x**2 for x in vec1]))  # np.linalg.norm(a)와 동일, 모든 원소의 제곱의 합의 제곱근
    mag_2 = math.sqrt(sum([x**2 for x in vec2]))  # np.linalg.norm(b)와 동일, 모든 원소의 제곱의 합의 제곱근
    
    return dot_prod / (mag_1 * mag_2)  # 코사인세타 공식

#### 코사인 유사도 테스트 해보기

In [36]:
df = pd.DataFrame(docs)
df

Unnamed: 0,0
0,"포챠펭이 NLP를 더 빨리 공부할 수록, 포챠펭은 챗봇을 더 빨리 만들 것이다."
1,포챠펭은 챗봇을 좋아하고 장욱진 보다 관심이 많다.
2,장욱진은 포챠펭 만큼 챗봇을 좋아하지 않는다.


In [37]:
cosine_sim(doc_vectors[0], doc_vectors[1])

0.41391867719235775

In [38]:
cosine_sim(doc_vectors[1], doc_vectors[2])

0.603022689155527

In [39]:
cosine_sim(doc_vectors[0], doc_vectors[2])

0.3922322702763681

## 지프의 법칙