## Bag of words

In [1]:
from nltk.tokenize import TreebankWordTokenizer

sentence = """남수가 NLP를 더 빨리 학습할 수록, 남수가 더 빨리 챗봇을 만들 것이다.
남수가 챗봇과 관련된 더 많은 내용이 알고 싶다고 한다."""
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence)
tokens

['남수가',
 'NLP를',
 '더',
 '빨리',
 '학습할',
 '수록',
 ',',
 '남수가',
 '더',
 '빨리',
 '챗봇을',
 '만들',
 '것이다.',
 '남수가',
 '챗봇과',
 '관련된',
 '더',
 '많은',
 '내용이',
 '알고',
 '싶다고',
 '한다',
 '.']

In [2]:
import pos_tag

for sent in sentence.splitlines():
    print(pos_tag.twitter_pos(sent))

[ 남수가 NLP를 더 빨리 학습할 수록, 남수가 더 빨리 챗봇을 만들 것이다. ] 
형태소 분석중... : OK

[('남수가', 'Verb(남다)'), ('NLP', 'Alpha'), ('를', 'Noun'), ('더', 'Noun'), ('빨리', 'Adverb'), ('학습', 'Noun'), ('할', 'Verb(하다)'), ('수록', 'Noun'), (',', 'Punctuation'), ('남수가', 'Verb(남다)'), ('더', 'Noun'), ('빨리', 'Adverb'), ('챗봇*', 'Noun'), ('을', 'Josa'), ('만들', 'Verb(만들다)'), ('것', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation')]
[ 남수가 챗봇과 관련된 더 많은 내용이 알고 싶다고 한다. ] 
형태소 분석중... : OK

[('남수가', 'Verb(남다)'), ('챗봇*', 'Noun'), ('과', 'Josa'), ('관련', 'Noun'), ('된', 'Verb(되다)'), ('더', 'Noun'), ('많은', 'Adjective(많다)'), ('내용', 'Noun'), ('이', 'Josa'), ('알', 'Noun'), ('고', 'Josa'), ('싶다고', 'Verb(싶다)'), ('한다', 'Verb(하다)'), ('.', 'Punctuation')]


#### Counter

In [3]:
from collections import Counter
bag_of_words = Counter(tokens)
bag_of_words

Counter({'남수가': 3,
         'NLP를': 1,
         '더': 3,
         '빨리': 2,
         '학습할': 1,
         '수록': 1,
         ',': 1,
         '챗봇을': 1,
         '만들': 1,
         '것이다.': 1,
         '챗봇과': 1,
         '관련된': 1,
         '많은': 1,
         '내용이': 1,
         '알고': 1,
         '싶다고': 1,
         '한다': 1,
         '.': 1})

In [4]:
bag_of_words.most_common(3)

[('남수가', 3), ('더', 3), ('빨리', 2)]

## TF (Term Frequency)확인

In [5]:
times_hurry_appears = bag_of_words['더']
print('times_hurry_appears =', times_hurry_appears)
num_uniqe_words = len(bag_of_words)
print('num_uniqe_words =', num_uniqe_words)
tf = times_hurry_appears / num_uniqe_words
print('times_hurry_appears / num_uniqe_words =', round(tf, 4))

times_hurry_appears = 3
num_uniqe_words = 18
times_hurry_appears / num_uniqe_words = 0.1667


#### 단순히 단어의 개수 만으로는 문서의 중요 단어라 할 수 없음
- dog가 3번 나온 A 문서 vs dog가 100번 나온 B 문서
- B 문서에서 dog가 더 중요한가?

#### 과연 그럴까?
###### A 문서는 총 30단어 였음
- TF("dog", documentA) = 3/30 = .1

###### B 문서는 총 580000단어 였음
- TF("dog", documentB) = 100/580000 = .00017


#### `단순 단어의 개수가 아닌 전체 문서중 나타나는 해당 단어의 빈도 수에 집중할 필요가 있음`

## 큰 텍스트 다뤄보기

In [6]:
import os
os.listdir(os.getcwd())  # 현재 위치의 파일 목록 확인

['.ipynb_checkpoints',
 'chap3.ipynb',
 'namsu.txt',
 'nlp_wiki.txt',
 'pos_tag.py',
 '__pycache__']

In [7]:
from collections import Counter
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

with open('nlp_wiki.txt', 'r', encoding='utf-8') as f:
    sentences = f.read()
    
sentences

"자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다.\n자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람' 정보검색' '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사' 의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리즘이 있을 수 있다. 일반적으로, 다양하

In [9]:
tokens = tokenizer.tokenize(sentences)
tokens

['자연어',
 '처리',
 '(',
 '自然語處理',
 ')',
 '또는',
 '자연',
 '언어',
 '처리',
 '(',
 '自然言語處理',
 ')',
 '는',
 '인간의',
 '언어',
 '현상을',
 '컴퓨터와',
 '같은',
 '기계를',
 '이용해서',
 '모사',
 '할수',
 '있도록',
 '연구하고',
 '이를',
 '구현하는',
 '인공지능의',
 '주요',
 '분야',
 '중',
 '하나다.',
 '자연',
 '언어',
 '처리는',
 '연구',
 '대상이',
 '언어',
 '이기',
 '때문에',
 '당연하게도',
 '언어',
 '자체를',
 '연구하는',
 '언어학과',
 '언어',
 '현상의',
 '내적',
 '기재를',
 '탐구하는',
 '언어',
 '인지',
 '과학과',
 '연관이',
 '깊다.',
 '구현을',
 '위해',
 '수학적',
 '통계적',
 '도구를',
 '많이',
 '활용하며',
 '특히',
 '기계학습',
 '도구를',
 '많이',
 '사용하는',
 '대표적인',
 '분야이다.',
 '정보검색',
 ',',
 'QA',
 '시스템',
 ',',
 '문서',
 '자동',
 '분류',
 ',',
 '신문기사',
 '클러스터링',
 ',',
 '대화형',
 'Agent',
 '등',
 '다양한',
 '응용이',
 '이루어',
 '지고',
 '있다.',
 '자연',
 '언어',
 '처리에서',
 '말하는',
 '형태소',
 '분석이란',
 '어떤',
 '대상',
 '어절을',
 '최소의',
 '의미',
 '단위인',
 "'형태소'로",
 '분석하는',
 '것을',
 '의미한다.',
 '(',
 '형태소는',
 '단어',
 '그',
 '자체가',
 '될',
 '수도',
 '있고',
 ',',
 '일반적으로는',
 '단어보다',
 '작은',
 '단위이다.',
 ')',
 '정보',
 '검색',
 '엔진에서',
 '한국어의',
 '색인어',
 '추출에',
 '많이',
 '사용한다.',
 '형태소',
 '분석',
 '단계에

In [14]:
tokens = []

for sent in sentences.splitlines():
    tokens.extend(pos_tag.twitter_pos(sent, concat=True))
    
    
tokens

[ 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다. ] 
형태소 분석중... : OK

[ 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람' 정보검색' '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사' 의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리

['자연어/Noun',
 '처리/Noun',
 '(/Punctuation',
 '自然語處理/Foreign',
 ')/Punctuation',
 '또는/Adverb',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '(/Punctuation',
 '自然言語處理/Foreign',
 ')/Punctuation',
 '는/Verb(늘다)',
 '인간/Noun',
 '의/Josa',
 '언어/Noun',
 '현상/Noun',
 '을/Josa',
 '컴퓨터/Noun',
 '와/Josa',
 '같은/Adjective(같다)',
 '기계/Noun',
 '를/Josa',
 '이용/Noun',
 '해서/Verb(하다)',
 '모사/Noun',
 '할수/Verb(하다)',
 '있도록/Adjective(있다)',
 '연구/Noun',
 '하고/Josa',
 '이를/Verb(이르다)',
 '구현/Noun',
 '하는/Verb(하다)',
 '인공/Noun',
 '지능/Noun',
 '의/Josa',
 '주요/Noun',
 '분야/Noun',
 '중/Noun',
 '하나/Noun',
 '다/Josa',
 './Punctuation',
 '자연/Noun',
 '언어/Noun',
 '처리/Noun',
 '는/Josa',
 '연구/Noun',
 '대상/Noun',
 '이/Josa',
 '언어/Noun',
 '이기/Noun',
 '때문/Noun',
 '에/Josa',
 '당연하게도/Adjective(당연하다)',
 '언어/Noun',
 '자체/Noun',
 '를/Josa',
 '연구/Noun',
 '하는/Verb(하다)',
 '언어학/Noun',
 '과/Josa',
 '언어/Noun',
 '현상/Noun',
 '의/Josa',
 '내적/Noun',
 '기재/Noun',
 '를/Josa',
 '탐구/Noun',
 '하는/Verb(하다)',
 '언어/Noun',
 '인지/Noun',
 '과학/Noun',
 '과/Josa',
 '연관/Noun',
 '이/Josa',
 '깊다/Ad

In [15]:
token_counts = Counter(tokens)
token_counts

Counter({'자연어/Noun': 1,
         '처리/Noun': 6,
         '(/Punctuation': 4,
         '自然語處理/Foreign': 1,
         ')/Punctuation': 3,
         '또는/Adverb': 1,
         '자연/Noun': 3,
         '언어/Noun': 8,
         '自然言語處理/Foreign': 1,
         '는/Verb(늘다)': 2,
         '인간/Noun': 1,
         '의/Josa': 15,
         '현상/Noun': 2,
         '을/Josa': 10,
         '컴퓨터/Noun': 1,
         '와/Josa': 1,
         '같은/Adjective(같다)': 1,
         '기계/Noun': 2,
         '를/Josa': 18,
         '이용/Noun': 3,
         '해서/Verb(하다)': 3,
         '모사/Noun': 1,
         '할수/Verb(하다)': 1,
         '있도록/Adjective(있다)': 1,
         '연구/Noun': 3,
         '하고/Josa': 1,
         '이를/Verb(이르다)': 1,
         '구현/Noun': 3,
         '하는/Verb(하다)': 14,
         '인공/Noun': 1,
         '지능/Noun': 1,
         '주요/Noun': 1,
         '분야/Noun': 2,
         '중/Noun': 9,
         '하나/Noun': 5,
         '다/Josa': 1,
         './Punctuation': 18,
         '는/Josa': 5,
         '대상/Noun': 2,
         '이/Josa': 6,
         

In [16]:
token_counts.most_common(3)

[('를/Josa', 18), ('./Punctuation', 18), ('의/Josa', 15)]