<a href="https://colab.research.google.com/github/bnv20/cakd3/blob/main/%ED%95%9C%EA%B8%80Text%EB%B6%84%EC%84%9D_guide.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import os, sys
from google.colab import drive
drive.mount('/content/drive')
my_path = '/content/notebooks'
os.symlink('/content/drive/My Drive/Colab Notebooks', my_path)
sys.path.insert(0,my_path)

Mounted at /content/drive


### 형태소 : 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위
### KoNLPy는 시중에 공개된 hannanum, kkma, okt, komoran, mecab 다섯개 형태소 분석기를 한꺼번에 묶어서 편리하게 사용할 수 있도록 한 패키지
### okt
- morphs(phrase, norm=False, stem=False)\
  Parse phrase to morphemes.
- nouns(phrase)  
- phrases(phrase)  
- pos(phrase, norm=False, stem=False, join=False)\
  매개 변수:\
  norm -- If True, normalize tokens.\
  stem -- If True, stem tokens.\
  join -- If True, returns joined sets of morph and tag
 
- 파싱(Parsing)
 - 일련의 문자열을 의미있는 token(어휘 분석의 단위)으로 분해하고 그것들로 이루어진 Parse tree를 만드는 과정
 - 어떤 문장을 분석하거나 문법적 관계를 해석하는 행위
 - 프로그램을  compile하는 과정에서 특정 프로그래밍 언어가 제시하는 문법을 잘 지켜서 작성하였는지 compiler가 검사하는 것

In [8]:
# 형태소 분석으로 문장을 단어로 분할
from konlpy.tag import Okt
okt = Okt()
print('형태소:', okt.morphs('단독입찰보다 복수입찰의 경우'))
print('명사:', okt.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))
print('구문:', okt.phrases('날카로운 분석과 신뢰감 있는 진행으로'))
print('품사:', okt.pos('이것도 되나욬ㅋㅋ'))
print('norm옵션:', okt.pos('이것도 되나욬ㅋㅋ',norm=True))
print('stem옵션:', okt.pos('이것도 되나욬ㅋㅋ',norm=True, stem=True))
print('join옵션:', okt.pos('이것도 되나욬ㅋㅋ',norm=True, stem=True,join=True))

형태소: ['단독', '입찰', '보다', '복수', '입찰', '의', '경우']
명사: ['항공기', '체계', '종합', '개발', '경험']
구문: ['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']
품사: [('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]
norm옵션: [('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]
stem옵션: [('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]
join옵션: ['이/Determiner', '것/Noun', '도/Josa', '되다/Verb', 'ㅋㅋ/KoreanParticle']


#### Q. 아래 문장을 적절한 Okt 옵션을 사용해서 형태소 분석 하세요.
Okt 옵션 : morphs, nouns, phrases, normalize, pos(norm, stem, join)

- '나는 오늘 방콕에 가고싶다.' (명사만 추출)
- '나는 오늘 방콕에 갔다.' (원형만 추출)
- '친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.' (형태소 추출)
- '나는 오늘도 장에 가고싶다.' (형태소/태그 추출) 
- '나는 오늘 장에 가고싶을깤ㅋㅋ?' (정규화, 원형 추출)

In [9]:
print('명사만 추출:',okt.nouns('나는 오늘 방콕에 가고싶다.'))
print('원형만 추출:',okt.pos('나는 오늘 방콕에 갔다.',stem=True))
print('형태소 추출', okt.morphs('친절한 코치와 재미있는 친구들이 있는 도장에 가고싶다.'))
print('형태소/태그 추출:',okt.pos('나는 오늘도 장에 가고싶다.',stem=True,join=True))
print('정규화, 원형 추출',okt.pos('나는 오늘 장에 가고싶을깤ㅋㅋ?',norm=True,stem=True))


명사만 추출: ['나', '오늘', '방콕']
원형만 추출: [('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('방콕', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('.', 'Punctuation')]
형태소 추출 ['친절한', '코치', '와', '재미있는', '친구', '들', '이', '있는', '도장', '에', '가고싶다', '.']
형태소/태그 추출: ['나/Noun', '는/Josa', '오늘/Noun', '도/Josa', '장/Noun', '에/Josa', '가다/Verb', './Punctuation']
정규화, 원형 추출 [('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('장', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('ㅋㅋ', 'KoreanParticle'), ('?', 'Punctuation')]


[과제] 한글 형태소 분석을 위한 text를 크롤링한 후 원하는 형태로 다양하게 형태소 분석 하세요(20분 후 발표)

In [3]:
import re
from konlpy.tag import Okt
okt = Okt()
text = """김웅 국민의힘 의원이 고위공직자범죄수사처(공수처)의 압수수색 영장을 취소해 달라며 신청한 준항고 사건을 담당할 재판부가 정해졌다.
13일 서울중앙지방법원은 형사31단독(김찬년 판사) 재판부에 김 의원의 준항고 사건을 배당했다고 밝혔다.
준항고는 사법기관의 처분에 불복해 법원에 이의를 제기하는 절차다. 법원이 영장 취소 결정을 내리면 공수처는 영장을 재발부받아야 한다.
김웅 의원 측은 "공수처의 압수수색 영장 집행 과정에서 위법성이 있기 때문에 영장을 취소해달라는 취지의 준항고장을 접수했다"고 밝힌 바 있다.
김 의원 측은 공수처가 김 의원과 변호사의 입회 전에 일부 범죄사실만 언급한 채 영장을 집행하고, 압수물 대상에 적시되지 않은 보좌관과 비서관의 
PC 및 서류를 조사하고 PC 자료 추출 과정에서도 혐의와 관계가 없는‘오수’등의 검색어로 검색했다는 점을 문제 삼고 있다."""

text = re.sub('[0-9]+','',text)
text = re.sub('[A-Za-z]+','',text)
text = re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ·!』\\‘’|\(\)\[\]\<\>`\'…》]', '', text)
print(text)

김웅 국민의힘 의원이 고위공직자범죄수사처공수처의 압수수색 영장을 취소해 달라며 신청한 준항고 사건을 담당할 재판부가 정해졌다
일 서울중앙지방법원은 형사단독김찬년 판사 재판부에 김 의원의 준항고 사건을 배당했다고 밝혔다
준항고는 사법기관의 처분에 불복해 법원에 이의를 제기하는 절차다 법원이 영장 취소 결정을 내리면 공수처는 영장을 재발부받아야 한다
김웅 의원 측은 공수처의 압수수색 영장 집행 과정에서 위법성이 있기 때문에 영장을 취소해달라는 취지의 준항고장을 접수했다고 밝힌 바 있다
김 의원 측은 공수처가 김 의원과 변호사의 입회 전에 일부 범죄사실만 언급한 채 영장을 집행하고 압수물 대상에 적시되지 않은 보좌관과 비서관의 
 및 서류를 조사하고  자료 추출 과정에서도 혐의와 관계가 없는오수등의 검색어로 검색했다는 점을 문제 삼고 있다


In [4]:
morph = okt.pos(text)
noun_list = []
for word, tag in morph:
  if tag == 'Noun':
    noun_list.append(word)
print(morph)
print(noun_list)

[('김웅', 'Noun'), ('국민', 'Noun'), ('의', 'Josa'), ('힘', 'Noun'), ('의원', 'Noun'), ('이', 'Josa'), ('고위', 'Noun'), ('공직자', 'Noun'), ('범죄수사', 'Noun'), ('처', 'Noun'), ('공', 'Modifier'), ('수', 'Modifier'), ('처', 'Noun'), ('의', 'Josa'), ('압수수색', 'Noun'), ('영장', 'Noun'), ('을', 'Josa'), ('취소', 'Noun'), ('해', 'Verb'), ('달라', 'Noun'), ('며', 'Josa'), ('신청', 'Noun'), ('한', 'Josa'), ('준', 'Noun'), ('항고', 'Noun'), ('사건', 'Noun'), ('을', 'Josa'), ('담당', 'Noun'), ('할', 'Verb'), ('재판', 'Noun'), ('부가', 'Noun'), ('정해졌다', 'Verb'), ('\n', 'Foreign'), ('일', 'Noun'), ('서', 'Modifier'), ('울', 'Modifier'), ('중앙', 'Noun'), ('지방법원', 'Noun'), ('은', 'Josa'), ('형사', 'Noun'), ('단독', 'Noun'), ('김찬', 'Noun'), ('년', 'Noun'), ('판사', 'Noun'), ('재판', 'Noun'), ('부', 'Noun'), ('에', 'Josa'), ('김', 'Noun'), ('의원', 'Noun'), ('의', 'Josa'), ('준', 'Noun'), ('항고', 'Noun'), ('사건', 'Noun'), ('을', 'Josa'), ('배당', 'Noun'), ('했다고', 'Verb'), ('밝혔다', 'Verb'), ('\n', 'Foreign'), ('준', 'Noun'), ('항고', 'Noun'), ('는', 'Josa'), ('사법', 'Noun'), ('

In [8]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt

fp = codecs.open('/content/drive/MyDrive/cakd3_colab/textmining/dataset/BEXX0003.txt','r',encoding='utf-16')
soup = BeautifulSoup(fp,'html.parser')
body = soup.select_one('body > text')
text = body.getText()

okt = Okt()
word_dic = {}
lines = text.split('\n')
for line in lines:
  malist = okt.pos(line)
  for word in malist:
    if word[1] == 'Noun':
      if not (word[0] in word_dic):
        word_dic[word[0]] = 0
      word_dic[word[0]] += 1 # 카운트 하기

keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for word, count in keys[:50]:
  print('{0}({1}) '.format(word,count), end='')


것(644) 그(554) 말(485) 안(304) 소리(196) 길(194) 용이(193) 눈(188) 놈(180) 내(174) 사람(167) 봉(165) 치수(160) 평산(160) 얼굴(156) 거(152) 네(151) 일(149) 이(148) 못(147) 댁(141) 생각(141) 때(139) 강청댁(137) 수(134) 서방(131) 집(131) 나(122) 더(120) 서희(119) 머(116) 어디(112) 마을(111) 최(110) 년(109) 김(99) 칠성(97) 구천이(96) 니(96) 뒤(91) 제(90) 날(90) 아이(88) 하나(84) 녀(83) 두(83) 참판(82) 월(82) 손(81) 임(79) 

### 문장을 벡터로 변환하기
- 단계 
 - 코퍼스 생성 : 데이터 내려받기 - XML을 일반 텍스트로 변환 - 형태소 분석, 단어로 구분
 - 코퍼스를 이용하여 Word2Vec로 모델 생성하며 단어를 벡터로 변환하고 모델 저장\
   매개변수 : sg 알고리즘 선택(1=Skip-gram, 0=CBOW), size (벡터의 차원 설정), window (학습할 단어를 연관시킬 앞뒤의 단어 수)
 - 모델을 읽어 들여 계산에 사용
- Word2Vec : 구글의 토머스 미코로프가 만든 방법으로 딥러닝 기술을 사용하여 단어를 벡터로 만드는 방법으로 대량의 문장을 기반으로 학습하고 단어를 벡터로 변환
 - 단어는 그 주변의 단어들과 관계가 있다.
 - 특정 단어의 유의어, 반의어를 추출할 수 있다.
 - 단어를 선형으로 나타낼 수 있다.
 - 자연 언어 처리에 활용할 수 있다.
 - 추천 분류 시스템에 다양하게 사용될 수 있다.
- Word2Vec 알고리즘
 - Skip-gram
 - CBOW 
 
※ 코퍼스(Corpus) : 모델을 만들기 위한 대량의 띄어쓰기로 구분한 데이터를 포함. 컴퓨터로 검색이 가능한 대량의 언어 데이터\
※ Word2Vec는 띄어쓰기로 구분된 단어를 학습시키는 이론. 형태소 분석을 사용해 단어들을 정규화해서 추출하고 이를 기반으로 띄어쓰기로 구분한 데이터를 준비 

In [None]:
!pip install --target=$my_path gensim
!pip install gensim

In [10]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt
from gensim.models import word2vec
# utf-16 인코딩으로 파일을 열고 글자를 출력하기
fp = codecs.open("/content/drive/MyDrive/cakd3_colab/textmining/dataset/BEXX0003.txt", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()

okt = Okt()
results = []
lines = text.split("\n")
for line in lines:
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    for word in malist:        
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
          
    rl = (" ".join(r)).strip()
    results.append(rl)

wakati_file = '/content/drive/MyDrive/cakd3_colab/textmining/dataset/toji.wakati'
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))
# Word2Vec 모델 만들기 
data = word2vec.LineSentence(wakati_file)
model = word2vec.Word2Vec(data, vector_size=200, window=10, hs=1, min_count=2, sg=1)
model.save("/content/drive/MyDrive/cakd3_colab/textmining/dataset/toji.model")
print("ok")

ok


In [11]:
model = word2vec.Word2Vec.load("/content/drive/MyDrive/cakd3_colab/textmining/dataset/toji.model")

In [14]:
model.wv.most_similar(positive=['집'])

[('구석', 0.7528995275497437),
 ('제', 0.7428428530693054),
 ('그까짓', 0.735120415687561),
 ('만나다', 0.7341201901435852),
 ('이지마', 0.7328251004219055),
 ('소나', 0.7271293997764587),
 ('돌아가다', 0.7241018414497375),
 ('돌아오다', 0.719454288482666),
 ('가끔', 0.7183434963226318),
 ('앙님', 0.7171241641044617)]

[과제] 뉴스 기사를 Word2Vec을 이용해서 모델을 만들고 성능을 테스트 해보세요.