# 자연어처리 소개

인간의 언어를 컴퓨터와 같은 기계가 묘사할 수 있도록 연구하고 구현하는 분야

: 음성 - Text화 - 말뭉치 사전 기준 토큰화 - 입력벡터 - 딥러닝 모델 처리 - 출력벡터 - 말뭉치 사전 참조 Text 벡터화 - 음성화

# 1.자연어처리 샘플

## 가.텍스트와 음성변환 : gTTS, SpeechRecognition

텍스트를 음성으로 변환 라이브러리 : https://pypi.org/project/gTTS/

In [1]:
# text to speech(TTS 음성변환)를 위한 라이브러리
!pip install gTTS

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gTTS
  Downloading gTTS-2.2.4-py3-none-any.whl (26 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.2.4


음성인식 라이브러리 : https://pypi.org/project/SpeechRecognition/

In [2]:
# 음성파일 변환 라이브러리(mp3 ->wav)
!pip install pydub

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Installing collected packages: pydub
Successfully installed pydub-0.25.1


In [3]:
# speech to text(STT 음성인식) 처리를 위한 라이브러리
!pip install SpeechRecognition

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting SpeechRecognition
  Downloading SpeechRecognition-3.8.1-py2.py3-none-any.whl (32.8 MB)
[K     |████████████████████████████████| 32.8 MB 1.1 MB/s 
[?25hInstalling collected packages: SpeechRecognition
Successfully installed SpeechRecognition-3.8.1


## 나.Text를 음성으로 변환: TTS 기술

In [4]:
from gtts import gTTS
text ="안녕하세요 여러분 자연어처리 너무 재미 있지요"

tts = gTTS(text=text, lang='ko')
tts.save("hello.mp3")

좌측 탐색기 폴더를 열고 hello.mp3파일을 다운로드 받아서 들어보세요!

## 다.음성을 Text로 변환 : STT 기술

In [5]:
#음성 파일형식 변환 
from pydub import AudioSegment
input_file = AudioSegment.from_mp3("hello.mp3")
input_file.export(out_f="hello.wav", format="wav")

<_io.BufferedRandom name='hello.wav'>

In [6]:
#STT 실행
import speech_recognition as sr
input_audoi = sr.AudioFile("hello.wav")
with input_audoi as source:
      r = sr.Recognizer()
      audio = r.record(source, duration=14)
r.recognize_google(audio_data = audio, language='ko-KR')

'재미있지요'

## 라.문서 생성(GPT3 text generation) : 한국어 사전학습 모델

더 많은 정보와 모델은 [Github](https://github.com/kiyoungkim1/LMkor)을 확인해 주세요.

In [7]:
# 필요한 라이브러리 설치
!git clone https://github.com/kiyoungkim1/LMkor
!pip3 install -q transformers

from LMkor.examples.gpt3_generation import Inference
inference = Inference('kykim/gpt3-kor-small_based_on_gpt2')

Cloning into 'LMkor'...
remote: Enumerating objects: 98, done.[K
remote: Counting objects: 100% (18/18), done.[K
remote: Compressing objects: 100% (7/7), done.[K
remote: Total 98 (delta 16), reused 11 (delta 11), pack-reused 80[K
Unpacking objects: 100% (98/98), done.
[K     |████████████████████████████████| 5.3 MB 4.1 MB/s 
[K     |████████████████████████████████| 163 kB 54.8 MB/s 
[K     |████████████████████████████████| 7.6 MB 43.4 MB/s 
[?25h

Downloading:   0%|          | 0.00/82.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/344k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/615 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/476M [00:00<?, ?B/s]

In [8]:
# 텍스트 생성, 매번 다르게 
text = '인생은'

inference(text, howmany=3)

0: 인생은 내가 어떻게 살든 상관없는 것이다. 내가 원하는 것은 바로 내가 사는 것이다라는 말이 있다. 내 인생에 어떤 변화가 올지, 어떻게 바뀔지 나는 전혀 모른다.
1: 인생은 내가 원하는 것을 얻기 위해서라면 무엇이든지 할 수 있다. 나는 이 모든 것에 감사하고, 모든 일이 나에게는 너무나 당연한 것임을 깨달았다.
2: 인생은 그 모든 것을 다 가질 수 있다. 라는 말을 하고 싶다. 그래서 나는 항상 이 문장에 대해서 생각한다. 그 말은 어떤 사람이라도 할 수 있다는 뜻이다. 그리고 그 사람은 어떤 사람을 좋아하고, 또 어떤 사람들은 그것을 싫어한다는 뜻이다 (


## 마.문서 요약(Summarization with seq2seq initialized with pre-trained Bert model)

더 많은 정보와 모델은 [Github](https://github.com/kiyoungkim1/LMkor)을 확인해 주세요.

In [9]:
# 필요한 라이브러리 설치
!git clone https://github.com/kiyoungkim1/LMkor
!pip3 install -q transformers

from LMkor.examples.bertshared_summarization import Summarize
summarize = Summarize('kykim/bertshared-kor-base')

fatal: destination path 'LMkor' already exists and is not an empty directory.


Downloading:   0%|          | 0.00/80.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/344k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/4.24k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/589M [00:00<?, ?B/s]

In [10]:
# 텍스트 요약문 생성
text = '''
LG전자가 스마트폰을 담당하는 MC(모바일커뮤니케이션)사업부 분할 및 매각을 위한 법률 자문 업무를 김앤장법률사무소에 맡겼다. MC사업부 매각 작업에 속도가 붙을지 관심이 집중되고 있다.
22일 인수합병(M&A)업계에 따르면 LG전자는 최근 MC사업부 분할 후 매각 방안 등을 포괄적으로 검토하기 위해 김앤장을 법률자문사로 선임한 것으로 알려졌다. 회계·실사 자문은 EY한영회계법인에 맡길 가능성이 큰 것으로 전해졌다. 김앤장 등 자문사들은 사업본부를 분할한 뒤 사업양수도나 분할사업부의 지분 매각, 지식재산권(IP) 매각 등을 놓고 검토에 들어간 것으로 알려졌다.
업계에서는 LG전자가 MC사업본부를 통매각하기보다는 ‘쪼개기 매각’에 나설 것으로 보고 있다. 스마트폰 선행기술 연구개발(R&D) 등 핵심 기능만 남겨둔 채 매각을 시도할 것으로 관측하고 있다. 앞서 권봉석 LG전자 사장은 사내 메시지를 통해 임직원에게 “현재 모든 가능성을 열어 두고 사업 운영방향을 면밀히 검토하고 있다”고 밝히며 매각 추진을 암시했다. M&A업계 관계자는 “거래가 성사되기도 전에 사업 전면 재검토를 공식화한 것은 상당히 이례적”이라며 “향후 매각이 잘 이뤄지지 않더라도 모바일 사업을 철수하겠다는 배수진을 둔 것으로 보인다”고 설명했다.
다만 원매자를 찾기가 쉽지 않을 것이란 전망이 우세하다. LG전자 모바일 사업은 한때 글로벌시장에서 톱5 안에 드는 기술력을 인정받았지만 누적 적자만 5조원에 달하고 있다. 업계에서 평가하는 MC사업부의 가치도 5000억원대에서 수조원대까지 편차가 상당히 크다.
상대적으로 해외 원매자들의 인수의사가 더 확실한 것으로 알려지고 있다. 북미사업 등 글로벌 시장 확장을 원하는 후발기업들이 주요 대상이다. 베트남의 빈그룹과 중국 기업 등이 유력하게 거론된다. 증권업계를 중심으로는 스마트 기기를 연결하는 사물인터넷(IoT) 사업을 염두에 둔 구글, 페이스북 같은 미국 정보기술(IT) 기업들도 원매자 후보군으로 꼽고 있다.
'''

summarize(text)

22일 인수합병 ( m & a ) 업계에 따르면 스마트폰 선행기술 연구개발 ( r & d ) 등 핵심 기능만 남겨둔 채 매각을 시도할 것으로 관측되고 있으며 업계에서는 mc사업부 매각 작업에 속도가 붙을지 관심이 집중되고 있다.


# 2.다양한 형태의 토큰화

토큰화 : 일정한 입력단위로 분할

## 가.Character, Space Level 토큰화

In [11]:
# 여러개의 문서 doc를 묶어놓은 Docs로 고려 
docs = '''오늘은 매우 매우 매우 좋은 날씨 입니다
내일도 매우 좋은 날씨를 기대합니다
오늘은 좋은 날씨 내일도 매우 좋은 날씨 입니다'''

In [12]:
# 문자단위로 나누기: list
print(list(docs))

['오', '늘', '은', ' ', '매', '우', ' ', '매', '우', ' ', '매', '우', ' ', '좋', '은', ' ', '날', '씨', ' ', '입', '니', '다', '\n', '내', '일', '도', ' ', '매', '우', ' ', '좋', '은', ' ', '날', '씨', '를', ' ', '기', '대', '합', '니', '다', '\n', '오', '늘', '은', ' ', '좋', '은', ' ', '날', '씨', ' ', '내', '일', '도', ' ', '매', '우', ' ', '좋', '은', ' ', '날', '씨', ' ', '입', '니', '다']


In [13]:
# space 기준 단어단위 나누기 : split
print(docs.split())

['오늘은', '매우', '매우', '매우', '좋은', '날씨', '입니다', '내일도', '매우', '좋은', '날씨를', '기대합니다', '오늘은', '좋은', '날씨', '내일도', '매우', '좋은', '날씨', '입니다']


## 나.형태소 또는 명사 단위 토큰화

In [14]:
# 한글형태소 분석기 설치 
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

+ pip install konlpy
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.3 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[K     |████████████████████████████████| 465 kB 48.4 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0
+ bash -x
+ curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh
+ mecab_dicdir=/usr/local/lib/mecab/dic/mecab-ko-dic
+ set -e
++ uname
+ os=Linux
+ [[ ! Linux == \L\i\n\u\x ]]
+ hash sudo
+ sudo=sudo
+ python=python3
+ hash pyenv
+ at_user_site=
++ check_python_site_location_is_writable
++ python3 -
+ [[ 1 == \0 ]]
+ hash automake
+ echo 'Installing automake (A dependency for mecab-ko)'
Installing automake (A dependency for mecab-

In [15]:
#한글형태소 분석기 활용
import konlpy
konlpy.tag.Komoran().morphs('아버지가방에들어가신다')

['아버지', '가방', '에', '들어가', '시', 'ㄴ다']

In [16]:
# 형태소 단위 토큰화
print(konlpy.tag.Okt().morphs(docs))
print(konlpy.tag.Komoran().morphs(docs))
print(konlpy.tag.Hannanum().morphs(docs))
print(konlpy.tag.Mecab().morphs(docs))

['오늘', '은', '매우', '매우', '매우', '좋은', '날씨', '입니다', '\n', '내일', '도', '매우', '좋은', '날씨', '를', '기대합니다', '\n', '오늘', '은', '좋은', '날씨', '내일', '도', '매우', '좋은', '날씨', '입니다']
['오늘', '은', '매우', '매우', '매우', '좋은 날', '씨', '이', 'ㅂ니다', '내일', '도', '매우', '좋은 날', '씨', '를', '기대', '하', 'ㅂ니다', '오늘', '은', '좋은 날', '씨', '내일', '도', '매우', '좋은 날', '씨', '이', 'ㅂ니다']
['오늘', '은', '매우', '매우', '매우', '좋', '은', '날씨', '입', '니다', '내일', '도', '매우', '좋', '은', '날씨', '를', '기대', '하', 'ㅂ니다', '오늘', '은', '좋', '은', '날씨', '내일', '도', '매우', '좋', '은', '날씨', '입', '니다']
['오늘', '은', '매우', '매우', '매우', '좋', '은', '날씨', '입니다', '내일', '도', '매우', '좋', '은', '날씨', '를', '기대', '합니다', '오늘', '은', '좋', '은', '날씨', '내일', '도', '매우', '좋', '은', '날씨', '입니다']


In [17]:
# 명사단위 토큰화
print(konlpy.tag.Okt().nouns(docs))
print(konlpy.tag.Komoran().nouns(docs))
print(konlpy.tag.Hannanum().nouns(docs))
print(konlpy.tag.Mecab().nouns(docs))

['오늘', '매우', '매우', '매우', '날씨', '내일', '매우', '날씨', '오늘', '날씨', '내일', '매우', '날씨']
['오늘', '좋은 날', '씨', '내일', '좋은 날', '씨', '기대', '오늘', '좋은 날', '씨', '내일', '좋은 날', '씨']
['오늘', '날씨', '내일', '날씨', '기대', '오늘', '날씨', '내일', '날씨']
['오늘', '날씨', '내일', '날씨', '기대', '날씨', '내일', '날씨']


## 다.토큰 빈도수와 소팅

In [18]:
# space 단위 토큰 count
import collections
counter = collections.Counter()
counter.update(docs.split())
print(counter)

Counter({'매우': 5, '좋은': 4, '날씨': 3, '오늘은': 2, '입니다': 2, '내일도': 2, '날씨를': 1, '기대합니다': 1})


In [19]:
# counter는 딕셔너리, 토큰 이름과 빈도수
print(counter.items())
print(counter.keys())
print(counter['날씨'], counter['날씨를'] )

dict_items([('오늘은', 2), ('매우', 5), ('좋은', 4), ('날씨', 3), ('입니다', 2), ('내일도', 2), ('날씨를', 1), ('기대합니다', 1)])
dict_keys(['오늘은', '매우', '좋은', '날씨', '입니다', '내일도', '날씨를', '기대합니다'])
3 1


In [20]:
help(sorted)

Help on built-in function sorted in module builtins:

sorted(iterable, /, *, key=None, reverse=False)
    Return a new list containing all items from the iterable in ascending order.
    
    A custom key function can be supplied to customize the sort order, and the
    reverse flag can be set to request the result in descending order.



In [21]:
# 빈도수가 많은 글자 10개 출력
most_freq = sorted(counter.items(), key=lambda item: item[1], reverse=True)
print(most_freq[:3])

[('매우', 5), ('좋은', 4), ('날씨', 3)]


# 3.단어사전 Vocab을 이용한 수치화

단어사전(vocab) : 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

단어사전은 유니크한 keys들과 아이디 번호가 결합된 딕셔너리 형태의 사전이며 문장을 수치화할 수 있다.

## 가.단어사전 Vocab 만들기

In [22]:
# 띄어쓰기 기준 유니크한 토큰 키로 분리
tokens = docs.split()
words = list(dict.fromkeys(tokens))
words

['오늘은', '매우', '좋은', '날씨', '입니다', '내일도', '날씨를', '기대합니다']

In [23]:
# 각 단어에 고유한 번호 부여한 dictionary 생성
vocab = {'[PAD]': 0, '[UNK]': 1}  # [PAD]: 길이 맞추는 용도, [UNK]: 알 수 없는 token
for word in words:
    vocab[word] = len(vocab)
print(vocab)

{'[PAD]': 0, '[UNK]': 1, '오늘은': 2, '매우': 3, '좋은': 4, '날씨': 5, '입니다': 6, '내일도': 7, '날씨를': 8, '기대합니다': 9}


In [24]:
# 고유한 번호로 부터 단어를 찾을 수 있는 dictionary 생성
id_to_word = {id:word for word, id in vocab.items()}
print(id_to_word)

{0: '[PAD]', 1: '[UNK]', 2: '오늘은', 3: '매우', 4: '좋은', 5: '날씨', 6: '입니다', 7: '내일도', 8: '날씨를', 9: '기대합니다'}


## 나. 단어사전 활용

In [25]:
# 단어사전을 기준으로 문장을 수치화 
ids =[]
for token in tokens:
  ids.append(vocab[token]) 
print(ids)

[2, 3, 3, 3, 4, 5, 6, 7, 3, 4, 8, 9, 2, 4, 5, 7, 3, 4, 5, 6]


In [26]:
# 단어사전을 기준으로 수치를 이용해 문장을 복원
docu =""
for id in ids:
  docu += str(id_to_word[id])+" " 
print(docu)

오늘은 매우 매우 매우 좋은 날씨 입니다 내일도 매우 좋은 날씨를 기대합니다 오늘은 좋은 날씨 내일도 매우 좋은 날씨 입니다 


* 모든 단어를 포함하는 말뭉치 사전을 만들어서 각 단어에 인텍스를 부여
* 분석하고자 하는 문서를 사전의 고유한 인텍스로 수치화

# 4.빈도수 기준 수량화 

Count based word representation

Text를 수량화 시키는 방법은 말뭉치 사전을 만들고 그것을 기준으로 One-Hot Encoding이나 BOW 방법으로 표현할 수 있으나 비효율 적이거나 정보의 유실이 있어 다른 방법을 모색하게 된다.

## 가.One-Hot Encoding

하나의 토큰을 하나의 행벡터로 생성(단어수*사전수)

* 희소 표현(Sparse representation) : one-hot으로 표현

In [27]:
# 줄바꿈 단위로 문장 분리
sentences = docs.split("\n")
sentences

['오늘은 매우 매우 매우 좋은 날씨 입니다', '내일도 매우 좋은 날씨를 기대합니다', '오늘은 좋은 날씨 내일도 매우 좋은 날씨 입니다']

In [28]:
# 하나의 doc를 토큰으로 리스트화하여 리스트들의 리스트로, 즉 행렬 형태의 tokens를 생성
tokens = []
for sentence in sentences:
    tokens.append(sentence.split())
tokens

[['오늘은', '매우', '매우', '매우', '좋은', '날씨', '입니다'],
 ['내일도', '매우', '좋은', '날씨를', '기대합니다'],
 ['오늘은', '좋은', '날씨', '내일도', '매우', '좋은', '날씨', '입니다']]

In [29]:
# tokens을 말뭉치사전의 인덱스 id로 변환
token_ids = []
for line_token in tokens:
  line_ids = []
  for token in line_token:
    if token in words:
      line_ids.append(vocab[token])
    else:
      line_ids.append(vocab['[UNK]'])
  token_ids.append(line_ids)
print(tokens,'\n',token_ids)

[['오늘은', '매우', '매우', '매우', '좋은', '날씨', '입니다'], ['내일도', '매우', '좋은', '날씨를', '기대합니다'], ['오늘은', '좋은', '날씨', '내일도', '매우', '좋은', '날씨', '입니다']] 
 [[2, 3, 3, 3, 4, 5, 6], [7, 3, 4, 8, 9], [2, 4, 5, 7, 3, 4, 5, 6]]


In [30]:
# one hot encoding으로 문장별 행렬(토큰수 * 단어사전 인덱스 길이)로 변환
one_hot_encodings = []
for line_token in token_ids:
    print(line_token)
    one_hot_line = []  # 한 줄을 표현하는 벡터
    for id in line_token:
        # print(id)
        one_hot = [0] * len(vocab)  # 모두 0인 벡터를 만듬
        # print(one_hot)
        one_hot[id] = 1  # 단어 id만 1로 변경
        print(id, one_hot)
        one_hot_line.append(one_hot)  # 단어를 라인에 추가
    print(one_hot_line)
    one_hot_encodings.append(one_hot_line)  # 라인을 전체 문서에 추가

[2, 3, 3, 3, 4, 5, 6]
2 [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
4 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
5 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
6 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]
[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]]
[7, 3, 4, 8, 9]
7 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
4 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
8 [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]
9 [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]
[[0, 0, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 0, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 1, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]]
[2, 4, 5, 7, 3, 4, 5, 6]
2 [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
4 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
5 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
7 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0,

In [31]:
# one-hot의 행렬의 구조는 (문장수 * 행 * 단어사전수(열)), 
# numpy array의 shape형태로 표현 : (3, ?, 10), 각 행렬의 행수는 동일하지 않음 
one_hot_encodings

[[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]],
 [[0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
  [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]],
 [[0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]]]

In [32]:
# argmax는 max를 가지고 있는 index를 리턴, axis 개념 이해(shape에서 없어지는 부분 고려) 필요
# shape 행렬개수*행*열
import numpy as np
a = np.arange(24).reshape(2,3,4)
print(a)
print("행렬수 기준 \n", np.argmax(a, axis=0))
print("행 기준 \n", np.argmax(a, axis=1))
print("열 기준 \n", np.argmax(a, axis=2))

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
행렬수 기준 
 [[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]
행 기준 
 [[2 2 2 2]
 [2 2 2 2]]
열 기준 
 [[3 3 3]
 [3 3 3]]


In [33]:
# one-hot을 행기준으로 찾아내서 문장을 복원시킴
import numpy as np
print(vocab)
print(tokens[0])
np.argmax(np.array(one_hot_encodings[0]), axis=-1)

{'[PAD]': 0, '[UNK]': 1, '오늘은': 2, '매우': 3, '좋은': 4, '날씨': 5, '입니다': 6, '내일도': 7, '날씨를': 8, '기대합니다': 9}
['오늘은', '매우', '매우', '매우', '좋은', '날씨', '입니다']


array([2, 3, 3, 3, 4, 5, 6])

In [34]:
# tf를 이용한 one-hot encoding, shape 문제 (3,?,10): 문장별 토큰의 길이(rows)가 동일해야함
# 일단 하나의 문장만 옮기기 
import tensorflow as tf
tf_one_hot_encodings = tf.one_hot(indices=token_ids[0], depth=len(vocab))
print(tf_one_hot_encodings)
one_hot_encodings[0] # 기존 것과 비교

tf.Tensor(
[[0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]], shape=(7, 10), dtype=float32)


[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]]

In [35]:
# 각 문서의 토큰 길이 확인  
[len(token) for token in tokens]

[7, 5, 8]

In [36]:
# 문장들의 길이가 rows = 8 되도록 pad를 추가
pad_ids = []
rows=8
for line in token_ids:
    line = line[:rows]
    line += [0] * (rows - len(line))
    pad_ids.append(line)
pad_ids

[[2, 3, 3, 3, 4, 5, 6, 0], [7, 3, 4, 8, 9, 0, 0, 0], [2, 4, 5, 7, 3, 4, 5, 6]]

In [37]:
#기존 one-hot에서 마지막 행 pad가 추가된 one-hot
tf_one_hot_encodings = tf.one_hot(indices=pad_ids, depth=len(vocab))
tf_one_hot_encodings

<tf.Tensor: shape=(3, 8, 10), dtype=float32, numpy=
array([[[0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0.,

## 나.BOW(Bag of Words) 생성과 활용

* 모든 단어를 포함하는 vocab을 만들어서 각 단어에 인텍스를 부여
* vocab의 인텍스 위치에 그단어의 등장횟수를 기록

말뭉치 사전의 토큰 인덱스 위치에 토큰 출현 회수 누적, 순서 정보의 손실

In [38]:
sentences

['오늘은 매우 매우 매우 좋은 날씨 입니다', '내일도 매우 좋은 날씨를 기대합니다', '오늘은 좋은 날씨 내일도 매우 좋은 날씨 입니다']

In [39]:
# sentences의 one-hot으로부터 열 기준합계로 Bow 생성
sentence = np.sum(tf_one_hot_encodings, axis=1)
sentence

array([[1., 0., 1., 3., 1., 1., 1., 0., 0., 0.],
       [3., 0., 0., 1., 1., 0., 0., 1., 1., 1.],
       [0., 0., 1., 1., 2., 2., 1., 1., 0., 0.]], dtype=float32)

In [40]:
# 문장별 BOW 표현
import pandas as pd
df = pd.DataFrame(np.int8(sentence), columns=vocab.keys())
df

Unnamed: 0,[PAD],[UNK],오늘은,매우,좋은,날씨,입니다,내일도,날씨를,기대합니다
0,1,0,1,3,1,1,1,0,0,0
1,3,0,0,1,1,0,0,1,1,1
2,0,0,1,1,2,2,1,1,0,0


# 문제점

* 너무 sparse
* 정해진 유사단어가 별도로 카운트 
* vocab에 없는 out of vocaburary의 경우 처리 불가 
* 단어간 유사성 평가 곤란