In [1]:
"""
● 자연어 처리 순서
    0. 훈련데이터, 검증 데이터, 테스트 데이터 분리
    1. 자연어 전처리
        1) 토큰화 : 주어진 문자열을 문자 단위로 자름
            (1) spacy
            (2) NLTK
            (3) 띄어쓰기
            (4) 한국어 띄어쓰기
            (5) 형태소 토큰화
            (6) 문자 토큰화
        2) 단어집합 생성
        3) 단어의 정수 인코딩
        4) 길이 다른 문장을 패딩
        5) 단어 벡터화
        6) 배치화 : 훈련 샘플들의 배치 생성 + 패딩
    2. 룩업 테이블(Lookup Table) : 단어들을 임베딩 벡터로 맵핑

● NLP 원핫 인코딩(One-Hot encoding)
    1. 원핫 인코딩 특징
        1) 개념 : 단어를 원핫 벡터로 표현 by 희소 표현
            - 컴퓨터는 숫자가 문자보다 수월하게 처리한다. 그렇기 때문에 원핫 인코딩 필요
            - 단어 집합 : 서로 다른 단어들의 집합(중복 허용x)
        2) 특징
            1] 희소표현(Sparse Representation)
                - 값의 타입 : 1과 0
                    표현하고 싶은 단어 인덱스 위치에 1, 다른 언어에 0으로 표현하는 벡터 표현
                    >> 단어간 유사도 표현 불가(서로를 완전히 다른 단어로 인식)
                        ex. 웹 검색 시스템에서 '삿포로 숙소' 검색시 비슷한 '삿포로 게스트 하우스'는 완전히 다른 것으로 인식
                - 벡터 차원 : 고차원(단어 집합의 크기)
                    벡터 차원 = 단어 집합의 크기
                    >> 저장공간 낮은 효율성
                        ex. 문장에 1000개의 단어가 있을 때, 단어 각각은 해당 인덱스에 1, 나머지는 0으로 표시
                - 표현 방법 : 수동
    2. 원핫 인코딩 순서
        1) 각 단어 정수 인코딩(고유 인덱스 부여)
        2) 각 단어 원핫 벡터 표현 by 희소 표현
            
● 워드 임베딩(Word Embedding)
    1. 워드 임베딩 특징
        1) 개념 : 단어를 임베딩 벡터로 표현 by 밀집 표현
            - 컴퓨터는 숫자가 문자보다 수월하게 처리한다. 그렇기 때문에 워드 임베딩 필요
            - 단어 집합 : 서로 다른 단어들의 집합(중복 허용x)
        2) 특징
            1] 밀집표현 = 분산표현(Dense Representation)
                - 값의 타입 : 실수
                    사용자가 설정한 값으로 모든 단어의 벡터 표현 차원 맞추므로 0, 1만이 아닌 실수값 벡터 표현
                    >> 단어간 유사도 표현 가능
                - 차원 : 저차원
                    벡터 차원 != 단어 집합의 크기
                    >> 저장공간 높은 효율성
                - 표현 방법 : 훈련 데이터로부터 학습
        3) 종류
            - LSA
                1) 개념 : 카운트 기반 방법. 전체 단어 빈도수 통계 기반으로 잠재 의미 파악
                2) 특징
                    - 입력 : 각 단어의 빈도수를 카운트한 행렬이라는 전체적 통계 정보
                    - 과정 : 차원을 축소(Truncated SVD)하여 잠재된 의미 끌어냄
                    - 장점 : 전체적 통계 정보 고려
                    - 단점 : 유추 작업에 낮은 성능 (전체적 통계 정보 고려)
            - Word2Vec
                1) 개념 : 예측기반 방법. 손실함수 이용하여 실제값과 예측값에 대한 오차 줄여나감
                2) 특징
                    - 과정 : 실제값과 예측값에 대한 오차를 손실함수를 통해 줄여나가며 학습
                    - 장점 : 유추 작업에 높은 성능 (윈도우 크기 내의 단어만 고려)
                    - 단점 : 전체적 통계 정보 고려x (윈도우 크기 내의 단어만 고려)
                # Word2Vec 체험 사이트 : http://w.elnn.kr/search/
                # Word2Vec 중에서 임베딩 벡터 체험 사이트 : https://arxiv.org/pdf/1611.05469v1.pdf
                3) 종류
                    - CBOW
                        1) 개념 : 주변 단어 입력. 중간 단어 예측
                        2) 특징
                            - 예시 : "The fat cat sat on the mat"에서 {"The", "fat", "cat", "on", "the", "mat"} 사이 sat 예측
                            1] 얕은 신경망(Shallow Network)
                                [1] 흐름 : input layer >> projection layer >> output layer
                                    - 윈도우(Window) : 중간단어 기준으로 좌우 살펴볼 단어 범위 n
                                    - 슬라이딩 윈도우(Window) : 중간 단어와 주변단어를 바꿔가며 학습을 위한 데이터셋 제작
                                    - input layer의 입력
                                        주변 단어 : context word. 원핫 벡터 표현
                                    - output layer의 출력
                                        중간 단어 : center word. 원핫 벡터 표현
                                - 구체적인 이론은 https://wikidocs.net/60854 에서 확인
                    - Skip-Gram
                        1) 개념 : 중간 단어 입력. 주변 단어 예측
                        2) 특징
                            - 예시 : "The fat cat sat on the mat"에서 {"sat"} 주변 The, fat, cat, on 예측
                            1] 얕은 신경망(Shallow Network)
                                [1] 흐름 : input layer >> projection layer >> output layer
                                    - 윈도우(Window) : 중간단어 기준으로 살펴볼 단어 범위 n
                                    - 슬라이딩 윈도우(Window) : 중간 단어와 주변단어를 바꿔가며 학습을 위한 데이터셋 제작
                                    - input layer의 입력
                                        중간 단어 : center word. 원핫 벡터 표현
                                    - output layer의 출력
                                        주변 단어 : context word. 원핫 벡터 표현
                                - 구체적인 이론은 https://wikidocs.net/60854 에서 확인
                    - 네거티브 샘플링(Skip-Gram with Negative Sampling)
                        1) 개념 : 중간 단어 입력. 주변 단어 예측
                        2) 특징
                            - 예시 : "The fat cat sat on the mat"에서 {"sat"} 주변 The, fat, cat, on 예측
                            1] 얕은 신경망(Shallow Network)
                                [1] 흐름 : input layer >> projection layer >> output layer
                                    - 윈도우(Window) : 중간단어 기준으로 살펴볼 단어 범위 n
                                    - 슬라이딩 윈도우(Window) : 중간 단어와 주변단어를 바꿔가며 학습을 위한 데이터셋 제작
                                    - input layer의 입력
                                        중간 단어 : center word. 원핫 벡터 표현
                                    - output layer의 출력
                                        주변 단어 : context word. 원핫 벡터 표현
                                - 구체적인 이론은 https://wikidocs.net/60854 에서 확인
            - FastText
            - Glove
                1) 개념 : LSA의 카운트 기반 방법 + Word2Vec의 예측기반 방법
                    (임베딩 된 중심 단어와 주변 단어 벡터의 내적이 전체 코퍼스에서의 동시 등장 확률이 되도록 만드는 것)
                2) 특징
                    [1] 윈도우 기반 동시 등장 행렬(Window based Co-occurrence Matrix)
                        - 행, 열 : 전체 단어 집합의 단어들
                        - i번째 행, k번째 열 : i단어의 윈도우 크기 내에서 k단어가 등장한 횟수
                        - 이 행렬은 전치 해도 같다
                    [2] 동시 등장 확률(Co-occurrence Probability)
                        - 동시 등장 확률 P(k l i) : 동시 등장 행렬로부터 특정 단어 i의 전체 등장 횟수 카운트, 
                            특정 단어 i가 등장했을 때, 어떤 단어 k가 등장한 횟수 카운트하여 계산한 조건부 확률
                        >> i = 중심단어, k = 주변단어 라고 하면 동시 등장 행렬에서 
                            분모 : 중심 단어 i 행의 모든 값을 더한 값
                            분자 : i행 k열의 값
                    [3] 손실함수
                        - 구체적인 이론은 https://wikidocs.net/60858 에서 확인
            - 임베딩 벡터
                1) 개념
                2) 특징
                3) 사용 순서
                    어떤 단어 >> 단어 정수 인코딩 >> 임베딩 층 통과 >> 밀집 벡터 = 임베딩 벡터
                4) 종류
                    - nn.embedding()
                        1) 개념 : 처음부터 학습하는 임베딩 벡터(특화된 훈련 데이터 충분)
                            - 임베딩 층(embedding layer) 만들어서 훈련 데이터로부터 처음부터 임베딩 벡터 학습
                        2) 특징
                            - 구체적인 이론은 https://wikidocs.net/64779 에서 확인
                    - pre-trained word embedding
                        1) 개념 : 사전 훈련되어있는 임베딩 벡터(특화된 훈련 데이터 부족)
                        2) 특징
                            
                
    2. 워드 임베딩 순서
        1) 각 단어 정수 인코딩(고유 인덱스 부여)
        2) 각 단어 임베딩 벡터 표현 by 밀집 표현
"""

'\n● 자연어 처리 순서\n    0. 훈련데이터, 검증 데이터, 테스트 데이터 분리\n    1. 자연어 전처리\n        1) 토큰화 : 주어진 문자열을 문자 단위로 자름\n            (1) spacy\n            (2) NLTK\n            (3) 띄어쓰기\n            (4) 한국어 띄어쓰기\n            (5) 형태소 토큰화\n            (6) 문자 토큰화\n        2) 단어집합 생성\n        3) 단어의 정수 인코딩\n        4) 길이 다른 문장을 패딩\n        5) 단어 벡터화\n        6) 배치화 : 훈련 샘플들의 배치 생성 + 패딩\n    2. 룩업 테이블(Lookup Table) : 단어들을 임베딩 벡터로 맵핑\n'

In [None]:
# !pip install konlpy

In [5]:
# 원핫 인코딩

# 형태소 분석 + 문장 토큰화
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

# 정수 인코딩 + 원핫 벡터 생성
word2index = {}
for voca in token: # 이거 좀 신박하네
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
print(word2index)

def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector
one_hot_encoding("자연어", word2index)

['나', '는', '자연어', '처리', '를', '배운다']
{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


[0, 0, 1, 0, 0, 0]

In [7]:
# 원핫 인코딩 단점 예시
import torch

# 원핫 벡터 생성
dog = torch.FloatTensor([1, 0, 0, 0, 0])
cat = torch.FloatTensor([0, 1, 0, 0, 0])
computer = torch.FloatTensor([0, 0, 1, 0, 0])
netbook = torch.FloatTensor([0, 0, 0, 1, 0])
book = torch.FloatTensor([0, 0, 0, 0, 1])

# 원핫 벡터간 코사인 유사도
print(torch.cosine_similarity(dog, cat, dim=0))
print(torch.cosine_similarity(cat, computer, dim=0))
print(torch.cosine_similarity(computer, netbook, dim=0))
print(torch.cosine_similarity(netbook, book, dim=0))

tensor(0.)
tensor(0.)
tensor(0.)
tensor(0.)


In [4]:
"""
임베딩 벡터 시각화를 위한 데이터 설치
아나콘다 프롬프트 창 : conda install -c anaconda gensim

!pip install gensim==3.4.0
!pip install smart_open==1.9.0

!python -m gensim.scripts.word2vec2tensor --input eng_w2v --output eng_w2v

워드 임베딩 - GloVe
!pip install glove_python_binary
"""

Collecting glove_python_binary
  Downloading glove_python_binary-0.2.0-cp38-cp38-win_amd64.whl (244 kB)
Installing collected packages: glove-python-binary
Successfully installed glove-python-binary-0.2.0


In [2]:
# 임베딩 벡터 시각화 예시 : https://wikidocs.net/60856    ###eng_w2v가 없어서 진행 불가###

In [5]:
""" 
###result 변수가 없어서 진행 불가###
# 워드 임베딩 - GloVe
from glove import Corpus, Glove

# 윈도우 기반 동시 등장 행렬 생성
corpus = Corpus()
corpus.fit(result, window=5)

# GloVe 학습
glove = Glove(no_components=100, learning_rate=0.05) # 요소 개수 100, 학습률 0.05
glove.fit(corpus.matrix, epochs=20, no_threads=4, verbose=True) # 윈도우 기반 동시 등장 행렬, 에포크 20, 스레드 4개
glove.add_dictionary(corpus.dictionary)

# 유사 단어 리스트 리턴
model_result1=glove.most_similar("man") # 입력단어와 유사한 단어 리스트 리턴
print(model_result1)

model_result2=glove.most_similar('boy')
print(model_result2)

model_result3=glove.most_similar('university')
print(model_result3)

model_result4=glove.most_similar('water')
print(model_result4)

model_result5=glove.most_similar('physics')
print(model_result5)

model_result6=glove.most_similar('muscle')
print(model_result6)

model_result7=glove.most_similar('clean')
print(model_result7)
"""

NameError: name 'result' is not defined