<a href="https://colab.research.google.com/github/waltechel/202209-novice-nlp-with-python/blob/master/Ch_01_%ED%85%8D%EC%8A%A4%ED%8A%B8_%EB%A7%88%EC%9D%B4%EB%8B%9D_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 텍스트 마이닝 기초

## 1.1 텍스트 마이닝의 정의

- 교재 4페이지에 다음과 같은 내용이 있습니다.
  > “크기가 큰 경우에는 벡터를 구성하는 많은 값(많게는 99%이상)들이 0이고 극히 일부만 0이 아닌 값들을 갖게 되는데, 이것을 희소(sparse)하다고 말한다. 반면, 크기가 작은 경우에는 **`벡터가 대부분 0인 값들로 이루어지고`**, 이것을 밀집(dense)돼 있다고 말한다.”
- 제가 읽었을 때는 희소와 밀집된 벡터의 표현이, 길고 짧은 차이 외에는 동일한 설명처럼 이해가 됩니다. **‘값이 대부분 0’** 이라고… 제가 이해한 것이 맞는 것일까요? 붉은 색으로 강조한 부분에 의문이 생겼는데요. 두 벡터 표현이 ‘길이’ 외에 어떤 차이가 있을까요?

- 희소 벡터를 구현한 사례
  - 다음은 자연어를 원핫 벡터로 만든 사례이다
  - 이 경우 각 열이 어떤 단어에 대응되는지에 대한 정보를 미리 안다면 원핫 벡터에서 자연어를 완벽하게 복원하는 것도 가능하다.
  - 다만 이런 접근 방식을 취할 때는 차원의 크기가 너무 커질 가능성이 높다.
  - 절대 다수의 값이 0이며 1인 값은 자연어 토큰의 개수 정도이다.

In [None]:
import numpy as np
sentence = sentence = "자연어 처리는 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석합니다.\n자연어 처리에서 언급되는 자연어는 인공 언어와 대치되는 개념이다."
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))

In [None]:
', '.join(vocab)

In [None]:
num_tokens = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_tokens, vocab_size), int)

In [None]:
onehot_vectors

In [None]:
for i, word in enumerate(token_sequence):
  print(i, word, vocab.index(word))
  onehot_vectors[i, vocab.index(word)] = 1

In [None]:
' '.join(vocab)

In [None]:
onehot_vectors

In [None]:
import pandas as pd
pd.DataFrame(onehot_vectors, columns=vocab)

- 밀집 벡터를 구현한 사례
  - 다음은 자연어를 밀집 벡터(단어 빈도 벡터)로 구현한 사례이다.
  - 이 경우 밀집 벡터에서 자연어를 복구하는 것은 불가능하다. 그러나 이 경우에도 주요 의미를 포착하는 것은 가능하다.
  - 이 경우 단어 사전이 차원이 되므로 희소 행렬보다는 조금 더 밀집한 결과를 얻을 수 있다.
  - 문맥에 관한 정보를 알 수 없다는 약점이 있으나, 그를 방지하기 위해 n-gram 기법을 사용하기도 한다.
    - n-gram 기법을 사용하게 되면 단어 하나로 된 토큰이라는 개념을 n개의 단어로 이루어진 토큰인 n-gram을 활용할 수 있으므로 **문맥을 조금 더 반영할 수 있다.**

In [None]:
sentence_bow = {}
for token in sentence.split():
  if token in sentence_bow:
    sentence_bow[token] += 1
  else:
    sentence_bow[token] = 1

In [None]:
sentence_bow

In [None]:
import pandas as pd
df = pd.DataFrame(pd.Series(dict([(token, sentence_bow[token]) for token in sentence.split()])), columns = ['sent']).T
df

In [None]:
from pandas import core
corpus = {}
for i, sent in enumerate(sentence.split('\n')):
  corpus['sent{}'.format(i)] = dict((tok, 1) for tok in sent.split())
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
df

In [None]:
df = df.T

- 다음과 같이 내적(점곱)을 활용하게 되면 두 개의 문장에 공통적으로 등장하는 단어가 몇 개인지 알 수 있다.

In [None]:
df.sent0.dot(df.sent1)