- 토큰: 텍스트를 처리하는 단위. 단어나 문장, 문자로 지정가능
- CountVectorizer(): 텍스트를 입력 받아, 텍스트 토큰의 개수로 구성된 벡터를 출력
- HashingVectorizer(): CountVectorizer()에 비해 더 빠르고 확장성이 좋음.
    - 다만, 문서 코퍼스에 등장하는 단어 수를 세는 것으로는 misleading 할 수 있음.
    - 불용어(like, a, ...)라는 중요하지 않은 단어들의 발생 빈도수가 높으며, 이러한 단어는 정보가 없기 때문.
- 가중치: 불용어를 제거하고자 부여하는 값. 주로 TF-IDF를 이용
- TF-IDF (Term-Frequency, Inverse-Document-Frequency): 단어 빈도와 역문서 빈도
    - 단어가 나타나는 횟수를 감안하되, 해당 단어가 들어가 있는 문서의 수로 단어의 빈도를 상쇄함.
- 사이버보안에는 텍스트 데이터가 많으므로, 이런 데이터를 다룰 줄  알아야 한다.

In [2]:
# 텍스트 데이터를 불러온다.
with open("./datasets/anonops_short.txt",encoding="utf8") as f:
    anonops_chat_logs = f.readlines()

# HashingVectorizer를 사용해 텍스트에서 단어의 수를 세고, TF-IDF를 사용해 가중값을 부여한다.
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

my_vector = HashingVectorizer(input="content", ngram_range=(1,2)) # one-gram / bi-gram 단어의 갯수를 계산한다.
X_train_counts = my_vector.fit_transform(anonops_chat_logs,)
tf_transformer = TfidfTransformer(use_idf=True,).fit(X_train_counts) # HashingVectorizer에 적절한 가중값을 부여함.
X_train_tf = tf_transformer.transform(X_train_counts)

# 최종 결과는 각 행이 텍스트 중의 하나를 나타내는 희소행렬이다.
print(X_train_tf)

  (0, 938273)	0.10023429482560929
  (0, 871172)	-0.33044470291777067
  (0, 755834)	-0.2806123960092745
  (0, 556974)	-0.2171490773135763
  (0, 548264)	-0.09851435603064428
  (0, 531189)	-0.2566310842337745
  (0, 522961)	-0.3119912982467716
  (0, 514190)	-0.2527659565181208
  (0, 501800)	-0.33044470291777067
  (0, 499727)	-0.18952297847436425
  (0, 488876)	0.13502094828386488
  (0, 377854)	0.22710724511856722
  (0, 334594)	-0.25581186158424035
  (0, 256577)	0.20949022238574433
  (0, 197273)	-0.30119674850360456
  (0, 114899)	0.09713499033205285
  (0, 28523)	-0.3060506288368513
  (1, 960098)	0.09780838928665199
  (1, 955748)	-0.2747271490090429
  (1, 952302)	0.26070217969901804
  (1, 938273)	0.12095603891963835
  (1, 937092)	-0.2947114257264502
  (1, 927866)	0.21727726371674563
  (1, 820768)	-0.11065660403137358
  (1, 772066)	-0.14344517367198276
  :	:
  (180828, 329790)	0.06808618130417012
  (180828, 312887)	-0.08249409552977467
  (180828, 209871)	0.17685927011939476
  (180828, 193711)	