## 개요
- 본 포스트에서는 한글 텍스트를 활용한 텍스트 마이닝을 진행하도록 한다.
- `sklearn`에서는 `CountVectorizer`, `TfidfVectorizer`, `HashingVectorizer` 3가지 모듈을 제공한다.
- 일반적으로는 `CountVectorizer`, `TfidfVectorizer`가 자주 사용되기 때문에 두가지 방식에 대해 활용하도록 한다.

## CountVectorizer
- 먼저 위 모듈은 텍스트 데이터에서 횟수를 기준으로 특징을 말하는 방법을 말한다.
- 간단한 샘플을 보도록 한다.

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

text_data = ["오늘은 날씨가 매우 춥다", "내일 점심 뭐 먹지", "내일 공부 해야겠다", "오늘은 점심 먹고 공부해야지"]
cnt_vectorizer = CountVectorizer()
cnt_vectorizer.fit(text_data)
print(cnt_vectorizer.vocabulary_)

{'오늘은': 7, '날씨가': 2, '매우': 4, '춥다': 9, '내일': 3, '점심': 8, '먹지': 6, '공부': 0, '해야겠다': 10, '먹고': 5, '공부해야지': 1}


- 위 출력 값은 각 단어에 대해 숫자들이 사전 형태로 구성돼 있는 것이며, 이를 실제로 벡터화 하면 아래와 같이 작용할 수 있다.

In [2]:
for text in text_data:
  sentence = [text]
  print(cnt_vectorizer.transform(sentence).toarray())

[[0 0 1 0 1 0 0 1 0 1 0]]
[[0 0 0 1 0 0 1 0 1 0 0]]
[[1 0 0 1 0 0 0 0 0 0 1]]
[[0 1 0 0 0 1 0 1 1 0 0]]


- 각 단어들이 1번씩 나왔으므로 해당 단어 사전 순서에 맞게 1 값을 가진다.
- 매우 간단하게 텍스트 데이터에서 특징을 추출할 수 있는 장점이 있지만, 단순히 횟수만을 특징으로 잡기 때문에 의미없는 조사나 또는 지시대명사가 높은 특징 값을 가질 수 있기 때문에 유의미하게 사용하기는 어렵다.
- 이러한 문제점을 보완하기 나온 기법이 `TF-IDF` 방식의 특징 추출을 살펴보도록 한다.

## TfidfVectorizer
- TF-IDF는 TF(Term Frequency)란 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다. 그리고 DF(Document Frequency)는 문서 빈도값으로, 특정 단어가 여러 데이터에 여러 데이터에 자주 등장하는지를 알려준다.

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[3]] # ['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(text_data).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.         0.        ]
 [0.         0.         0.         0.52640543 0.         0.66767854
  0.         0.52640543 0.         0.        ]
 [0.         0.52640543 0.         0.52640543 0.         0.
  0.         0.         0.66767854 0.        ]
 [0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


- 각각의 단어들을 잘 살펴보면 해당 문장 안에서 단어의 출현 빈도를 측정하고 해당 단어가 다른 데이터에서는 잘 나오지 않는 값일수록 높은 값을 가진다고 했다.
- 이 문장에서 4단어 모두 한 번씩 나왔으나 '먹고'와 '해야지'의 경우 다른 데이터에는 나오지 않은 단어이기 때문에 앞선 두 단어보다 높은 값이 나왔다.


## KoNLPy
- KoNLPy는 한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리임
- 윈도우 설치는 개별적으로 진행하도록 한다.
- 구글 코랩에서는 아래 3가지 명령어만 작성하면 쉽다.

In [4]:
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install --target=$my_path konlpy

Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Get:5 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Get:6 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Get:7 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:11 https://r2u.stat.illinois.edu/ubuntu jammy/main amd64 Packages [2,632 kB]
Get:12 https://r2u.stat.illinois.edu/ubuntu jammy/main all Packages [8,563 kB]
Get:13 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu22

- 실제 잘 되는지 확인해본다.

In [5]:
import konlpy
from konlpy.tag import Okt
okt = Okt()

text = "한글 자연어 처리는 재미있다 이제부터 열심히 해야지 ㅎㅎㅎ"
print(okt.morphs(text))
print(okt.morphs(text, stem=True))

['한글', '자연어', '처리', '는', '재미있다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재미있다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


### 형태소 분석 및 품사 태깅
- 형태소 분석을 설명하기 전에 형태소가 무엇인지 알아본다.
- 형태소란 의미를 가지는 가장 작은 단위로서 더 쪼개지면 의미를 상실하는 것들을 말한다.
- 따라서, 형태소 분석이란 의미를 가지는 단위를 기준으로 문장으로 살펴보는 것을 의미한다.
  + Hannanum
  + Kkma
  + Komoran
  + Mecab
  + Okt(Twitter)


### Okt 객체
- 크게 4개의 함수를 제공한다.
  + okt.morphs(): 텍스트를 형태소 단위로 나눈다. 옵션으로는 `norm`과 `stem`이 있다. 각각 `True` 혹은 `False` 값을 받으며, `norm`은 `normalize`의 약자로서 문장을 정규화하는 역할을 하고, `stem`은 각 단어에서 어간을 추출하는 기능
  + okt.nouns(): 텍스트에서 명사만 뽑아낸다.
  + okt.phrases(): 텍스트에서 어절을 뽑아낸다.
  + okt.pos(): `pos()` 함수는 각 품사를 태깅하는 역할을 한다.
- 여기에서 태깅이란, 주어진 텍스트를 형태소 단위로 나누고, 나눠진 각 형태소를 그에 해당하는 품사와 함께 리스트화하는 것을 의미한다. 이 함수에서도 옵션을 설정할 수 있는데, `morphs` 함수와 마찬가지로 `norm`, `stem` 옵션이 있고, 추가적으로 `join` 함수가 있는데, 이 옵션 값을 `True`로 설정하면 나눠진 형태소와 품사를 `형태소/품사` 형태로 같이 붙여서 리스트화한다.


- 각각의 함수의 쓰임새를 살펴본다.

In [6]:
print(okt.nouns(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


- `nouns` 함수를 사용한 경우에는 명사만 추출됐고, `phrases` 함수의 경우에는 어절 단위로 나뉘어서 추출 됐다.
- 이제 품사 태깅을 하는 함수인 `pos` 함수를 사용한다.

In [7]:
print(okt.pos(text))
print(okt.pos(text, join=True)) # 형태소와 품사를 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재미있다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재미있다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']
