# 텍스트 마이닝

## 목차
- [텍스트 마이닝의 이해](#paragraph1)
- [텍스트 마이닝 방법론](#paragraph2)
- [텍스트 마이닝의 문제점](#paragraph3)
- [문제 해결을 위한 방안](#paragraph4)

## 텍스트 마이닝의 이해 <a name="paragraph1"></a>

### 텍스트 마이닝이란

텍스트 마이닝(text mining)은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형 및 비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 기술이다.
<br>(출처: [해시넷](http://wiki.hash.kr/index.php/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%A7%88%EC%9D%B4%EB%8B%9D))

<br>

텍스트 마이닝의 주요 기술은 다음과 같다

**자연어처리**: 자연어처리 기술(NLP, Natural Language Processing)이란, 워드 임베딩과 같은 기술을 사용해 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야이다.

**통계학, 선형대수**: 여러 통계기법들과 벡터, 행렬 연산을 통해 텍스트 데이터를 분석가능하게 변환시킨다.

**머신러닝**: 나이브 베이즈, 로지스틱 회귀분석, 의사결정트리, SVM (Support Vector Machine) 등 여러 알고리즘을 사용한다.

**딥러닝**: RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), Attention, Transformer, Bert, GPT 와 같은 딥러닝 기법을 사용한다

<br>

텍스트 마이닝은 여러 분야에서 활발하게 연구가 이뤄지고 있고 사용되고 있다.

**텍스트 분류**: 대표적으로 감성분석에 사용된다.

**텍스트 생성**: 뉴스 생성, QnA, 번역과 같은 곳에서 사용된다.

**키워드 추출**: 텍스트에 태그나 카테고리를 구분할 때 사용된다.

**토픽 모델링**: 텍스트의 특정 주제나 이슈, 주제 그룹들을 추출할 때 사용된다.

<br>

파이썬은 풍부한 라이브러리로 인해 텍스트 마이닝에 가장 많이 사용되는 언어이다. 가장 많이 알려진 NLP 라이브러리인 **NLTK**, 머신러닝 라이브러리와 기본적인 NLP와 다양한 텍스트 마이닝 관련 도구를 지원하는 **scikit learn**, Word2Vec으로 유명한 **gensim**, RNN, seq2seq 등 딥러닝 위주의 라이브러리를 제공하는 **keras** 등이 있다. 참고로 **keras**는 **tensorflow** 라이브러리의 high-level API다.

## 텍스트 마이닝 방법론 <a name="paragraph2"></a>

텍스트 마이닝은 텍스트를 벡터로 변환하는것으로 시작한다. 벡터로 변환하는데 사용되는 기술들이 있는데 같이 살펴보기로 하자.

### Tokenize

하나의 텍스트를 단어들로 분리 시켜주는 단계이다. 이때 의미 없는 문자들을 걸러낼 수도 있다. 

영어와 한글의 tokenize는 차이가 있는데 영어는 문장 구조상 단어와 단어 사이에는 공백이 존재한다. 하지만 한글은 조사와 어미 등을 구별해야하는 작업이 추가로 필요하다. 그래서 한글 텍스트 마이닝이 영어보다 더 어렵다고 알려져있다.

In [31]:
# 영어
import nltk
from nltk.tokenize import word_tokenize
#nltk.download('punkt')

text = "Thank God it's friday!"
print(word_tokenize(text))

['Thank', 'God', 'it', "'s", 'friday', '!']


In [8]:
# 한글
from konlpy.tag import Okt  
okt = Okt()

text = "애플이 2년 만에 새로운 아이패드 미니를 공개했다."
print(okt.morphs(text))

['애플', '이', '2년', '만에', '새로운', '아이패드', '미니', '를', '공개', '했다', '.']


### Text Normalization

Normalization은 정규화 라는 뜻을 가지고 있다. Text normalization이란 말그대로 단어들을 정규화 시켜준다는 것인데, 같은 의미의 단어가 다른 형태를 가지고 있는 경우 이를 같은 형태로 변환시켜주는 것이다. 그럼 어떻게 텍스트를 정규화 시킬 수 있을까? 바로 Stemming 과 lemmatization 기법이 사용된다. 

**Stemming**

어간(stem) 추출이라고도 하고 단수-복수, 현재형-미래형 등 단어의 다양한 변형을 하나로 통일하는 기법이다. 이때 단어의 의미가 아닌 규칙(알고리즘)에 의해 변환시킨다. Porter stemmer와 Lancaster stemmer가 유명하다.

In [13]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.tokenize import word_tokenize

In [22]:
def stem_sentence(sentence):
    token_words = word_tokenize(sentence)
    token_words
    stem_sentence = []
    for word in token_words:
        stem_sentence.append(porter.stem(word))
    return " ".join(stem_sentence)

porter = PorterStemmer()
lancaster = LancasterStemmer()

sentence = '''Global investors were in the dark about whether the property giant would make $83.5 million in payments, 
a major test of the highly indebted developer’s ability to avoid a default.'''

print('Original:')
print(sentence)
print('\nStemmed:')
print(stem_sentence(sentence))

Original:
Global investors were in the dark about whether the property giant would make $83.5 million in payments, 
a major test of the highly indebted developer’s ability to avoid a default.

Stemmed:
global investor were in the dark about whether the properti giant would make $ 83.5 million in payment , a major test of the highli indebt develop ’ s abil to avoid a default .


**Lemmatization**

표제어(lemma) 추출이라고도 하고 사전을 이용하여 단어의 원형을 추출하는 기법이다. WordNet lemmatizer가 유명하다.

In [24]:
from nltk.stem import WordNetLemmatizer
#nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/cho2jiwoo/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [25]:
def lemmatize(sentence):
    token_words = word_tokenize(sentence)
    token_words
    lemmatize_sentence = []
    for word in token_words:
        lemmatize_sentence.append(wordnet_lemmatizer.lemmatize(word))
    return " ".join(lemmatize_sentence)

wordnet_lemmatizer = WordNetLemmatizer()

sentence = "He was running and eating at same time. He has bad habit of swimming after playing long hours in the Sun."

print('Original:')
print(sentence)
print('\nLemmatized:')
print(lemmatize(sentence))

Original:
He was running and eating at same time. He has bad habit of swimming after playing long hours in the Sun.

Lemmatized:
He wa running and eating at same time . He ha bad habit of swimming after playing long hour in the Sun .


reference: https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

### POS-tagging

POS (Part of Speech) tagging, 즉 품사 태깅은 형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일이다.예를 들어:
<br>
`가방에 들어가신다 -> 가방/NNG + 에/JKM + 들어가/VV + 시/EPH + ㄴ다/EFN`
<br>
(출처: [KoNLPy 공식 문서](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/))

동일한 단어라도 문맥에 따라 의미가 달라지므로 품사를 알기 위해서는 문맥을 파악해야 한다. 한글에 특수성 때문에 한글에 특화된 형태소 분석기를 사용해야 좋은 결과가 나올 수 있다. `konlpy` 패키지에는 여러 형태소 분석기가 들어있는데 예제에서는 카이스트 semantic web research center에서 만든 Hannanum을 사용해보자. 다른 형태소 분석기 들은 [이곳](https://mr-doosun.tistory.com/22)을 참고.

In [37]:
from konlpy.tag import Hannanum

hannanum = Hannanum()
sentence = '하늘을 나는 자동차'
print(hannanum.pos(sentence))

[('하늘', 'N'), ('을', 'J'), ('나', 'N'), ('는', 'J'), ('자동차', 'N')]


"하늘을 나는 자동차" 라는 문장에서 "나"를 "me"로 인식하고 명사로 태그한것을 볼 수 있다. 이 문장에서는 `나(-ㄹ다)/V + 는/E` 이 되는 것이 바람직하다.

### Chunking

Chunk는 언어학적으로 말모듬을 뜻하며, 명사구, 형용사구, 분사구 등과 같이 주어와 동사가 없는 두 단어 이상의 집합인 구(phrase)를 의미한다. Chunking은 문장에서 구(phrase)를 찾는 것이다.

In [2]:
import nltk
# nltk.download('averaged_perceptron_tagger')

text = "The little yellow dog barked at the cat"
tokens = nltk.word_tokenize(text)
tag = nltk.pos_tag(tokens)
grammar = "NP: {<DT>?<JJ>*<NN>}"
cp  = nltk.RegexpParser(grammar)
result = cp.parse(tag)
# result.draw()

![](https://www.nltk.org/book/tree_images/ch07-tree-1.png)

reference: https://www.nltk.org/book/ch07.html

### NER

NER(Named Entity Recognition)은 텍스트로 부터 의미 있는 정보를 추출하기 위한 방법으로 사용된다. NER에 NE는 Named Entity, 개체명이라 부르고 기관, 단체, 사람, 날짜 등과 같이 특정 정보에 해당하는 명사구를 의미한다.

In [7]:
import spacy
from spacy import displacy
# Run this command in terminal
# python -m spacy download en_core_web_sm

NER = spacy.load("en_core_web_sm")
sentence = '''European authorities fined Google a record $5.1 billion on Wednesday for 
abusing its power in the mobile phone market and ordered the company to alter its practices'''
ners = NER(sentence)
displacy.render(ners, style="ent", jupyter=True)

reference: https://www.analyticsvidhya.com/blog/2021/06/nlp-application-named-entity-recognition-ner-in-python-with-spacy/

### BOW

BOW(Bag of Words)란 단어들의 순서를 고려하지 않고, 단어들의 출현 빈도(frequency)만 가지고 vector로 표현하는 방법이다. scikit learn 라이브러리에 CountVectorizer을 사용하면 간단히 bag of words를 만들 수 있다.

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


reference: https://wikidocs.net/22650

### TFIDF

TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도를 사용하여 DTM(Document Term Matrix) 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이다.

TF-IDF는 TF와 IDF를 곱한 값이다.

$d = 문서$
<br>
$t = 단어$
<br>
$n = 총 \ 문서 \ 수$

$tf(d, t)$ : 특정 문서 d에서의 특정 단어 t의 등장 횟수.

$df(t)$ : 특정 단어 t가 등장한 문서의 수.

$idf(d, t)$ : df(t)에 반비례하는 수.

<br>

TFIDF도 scikit learn 라이브러리를 이용해 만들 수 있다.

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',
]

tfidfv = TfidfVectorizer().fit(corpus)
df = pd.DataFrame(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)
df

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


Unnamed: 0,0,1,2,3,4,5,6,7,8
0,0.0,0.467351,0.0,0.467351,0.0,0.467351,0.0,0.355432,0.467351
1,0.0,0.0,0.795961,0.0,0.0,0.0,0.0,0.605349,0.0
2,0.57735,0.0,0.0,0.0,0.57735,0.0,0.57735,0.0,0.0


reference: https://wikidocs.net/31698

**코사인 유사도**

TFIDF를 이용하여 유사도를 계산할 수 있다.

`여기서 부터 진행...`
참고: https://wikidocs.net/24603


## 텍스트 마이닝의 문제점 <a name="paragraph3"></a>

## 문제 해결을 위한 방안 <a name="paragraph4"></a>