# 텍스트 마이닝(Text Mining)
- 비정형의 텍스트 데이터로부터 패턴을 찾아내어 의미 있는 정보를 추출하는 분석 과정 또는 기법
- 데이터 마이닝과 자연어 처리, 정보 검색 등의 분야가 결합된 분석 기법을 사용
- 텍스트 마이닝의 프로세스  
 텍스트 전처리 → 특성 벡터화 → 머신러닝 모델 구축 및 학습/평가 프로세스 수행  
» 텍스트 전처리에는 토큰화, 불용어 제거, 표제어 추출, 형태소 분석 등의 작업이 포함

### 특성 벡터화와 특성 추출
- 머신러닝 알고리즘으로 분석하기 위해서는 텍스트를 구성하는 단어 기반의 특성 추출을 하고 이를 숫자형 값인 벡터 값으로 표현해야 함
- 특성 벡터화의 대표적인 방법으로 BoW와 Word2Vec가 있음
- BoW:  
  1. 문서가 가지고 있는 모든 단어에 대해 순서는 무시한 채 빈도만 고려하여 단어가 얼마나 자주 등장하는지로 특성벡터를 만드는 방법  
  2. 카운트 기반 벡터화와 TF-IDF 기반 벡터화 방식이 있음

#### 카운트 기반 벡터화
- 단어 피처에 숫자형 값을 할당할 때 각 문서에서 해당 단어가 등장하는 횟수(단어 빈도)를 부여하는 벡터화 방식
- 문서별 단어의 빈도를 정리하여 문서 단어 행렬(Document-Term Matrix, DTM)을 구성하는 데 단어 출현 빈도가 높을수록 중요한 단어로 다루어짐
- 문서 d에 등장한 단어 t의 횟수는 tf(t, d)로 표현  
» 카운트 기반 벡터화는 사이킷런의 CountVectorizer 모듈에서 제공

#### TF-IDF 기반 벡터화
- 특정 문서에 많이 나타나는 단어는 해당 문서의 단어 벡터에 가중치를 높임
- 모든 문서에 많이 나타나는 단어는 범용적으로 사용하는 단어로 취급하여 가중치를 낮추는 방식  
» TF-IDF 기반 벡터화는 사이킷런의 TfidfVectorizer 모듈에서 제공

#### 감성 분석(sentiment analysis)/오피니언 마이닝(opinion mining)
- 텍스트에서 사용자의 주관적인 의견이나 감성, 태도를 분석하는 텍스트 마이닝의 핵심 분석 기법 중 하나  
» 실제 응용에서는 이 두 용어를 서로 교차하여 사용
- 텍스트에서 감성을 나타내는 단어를 기반으로 긍정 또는 부정의 감성을 결정
- 감성 사전 기반의 감성 분석은 감성 단어에 대한 사전을 가진 상태에서 단어를 검색하여 점수를 계산
- 최근에는 머신러닝 기반의 감성 분석이 늘어나고 있음
- 감성 분석과 오피니언 마이닝의 차이점  
» 감성 분석: 감정의 극성(긍정적, 부정적, 중립적)을 파악하는데 집중  
» 오피니언 마이닝: 더 넓은 범위를 다루며, 의견, 태도, 감정 등을 포괄적으로 분석  

---

### LDA(Latent Dirichlet Allocaton)
- 디리클레 분포를 이용하여 주어진 문서에 잠재되어 있는 토픽을 추론하는 확률 모델 알고리즘을 사용
- LDA는 비지도 학습의 일종
- 하나의 문서는 여러 토픽으로 구성되어 있고, 문서의 토픽 분포에 따라서 단어의 분포가 결정된다고 가정
- 토픽의 개수 k: 토픽 분석의 성능을 결정짓는 중요한 요소이자 사용자가 지정해야 하는 하이퍼 매개변수

#### LDA(Latent Dirichlet Allocaton) 수행 개요
- (1) 사용자는 알고리즘에게 토픽의 개수 k를 알려줌
    - k개의 토픽이 M개의 전체 문서에 걸쳐 분포되어 있다고 가정
- (2) 모든 단어를 k개 중 하나의 토픽에 할당
    - LDA는 모든 문서의 모든 단어에 대해서 k개 중 하나의 토픽을 랜덤으로 할당  
» 각 문서는 토픽을 가지며, 토픽은 단어 분포를 가지는 상태  
» 한 단어가 한 문서에서 2회 이상 등장하였다면, 각 단어는 서로 다른 토픽에 할당되었을 수 있음  
- (3) 모든 문서의 모든 단어에 대해서 아래의 사항을 반복 수행
    - 3-1) 어떤 문서의 각 단어 w는 자신은 잘못된 토픽에 할당되어져 있지만, 다른 단어들은 전부 올바른 토픽에 할당되어져 있는 상태라고 가정함. 이에 따라 단어 w는 아래의 두 가지 기준에 따라서 토픽이 재할당  
» p(topic t | document d) : 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율  
» p(word w | topic t) : 각 토픽들 t에서 해당 단어 w의 분포  

#### LDA의 한계
- 토픽(Topic)의 수 결정
    - LDA에서 가장 중요한 단계 중 하나는 토픽의 수(k)를 결정하는 것
    - 대개 실험적으로 결정되며 때로는 주관적일 수 있음
- 해석의 어려움
    - LDA가 생성하는 주제는 해석하기 어렵거나, 실제로 의미 있는 통찰을 제공하지 않을 수 있음
- 정적 모델
    - LDA는 기본적으로 정적 모델
        - 시간에 따라 변화하는 주제의 동향을 포착하기 어려움

## 목표: 영화 리뷰 데이터에 텍스트 마이닝의 감성 분석 기술을 사용하여 감성 분석 모델을 구축한 뒤 새로운 데이터에 대한 감성을 분석

### Naver sentiment movie corpus v1.0 (1/2)
- This is a movie review dataset in the Korean language
    - GitHumb 경로: https://github.com/e9t/nsmc
- Reviews were scraped from Naver Movies

데이터 설명(Data description)
- Each file consists of three columns: id, document, label
    - id: The review id, provided by Naver
    - document: The actual review
    - label: The sentiment class of the review. (0: negative, 1: positive)
    - Columns are delimited with tabs (i.e., .tsv format; but the file extension is .txt for easy access for novices)
- 200K reviews in total
    - ratings.txt: All 200K reviews
    - ratings_test.txt: 50K reviews held out for testing

In [None]:
import pandas as pd

pd.__version__

In [None]:
#warning 메시지 표시 안함
import warnings
warnings.filterwarnings(action = 'ignore')
# warnings.filterwarnings(action = ‘default')
import pandas as pd

In [None]:
nsmc_train_df = pd.read_csv('./dataSet/ratings_train.txt', encoding = 'utf8', sep = '\t', engine = 'python')
nsmc_train_df.head()

In [None]:
nsmc_train_df.info()

In [None]:
nsmc_train_df = nsmc_train_df[nsmc_train_df['document'].notnull()]

In [None]:
nsmc_train_df.info()

In [None]:
# 데이터 비율 확인
nsmc_train_df['label'].value_counts()

In [None]:
import re

In [None]:
nsmc_train_df['document'] = nsmc_train_df['document'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ 가-힣]+'," ", x))
nsmc_train_df.head()


In [None]:
nsmc_test_df = pd.read_csv('./dataSet/ratings_test.txt', encoding = 'utf8', sep = '\t', engine = 'python')
nsmc_test_df.head()

In [None]:
nsmc_test_df.info()

In [None]:
#document 칼럼이 Null인 샘플 제거
nsmc_test_df = nsmc_test_df[nsmc_test_df['document'].notnull()] 

In [None]:
nsmc_test_df['label'].value_counts()

In [None]:
nsmc_test_df['document'] = nsmc_test_df['document'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ가-힣]+', " ", x)) 

In [None]:
from konlpy.tag import Okt
okt = Okt()

In [None]:
def okt_tokenizer(text):
    tokens = okt.morphs(text)
    return tokens

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, ngram_range = (1, 2), min_df = 3, max_df = 0.9)
tfidf.fit(nsmc_train_df['document'])
nsmc_train_tfidf = tfidf.transform(nsmc_train_df['document'])

In [None]:
from sklearn.linear_model import LogisticRegression
SA_lr = LogisticRegression(random_state = 0)

In [None]:
SA_lr.fit(nsmc_train_tfidf, nsmc_train_df['label'])

- 로지스틱 회귀의 하이퍼 매개변수 C의 최적값을 구하기 위해 C 값을 다르게 한 여러 모형을 만들고 실행하여 각 성능을 비교 (GridSearchCV 클래스 사용)
- C(cost function) : C는 오분류를 허용하는 정도를 제어하는 하이퍼파라미터
    - 값이 크면 -> 훈련을 더 복잡하게 -> 피처(특징)의 수가 늘어남
    - 값이 작으면-> 훈련을 덜 복잡하게 -> 피처(특징)의 수가 줄어듬
  
verbose=0(default) : 메시지 출력 안함  
verbose=1 : 간단한 메시지 출력  
verbose=2 : 하이퍼 파라미터별 메시지 출력  
verbose=3 : 완료시간마다 자세히 메시지 출력

In [None]:
from sklearn.model_selection import GridSearchCV

params = {'C': [1, 3, 3.5, 4, 4.5, 5]}
SA_lr_grid_cv = GridSearchCV(SA_lr, param_grid = params, cv = 3, scoring = 'accuracy', verbose = 3)

In [None]:
SA_lr_grid_cv.fit(nsmc_train_tfidf, nsmc_train_df['label'])

In [None]:
print(SA_lr_grid_cv.best_params_, round(SA_lr_grid_cv.best_score_, 4))

In [None]:
#최적 매개변수의 best 모델 저장
SA_lr_best = SA_lr_grid_cv.best_estimator_

In [None]:
#평가용 데이터의 피처 벡터화
nsmc_test_tfidf = tfidf.transform(nsmc_test_df['document'])

In [None]:
test_predict = SA_lr_best.predict(nsmc_test_tfidf)

In [None]:
from sklearn.metrics import accuracy_score

print('감성 분석 정확도 : ', round(accuracy_score(nsmc_test_df['label'], test_predict), 3))

In [None]:
# 긍정의 예: 웃자 ^o^ 오늘은 좋은 날이 될 것 같은 예감100%! ^^*
st = input('감성 분석할 문장 입력 >> ')

In [None]:
#0) 입력 텍스트에 대한 전처리 수행
st = re.compile(r'[ㄱ-ㅣ가-힣]+').findall(st)
print(st)
st = [" ".join(st)]
print(st)

In [None]:
#1) 입력 텍스트의 피처 벡터화
st_tfidf = tfidf.transform(st)
#2) 최적 감성 분석 모델에 적용하여 감성 분석 평가
st_predict = SA_lr_best.predict(st_tfidf)

In [None]:
#3) 예측값 출력하기
if(st_predict == 0):
    print(st , "->> 부정 감성")
else :
    print(st , "->> 긍정 감성")

In [None]:
# 부정의 예: 뭔가 좋지 않은 일이 생길 것 같아!!
st = input('감성 분석할 문장 입력 >> ')

In [None]:
#0) 입력 텍스트에 대한 전처리 수행
st = re.compile(r'[ㄱ-ㅣ가-힣]+').findall(st)
print(st)
st = [" ".join(st)]
print(st)

In [None]:
#1) 입력 텍스트의 피처 벡터화
st_tfidf = tfidf.transform(st)
#2) 최적 감성 분석 모델에 적용하여 감성 분석 평가
st_predict = SA_lr_best.predict(st_tfidf)

In [None]:
#3) 예측값 출력하기
if(st_predict == 0):
    print(st , "->> 부정 감성")
else :
    print(st , "->> 긍정 감성")

## 목표: 코로나 뉴스 텍스트의 감정 분석
- 토픽 모델링을 수행하여 관련 토픽도 분석

### Naver sentiment movie corpus v1.0 (2/2)
데이터 특성(Characteristics)
- All reviews are shorter than 140 characters
- Each sentiment class is sampled equally (i.e., random guess yields 50% accuracy)
- 100K negative reviews (originally reviews of ratings 1-4)
- 100K positive reviews (originally reviews of ratings 9-10)
- Neutral reviews (originally reviews of ratings 5-8) are excluded

In [None]:
import json
file_name = '코로나_naver_news'
with open('./dataSet/'+ file_name+'.json', encoding = 'utf8') as j_f:
    data = json.load(j_f)

In [None]:
print(data)

In [None]:
data_title = []
data_description = []
for item in data:
    data_title.append(item['title'])
    data_description.append(item['description'])

In [None]:
data_title

In [None]:
 data_description

In [None]:
data_df = pd.DataFrame({'title':data_title, 'description':data_description})

In [None]:
data_df['title'] = data_df['title'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ가-힣]+', " ", x))
data_df['description'] = data_df['description'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ가-힣]+', " ", x))

data_df.head() #작업 확인용 출력

In [None]:
#1) 분석할 데이터의 피처 벡터화 ---<< title >> 분석
data_title_tfidf = tfidf.transform(data_df['title'])

#2) 최적 매개변수 학습 모델에 적용하여 감성 분석
data_title_predict = SA_lr_best.predict(data_title_tfidf)

#3) 감성 분석 결과값을 데이터프레임에 저장
data_df['title_label'] = data_title_predict

In [None]:
#1) 분석할 데이터의 피처 벡터화 ---<< description >> 분석
data_description_tfidf = tfidf.transform(data_df['description'])

#2) 최적 매개변수 학습 모델에 적용하여 감성 분석
data_description_predict = SA_lr_best.predict(data_description_tfidf)

#3) 감성 분석 결과값을 데이터프레임에 저장
data_df['description_label'] = data_description_predict

In [None]:
data_df.to_csv('./dataSet/'+file_name+'.csv', encoding = 'euc-kr')

In [None]:
data_df.head()

In [None]:
print(data_df['title_label'].value_counts())

In [None]:
print(data_df['description_label'].value_counts())

In [None]:
columns_name = ['title', 'title_label', 'description', 'description_label']
NEG_data_df = pd.DataFrame(columns = columns_name)
POS_data_df = pd.DataFrame(columns = columns_name)
for i, data in data_df.iterrows():
    title = data["title"]
    description = data["description"]
    t_label = data["title_label"]
    d_label = data["description_label"]
    if d_label == 0: #부정 감성 샘플만 추출
        new_row = pd.DataFrame([[title, t_label, description, d_label]], columns=columns_name)
        NEG_data_df = pd.concat([NEG_data_df, new_row], ignore_index=True)
    else : #긍정 감성 샘플만 추출
        new_row = pd.DataFrame([[title, t_label, description, d_label]], columns=columns_name)
        POS_data_df = pd.concat([POS_data_df, new_row], ignore_index=True)
#파일에 저장
NEG_data_df.to_csv('./dataSet/'+file_name+'_NES.csv', encoding = 'euc-kr')
POS_data_df.to_csv('./dataSet/'+file_name+'_POS.csv', encoding = 'euc-kr')

In [None]:
len(NEG_data_df), len(POS_data_df)

In [None]:
POS_description = POS_data_df['description']

In [None]:
POS_description_noun_tk = []
for d in POS_description:
    POS_description_noun_tk.append(okt.nouns(d)) #명사 형태소만 추출

In [None]:
print(POS_description_noun_tk) #작업 확인용 출력

In [None]:
POS_description_noun_join = []
for d in POS_description_noun_tk:
    d2 = [w for w in d if len(w) > 1] #길이가 1보다 큰 토큰만 추출
    POS_description_noun_join.append(" ".join(d2)) #토큰 연결하여 리스트 구성

In [None]:
print(POS_description_noun_join) #작업 확인용 출력

In [None]:
NEG_description = NEG_data_df['description']
NEG_description_noun_tk = []
NEG_description_noun_join = []
for d in NEG_description:
    NEG_description_noun_tk.append(okt.nouns(d)) #명사 형태소만 추출
for d in NEG_description_noun_tk:
    d2 = [w for w in d if len(w) > 1] #길이가 1보다 큰 토큰만 추출
    NEG_description_noun_join.append(" ".join(d2)) # 토큰 연결하여 리스트 구성

In [None]:
POS_tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, min_df = 2)
POS_dtm = POS_tfidf.fit_transform(POS_description_noun_join)

In [None]:
POS_vocab = dict()
for idx, word in enumerate(POS_tfidf.get_feature_names_out()):
    POS_vocab[word] = POS_dtm.getcol(idx).sum()

POS_words = sorted(POS_vocab.items(), key = lambda x: x[1], reverse = True)

In [None]:
POS_words #작업 확인용 출력

In [None]:
NEG_tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, min_df = 2 )
NEG_dtm = NEG_tfidf.fit_transform(NEG_description_noun_join)

In [None]:
NEG_vocab = dict()
for idx, word in enumerate(NEG_tfidf.get_feature_names_out()):
    NEG_vocab[word] = NEG_dtm.getcol(idx).sum()
NEG_words = sorted( NEG_vocab.items(), key = lambda x: x[1], reverse = True)

In [None]:
NEG_words #작업 확인용 출력

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

font_location = 'C:/Windows/Fonts/malgun.ttf'
font_name = fm.FontProperties(fname = font_location).get_name()
matplotlib.rc('font', family = font_name)
max = 15 #바 차트에 나타낼 단어의 수

In [None]:
plt.bar(range(max), [i[1] for i in POS_words[:max]], color = "blue")
plt.title("긍정 뉴스의 단어 상위 %d개" %max, fontsize = 15)
plt.xlabel("단어", fontsize = 12)
plt.ylabel("TF-IDF의 합", fontsize = 12)
plt.xticks(range(max), [i[0] for i in POS_words[:max]], rotation = 70)

plt.show()

In [None]:
plt.bar(range(max), [i[1] for i in NEG_words[:max]], color = "blue")
plt.title("부정 뉴스의 단어 상위 %d개" %max, fontsize = 15)
plt.xlabel("단어", fontsize = 12)
plt.ylabel("TF-IDF의 합", fontsize = 12)
plt.xticks(range(max), [i[0] for i in POS_words[:max]], rotation = 70)

plt.show()

In [None]:
description = data_df['description']

In [None]:
description_noun_tk = []
for d in description:
    description_noun_tk.append(okt.nouns(d)) #명사 형태소만 추출

In [None]:
description_noun_tk2 = []
for d in description_noun_tk:
    item = [i for i in d if len(i) > 1] #토큰 길이가 1보다 큰 것만 추출
    description_noun_tk2.append(item)

In [None]:
print(description_noun_tk2)

In [None]:
!pip install gensim

In [None]:
import gensim
import gensim.corpora as corpora

In [None]:
dictionary = corpora.Dictionary(description_noun_tk2)

In [None]:
print(dictionary[1]) #작업 확인용 출력

In [None]:
corpus = [dictionary.doc2bow(word) for word in description_noun_tk2]

In [None]:
print(corpus)

In [None]:
k = 4 #토픽의 개수 설정

In [None]:
lda_model = gensim.models.ldamulticore.LdaMulticore(corpus, iterations = 12, 
num_topics = k, id2word = dictionary, passes = 1, workers = 10)

***models.ldamulticore – parallelized Latent Dirichlet Allocation***
- Online Latent Dirichlet Allocation (LDA) in Python, using all CPU cores to parallelize and speed up model training
- corpus ({iterable of list of (int, float), scipy.sparse.csc}, optional) – Stream of document vectors or sparse matrix of shape (num_documents, num_terms)
- num_topics (int, optional) – The number of requested latent topics to be extracted from the training corpus
- id2word ({dict of (int, str), gensim.corpora.dictionary.Dictionary}) – Mapping from word IDs to words. It is used to determine the vocabulary size, as well as for debugging and topic printing.
- workers (int, optional) – Number of workers processes to be used for parallelization
    - If None all available cores (as estimated by workers=cpu_count()-1 will be used. 
- chunksize (int, optional) – Number of documents to be used in each training chunk
- passes (int, optional) – Number of passes through the corpus during training

In [None]:
print(lda_model.print_topics(num_topics = k, num_words = 15))

In [None]:
!pip install pyLDAvis

In [None]:
#한글 UnicodeEncodeError 방지를 위해 기본 인코딩을 "utf-8"로 설정
import os
os.environ["PYTHONIOENCODING"] = "utf-8"

import pyLDAvis
import pyLDAvis.gensim_models

lda_vis = pyLDAvis.gensim_models.prepare(lda_model, corpus, dictionary)

In [None]:
pyLDAvis.display(lda_vis)

In [None]:
pyLDAvis.save_html(lda_vis, './dataSet/'+file_name+"_vis.html")