<a href="https://colab.research.google.com/github/KyeoRaeHan/AI_Solution_Course_DL/blob/main/nlp10_Text_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 텍스트 분석 수행 프로세스

# 1. 텍스트 사전 준비작업(텍스트 전처리): 텍스트를 피처로 만들기 전에 미리 클렌징. 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) 등의 토큰화 작업. 의미없는 단어(Stop Word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행하는 것을 통칭합니다.

2. 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터값을 할당합니다. 대표적인 방법은 BOW와 Word2Vec이 있으며, BOW는 대표적으로 Count기반 TF-IDF 기반 벡터화가 있습니다.

3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML모델을 적용해 학습/예측 및 평가를 수행합니다.



## NLP, 텍스트 분석
- Natural Language Processing : 기계가 인간의 언어를 이해하고 해석하는데 중점. 기계번역, 질의응답시스템
- 텍스트 분석 : 비정형 텍스트에서 의미있는 정보를 추출하는 것에 중점
- NLP는 텍스트 분석을 향상하게 하는 기반 기술
- NLP와 텍스트 분석의 근간에는 머신러닝이 존재. 과거 언어적인 룰 기반 시스템에서 텍스트 데이터 기반으로 모델을 학습하고 예측
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행
  - 텍스트 분류 : 신문기사 카테고리 분류, 스팸 메일 검출 프로그램. 지도학습
  - 감성 분석 : 감정/판단/믿음/의견/기분 등의 주관적 요소 분석. 소셜미디어 감정분석, 영화 리뷰, 여론조사 의견분석. 지도학습, 비지도학습
  - 텍스트 요약 : 텍스트 내에서 중요한 주제나 중심 사상을 추출. 토픽 모델링
  - 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대해 군집화 수행. 비지도 학습

## Text 분석 수행 프로세스
- 텍스트 정규화
  - 클랜징, 토큰화, 필터링/스톱워드 제거/철자 수정, Stemming, Lemmatization
- 피처 벡터화 변환
  - Bag of Words : Count 기반, TF-IDF 기반
  - Word2Vec
- ML 모델 수립 및 학습/예측/평가

## 텍스트 전처리 - 텍스트 정규화
- 클렌징 : 분석에 방해되는 불필요한 문자, 기호를 사전에 제거. HTML, XML 태그나 특정 기호
- 토큰화 : 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화
- 필터링/스톱워드 제거/철자 수정 : 분석에 큰 의미가 없는 단어를 제거
- Stemming, Lemmatization : 문법적 또는 의미적으로 변화하는 단어의 원형을 찾음
  - Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
  - Lemmatization이 Stemming 보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음


In [None]:
# 텍스트 분석 패키지: NLTK, Gensim, SpacCy
## Gensim, SpacCy은 실제 업무에서 자주 활용되는 패키지

In [1]:
# 토큰화를 위한 API를 제공 토큰화를 위한 API를 제공
import nltk
import nltk

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
from nltk import sent_tokenize

In [4]:
# 문장 토큰화: 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막으 뜻하는 기호에 따라 분리하는 것이 일반적.
text_sample = 'In mathematics, a matrix (plural matrices) is. \
a rectangular array or table of numbers, symbols, or expression. \
arranged in rows and columns.'

sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['In mathematics, a matrix (plural matrices) is.', 'a rectangular array or table of numbers, symbols, or expression.', 'arranged in rows and columns.']


In [None]:
# sent_tokenize()를 사용하여 3개의 문장이 3개의 요소를 포함한 list형으로 변환되었다.

In [5]:
# 단어 토근화(word_tokenize): 공백, 콤마(,), 마침표(.), 개행문자, 정규표현식
from nltk import word_tokenize

sentence = 'In mathematics, a matrix (plural matrices) is a rectangular array or table of numbers, symbols, or expression.'
words = word_tokenize(sentence)
print(words)
print(type(words), len(words))

['In', 'mathematics', ',', 'a', 'matrix', '(', 'plural', 'matrices', ')', 'is', 'a', 'rectangular', 'array', 'or', 'table', 'of', 'numbers', ',', 'symbols', ',', 'or', 'expression', '.']
<class 'list'> 23


In [8]:
# 문서에 대해서 모든 단어를 토큰화 문서에 대해서 모든 단어를 토큰화
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
  sentences = sent_tokenize(text) #문장별 분리 토큰
  word_tokens = [word_tokenize(sentence) for sentence in sentences] # 문장별 단어 토큰화
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(word_tokens)
print(type(word_tokens), len(word_tokens)) 

[['In', 'mathematics', ',', 'a', 'matrix', '(', 'plural', 'matrices', ')', 'is', '.'], ['a', 'rectangular', 'array', 'or', 'table', 'of', 'numbers', ',', 'symbols', ',', 'or', 'expression', '.'], ['arranged', 'in', 'rows', 'and', 'columns', '.']]
<class 'list'> 3


In [None]:
# 3개 문장을 먼저 토큰화했으므로 3개의 리스트 객체를 내포하는 리스트, 
# 그리고 내포된 개별 리스트 객체는 각각 문장별로 토큰화된 단어 요소를 가지고 있다.

In [9]:
# 스톱워드 제거: the, is, a, will와 같이 '문맥적'으로 큰 의미가 없는 단어를 제거
# 위 단어들은 문장에서 빈번하게 등장해서, 모델이 위 단어들을 중요한 데이터로 학습할 수 있으므로 
# 전처리시 스톱워드를 제거하는 것이 매우 중요하다.
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [10]:
# NLTK english stopwords 갯수 확인
# corpus는 형태소 NLTK english stopwords 갯수 확인
# corpus는 형태소
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [11]:
# stopwords 필터링을 통한 제거
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words = []
# 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 반환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)
print(all_tokens)

[['mathematics', ',', 'matrix', '(', 'plural', 'matrices', ')', '.'], ['rectangular', 'array', 'table', 'numbers', ',', 'symbols', ',', 'expression', '.'], ['arranged', 'rows', 'columns', '.']]


In [12]:
# 문법적 또는 의미적으로 변화하는 '단어의 원형'을 찾는 방법
# stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
fant fanciest


In [None]:
# stemming은 단순히 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있어,
# amus, fant처럼 결과가 이상하게 나온다. 그래서 여기서 더 발전하여 나온게 'WordNet'

In [13]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# Lemmatization(WordNetLemmatizer): 보다 정확한 원형 단어 추출을 위해 단어의 '품사'를 직접 입력
from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working', 'v'),lemma.lemmatize('works', 'v'),lemma.lemmatize('worked', 'v'))
print(lemma.lemmatize('amusing', 'v'),lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'),lemma.lemmatize('happiest', 'a'))

work work work
amuse amuse amuse
happy happy


In [None]:
# GPU VS CPU

In [14]:
import numpy as np
num_samples = 100
height = 71
width = 71
num_classes = 100

import tensorflow as tf
from keras.applications import Xception
import datetime
start = datetime.datetime.now()

model = Xception(weights = None,
                 input_shape=(height,width,3),
                 classes=num_classes)
model.compile(loss='categorical_crossentropy',
              optimizer='rmsprop')
x=np.random.random((num_samples,height,width,3))
y=np.random.random((num_samples,num_classes))

model.fit(x,y,epochs=3,batch_size=16)
model.save('my_model.h5')
end = datetime.datetime.now()
time_delta = end - start

Epoch 1/3
Epoch 2/3
Epoch 3/3
