<a href="https://colab.research.google.com/github/kimgyogeon/Cava_nlp/blob/main/nlp10_Text_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**NLP, 텍스트 분석**

* Natural Language Processing: 기계가 인간의 언어를 이해하고 해석하는데 중점. 기계번역, 질의 응답시스템
*  텍스트 분석: 비정형 텍스트에서 의미있는 정보를 추출하는것에 중점
* NLP는 텍스트 분석을 향상하게 하는 기반기술
* NLP와 텍스트 분석의 근간에는 머신러닝이 존재, 과거 언어적인 툴 기반 시스템에서 텍스트 데이터기반으로 모델을 학습하고 예측

* 텍스트 분석은 머신러닝, 언어이해, 통계등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행

  1.   텍스트분류: 신문기사 카테고리 분류, 스팸메일 검출 프로그램, 지도학습
  2.   감성분석: 감정/판단/믿음/의견/기분 등의 주관적 요소 분석. 소셜미디어 감정분석, 영화리뷰, 여론조사, 의견분석, 지도학습, 비지도학습
  3. 텍스트 요약: 텍스트 내에서 중요한 주제나 중심 사상을 추출, 토픽 모델링
  4.  텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화 수행, 비지도학습

**Text 분석 수행 프로세스**
*  텍스트 정규화
    -클랜징, 토큰화,필터링/스톱워드제거/철자수정,Stemming, Lemmatization

*  피처 벡터화 변환
    -Bag of Words: Count 기반, TF-IDF기반
    -Word2Vec
*  ML모델 수립 및 학습/예측/평가

**텍스트 전처리**-텍스트 정규화
*  클렌징 : 분석에 방해되는 불필요한 문자, 기호를 사전에제거, HTML,XML태그나 특정 기호
*  토큰화: 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화
*  필터링/스톱워드 제거/ 철자 수정: 분석에 큰 의미가 없는 단어를 제거
*  Stemming, Lemmatization: 문법적 또는 의미적으로 변화하는 단어의 원형을 찾음
    * Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
    * Lemmatization 이 Stemming 보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음





In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# 문장 토큰화 (sent tokenize) :마침표, 개행문자(\n), 정규표현식
from nltk import sent_tokenize
text_sample = 'i love you. \
you can see something. \
i don"t care.'
sentences = sent_tokenize(text = text_sample)
print(sentences)
print(type(sentences), len(sentences))

['i love you.', 'you can see something.', 'i don"t care.']
<class 'list'> 3


In [None]:
# 단어 토큰화(word_tokenize) : 공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize

sentence = 'i love you.'
words = word_tokenize(sentence)
print(words)
print(type(words),len(words))

['i', 'love', 'you', '.']
<class 'list'> 4


In [None]:
# 문서에 대해서 모든 단어를 토큰화
from nltk import word_tokenize, sent_tokenize
def tokenize_text(text):
  sentences = sent_tokenize(text) #문장별 분리토큰
  word_tokens = [word_tokenize(sentence) for sentence in sentences] #문장별 단어 토큰화
  return word_tokens

word_tokens = tokenize_text(text_sample)
print(word_tokens)
print(type(word_tokens), len(word_tokens))

[['i', 'love', 'you', '.'], ['you', 'can', 'see', 'something', '.'], ['i', 'don', "''", 't', 'care', '.']]
<class 'list'> 3


In [None]:
# 스톱워드 제거 : the, is, a, will와 같이 문맥적으로 큰 의미가 없는 단어를 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
#NLTK english stopwords 갯수 확인
print(len(nltk.corpus. stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [None]:
# stopwords 필터링을 통한 제거
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
for sentence in word_tokens:
  filtered_words = []
  for word in sentence:
    word = word.lower()
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)
print(all_tokens)

[['love', '.'], ['see', 'something', '.'], ["''", 'care', '.']]


In [None]:
# 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법
# Stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('aumses'),stemmer.stem('amused'))

work work work
amus aums amus


In [None]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# Lemmatization(WordNetLemmatizer): 정확한 원형 단어 추출을 위해 단어의 품사를 직접 입력

from nltk.stem. wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working','v'),lemma.lemmatize('works','v'),lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('aumses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fancier','a'),lemma.lemmatize('fancier','a'))

work work work
amuse aumses amuse
fancy fancy fancy


GPU vs CPU

In [1]:
import numpy as np
num_samples = 100
height = 71
width = 71
num_classes = 100

import tensorflow as tf
from keras.applications import Xception
import datetime
start = datetime.datetime.now()

model = Xception(weights = None,
                 input_shape=(height,width,3),
                 classes=num_classes)
model.compile(loss='categorical_crossentropy',
              optimizer='rmsprop')
x=np.random.random((num_samples,height,width,3))
y=np.random.random((num_samples,num_classes))

model.fit(x,y,epochs=3,batch_size=16)
model.save('my_model.h5')
end = datetime.datetime.now()
time_delta = end - start

Epoch 1/3
Epoch 2/3
Epoch 3/3


In [None]:
print('걸린시간:{}초'.format(time_delta.seconds))

In [None]:
import numpy as np
num_samples = 100
height = 71
width = 71
num_classes = 100

import tensorflow as tf
from keras.applications import Xception
import datetime
start = datetime.datetime.now()

with tf.device('/cpu:0'):
  model = Xception(weights = None,
                  input_shape=(height,width,3),
                  classes=num_classes)
  model.compile(loss='categorical_crossentropy',
                optimizer='rmsprop')
  x=np.random.random((num_samples,height,width,3))
  y=np.random.random((num_samples,num_classes))

  model.fit(x,y,epochs=3,batch_size=16)
  model.save('my_model.h5')
end = datetime.datetime.now()
time_delta = end - start

In [None]:

print('걸린시간:{}초'.format(time_delta.seconds))

피처 벡터화 : One-hot encoding Bag of Words : 문맥이나 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델.
단점 : 문맥 의미 반영 부족, 희소 행렬 문제.

BOW에서 피처 벡터화 : 모든 단어를 컬럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것.
피처 벡터화 방식 : 카운트 기반, TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화
카운트 벡터화 : 카운트 값이 높을수록 중요한 단어로 인식. 특성상 자주 사용되는 보편적인 단어까지 높은 값 부여
TF-IDF : 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서 패널티 부여. '빈번하게', '당연히', '조직', '업무' 등
파라미터

  -max_df : 너무 높은 빈도수를 가지는 단어 피처를 제외

  -min_df : 너무 낮은 빈도수를 가지는 단어 피처를 제외

  -max_features : 추출하는 피처의 개수를 제한하며 정수로 값을 지정

  -stop_words : 'english'로 지정하면 스톱 워드로 지정된 단어는 추출에서 제외

  -n_gram_range : 튜플 형태로 (범위 최솟값, 범위 최댓값)을 지정

  -analyzer : 피처 추출을 수행하는 단위. 디폴트는 'word'

  -token_pattern : 토큰화를 수행하는 정규 표현식 패턴을 지정

  -tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용
  

In [None]:
# ndarray 객체 생성
import numpy as np
dense = np.array([[3,0,1],[0,2,0]])
dense

In [None]:
# 희소행렬 - COO 형식
from scipy import sparse
data = np.array([3,1,2]) # 0이 아닌 데이터
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])
sparse_coo = sparse.coo_matrix((data,(row_pos,col_pos)))
print(sparse_coo)

In [None]:
# 희소행렬 - COO vs CSR 형식
dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])
# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2,(row_pos,col_pos)))
print(sparse_coo)
print(sparse_coo.toarray())
print()
# CSR 형식으로 변환
# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])
sparse_csr = sparse.csr_matrix((data2,col_pos,row_pos_ind))
print(sparse_csr)
print(sparse_csr.toarray())

In [None]:
# DictVectorizer : 문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력받아 
# BOW 인코딩한 수치 벡터로 전환
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A':1,'B':2},{'B':3,'C':1}]
X = v.fit_transform(D)
print(X)
print(v.feature_names_)
print(v.vocabulary_)
print(v.transform({'C':4,'D':3}))

In [None]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second document',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]
vect = CountVectorizer()
vect.fit(corpus)
print(vect.get_feature_names())
print()
print(vect.vocabulary_)

In [None]:
print(vect.transform(['This is the second document']).toarray())

In [None]:

print(vect.transform(['Something completely new.']).toarray())

In [None]:
print(vect.transform(corpus).toarray())

In [None]:
# Stop Words는 문서에서 단어장을 생성할 때 무시할 수 있는 단어. 
# 보통 영어의 관사, 접속사, 한국어의 조사 등

vect = CountVectorizer(stop_words=['and','is','the','this']).fit(corpus)
vect.vocabulary_

In [None]:
vect = CountVectorizer(stop_words='english').fit(corpus)
vect.vocabulary_

In [None]:
# analyzer, tokenizer, token_pattern 등의 인수로 사용할 토큰 생성기를 선택
vect = CountVectorizer(analyzer="char").fit(corpus)
vect.vocabulary_

In [None]:
vect = CountVectorizer(token_pattern='t\w+').fit(corpus)
vect.vocabulary_

In [None]:
# n-그램은 단어장 생성에 사용할 토큰의 크기 결정
vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
vect.vocabulary_

In [None]:
vect = CountVectorizer(ngram_range=(1,2),token_pattern='t\w+').fit(corpus)
vect.vocabulary_


In [None]:
TF-IDF(Term Frequency – Inverse Document Frequency) 인코딩은 단어를 갯수 그대로 카운트하지 않고 모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소
문서 d(document)와 단어 t 에 대해 다음과 같이 계산

tf-idf(d,t)=tf(d,t)⋅idf(t)

tf(d,t): term frequency. 특정한 단어의 빈도수

idf(t) : inverse document frequency. 특정한 단어가 들어 있는 문서의 수에 반비례하는 수

n : 전체 문서의 수

df(t) : 단어 t 를 가진 문서의 수

idf(d,t)=log(n/(1+df(t))

In [None]:
corpus = ["""
The Corpus of Contemporary American English (COCA) is the only large, 
genre-balanced corpus of American English. COCA is probably the most 
widely-used corpus of English, and it is related to many other corpora of 
English that we have created, which offer unparalleled insight into variation 
in English.
"""]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidv = TfidfVectorizer(stop_words='english').fit(corpus)
print(tfidv.get_feature_names())
print()
print(tfidv.vocabulary_)
print()
print(tfidv.transform(corpus).toarray())
print(tfidv.transform(['This is the second document']).toarray())
