## NLP, 텍스트 분석
- Natural Language Processing
: 기계가 인간의 언어를 이해하고 해석하는 데 중점
기계번역, 질의 응답 시스템

### 텍스트 정규화
: 클렌징, 토큰화, 필터링/스톱워드제거/철자수정, Stemming/Lemmatization

<자연어 관련 용어>
> 
> 말뭉치 corpus
> : 텍스트 문서의 집합
>
> Token
> : 뜻을 가지는 최소한의 단위, 단어처럼 의미를 가지는 요소
>
> 형태소 Morphemes
> : 의미를 가지는 언어 요소에서 최소 단위
> - 의미를 살릴 수 있는 최소 단위, 더 분석하면 뜻이 없어지는 말의 단위
>
> 품사 POS
>
> 불용어 Stopword
> : 조사, 접사와 같이 자주 나타나지만 실제 의미에 기여하지 못하는 단어(문법적, 의존적)
>
> 어간 추출 Stemming
> : 어간만 추출하는 것을 의미(running, runs, run -> run)
>
> 음소표기법 Lemmatization
>: 앞뒤 문맥을 보고 단어를 식별하는 것

In [1]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.4.5.zip (1.5 MB)
Building wheels for collected packages: nltk
  Building wheel for nltk (setup.py): started
  Building wheel for nltk (setup.py): finished with status 'done'
  Created wheel for nltk: filename=nltk-3.4.5-py3-none-any.whl size=1449913 sha256=f09f759bb9e433eed7693bb1f25fcfcfff0e2cb64baba52e60eac53e8d36cd79
  Stored in directory: c:\users\admin\appdata\local\pip\cache\wheels\48\8b\7f\473521e0c731c6566d631b281f323842bbda9bd819eb9a3ead
Successfully built nltk
Installing collected packages: nltk
Successfully installed nltk-3.4.5


In [3]:
# 모듈 불러오기
import nltk

# 필요한 punkt 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [36]:
# 문장 토큰화(sent_tokenize): 마침표, 개행문자(\n), 정규표현식
from nltk import sent_tokenize

text_sample = 'The Matrix is everyewhere its all around us, here even in this room. \
            You can see it out your window or on your television. \
            You feel it when you go to work, or go to church or pay your taxes'

sentences = sent_tokenize(text=text_sample)

print(sentences); print()

print('type(sentences): ', type(sentences), '\nlen(sentences): ', len(sentences))

['The Matrix is everyewhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes']

type(sentences):  <class 'list'> 
len(sentences):  3


In [37]:
# 단어 토큰화(word_tokenize): 공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize

sentence = 'The Matrix is everyewhere its all around us, here even in this room.'

words = word_tokenize(sentence)

print(words); print()

print('type(words): ', type(words), '\nlen(words): ', len(words))

['The', 'Matrix', 'is', 'everyewhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']

type(words):  <class 'list'> 
len(words):  15


In [38]:
# 문서에 대해서 모든 단어를 토큰화
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):
    # 문장별 분리 토큰화
    sentences = sent_tokenize(text)
    # 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)

print(word_tokens); print()

print('type(word_tokens): ', type(word_tokens), '\nlen(word_tokens): ', len(word_tokens))

[['The', 'Matrix', 'is', 'everyewhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes']]

type(word_tokens):  <class 'list'> 
len(word_tokens):  3


In [13]:
# 불용어 제거
# 스톱 워드 제거: is, the, all, a, will과 같이 문백적으로 큰 의미가 없는 단어를 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [39]:
# NLTK의 english stopwords 개수 확인
print('영어 stopwords 개수: ', len(nltk.corpus.stopwords.words('english')))
# 말뭉치 corpus : 텍스트 문서의 집합
print()
print(nltk.corpus.stopwords.words('english')[:20])

영어 stopwords 개수:  179

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [41]:
""" 내답
stop_words = nltk.corpus.stopwords.words('english')

stop_token = []
for sttokens in word_tokens:
    if sttokens not in stop_words:
        stop_token.append(sttokens)

print(stop_token)
"""

# stopwords를 필터링을 통한 제거
# 소문자 변경 필요
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
for sentence in word_tokens:
    filtered_words = []
    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_words.append(word)
            print(filtered_words)
    all_tokens.append(filtered_words)

print()
print(all_tokens)

['matrix']
['matrix', 'everyewhere']
['matrix', 'everyewhere', 'around']
['matrix', 'everyewhere', 'around', 'us']
['matrix', 'everyewhere', 'around', 'us', ',']
['matrix', 'everyewhere', 'around', 'us', ',', 'even']
['matrix', 'everyewhere', 'around', 'us', ',', 'even', 'room']
['matrix', 'everyewhere', 'around', 'us', ',', 'even', 'room', '.']
['see']
['see', 'window']
['see', 'window', 'television']
['see', 'window', 'television', '.']
['feel']
['feel', 'go']
['feel', 'go', 'work']
['feel', 'go', 'work', ',']
['feel', 'go', 'work', ',', 'go']
['feel', 'go', 'work', ',', 'go', 'church']
['feel', 'go', 'work', ',', 'go', 'church', 'pay']
['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes']

[['matrix', 'everyewhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes']]


### 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법: Stemming, Lemmatization

In [42]:
# Stemmer (Lancaster Stemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print('[work]: ', stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print('[amuse]: ', stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print('[happy]: ', stemmer.stem('happier'), stemmer.stem('happiest'))
print('[fancy]: ', stemmer.stem('fancier'), stemmer.stem('fanciest'))

# 품사 고려 못하고 단순하게만 분류 -> 보완 필요

[work]:  work work work
[amuse]:  amus amus amus
[happy]:  happy happiest
[fancy]:  fant fanciest


In [43]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [45]:
# 분류기
# Lemmatization(WordLemmatizer): 정확한 원형 단어를 추출하기 위해 단어 품사를 입력

from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print('[amuse]: ', lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print('[happy]: ',lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print('[fancy]: ',lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

#어간 추출 Stemming : 어간만 추출하는 것을 의미(running, runs, run -> run)
#음소표기법 Lemmatization : 앞뒤 문맥을 보고 단어를 식별하는 것

[amuse]:  amuse amuse amuse
[happy]:  happy happy
[fancy]:  fancy fancy


### 피처 백터화: One-hot encoding
bag of words

: 문맥이나 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해서 피처를 추출하는 모델
- 단점: 문맥 의미 반영 부족, 희소행렬 문제(메모리를 너무 많이 잡아먹는 비효율적인 구조)

BOW에서 피처 벡터화

: 모든 단어를 컬럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것

피처 벡터화 방식

: 카운트 기반, TF-IDF(Term Frequency - Inverse Document Frequency)기반 벡터화(의미 없는 단어에는 penalty를 부여하는 보완적인 방법)

파라미터
- max_df: 너무 높은 빈도수 단어 피처 제외 0.9(90% 이상 나온 것 제외)
- min_df: 너무 낮은 빈도수 단어 피처 제외
- max_features: 피처 개수 제한
- stop_words
- n_game_range: 튜플 형태, 범위 최솟값, 범위 최댓값 지정
- analyzer: 피처 추출을 수행하는 단위(디폴트는 'word') 단어 한 개 할 건지 세 개 할 건지 등
- token_patten
- tokenize

In [47]:
# ndarray 객체 생성
import numpy as np
dense = np.array([[3, 0, 1], [0, 2, 0]])
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [51]:
# 희소행렬 COO 형식에서 CSR 형식으로 개선됨

# 희소행렬 COO 형식: 0이 아닌 데이터만 별도 데이터 배열에 저장하고
# 행과 행의 위치를 별도의 배열로 저장
# 메모리 절약 방식

# 희소 행렬 변환을 위해 scipy sparse 패키지 이용
"""
array([[3, 0, 1],
       [0, 2, 0]])
"""

from scipy import sparse
data = np.array([3, 1, 2])
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

print(sparse_coo)

sparse_coo.toarray()

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


array([[3, 0, 1],
       [0, 2, 0]])

In [59]:
# 희소 행렬 -CSR 형식 (메모리를 더 절약)
import numpy as np
from scipy import sparse

data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])
# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('[sparse_coo]\n', sparse_coo)
print()
print('[sparse_csr]\n', sparse_csr)

# 다시 matrix 형태로 보기
sparse_csr.toarray()
"""
array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])
"""

[sparse_coo]
   (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1

[sparse_csr]
   (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

In [66]:
#DictVectorizer: 문서에서 단어의 사용 빈도를 나타내는 딕셔너리 정보를 입력받아 BOW 인코딩한 수치를 벡터로 변환
from sklearn.feature_extraction import DictVectorizer

v = DictVectorizer(sparse = False)

D = [{'A':1, 'B':2}, {'B':3, 'C':1}]
X = v.fit_transform(D)

print(v.feature_names_); print()
print(v.vocabulary_); print()
print(X); print()

print(v.transform({'C':4, 'D':3})); print()

# C는 존재하는 값으로 4로 바뀌고 D는 없으므로 생성되거나 바뀌지 않음
# 근데 A, B는 왜 0으로 됨?

['A', 'B', 'C']

{'A': 0, 'B': 1, 'C': 2}

[[1. 2. 0.]
 [0. 3. 1.]]

[[0. 0. 4.]]

[[1. 2. 0.]
 [0. 3. 1.]]


In [3]:
# CountVectorizer
# 문서를 토큰 리스트로 변환
# 각 문서를 BOW 인코딩 벡터로 변환
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['This is the first document.'
          , 'This is the second second document.'
          , 'And the third one'
          , 'Is this the first document?'
          , 'The last document?']

vect = CountVectorizer()
# fit()는 데이터를 모델에서 학습시킬 때 사용
vect.fit(corpus)
print(vect.get_feature_names())
print(vect.vocabulary_)
#{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}
# 단어별로 위치 index(단어가 존재하면 숫자가 표시하는 자리에 1표시 -  두 개이면 2 표시)

print()
print(vect.transform(['This is the second document']).toarray())
# transform()은 데이터를 알맞게 변형해줌

print()
print(vect.transform(['Something completely new.']).toarray())
# 사전에 없으므로 0000000000

print()
print(vect.transform(corpus).toarray())

#[[0 1 1 1 0 0 0 1 0 1]
# [0 1 0 1 0 0 2 1 0 1] # second 가 두번 반복되므로 2임
# [1 0 0 0 0 1 0 1 1 0]
# [0 1 1 1 0 0 0 1 0 1]
# [0 1 0 0 1 0 0 1 0 0]]

# 말뭉치 사전의 중요성

# 문맥마다 중요성이 다르므로 이 점을 보완한 것이 TF-IDF
# 자주 나와도 문맥에 의미가 없으면 penalty를 부여하여 중요도를 낮춤
# 모든 문서에 공통적으로 들어가 있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 penalty를 부여

['and', 'document', 'first', 'is', 'last', 'one', 'second', 'the', 'third', 'this']
{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}

[[0 1 0 1 0 0 1 1 0 1]]

[[0 0 0 0 0 0 0 0 0 0]]

[[0 1 1 1 0 0 0 1 0 1]
 [0 1 0 1 0 0 2 1 0 1]
 [1 0 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 0 1 0 1]
 [0 1 0 0 1 0 0 1 0 0]]


In [75]:
# stopwords는 문서에서 단어장을 생성할 때 무시할 수 있는 단어(보통 영어의 관사나 접사)
vect = CountVectorizer(stop_words=["and", "is", "the", "this"]).fit(corpus)
vect.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [77]:
# english stopwords 179개 적용(해당되는 것은 불용어이므로 다 제외해버리기)
vect = CountVectorizer(stop_words='english').fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

In [79]:
# 철자 단위로
# analyzer, tokenizer, token_pattern 등의 인수로 사용할 토큰 생성기를 선택(디폴트로 word)
vect = CountVectorizer(analyzer='char').fit(corpus)
vect.vocabulary_

{'t': 16,
 'h': 8,
 'i': 9,
 's': 15,
 ' ': 0,
 'e': 6,
 'f': 7,
 'r': 14,
 'd': 5,
 'o': 13,
 'c': 4,
 'u': 17,
 'm': 11,
 'n': 12,
 '.': 1,
 'a': 3,
 '?': 2,
 'l': 10}

In [82]:
# n-그램은 단어장 생성에 사용할 토큰의 크기를 결정
# 모노그램(1-그램)은 토큰 하나만 단어로 사용, 바이그램(2-그램)은 두개의 연결된 토큰을 하나의 단어로 사용
vect = CountVectorizer(ngram_range=(2,2)).fit(corpus)
vect.vocabulary_

#vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
#vect.vocabulary_

{'this is': 12,
 'is the': 2,
 'the first': 7,
 'first document': 1,
 'the second': 9,
 'second second': 6,
 'second document': 5,
 'and the': 0,
 'the third': 10,
 'third one': 11,
 'is this': 3,
 'this the': 13,
 'the last': 8,
 'last document': 4}

In [84]:
# TF-IDF(Term Frequency - Inverse Documnent Frequency) 인코딩은 단어를 개수 그대로 카운트하지 않고
# 모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소
# 문서 d(documnet)와 단어 t에 대해 다음과 같이 계산
tf-idf(d, t) = tf(d, t)*idf(t)

# tf(d, t): term frequency, 특정한 단어의 빈도수
# idf(t): inverse document frequency, 특정한 단어가 들어 있는 문서의 수에 반비례하는 수
# n : 전체 문서의 수
# df(t): 단어 t를 가진 문서의 수
# idf(d, t) = log(n / (1 + df(t)))

SyntaxError: can't assign to operator (<ipython-input-84-3617d9e49fb6>, line 4)

tf(d, t): term frequency, 특정한 단어의 빈도수

idf(t): inverse document frequency, 특정한 단어가 들어 있는 문서의 수에 반비례하는 수

n : 전체 문서의 수

df(t): 단어 t를 가진 문서의 수

idf(d, t) = log(n / (1 + df(t)))

In [85]:
# 학습시킨 후 벡터로 변환하여 array로 표현
from sklearn.feature_extraction.text import TfidfVectorizer
tfidv = TfidfVectorizer().fit(corpus)
tfidv.transform(corpus).toarrayray()

array([[0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.24151532, 0.        , 0.28709733, 0.        ,
        0.        , 0.85737594, 0.20427211, 0.        , 0.28709733],
       [0.55666851, 0.        , 0.        , 0.        , 0.        ,
        0.55666851, 0.        , 0.26525553, 0.55666851, 0.        ],
       [0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.45333103, 0.        , 0.        , 0.80465933,
        0.        , 0.        , 0.38342448, 0.        , 0.        ]])