## NLP(Natural Language Processing)

인간의 언어를 이해하고 해석

### 텍스트 분석

머신러닝, 언어이해, 통계 활용해 모델 수립하고 정보 추출해 비즈니스 인텔리전스나 예측분석 등 분석 작업 주로 수행

**텍스트 분류(Text Classification)**
문서가 특정분류 또는 카테고리에 속하는 것을 예측하는 기법    
ex) 특정 신문기사 내용이 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동 분류 혹은 스팸메일 검출, 지도학습 적용    
**감성 분석(Sentiment Analysis)**    
텍스트에서 나타나는 감정/판단/믿음/의견/기분 등 주관적 요소 분석 기법    
소셜 미디어 감정분석, 영화나 제품에 대한 긍정또는 리뷰, 여론조사 의견분석 등 활용    
지도학습/비지도학습 이용해 적용    
**텍스트 요약(Summarization)**    
텍스트 내 중요한 주제나 중심 사상 추출하는 기법, 대표적으로 토픽 모델링    
**텍스트 군집화와 유사도 측정**    
비슷한 유형의 문서에 대해 군집화 수행하는 기법    
텍스트 분류를 비지도학습으로 수행하는 방법으로 사용    
문서들간의 유사도 측정해 비슷한 문서끼리 모을 수 있는 방법    

1. Text 문서를 데이터사전 가공 후 Feature Vectorization 수행    
2. Bag of Words 또는 Word2Vec에 Feature 기반의 데이터셋 제공    
3. ML 학습/예측/평가    

### 텍스트 전처리 - 텍스트 정규화

**클렌징(Cleansing)**    
텍스트에 분석에 방해되는 불필요한 문자, 기호 등 사전에 제거 ex) HTML, XML 태그나 특정 기호    
**토큰화(Tokenization)**    
문장 토큰화, 단어 토큰화, n-gram    
* N-gram    
문장 개별단어 하나씩 토큰화할 경우 문맥적 의미 무시, 문제 해결 위해 도입    
"Agent Smith knocks the door"를 2-gram(bigram)으로 만들면 (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)    

**필터링/스톱워드 제거/철자 수정**    
불필요한 단어나 분석에 큰 의미없는 단어(a, the, is, will등)와 잘못된 철자 수정    
**Stemming/Lemmatization**    
어근(단어 원형) 추출, Lemmatization이 Stemming보다 정교하고 의미론적 기반에서 단어 원형을 찾아줌

## 8.2 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

### Text Tokenization

**문장 토큰화**

In [2]:
#nltk 직접 쓰는 경우는 없음
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room.  \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


**단어 토큰화**

In [3]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


**여러 문장들에 대한 단어 토큰화**

In [4]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


**n-gram**

In [6]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

all_ngrams = ngrams(words, 2)
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]


### Stopwords 제거

In [7]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\KwonChulmin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [9]:
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:40])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this']


In [10]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### Stemming과 Lemmatization

In [11]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [12]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


### 8.3 Bag of Words – BOW

**BOW**    
모든 단어들을 문맥 순서 무시하고 일괄적으로 단어에 대해 빈도값 부여해 피처 추출    
문서내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤 흔들어 섞는다는 의미    
Document Term Matrix: 개별 문서(or 문장)을 단어들의 횟수나 정규화 변환된 횟수로 표현

**Word Embedding (Word2Vec)**    
개별 단어를 문맥을 가지는 N차원 공간에 벡터로 표현    

### Bag-of-Words 구조

1. 문장 1과 2에 있는 모든 단어에서 중복 제거 후 각 단어를 컬럼 형태로 나열 후 각 단어에 고유 인덱스 부여    
2. 문장에서 해당단어 나타나는 횟수를 각 단어에 기재

**장점**    
* 쉽고 빠른 구축    
* 예상보다 문서의 특징을 잘 나타내어 여러분야에서 활용도 높음    

**단점**    
* 문맥 의미(Semantic Context) 반영 문제    
* 희소 행렬 문제 (0으로 빈 값 많아져 메모리 낭비)    

### BOW 피처 벡터화 유형    

**단순 카운트 기반의 벡터화**    
단어 피처에 값을 부여할 때 각 문서에서 해당단어 나타나는 횟수, count 부여 횟수    
카운트 벡터화에서 카운트 값 높을수록 중요 단어로 인식    

**TF-IDF 벡터화**    
언어 특성상 문장에서 자주 사용될 수밖에 없는 단어까지 높은 값 부여하는 문제해결    
모든 문서에서 전반적으로 자주 나타나는 단어에 페널티 주는 방식으로 값 부여    

**TF-IDF(Term Frequency Inverse Document Frequency)**    
특정 단어가 다른문서에 나타나지 않고 특정 문서에서만 자주 사용시 해당 단어는 중요 단어일 가능성 높음    
특정 단어가 매우 많은 여러 문서에서 빈번히 나타나면 해당 단어는 개별문서 특징짓는 정보로서 의미 상실

* TF(Term Frequency)    
문서에서 해당단어가 얼마나 나왔는지 나타내는 지표

* DF(Document Frequency)    
해당 단어가 몇개의 문서에서 나타났는지 나타내는 지표

* IDF(Inverse Document Frequency)    
DF의 역수로서 전체문서수 / DF    

TFIDFi = TFi * log (N / DFi)    
TFi = 개별 문서에서의 단어 i 빈도    
DFi = 단어 i를 가지고 있는 문서 개수    
N = 전체 문서 개수

### 사이킷런 CountVectorizer

**max_df**    
너무 높은 빈도수 가지는 단어 피처 제외 위한 파라미터    
max_df=100(정수) then 100개 이하로 나타나는 단어만 피처로 추출    
max_df=0.95(실수) then 빈도수 0~95%까지의 단어만 피처로 추출하고 나머지 상위 5%는 추출하지 않음    
**min_df**    
너무 낮은 빈도수 가지는 단어 피처 제외 위한 파라미터    
min_df=2(정수) then 2번 이하로 나타나는 단어는 피처로 추출하지 않음    
min_df=0.02(실수) then 하위 2% 이하의 빈도수 가지는 단어는 피처로 추출하지 않음    
**max_features**    
피처의 개수 제한하며 정수로 값 지정    
max_features=2000 then 가장 높은 빈도 가지는 단어 순으로 정렬해 2000개까지 피처로 추출    
**stop_words**    
'english'로 지정하면 영어의 스톱워드로 지정된 단어는 추출에서 제외    
**ngram_range**    
n-gram 범위 설정, 튜플 형태로 (범위 최솟값, 범위 최댓값), 디폴트 (1,1)로 지정시 토근화된 단어 1개씩 피처로 추출    
(1,2)로 지정시 토큰화된 단어를 1개씩(min 1), 그리고 순서대로 2개씩(max 2) 묶어서 피처로 추출    
**analyzer**    
피처 추출 수행한 단위 지정, 디폴트 'word'    
Word가 아니라 character의 특정범위 피처로 만드는 특정한 경우 등 사용    
**token_pattern**    
정규 표현식 패턴 지정, 디폴트는 '\b\w\w+\b', \b 사이의 2문자 이상의 단어를 토큰으로 분리    
analyzer='word'로 설정시만 변경 가능하나 디폴트 변경 경우 거의 발생하지 않음    
**lower_case**    
모든 문자를 소문자로 변경할 것인지 설정, 디폴트 True    

**사이킷런 CountVectorizer 테스트**

In [1]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text=[]
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


**CountVectorizer객체 생성 후 fit(), transform()으로 텍스트에 대한 feature vectorization 수행**

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer()

In [3]:
ftr_vect = cnt_vect.transform(text)

**피처 벡터화 후 데이터 유형 및 여러 속성 확인**

In [4]:
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [5]:
print(cnt_vect.vocabulary_) #index를 의미

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [None]:
cnt_vect = CountVectorizer(max_features=5)
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)
# {'the': 2, 'you': 3, 'your': 4, 'or': 1, 'and': 0}

In [6]:
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


**ngram_range 확인**

In [7]:
cnt_vect = CountVectorizer(ngram_range=(1,3))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 201)
{'the': 129, 'matrix': 77, 'is': 66, 'everywhere': 40, 'its': 74, 'all': 0, 'around': 11, 'us': 150, 'here': 51, 'even': 37, 'in': 59, 'this': 140, 'room': 106, 'you': 174, 'can': 25, 'see': 109, 'it': 69, 'out': 90, 'your': 193, 'window': 165, 'or': 83, 'on': 80, 'television': 126, 'feel': 43, 'when': 162, 'go': 46, 'to': 143, 'work': 171, 'church': 28, 'pay': 93, 'taxes': 125, 'the matrix': 132, 'matrix is': 78, 'is everywhere': 67, 'everywhere its': 41, 'its all': 75, 'all around': 1, 'around us': 12, 'us here': 151, 'here even': 52, 'even in': 38, 'in this': 60, 'this room': 141, 'room you': 107, 'you can': 177, 'can see': 26, 'see it': 110, 'it out': 70, 'out your': 91, 'your window': 199, 'window or': 166, 'or on': 86, 'on your': 81, 'your television': 197, 'television you': 127, 'you feel': 179, 'feel it': 44, 'it when': 72, 'when you': 163, 'you go': 181, 'go to': 47, 'to work': 148, 'work or': 172, 'or go': 84, 'to church': 146, '

### 희소 행렬 - COO 형식

**COO 형식**    
Coordinate 방식 의미하며 0 아닌 데이터만 별도 배열 저장하고 그 데이터 가리키는 행과 열 위치를 별도 배열로 저장    
**CSR 형식**    
COO 형식이 위치 배열값을 중복적으로 가지는 문제 해결방식    
희소행렬을 COO, CSR 변환 위해 Scipy의 coo_matrix(), csr_matrix()

In [8]:
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], 
                    [0, 2, 0 ] ] )

In [9]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [10]:
print(type(sparse_coo))
print(sparse_coo)
dense01=sparse_coo.toarray()
print(type(dense01),"\n", dense01)

<class 'scipy.sparse.coo.coo_matrix'>
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2
<class 'numpy.ndarray'> 
 [[3 0 1]
 [0 2 0]]


### 희소 행렬 – CSR 형식

In [11]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [12]:
print(sparse_csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


In [13]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)