#### NLP / 텍스트 분석

NLP(National Language Processing)   
- 머신이 인간의 언어를 이해하고 해석하는데 중점을 두고 발전
- 기계 번역, 질의응답 시스템
- 텍스트 분석을 향상하게 하는 기반 기술이라고 볼 수도 있음

TA(Text Analytics)   
- 텍스트 마이닝이라고도 불림
- 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 발전
- 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행
    - 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 통칭/ 지도학습을 적용
        - ex ) 기사 카테고리 분류 / 스팸 메일 검출 
    - 감성 분석 : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등 주관적 요소를 분석하는 기법 총칭 / 지도학습 , 비지도학습에도 적용 가능
        - ex ) SNS 감정 분석 / 제품에 대한 긍정 또는 리뷰,조사 의견 분석
        - TA에서 가장 활발하게 사용 
    - 텍스트 요약 : 텍스트 내 중요한 주제나 중심 사상을 추출하는 기법
        - ex) 토픽 모델링
    - 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대한 군집화 수행
    - 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용 가능
    
NLP와 TA를 구분하는 것이 큰 의미는 없음

### 1. 텍스트 분석 이해

비정형 데이터인 텍스트 분석   
머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소임   
텍스트를 word 기반의 다수 피처로 추출하고 단어 빈도수와 같은 숫자 값을 부여하면 단어 조합인 벡터값으로 표현 가능 => 피처 벡터화 / 피처 추출   
ex) BOW / Word2Vec

#### 텍스트 분석 수행 프로세스
1. 텍스트 사전 준비작업(텍스트 전처리)
    - 피처로 만들기 전에 미리 클렌징,대/소문자 변경, 특수문자 삭제 등 클렌징 작업, 단어 등의 토큰화 작업, 의미 없는 단어(Stop word_ 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업 수행
2. 피처 벡터화/추출
    - 사전 준비 작업으로 가공된 텍스트에서 피처 추출하고 여기에 벡터 값 할당
    - BOW / Word2Vec , BOW는 대표적으로 Count 기반 , TF-IDF 기반 벡터화로 나뉨
3. ML 모델 수립 및 학습/예측/평가
    - 피처 벡터화된 데이터 세트에 ML모델 적용해 학습/예측 및 평가 수행

#### 파이썬 기반의 NLP , 텍스트 분석 패키지
파이썬 기반 NLP / 텍스트 분석 패키지
1. NLTK(Natural Language Toolkit for Python) : 파이썬의 가장 대표적인 NLP 패키지 / 방대한 데이터 세트와 서브 모듈 가지고 있으며 NLP의 거의 모든 영역 커버 / 수행속도 측면에서 아쉬운 부분이 있어 대량 데이터 기반에서는 제대로 활용 X
2. Gensim : 토픽 모델링 분야에서 두각을 나타냄 / SpaCy와 함께 가장 많이 사용됨
3. SpaCy : 뛰어난 수행 성능으로 최근에 가장 주목 받음

### 2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

- 텍스트 자체를 바로 피처로 만들 수는 없음. 사전에 텍스트 가공하는 준비 작업 필요
- 클렌징, 정제, 토큰화, 어근화 등 텍스트 사전작업 수행을 의미함
- 클랜징 : 분석에 방해되는 불필요한 문자, 기호 등을 사전에 제거하는 작업 / HTML,XML 태그나 특정 기호 등 제거
- 텍스트 토큰화 : 문장토큰화 / 단어토큰화
    - 문장 토큰화 : 마침표 , 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적임 / 정규 표현식에 따른 토큰화도 가능   
    각 문장이 가지는 시맨틱적 의미가 중요한 요소로 사용되는 경우 사용
    - 단어 토큰화 : 공백, 콤마, 마침표, 개행문자등으로 단어 분리 / 정규 표현식을 이용해 다양한 유형으로 토큰화 수행 가능   
    단어 순서가 중요하지 않은 경우 주로 단어 토큰화만 사용해도 충분함

In [2]:
# NLTK sent_tokenize로 문장 토큰화 수행
from nltk import sent_tokenize
import nltk

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [3]:
# NLTK word_tokenize로 단어 토큰화 수행
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words),len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [4]:
# sent_tokenize와 word_tokenize로 모든 단어 토큰화
def tokenize_text(text):
    sentences == sent_tokenize(text)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)
# 문장을 단어별로 하나씩 토큰화 할 경우 문맥적 의미 무시될 수 밖에 없음
# n-gram : 연속된 n개의 단어를 하나의 토큰화 단위로 분리

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### 스톱 워드 제거
- Stop word ; 분석에 큰 의미가 없는 단어 지칭
- 문법적 특성에 의해 빈번하게 나타나므로 중요한 단어로 인지될 수 있음

In [5]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\samsung\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [6]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [7]:
# stopwords 필터링으로 제거해 분석에 의미 있는 단어만 추출
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words = []
    for word in sentence :
        word = word.lower()
        
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


#### Stemming 과 Lemmatization
- 문법적 또는 의미적으로 변화하는 단어의 원형 찾아줌
- Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형 찾음 
- Stemming은 좀 더 일반적이고 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어 추출하는 경향이 있음
- Lemmatization이 변환에 더 오랜 시간 필요함

In [8]:
# NLTK의 LancasterStemmer를 이용해 Stemmer 살펴보기
# 진행형, 3인칭 단수, 과거형에 따른 동사, 비교, 최상에 따른 형용사 변화에 따라 원형 단어 찾아줌
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))
# 정확한 원형을 찾지 못하거나 , 비교형, 최상급형으로 변형된 단어의 원형 찾지 못하는 경우가 발생함

work work work
amus amus amus
happy happiest
fant fanciest


In [9]:
# WordNetLemmatizer로 Lemmatization 수행
# 단어의 품사 입력 필요
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))
# Stemmer보다 정확하게 원형 단어 추출해줌

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


### 3. Bag of Words - BOW

모든 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대한 빈도값을 부여해 피처 값 추출하는 모델   
1. 모든 단어의 중복 제거하고 각 단어를 칼럼 형태로 나열해 고유 인덱스 부여
2. 개별 문장에서 단어가 나타나는 횟수를 단어 인덱스에 기재

장점
- 쉽고 빠른 구축
- 예상보다 문서의 특징을 잘 나타낼 수 있는 모델로 여러 분야에서 활용도가 높음

단점
- 문맥 의미(Semantic Context) 반영 부족
- 희소 행렬 문제 -> ML 알고리즘의 수행 시간과 예측 성능 떨어뜨림

#### BOW 피처 벡터화
- 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경
- M개의 문서에 총 N개의 단어가 있다면 M*N개의 단어 피처로 이뤄진 행렬 구성

1. 카운트 기반 벡터화
    - 단어 피처에 값 부여 시 단어가 나타나는 횟수 부여하는 경우
    - 그 문서의 특징보다는 언어의 특성상 문장에서 자주 사용될 수 밖에 없는 단어까지 높은 값 부여
2. TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화
    - 카운트 기반 벡터화의 문제 보완
    - 개별 문서에 자주 나타나는 단어에 높은 가중치 주되, 모든 문서에 전반적으로 자주 나타나는 단어에 대해서는 페널티 주는 방식으로 값 부여
    - 문서마다 텍스트가 길고 문서 개수가 많은 경우 더 좋은 예측 성능 보장
    ![image.png](attachment:image.png)

#### 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidVectorizer
- CountVectorizer / TfidVectorizer 벡터화 방법
    1. 영어의 경우 모든 문자 소문자로 변경
    2. 디폴트로 단어 기준으로 n_gram_range 반영해 각 단어 토큰화
    3. 텍스트 정규화 수행 / stop_words 파라미터가 주어진 경우 스톱 워드 필터링
    4. 토큰화된 단어 피처로 추출하고 단어 빈도수 벡터값 적용

#### BOW 벡터화를 위한 희소 행렬
- 희소행렬 : 대규모 행렬의 대부분의 값을 0이 차지하는 행렬
- BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬임
- 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 메모리 공간이 많이 필요하고, 행렬 크기가 커서 연산 시에도 데이터 액세스를 위한 시간 많이 소모
- COO 형식 / CSR 형식으로 물리적으로 적은 메모리 공간 차지하도록 변환 가능
- 일반적으로 큰 희소 행렬 저장하고 계산 수행 능력이 뛰어난 CSR 형식 많이 사용

#### 희소 행렬 - COO 형식
- COO(Coordinate:좌표) 형식
    - 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식

In [12]:
import numpy as np
dense = np.array([[3,0,1], [0,2,0]])

from scipy import sparse
# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행과 열 위치 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos))) # 희소 행렬 객체 변수
sparse_coo.toarray() # 다시 밀집 행렬 형태로 출력

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소 행렬 - CSR 형식
- CSR(Compressed Sparse Row) 형식 
    - COO 형식의 경우 행과 열 위치를 나타내기 위해 반복적인 위치 데이터 사용해야함
    - 행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가지는 변환 방식

In [13]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

row_pos_ind = np.array([0,2,7,9,10,12,13])

sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [14]:
# 실제 사용 시 밀집 행렬을 파라미터로 입력하면 COO나 CSR 희소 행렬로 생성해줌
dense3 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])
coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)