## NLP vs 텍스트 분석 
> NLP는 머신이 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술이 발전한 반면에 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 발전해 왔습니다.

## 텍스트 분석 
* 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정부를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행합니다. 
* 텍스트 분석의 종류로는 아래와 같습니다
> * 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법( 카테고리 태깅이나 스팸 메일 검출 프로그램)    
> * 감정 분석 : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법(지도 학습 방법 뿐만 아니라 비지도 학습을 이용해 적용할 수도 있습니다) 
> * 텍스트 요약 : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법. 대표적으로는 토픽 모델링이 존재합니다
> * 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대해 군집화를 수행하는 기법을 말합니다. 텍스트 분류를 비지도 학습으로 수행하는 방법의 일환으로 사용될 수 있습니다. 

# 01- 텍스트 분석 이해 

텍스트 분석은 위에서 말했다시피 비정형 텍스트를 분석하는 것을 의미합니다. 하지만 머신 러닝 알고리즘은 숫자형 기반의 피처 데이터만 입력 받을 수 있기 때문에, 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요합니다. 이렇게 텍스트를 변환하는 방법으로는 BOW(Bag-of-Words)나 Word2Vec 방법이 있습니다. 이러한 과정들을 포함해서 전체적인 텍스트 분석 수행 프로세스를 간략하게 설명하자면 다음과 같습니다. 

> 1. 텍스트 사전 준비 작업(텍스트 전처리) : 텍스트를 피처로 만들기 전에 사전에 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어 등의 토큰화 작업, 의미 없는 단어 제거 작업, 어근 추출 등의 텍스트 정규화 작업을 수행
> 2. 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당합니다. 대표적인 방법으로 BoW나 Word2Vec 이 있으며 BoW에는 count 기반과 TF-IDF기반 벡터화가 있습니다. 
> 3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ml 모델을 적용해 학습/ 예측 및 평가를 수행합니다. 

파이썬에서는 대표적으로 NLTK,GENSIM,SPACY등의 패키지들을 이용해서 텍스트 분석들을 제공합니다.

# 02 - 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화 

앞서 말했다시피 텍스트는 그 자체로 바로 피처로 사용할 수는 없습니다. 이를 위해 사전에 텍스트를 가공하는 준비 작업이 필요한데 이를 위해 하는 사전 작업으로는 아래와 같은 방법들이 있습니다.
* 클렌징   
* 토큰화   
* 필터링/스톱워드 제거/ 철자 수정 
* Stemming
* Lemmatization 

## 클렌징 

텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업입니다. 예를 들어, html,xml태그나 특정 기호등을 사전에 제거합니다.

## 텍스트 토큰화 

토큰화의 유형은 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 분리하는 단어 토큰화로 나눌 수 있습니다. 

### 문장 토큰화 

이는 문장의 마침표(.),개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적입니다. 또한 정규 표현식에 따른 문장 토큰화도 가능합니다. nltk에서 가장 일반적으로 쓰이는 sent_tokenize를 이용해 토큰화를 수행해보도록 하겠습니다.

sent_tokenize(text)는 텍스트를 .이나 개행문자를 기준으로 분리하여 리스트 형태로 뽑아내줍니다. 

In [1]:
from nltk import sent_tokenize

text_sample="The Matrix is everywhere its all around us, here even in this room.\n you can see it out your window or on your television.\n you feel it when you go to work, or go to church or pay your taxes. "
sentences=sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print()
print(sentences)

<class 'list'> 3

['The Matrix is everywhere its all around us, here even in this room.', 'you can see it out your window or on your television.', 'you feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화 

문장을 단어로 토큰화하는 것입니다. 기본적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리하지만, 정규표현식을 이용해 다양한 유형으로 토큰화를  진행할 수 있습니다. bag of word와 같이 단어의 순서가 중요하지 않은 경우에는 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분합니다. 일반적으로 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용합니다. 

In [2]:
from nltk import word_tokenize

sentence=sentences[0]
words=word_tokenize(sentence)
print(type(words),len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
def tokenizer(text):
    
    word_list=[word_tokenize(sentence) for sentence  in sent_tokenize(text=text_sample)]
    
    return word_list

print(tokenizer(text_sample))
# 여러 문장에 대한 토큰화 수행 

[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['you', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['you', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


이런식으로 문장별로 하나씩 토큰화를 할 경우 문맥적인 의미는 무시될 수 밖에 없습니다. 이러한 문제를 조금이라도 해결해 보고자 도입된 것이 `n-gram` 입니다. n-gram은 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것입니다. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 진행합니다. 예를 들어, 위의 경우 (The ,matrix),(matrix, is), (is ,everywhere) 과 같이 연속적으로 2개의 단어를 순차적으로 묶어 토큰화 합니다. 

### 스톱 워드 제거 
스톱워드란 분석에 큰 의미가 없는 단어를 지칭합니다. 영어에서 is, the , a will 등 문장을 구성하는 필수 문법 요소이지만 문맥적으로 큰 의미가 없는 단어들이 이에 해당합니다. nltk의 stopwords를 우선 내려받게 돼 있습니다. 일단 내려받기가 완료된 경우에는 다시 안받아도 되지만 아니라면 받아줘야 합니다.

In [4]:
import nltk 
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sunkeun_jo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

nltk의 english의 경우 몇 개의 stop words 가 있는지 알아보고 그 중 20개만 확인해보겠습니다.

In [7]:

print(f"영어 stop words 개수: {len(nltk.corpus.stopwords.words('english'))}")
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


바로 위의 예제에서 stopwords로 필터링한 이후 제거해 분석을 위한 의미 있는 단어만 추출해 보겠습니다. 소문자 형태로 바꿔주어 추출해 줍니다.

In [18]:
stopwords=nltk.corpus.stopwords.words("english")
all_tokens=[]
for sentence in sent_tokenize(text_sample):
    tokens=[word for word in word_tokenize(sentence) if word.lower() not in stopwords]
    all_tokens.append(tokens)
    
print(all_tokens)

[['Matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### stemming and lemmatization 

많은 언어에서 문법적인 요소에 따라 단어가 다양하게 변화합니다. 같은 단어여도 문법적인 요소에 따라 형태적인 모습이 달라지기 때문에 컴퓨터는 다른 단어로 인식을 하여 사전에 처리가 필요합니다. 두 방법 모두 원형 단어를 찾는다는 목적은 유사하지만 Lemmatization이 stemming 보다 정교하며 의미론적인 기반에서 단어의 원형을 찾습니다. Stemming은 원형 단어로 변환시 일반적인 방법을 적용하거나 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있는데 반해 lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줍니다. 그렇기 때문에 lemmatization이 stemming보다 더 오랜 시간을 필요로 합니다. 

nltk 는 stemmer를 위해 다음과 같은 클래스를 제공합니다
> Porter,Lancaster,Snowball Stemmer

반면에 lemmatization을 위해서는 아래의 클래스를 제공합니다. 
> WordNetLemmatizer


stemming은 진행형, 3인칭 단수, 과거형에 따른 동사, 그리고 비교,최상에 따른 형용사의 변화에 따라 단순하게 추출된 원형 단어를 제공해주지만 lemmatizing은 좀 더 정확한 원형 단어를 제공해줍니다 그러기 위해서 lemmatiazation에서는 argument로 품사를 추가로 입력해줘야합니다.

In [21]:
from nltk.stem import LancasterStemmer
stemmer=LancasterStemmer()
def stemmer_stem(a,b,c):
    return(stemmer.stem(a),stemmer.stem(b),stemmer.stem(c))

print(stemmer.stem("working"),stemmer.stem("works"),stemmer.stem('worked'))
print(stemmer.stem("amusing"),stemmer.stem("amuses"),stemmer.stem("amused"))
print(stemmer_stem("happier","happiest","happying"))
print(stemmer_stem("fancier","fanciest","fancy"))


work work work
amus amus amus
('happy', 'happiest', 'happy')
('fant', 'fanciest', 'fant')


In [25]:
# wordnet을 사용하기ㅐ 위해서는 이 역시 download 시켜줘야합니다
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\sunkeun_jo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [26]:
from nltk.stem import WordNetLemmatizer
def lemma_stem(a,b,c,d):
    lemma=WordNetLemmatizer()
    return lemma.lemmatize(a,d),lemma.lemmatize(b,d),lemma.lemmatize(b,d)

print(lemma_stem("amusing","amuses","amused","v"))
print(lemma_stem("happier","happiest","happy","a"))
print(lemma_stem("fancier","fanciest","fancy","a"))

('amuse', 'amuse', 'amuse')
('happy', 'happy', 'happy')
('fancy', 'fancy', 'fancy')


좀 더 정확하게 원형 단어를 추출해줌을 알 수 있습니다.

# 03-Baf of Words - BOW

모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델 (중복을 제거 해서 각 문장에서단어가 나타나는 횟수를 해당 인덱스에 기재합니다) colummn은 단어이며 index는 문장입니다.

## BoW의 장점 
> 쉽고 빠른 구축이 가능하며 단순하게 단어의 발생 횟수에 기반을 하고 있지만 예상보다 문서의 특징을 잘 나타낼 수 있는 모델이어서 활용도가 높습니다.

## BoW의 단점
> 문맥 의미 반영 부족 : 단어의 순서를 고려하지 않기 때문에 문장 내에서 단어의 문맥적인 의미가 무시됩니다. 이를 보완하기 위해 N_GRAM 기법을 활용을 할 수는 있지만 이 역시 제한적인 부분에 그칩니다

> 희소 행렬 문제(희소성, 희소 행렬) : BoW로 피처 벡터화를 수행하면 희소 행렬 형태의 데이터세트가 만들어지기 쉽습니다. 이러한 희소 행렬은 수행 시간과 예측 성능을 떨어뜨립니다. 
    * 대규모 칼럼으로 구성된 행렬에서 대부분의 값이 0으로 채워지는 행렬을 희소 행렬이라고 합니다. 

## Bow 피처 벡터화 

사이킷 런의 CountVectorizer 클래스는 카운트 기반의 벡터화를 구현한 클래스입니다. 이 클래스는 단순하게 피처 벡터화만 수행하지는 않으며 소문자 일괄 변환, 토큰화, 스톱워드 필터링 등의 텍스트 전처리도 수행합니다. 

입력 파라미터
* max_df : 전체 문서에 걸쳐서 너무 높은 빈도수를 가지는 단어 피처를 제외(100개 이하로 나타나는 단어만 피처로 추출할수도 있고 0.95식으로 표현을 하여 빈도수 0~95%까지의 단어만 추출할 수도 있습니다.
* min_df : 마찬가지로 너무 낮은 빈도수를 가지는 단어 피처를 제외 
* max_features :추출하는 피처의 개수를 제한하여 정수로 값을 지정(2000이라고 설정하면 가장 높은 빈도수를 가지는 단어 순으로 정렬하여 2000개까지만 피처추출) 
* stop_words : "english"로 지정하면 영어의 스톱워드로 지정된 단어는 추출에서 제외 
* n_gram_range : 단어 순서를 어느정도 보강하기 위한 n_gram 범위 설정 튜플 형태로 (최소, 최대값) 으로 지정해야합니다. (1,1) 단어 1개씩 피처로 추출 (1,2)는 단어 1개씩 그리고 순서대로 2개씩 묶어서 피처 추출 
* analyzer : 피처 추출을 수행한 단위 지정 : 디폴트는 'word'입니다. 
* token_pattern : 토ㅓ큰화를 수행하는 정규 표현식 패턴을 지정
> analyzer="word"로 설정했을 때만 변경 ㅇ가능하나 디폴트 값을 변경할 경우는 거의 발생 x 
* tokenizer : 토큰화를 별도으 ㅣ커스텀 함수로 이용시 적용 

## BoW 벡터화를 위한 희소 행렬 

사이킷 런의 CountVectorizer/TfidfVectorizer를 이용해 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소 행렬을 반환하게 되는데 사용자 입장에서 ML모델을 수립하기 위해서는 이러한 희소 행렬이 어떤 형태로 되어 있는지 알아야 합니다. 만약 희소 행렬이 너무 많은 불필요한 0 값이 메모리 공간에 할당이 되어 있다면 연산 시에 데이터 엑세스를 위한 시간이 너무나도 많이 소모가 됩니다. 따라서 이러한 희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데 대표적인 방법으로 __COO형식__과 __CSR__형식이 있습니다. 일반적으로 큰 희소 행렬을 저장하고 계산을 수행하는 능력이 CSR형식이 더 뛰어나기에 CSR을 많이 사용합니다.


## COO 형식[희소 행렬]

COO는 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식으로 되어 있습니다. 0 이 아닌 데이터의 위치를 따로 저장하는 형태입니다. 

파이썬의 세계에서는 이러한 변환을 위해서 주로 scipy를 이용합니다. 다음 예제를 통해서 익혀보도록 하겠습니다.

In [3]:
import numpy as np 
from scipy import sparse 

dense=np.array([[3,0,1],[0,2,0]])
# 0이 아닌 데이터 추출
data=np.array([3,1,2])
# 행 위치와 열 위치를 각각 배열로 지정 
row_pos=np.array([0,0,1])
col_pos=np.array([0,2,1])

#sparse 패키지의 coo matrix를 이용해 COO 형싟으로 희소 행렬 새엇ㅇ
sparse_coo=sparse.coo_matrix((data,(row_pos,col_pos)))
# 해당 객체를 얻고 난 뒤에 array로 바꿔줍니다.
print(sparse_coo.toarray())


[[3 0 1]
 [0 2 0]]


## CSR 형식[희소 행렬]

이는 COO형식이 가지고 있던 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식입니다. 
다음 예시를 보면서 알아보겠습니다.

In [4]:
#dense 
dense=np.array([[0,0,1,0,0,5],[1,4,0,3,2,5],[0,6,0,3,0,0],[2,0,0,0,0,0],[0,0,0,7,0,8],[1,0,0,0,0,0]])
print(dense.shape)

(6, 6)


In [21]:
# 0이 아닌 데이터 값 배열 
unique_list=[ value for i in dense for value in i if value!=0]
print(unique_list)

# 행 위치 
row_pos=[ i for i,val in enumerate(dense) for value in val if value in unique_list]
print(row_pos)
# 열 위치 
col_pos=[ index for i in dense for index,value in enumerate(i) if value in unique_list]
print(col_pos)


# COO 형식으로 변환 
sparse_coo=sparse.coo_matrix((np.array(unique_list),(row_pos,col_pos)))
#추출
print(sparse_coo.toarray())

# 행 위치 배열의 고유한 값의 시작 위치인덱스를 배열로 생성 
row_pos_ind=np.array([0,2,7,9,10,12,13])
#csr형식으로 변환
sparse_csr=sparse.csr_matrix((np.array(unique_list),col_pos,row_pos_ind))
print(sparse_csr.toarray())

[1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1]
[0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]
[2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0]
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [25]:
coo=sparse.coo_matrix(dense)
csr=sparse.csr_matrix(dense)
print(coo,type(coo))
print()
print(csr,type(csr))

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1 <class 'scipy.sparse.coo.coo_matrix'>

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1 <class 'scipy.sparse.csr.csr_matrix'>
