# 텍스트 분석 (Text Analysis)

## NSP (Natural Language Processing)
- 인간의 언어를 이해하고 해석하는데 더 중점을 둔다.
- NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전.

## 텍스트 분석
- 모델을 수립하고 정보를 추출해 BI나 예측 분석 등의 분석 작업을 주로 수행한다. 

## 텍스트 분석 주요 영역
- 텍스트 분류 (Text classification) : 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램. 지도학습을 적용.
- 감성 분석 (Sentiment Analysis) : 주관적인 요소를 분석하는 기법. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰 등. 지도학습 뿐만 아니라 비지도 학습을 이용해 적용. 
- 텍스트 요약 (Summarization) : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법. 토픽 모델링(Topic Modeling)이 있다.
- 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대해 군집화를 수행하는 기법. 텍스트 분류를 비지도 학습으로 수행하는 방법으로 사용될 수 있다. 유사도 측정이 예시이다.

## 텍스트 분석 머신러닝 수행 프로세스
- Text 문서 -> 데이터 가공 -> Feature Vectorization (Bag of words 또는 Word2Vec) 수행 -> Feature 기반의 데이터 셋 제공 -> ML 학습/예측/평가

## 파이썬 기반의 NLP, 텍스트 분석 패키지
- NLTK (National Language Toolkit for Python): 파이썬의 가장 대표적인 NLP 패키지. 방대한 데이터 세트와 서브 모듈을 갖고 있으며 NLP의 거의 모든 영역을 커버. 수행 속도가 느려서 실제 대량의 데이터 기반에서는 제대로 활용되지 못한다.
- Gensim: 토픽 모델링 분야에서 가장 두각을 나타내는 패키지. Word2Vect 구현. 
- SpaCy: 최근 가장 주목을 받는 NLP 패키지이다. 

## 텍스트 전처리 (텍스트 정규화)
- 클렌징 (cleansing) : 방해가 되는 불필요한 문자, 기호 등을 사전에 제거한다. HTML, XML 태그나 특정 기호 등을 제거한다.
- 토큰화 (Tokenization) : 문장 토큰화, 단어 토큰화, n-gram
- 필터링/스톱워드 제거 철자 수정 : a, the, is, will 등. 잘못된 철자 수정
- Stemming / Lemmatization : 어근 추출, Lemmatization이 Stemming보다 정교하고 의미론적 기반에서 단어 원형을 찾아준다. 

## N-gram 
- 문장을 개별 단어 별로 하나씩 토큰화 할 경우 문맥적인 의미는 무시될 수 밖에 없습니다. 이러한 문제를 해결하고자 도입 된 것이 n-gram.
- 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는것이다. 
- e.g. "Agent Smith knocks the door"를 2-gram으로 하면 (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)와 같이 연속적으로 2개의 단어들을 순차적으로 이동하면서 단어들을 토큰화한다.

# 텍스트 전처리 실습

## Text Tokenization

### 문장 토큰화

In [None]:
import nltk
nltk.download('punkt')

In [4]:
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room.  \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화

In [5]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


### 여러 문장들에 대한 단어 토큰화

In [6]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### n-gram

In [7]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

all_ngrams = ngrams(words, 2)
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]


## Stopwords 제거

In [8]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/terrydawunhan/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [9]:
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:40])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this']


In [10]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


## Stemming과 Lemmatization

In [12]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [14]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/terrydawunhan/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [15]:
from nltk.stem import WordNetLemmatizer
# 품사를 넣어 준다 (v =  verb 등)
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


## Bag of Words – BOW

- 대표적인 텍스트 피처 벡터화 유형 중 하나 (Word2Vec, BOW)
- 단어를 모두 피처로 만든다. 
- Document Term Matrix: 개별 문서들을 단어들의 횟수나 정규화 변환된 횟수로 표현
