## 텍스트 분석 (Text Analysis) in ML

#### 굳이 구분하자면, 1)NLP는 머신이 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술이 발전해왔으며 2)Text Mining 이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 둠

텍스트 분석은 머신러닝, 언어 이해, 통계등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석등의 분석 작업을 주로 수행

1)텍스트 분류 (Text Classification) : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법. 신문기사 내용이 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동으로 분류하는 것에 해당

2)감성 분석(Sentiment Analysis) : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰, 여론조사 의견 분석 등의 다양한 영역에서 활용됨. 요즘 가장 각광받는 분야이며 지도학습(Supervised Learning) 뿐만아니라 비지도학습(Unsupervised Learning)을 이용해 적용할 수 있음

3) 텍스트 요약(Summarization) : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법. 대표적으로 토픽 모델링(Topic Modeling)이 있음

4)텍스트 군집화(Clustering)와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법을 의미. 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용될 수 있으며 유사도 측정 또한 문서들간의 유사도를 측정해 비슷한 문서끼리 모을 수 있는 방법

## 텍스트 분석 수행 프로세스의 이해

#### 머신러닝 기반 텍스트 분석 프로세스의 순서

1) 텍스트 사전 준비작업 (전처리) : 텍스트를 Feature로 만들기 전에 사전에 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) 등의 토큰화 작업, 의미없는 단어(Stop Word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행하는 것을 모두 의미함

2)Feature 벡터화/추출 : 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당. 대표적인 방법으로 Bag of Words(BOW)와 Word2Vec이 있으며, BOW는 Count기반과 TF-IDF 기반 벡터화가 있음.

3) ML 모델 수립 및 학습/예측/평가 : 피처 벡터화된 데이터 세트에 머신러닝 모델을 적용해 학습/예측 및 평가를 수행

#### 1. 텍스트 사전 준비작업 (전처리)

텍스트 자체를 피처로 만들 수는 없기에 사전 가공작업이 필요.
클렌징, 정제, 토큰화, 어근화 등의 다양한 사전 작업을 수행해야함. 이러한 작업을 텍스트 정규화 작업이라 하는데 크게 다음과 같이 분류할 수 있음.

- 클렌징(Cleansing) : 텍스트 분석시 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업
- 토큰화 (Tokenization) : 문장 토큰화와 단어 토큰화로 나눠짐. NLTK는 다양한 API제공함
- 필터링 / 스톱워드제거 / 철자 수정
- Stemming / Lemmatization

#### 토큰화 작업

문장토큰화는 문장의 마침표, 개행문자 (\n) 등 문자의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적임

In [6]:
from nltk import sent_tokenize

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text=text_sample)

In [7]:
print(type(sentences),len(sentences)) ## 전체 텍스트가 List형태로 3개로 토큰화됨

<class 'list'> 3


In [9]:
print(sentences) ##결과

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


단어토큰화 (Word Tokenization)는 문장을 단어로 토큰화하는 것. 기본적으로 공백, 콤마, 마침표, 개행문자등으로 단어를 분리하지만, 정규 표현식(RE)을 이용해 다양한 유형으로 토큰화 수행 가능

In [11]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


sent_token 과 word_token 조합하여 모든 단어를 토큰화 시키는 작업 수행해보겠음.

In [16]:
from nltk import word_tokenize, sent_tokenize

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

def tokenize_text(text):
    
    sentences = sent_tokenize(text)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


해석 : 3개이ㅡ 문장을 문장별로 먼저 토큰화했으므로 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트임. 그리고 내포된 개별 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 가지고 있음

문장을 단어별로 하나씩 토큰화 할 경우 문맥적인 의미가 무시될 수 밖에 없음. 이를 약간이라도 해결하기위해 도입된 것이 n-gram. 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행

예시) "Agent Smith knocks the door"를 2-gram(bigram)으로 만들면 (Agent, Smith), (Smith, knocks),(knocks, the), (the, door) 와 같이 연속적으로 2개이ㅡ 단어들을 순차적으로 이동하면서 토큰화시킴

#### 스톱 워드 (Stop Word) 제거

Stop Word는 분석에 큰 의미가 없는 단어를 지칭. is, the, a, will등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어가 이에 해당함.
NLTK에 stop word가 목록화 되어있음

In [17]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tkim29\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
print('영어 스톱워드 개수:',len(nltk.corpus.stopwords.words('english')))

영어 스톱워드 개수: 179


In [21]:
print(nltk.corpus.stopwords.words('english')[:179])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [24]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
##word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]
    #개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        ##소문자 변환
        word = word.lower()
        #토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


is, this와 같은 스톱워드가 필터링을 통해 제거되었음을 확인.

#### Stemming 과 Lemmatization

문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것

Stemming과 Lemmatization 모두 목적은 유사하지만, Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾아냄.

In [29]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


amuse의 경우 amus로 나오며 happy와 fancy의 경우에도 정확하게 인식하지 못함을 볼 수 있음

이번에는 WordNetLemmatizer를 이용해 Lemmatization을 아래와 같이 수행

In [30]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
#v 는 verb(동사)를 의미
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused', 'v'))

amuse amuse amuse


In [31]:
#a는 adjective(형용사)를 의미
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest','a'))

happy happy


In [32]:
print(lemma.lemmatize('fancy', 'a'), lemma.lemmatize('fanciest','a'))

fancy fancy


결과적으로 원형을 더 잘 찾아줌

## Bag of Words - BOW

문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델

BOW의 장점은 쉽고 빠른 구축. 단순히 단어의 발생 횟수에 기반하고 있지만, 예상보다 문서의 특징을 잘 나타낼 수 있는 모델이어서 전통적으로 여러분야에서 활용도가 높음

단점은 문맥 의미 반영 부족과 희소 행렬 문제가 있음. 희소 행렬 문제란 BOW로 피처 벡터화를 수행하면 희소 행렬 형태의 데이터 세트가 만들어지기 쉬움. 대규모의 칼럼으로 구성된 행렬에서 대부분의 값이 0으로 채워지는 행렬을 희소행렬(Sparse Matrix)라고 함. 이와 반대로 대부분 의미있는 값으로 채워져 있는 행렬을 밀집 행렬(Dense Matrix)라고 함

#### BOW 피처 벡터화

텍스트는 특정 의미를 가지는 숫자형 값인 벡터값으로 변환하는 작업을 피처 벡터화라고 함. 예를 들면 각 문서의 텍스트를 단어로 추출해 피처로 할당하고, 각 단어의 발생 빈도와 같은 값을 이 피처에 값으로 부여해 각 문서를 이 단어 피처의 발생 빈도 값으로 구성된 벡터로 만드는 기법

BOW의 피처 벡터화는 두가지 방식이 있음
- 카운트 기반 벡터화
- TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화

단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수, 즉 COunt를 부여하는 경우를 카운트 벡터화라고 함. 카운트 벡터화에서는 카운트 값이 높을수록 중요한 단어로 인식됨

그러나 카운트만 부여할 경우 그 문서의 특징을 나타내기보다 자주 사용 될 수 밖에 없는 단어까지 높은 값을 부여하게됨. 이 문제를 보환하기위해 TF-IDF 벡터화를 사용

TF-IDF 벡터화는 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여

#### 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidfVectorizer

In [41]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [42]:
CountVectorizer()

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [43]:
TfidfVectorizer()

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

## 실습예제 : 20 뉴스그룹 분류하기

In [44]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset = 'all', random_state=156)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [45]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [46]:
import pandas as pd

print('target 클래스의 값과 분포도 \n', pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n', news_data.target_names)


target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [47]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [60]:
from sklearn.datasets import fetch_20newsgroups

fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), 
                   random_state=156)
X_train = news_data.data
y_train = news_data.target


test_news = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'), 
                               random_state=156)
X_test = news_data.data
y_test = news_data.target

print('학습 데이터 크기{0}, 테스트 데이터 크기 {1}'.format(len(news_data.data), 
                                            len(news_data.data)))

학습 데이터 크기18846, 테스트 데이터 크기 18846
