## || Chapter 08 - 텍스트 분석 ||

## 00. NLP이냐 텍스트 분석이냐

1. **NLP(National Language Processing)**: **머신이** 인간의 언어를 **이해하고 해석**하는 데 중점
    - 텍스트 분석을 향상하게 하는 기반 기술이라고 볼 수도 있음


2. **텍스트 분석**: 비정형 텍스트에서 **의미 있는 정보를 추출**하는 것에 중점
    - 머신러닝, 언어 이해, 통계 등을 활용해 모델 수립하고 정보 추출해 비즈니스 인텔리전스나 예측 분석 등의 **분석 작업** 주로 수행
    - ex: 텍스트분류, 감정분석, 텍스트요약, 텍스트군집화와 유사도 측정

## 01. 텍스트 분석 이해

1. 텍스트 분석: 비정형 데이터인 텍스트를 분석하는 것
    - **피처 벡터화(=피처 추출)**: 텍스트를 word기반의 다수의 피처로 추출하고 여기에 단어 빈도수와 같은 숫자 값 부여해 단어의 조합인 벡터값으로 표현
    - 텍스트 피처 벡터화해서 변환하는 방법: **BOW(Bag of Words)**, Word2Vec
    
    
2. 텍스트 분석 수행 프로세스
    1. **텍스트 사전 준비작업(텍스트 전처리)**: 대/소문자 변경, 특수문자 삭제 등 클렌징 작업 & 의미 없는 단어 제거 작업 & 어근 추출 등 텍스트 정규화 작업 % 단어 등 토큰화
    2. **피처 벡터화/추출**: BOW(Count기반과 TF-IDF기반 벡터화), Word2Vex
    3. **ML모델 수립 빛 학습/예측/평가**
    
    
3. 파이썬 기반의 NLP, 텍스트 분석 패키지
    1. **NLRK(Natural Language Roolkit for Python)**: 파이썬 대표적 NLP 패키지.
        - 방대한 데이터 세트와 서브 모듈O
        - NLP 거의 모든 영역 커버
        - 수행 속도 측면에서 아쉬운 부분이 있어 실제 대량 데이터 기반에서는 제대로 활용X   
    2. **Gensim**: 토픽 모델링 분야에서 가장 두각 나타내는 패키지.
        - Word2Vec 구현 등 신기능 제공
        - SpaCy와 함께 가장 많이 사용되는 NLP 패키지            
    3. **SpaCY**: 뛰어난 수행 성능으로 최근 주목받는 NLP 패키지.

## 02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

1. 텍스트 정규화 작업
    1. **클렌징(Cleansing)**: 불필요한 문자, 기초 제거 
        - HTML, XML태그나 특정 기호 등*
    2. **토큰화(Tokenization)**:
        - 문장 토큰화: 문서에서 문장 분리 -> 마침표(.), 개행문자(\n) 등
        - 단어 토큰화: 문장을 단어로 토큰화 -> 공백, 콤마(,), 마침표, 개행문자 등
    3. **필터링/스톱워드제거/철자수정**: 분석에 큰 의미가 없는 단어(문맥상)
        - is, the, a, will 등 
    4. **Stemming & Lemmatization**: 단어의 원형 찾음
        - Stemming: 일반적 방법 적용하거나 단순화된 방법 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출
               - Porter, Lancaster, Snowball Stemmer
        - Lemmatization: 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어 찾음 -> 변환에 더 오랜 시간 필요
                - WordNetLemmatizer

<font color=blue)> 토근화>문장 토큰화 예제 - 텍스트 문서를 문장으로 분리 </font>

In [4]:
from nltk import sent_tokenize
import nltk
# 마침표, 개행 문자 등의 데이터 세트 다운받는 코드
#nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


<font color=blue)> 토근화>단어 토큰화 예제 </font>

In [5]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


<font color=blue)> 문장토큰화(sent_tokenize) & 단어토큰화(word_tokenize) 함께 사용 </font>

In [6]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


<font color=blue)> 스톱 워드 제거 </font>

In [7]:
import nltk
nltk.download('stopwords')
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...


영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


[nltk_data]   Unzipping corpora\stopwords.zip.


In [8]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


<font color=blue)> Stemming과 Lemmatization </font>

In [9]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


-> 단순한 변화가 아닌 경우 원형 제대로 찾아내지 못함

In [11]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
# 품사 입력해 줘야 함: V-동사, a-형용사
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## 03. Bag of Words - BOW

1. BOW 모델: 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델
     1. 피처 추출 과정
         1. 문장에서 단어의 중복 제거 -> 각 단어 칼럼 형태로 나열 -> 고유 인덱스 부과
         2. 개별 문장에서 해당 단어가 나타나는 횟수 기재
     2. 장점
         - 쉽고 빠른 구축
     3. 단점
         - 문맥 의미 반영 부족
         - 희소 행렬 문제(희소성, 희소행렬)
         
         
2. BOW 피처 벡터화
    1. 텍스트와 같은 데이터는 머신러닝 알고리즘에 바로 입력할 수 없으므로 벡터화 필요
    2. 피처 벡터화: 텍스트를 단어로 추출해 피처로 할당 -> 발생 빈도 등 값 피처에 값으로 부여
    3. **BOW의 피처 벡터화** 방식: 카운트 기반의 벡터화, TF-IDF
        - 카운트 기반 벡터화: 해당 단어가 나타나는 회수, 즉 count를 부여 -> 문서의 특징을 나타내기보다는 언어 특성상 자주 사용될 수 밖에 없는 단어까지 높은 값 부여하게 됨
        - **TF-IDF**: 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 페털티 -> 더 좋은 예측 성능 보장
        
        
3. 카운트 기반(CountVectorizer), TF-IDF(TfidfVectorizer)
     1. CountVectorizer 입력 파라미터
         - max_df: 너무 높은 빈도수 가지는 단어 피처 제외(스톱워드 가능성)
         - min_df: 너무 낮은 빈도수 가지는 단어 피처 제외(가비지성)
         - max_features: 추출하는 피처 개수 제한
         - stop_words: 제외할 스톱워드 지정
         - n_gram_range: BOW 모델의 단어 순서 보강하기 위한 n_gram 범위 설정
         - analyzer: 피처 추출을 수행한 단위 지정. 디폴드 word
         - token_pattern: 토큰화 수행하는 정규 표현식 패턴 지정. 디폴트 \b\w\w+\b
         - tokenizer: 토큰화를 별도의 커스텀 함수로 이용시 적용
      2. CountVectorizer 이용한 피처 벡터화
          - 사전 데이터 가공 -> 토큰화 -> 텍스트 정규화 -> 피처 벡터화
          
          
4. BOW 벡터화 위한 희소 행렬
    - 난이도 있는 ML 모델 수립하기 위해서는 희소 행렬이 어떤 형태로 되어 있는지 알아야 함
    - 희소행렬: 대부분의 값을 0이 차지하는 행렬
    - 너무 많은 불필요한 0 값이 메모리 공간에 할당 -> 적은 메모리 공간 차지하도록 변환
   
    
5. 희소행렬 변환 - **COO 형식**
    - 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장
    - [[3,0,1],[0,2,0]] -> 0아닌 데이터[3,1,2] 로우[0,0,1], 칼럼[0,2,1] ((0,0),(0,2),(1,1))



6. 희소행렬 변환 - **CSR 형식**
    - COO 형식이 행과 열의 위치를 나타내기 위해 반복적인 위치 데이터 사용해야 하는 문제점 해결
    - 행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가지는 변환 방식

![image](https://user-images.githubusercontent.com/79856553/151020085-dc58f8df-8627-4bed-9942-65dc7529a0e4.png)

## <font color=(blue)> 04. 텍스트 분류 실습 - 20 뉴스그룹 분류 </font>

1. **텍스트 분류**: 특정 문서의 분류를 학습 데이터를 통해 **학습해 모델을 생성**한 뒤 이 학습 모델을 이용해 **다른 문서의 분류를 예측**하는 것
    - fetch_20newsgroups(): 뉴스그룹 분류 수행해 볼 수 있는 예제데이터 제공
    - 희소 행렬 분류: 로지스틱 회귀
    - 카운트 기반과 TF-IDF 기반의 벡터화 예측 성능 비교
    - 피처 벡터화 위한 파라미터와 GridSearchCV 기반의 하이퍼 파라미터 튜닝
    - 사이킷런의 Pipeline 객체 통해 피처 벡터화 파라미터와 GridSearchCV 기반 하이퍼 파라미터 튜닝 한꺼번에 수행하는 방법 소개

##### 1. 텍스트 정규화

In [13]:
# 데이터 다운
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156)

In [14]:
# key 값 확인
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [15]:
# Target 클래스 구성 확인
import pandas as pd

print('target 클래스의 값과 분포도 \n',pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n',news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [16]:
# 개별 데이터 어떻게 구성되어 있는지 하나 확인
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

- 뉴스그룹 기사 내용, 뉴스그룹 제목, 작성자, 소속, 이메일 등 정보
- 이 중 내용 제외한 다른 정보 제거 -> 뉴스그룹 분류의 Target 클래스값과 유사한 데이터 가지고 있는 경우 많기 때문

In [17]:
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용(Train) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news= fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target
print(type(X_train))

# subset='test'으로 테스트(Test) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news= fetch_20newsgroups(subset='test',remove=('headers', 'footers','quotes'),random_state=156)
X_test = test_news.data
y_test = test_news.target
print('학습 데이터 크기 {0} , 테스트 데이터 크기 {1}'.format(len(train_news.data) , len(test_news.data)))

<class 'list'>
학습 데이터 크기 11314 , 테스트 데이터 크기 7532


##### 2) 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가

In [18]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()
# 개정판 소스 코드 변경(2019.12.24)
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit( )된 CountVectorizer를 이용하여 테스트 데이터를 feature extraction 변환 수행. 
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 Text의 CountVectorizer Shape:',X_train_cnt_vect.shape)

학습 데이터 Text의 CountVectorizer Shape: (11314, 101631)


In [19]:
# 피처 벡터화된 데이터에 로지스틱 회귀 적용해 뉴스그룹에 대한 분류 예측
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect , y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

CountVectorized Logistic Regression 의 예측 정확도는 0.607


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorization 적용하여 학습 데이터셋과 테스트 데이터 셋 변환. 
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Logistic Regression 의 예측 정확도는 0.674


-> 단순 카운트 기반보다 TF-IDF 예측 정확도 높음

In [21]:
# stop words 필터링을 추가하고 ngram을 기본(1,1)에서 (1,2)로 변경하여 Feature Vectorization 적용.
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300 )
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.692


- TfidfVectorizer 클래스의 스톱워드(None->english), ngram_range((1,1)->(1,2)), max_df=300으로 변경 => **예측성능 0.696**
- GricSearchCV 이용해 하이퍼 파라미터 최적화 => 로지스틱 회귀의 C가 10일때 최적 => **예측성능 0.703**

##### 3) 사이킷런 파이프라인 사용 및 GridSearchCV와의 결합

## 05. 감정분석

1. 감정분석: 문서의 주관적인 감성/의견/감정/기분 등 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있음
    - 텍스트가 나타내는 여러 주관적인 단어와 문맥을 기반으로 감성수치 계산하는 방법 이용
    - 감성 지수: 긍정 감성 지수와 부정 감성 지수로 구성. 이를 합산해 긍정,부정 결정
    - 지도학습, 비지도학습 방식으로 나눌 수 있음

<font color=(blue)> 2. 지도학습 기반 감정 분석 실습 - IMDB 영화평 </font>

In [2]:
import pandas as pd

review_df = pd.read_csv('./labeledTrainData.tsv', header=0, sep="\t", quoting=3)
review_df.head(3)

Unnamed: 0,id,sentiment,review
0,"""5814_8""",1,"""With all this stuff going down at the moment ..."
1,"""2381_9""",1,"""\""The Classic War of the Worlds\"" by Timothy ..."
2,"""7759_3""",0,"""The film starts with a manager (Nicholas Bell..."


In [3]:
print(review_df['review'][0])

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring. Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him.<br /><br />The actual feature film bit when it finally sta

In [4]:
import re

# <br> html 태그는 replace 함수로 공백으로 변환
review_df['review'] = review_df['review'].str.replace('<br />',' ')

# 파이썬의 정규 표현식 모듈인 re를 이용하여 영어 문자열이 아닌 문자는 모두 공백으로 변환 
review_df['review'] = review_df['review'].apply( lambda x : re.sub("[^a-zA-Z]", " ", x) )

In [5]:
from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df.drop(['id','sentiment'], axis=1, inplace=False)

X_train, X_test, y_train, y_test= train_test_split(feature_df, class_df, test_size=0.3, random_state=156)

X_train.shape, X_test.shape

((17500, 1), (7500, 1))

In [7]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

# 스톱 워드는 English, filtering, ngram은 (1,2)로 설정해 CountVectorization수행. 
# LogisticRegression의 C는 10으로 설정. 
pipeline = Pipeline([
    ('cnt_vect', CountVectorizer(stop_words='english', ngram_range=(1,2) )),
    ('lr_clf', LogisticRegression(C=10))])

# Pipeline 객체를 이용하여 fit(), predict()로 학습/예측 수행. predict_proba()는 roc_auc때문에 수행.  
pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:,1]

print('예측 정확도는 {0:.4f}, ROC-AUC는 {1:.4f}'.format(accuracy_score(y_test ,pred),
                                         roc_auc_score(y_test, pred_probs)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


예측 정확도는 0.8860, ROC-AUC는 0.9503


In [8]:
# 스톱 워드는 english, filtering, ngram은 (1,2)로 설정해 TF-IDF 벡터화 수행. 
# LogisticRegression의 C는 10으로 설정. 
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2) )),
    ('lr_clf', LogisticRegression(C=10))])

pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:,1]

print('예측 정확도는 {0:.4f}, ROC-AUC는 {1:.4f}'.format(accuracy_score(y_test ,pred),
                                         roc_auc_score(y_test, pred_probs)))

예측 정확도는 0.8936, ROC-AUC는 0.9598


3. 비지도학습 기반 감성 분석 소개
    1. Lexicon 기반: 일반적으로 어휘집을 의미. 여기서는 주로 감성만을 분석하기 위해 지원하는 감성 어휘 사전
        - 긍정감성 또는 부정감성의 정도를 의미하는 수치 가지고 있음 => **감성지수**
        - 감성지수는 단어의 위치나 주변단어, 문맥, POS 등을 참고해 결정됨
        - NLTK 패키지
        
    2. NLP패키지의 WordNet
        - 방대한 영어 어휘 사전. 시맨틱(문맥상 의미) 분석 제공
        - 다양한 상황에서 같은 어휘라도 다르게 사용되는 어휘의 시맨틱 정보 제공
        - 품사로 구성된 개별 단어를 Synset이라는 개념을 이용해 표현
        
    3. 감성사전 종류
        - SentiWordNet
        - VADER
        - Pattern

- SentiWordNet 이용한 감성 분석

In [10]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping grammars\basque_grammars.zip.
[nltk_data]    | Do

[nltk_data]    |   Unzipping corpora\nps_chat.zip.
[nltk_data]    | Downloading package omw to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\omw.zip.
[nltk_data]    | Downloading package omw-1.4 to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\omw-1.4.zip.
[nltk_data]    | Downloading package opinion_lexicon to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\opinion_lexicon.zip.
[nltk_data]    | Downloading package panlex_swadesh to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package paradigms to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\paradigms.zip.
[nltk_data]    | Downloading package pe08 to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\pe08.zip.
[nltk_data]   

KeyboardInterrupt: 

In [11]:
# NLTK의 모든 데이터 세트 내려받은 뒤, WordNet 모듈 임포트해서 'Present'단어 Synset 추출
from nltk.corpus import wordnet as wn

term = 'present'

# 'present'라는 단어로 wordnet의 synsets 생성. 
synsets = wn.synsets(term)
print('synsets() 반환 type :', type(synsets))
print('synsets() 반환 값 갯수:', len(synsets))
print('synsets() 반환 값 :', synsets)

synsets() 반환 type : <class 'list'>
synsets() 반환 값 갯수: 18
synsets() 반환 값 : [Synset('present.n.01'), Synset('present.n.02'), Synset('present.n.03'), Synset('show.v.01'), Synset('present.v.02'), Synset('stage.v.01'), Synset('present.v.04'), Synset('present.v.05'), Synset('award.v.01'), Synset('give.v.08'), Synset('deliver.v.01'), Synset('introduce.v.01'), Synset('portray.v.04'), Synset('confront.v.03'), Synset('present.v.12'), Synset('salute.v.06'), Synset('present.a.01'), Synset('present.a.02')]


In [12]:
# synset 객체가 가지는 여러 가지 속성
for synset in synsets :
    print('##### Synset name : ', synset.name(),'#####')
    print('POS :',synset.lexname())
    print('Definition:',synset.definition())
    print('Lemmas:',synset.lemma_names())

##### Synset name :  present.n.01 #####
POS : noun.time
Definition: the period of time that is happening now; any continuous stretch of time including the moment of speech
Lemmas: ['present', 'nowadays']
##### Synset name :  present.n.02 #####
POS : noun.possession
Definition: something presented as a gift
Lemmas: ['present']
##### Synset name :  present.n.03 #####
POS : noun.communication
Definition: a verb tense that expresses actions or states at the time of speaking
Lemmas: ['present', 'present_tense']
##### Synset name :  show.v.01 #####
POS : verb.perception
Definition: give an exhibition of to an interested audience
Lemmas: ['show', 'demo', 'exhibit', 'present', 'demonstrate']
##### Synset name :  present.v.02 #####
POS : verb.communication
Definition: bring forward and present to the mind
Lemmas: ['present', 'represent', 'lay_out']
##### Synset name :  stage.v.01 #####
POS : verb.creation
Definition: perform (a play), especially on a stage
Lemmas: ['stage', 'present', 'represen

In [13]:
# tree, lion, tiger, cat, dog 단어의 상호 유사도 살펴보기 - path_similarity()

# synset 객체를 단어별로 생성합니다. 
tree = wn.synset('tree.n.01')
lion = wn.synset('lion.n.01')
tiger = wn.synset('tiger.n.02')
cat = wn.synset('cat.n.01')
dog = wn.synset('dog.n.01')

entities = [tree , lion , tiger , cat , dog]
similarities = []
entity_names = [ entity.name().split('.')[0] for entity in entities]

# 단어별 synset 들을 iteration 하면서 다른 단어들의 synset과 유사도를 측정합니다. 
for entity in entities:
    similarity = [ round(entity.path_similarity(compared_entity), 2)  for compared_entity in entities ]
    similarities.append(similarity)
    
# 개별 단어별 synset과 다른 단어의 synset과의 유사도를 DataFrame형태로 저장합니다.  
similarity_df = pd.DataFrame(similarities , columns=entity_names,index=entity_names)
similarity_df

Unnamed: 0,tree,lion,tiger,cat,dog
tree,1.0,0.07,0.07,0.08,0.12
lion,0.07,1.0,0.33,0.25,0.17
tiger,0.07,0.33,1.0,0.25,0.17
cat,0.08,0.25,0.25,1.0,0.2
dog,0.12,0.17,0.17,0.2,1.0


In [14]:
import nltk
from nltk.corpus import sentiwordnet as swn

senti_synsets = list(swn.senti_synsets('slow'))
print('senti_synsets() 반환 type :', type(senti_synsets))
print('senti_synsets() 반환 값 갯수:', len(senti_synsets))
print('senti_synsets() 반환 값 :', senti_synsets)

senti_synsets() 반환 type : <class 'list'>
senti_synsets() 반환 값 갯수: 11
senti_synsets() 반환 값 : [SentiSynset('decelerate.v.01'), SentiSynset('slow.v.02'), SentiSynset('slow.v.03'), SentiSynset('slow.a.01'), SentiSynset('slow.a.02'), SentiSynset('dense.s.04'), SentiSynset('slow.a.04'), SentiSynset('boring.s.01'), SentiSynset('dull.s.08'), SentiSynset('slowly.r.01'), SentiSynset('behind.r.03')]


In [15]:
import nltk
from nltk.corpus import sentiwordnet as swn

father = swn.senti_synset('father.n.01')
print('father 긍정감성 지수: ', father.pos_score())
print('father 부정감성 지수: ', father.neg_score())
print('father 객관성 지수: ', father.obj_score())
print('\n')
fabulous = swn.senti_synset('fabulous.a.01')
print('fabulous 긍정감성 지수: ',fabulous .pos_score())
print('fabulous 부정감성 지수: ',fabulous .neg_score())

father 긍정감성 지수:  0.0
father 부정감성 지수:  0.0
father 객관성 지수:  1.0


fabulous 긍정감성 지수:  0.875
fabulous 부정감성 지수:  0.125


- SentiWordNet 이용한 영화 감상평 감성 분석

In [16]:
from nltk.corpus import wordnet as wn

# 간단한 NTLK PennTreebank Tag를 기반으로 WordNet기반의 품사 Tag로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB
    return 

In [17]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import sentiwordnet as swn
from nltk import sent_tokenize, word_tokenize, pos_tag

def swn_polarity(text):
    # 감성 지수 초기화 
    sentiment = 0.0
    tokens_count = 0
    
    lemmatizer = WordNetLemmatizer()
    raw_sentences = sent_tokenize(text)
    # 분해된 문장별로 단어 토큰 -> 품사 태깅 후에 SentiSynset 생성 -> 감성 지수 합산 
    for raw_sentence in raw_sentences:
        # NTLK 기반의 품사 태깅 문장 추출  
        tagged_sentence = pos_tag(word_tokenize(raw_sentence))
        for word , tag in tagged_sentence:
            
            # WordNet 기반 품사 태깅과 어근 추출
            wn_tag = penn_to_wn(tag)
            if wn_tag not in (wn.NOUN , wn.ADJ, wn.ADV):
                continue                   
            lemma = lemmatizer.lemmatize(word, pos=wn_tag)
            if not lemma:
                continue
            # 어근을 추출한 단어와 WordNet 기반 품사 태깅을 입력해 Synset 객체를 생성. 
            synsets = wn.synsets(lemma , pos=wn_tag)
            if not synsets:
                continue
            # sentiwordnet의 감성 단어 분석으로 감성 synset 추출
            # 모든 단어에 대해 긍정 감성 지수는 +로 부정 감성 지수는 -로 합산해 감성 지수 계산. 
            synset = synsets[0]
            swn_synset = swn.senti_synset(synset.name())
            sentiment += (swn_synset.pos_score() - swn_synset.neg_score())           
            tokens_count += 1
    
    if not tokens_count:
        return 0
    
    # 총 score가 0 이상일 경우 긍정(Positive) 1, 그렇지 않을 경우 부정(Negative) 0 반환
    if sentiment >= 0 :
        return 1
    
    return 0

In [None]:
review_df['preds'] = review_df['review'].apply( lambda x : swn_polarity(x) )
y_target = review_df['sentiment'].values
preds = review_df['preds'].values

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score 
from sklearn.metrics import recall_score, f1_score, roc_auc_score
import numpy as np

print(confusion_matrix( y_target, preds))
print("정확도:", np.round(accuracy_score(y_target , preds), 4))
print("정밀도:", np.round(precision_score(y_target , preds),4))
print("재현율:", np.round(recall_score(y_target, preds), 4))

- VADER 이용한 감성 분석

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

senti_analyzer = SentimentIntensityAnalyzer()
senti_scores = senti_analyzer.polarity_scores(review_df['review'][0])
print(senti_scores)

In [None]:
def vader_polarity(review,threshold=0.1):
    analyzer = SentimentIntensityAnalyzer()
    scores = analyzer.polarity_scores(review)
    
    # compound 값에 기반하여 threshold 입력값보다 크면 1, 그렇지 않으면 0을 반환 
    agg_score = scores['compound']
    final_sentiment = 1 if agg_score >= threshold else 0
    return final_sentiment

# apply lambda 식을 이용하여 레코드별로 vader_polarity( )를 수행하고 결과를 'vader_preds'에 저장
review_df['vader_preds'] = review_df['review'].apply( lambda x : vader_polarity(x, 0.1) )
y_target = review_df['sentiment'].values
vader_preds = review_df['vader_preds'].values

print(confusion_matrix( y_target, vader_preds))
print("정확도:", np.round(accuracy_score(y_target , vader_preds),4))
print("정밀도:", np.round(precision_score(y_target , vader_preds),4))
print("재현율:", np.round(recall_score(y_target, vader_preds),4))

- SentiWordNet: 정확도 66.13%, 재현율: 70.91%
- VADER: 정확도 69.48%, 재현율: 85.06% => 재현율 크게 향상
- VADER는 소셜 미디어의 감성 분석 용도로 만들어진 룰 기반의 Lexicon.

## 06. 토픽 모델링(Topic Modeling) - 20 뉴스그룹

1. 토픽 모델링: 문서 집합에 숨어 있는 주제를 찾아내는 것
    
    
2. ML 기반 토픽 모델: 숨겨진 주제 효과적으로 표현할 수 있는 중심 단어 함축적으로 추출
    - LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation)
    
    
3. LDA
    - Count기반의 벡터화만 사용

## 07. 문서 군집화 소개와 실습(Opinion Review 데이터 세트)

1. 문서군집화: 비슷한 텍스트 구성의 문서를 군집화하는 것
    - 동일한 군집에 속하는 문서를 같은 카테고리 소속으로 분류할 수 있음
    - 학습 데이터 세트가 필요 없는 **비지도학습 기반으로 동작**
    
    
2. Opinion Review 데이터 세트 이용한 문서 군집화 수행하기
    1. 51개 텍스트 파일로 구성
    2. 각 파일은 호텔(Tripadvisor), 자동차(Edmunds.com), 전자제품(Amazon.com) 사이트에서 가져온 리뷰 문서
    3. 각 문서는 약 100개 정도의 문장 가지고 있음
    4. 수행 순서
        - **df 로딩**: 모든 파일에 대해 각각 for문으로 반복하면서 개별 파일명을 파일명 리스트에 추가하고 개별 파일은 df로 읽은 후 다시 문자열로 반환한 뒤 내용 리스트에 추가
        - **tokenizer**: LemNormalize()
        - **문서 TF-IDF 형태로 피처 벡터화**: TfidfVectorizer의 fit_trasform()인자로 document_df DataFrame의 opinion_text 칼럼 입력
        - **군집화**: K-평균
        - 최종결과: 호텔, 자동차, 전자기기 각각의 리뷰들로 군집화 => 3개 군집
        
        
3. 군집별 핵심 단어 추출하기
    1. KMeans 객체는 각 군집을 구성하는 단어 피처가 군집의 중심을 기준으로 얼마나 가깝게 위치해 있는지 clusters_centers_라는 속성으로 제공
    2. **cluster_centers_속성값** 이용해 각 군집별 핵심단어 찾음
        - 속성: 넘파이 ndarray -> **argsort()[:,::-1]** 이용하면 배열 내 값이 큰 순으로 정렬된 위치 인덱스 값 반환
        - **위치 인덱스 값**은 핵심 단어 피처의 이름 출력하기 위해 필요
    3. get_cluster_details()함수 주요 로직
        - cluster_centers_ 배열 내에서 가장 **값이 큰 데이터의 위치 인덱스**를 추출한 뒤, 해당 인덱스를 이용해 **핵심 단어 이름**과 그때의 **상대 위치 값**을 추출해 cluster_details라는 Dict 객체 변수에 기록하고 반환
    4. get_cluster_details() 호출 시 인자
        - KMeans 군집화 객체
        - 파일명 추출을 위한 document_df DataFrame
        - 핵심 단어 추출을 위한 피처명 리스트
        - 전체 군집 개수
        - 핵심 단어 추출 개수

## 08. 문서 유사도

1. **코사인 유사도**: 벡터와 벡터간의 유사도를 비교할 때 벡터의 크기보다는 벡터의 상호 방향성이 얼마나 유사한지에 기반. 즉, **벡터 사이의 사잇각을 구해서 얼마나 유사한지 수치로 적용**


2. 두 벡터 사잇각
    - 벡터 A와 B의 내적 값은 두 벡터 크기를 곱한 값*코사인 각도 값
$$ A*B = ||A|| ||B|| \cos\theta $$
    - 유사도는 두 벡터 내적을 총 벡터 크기의 합으로 나눈 것(내적 결과 정규화)
$$ similarity = \cos\theta = \frac{\vec{A}\cdot\vec{B}}{||A||||B||} = \frac{\sum_{i=1}^n A_iB_i}{\sqrt{\sum_{i=1}^n A_i^2}\sqrt{\sum_{i=1}^n B_i^2}} $$

3. Opinion Review 데이터 세트를 이용한 문서 유사도 측정
    - 호텔을 주제로 군집화된 문서를 이용해 특정 문서와 다른 문서 간의 유사도 알아보기
    1. df로드
    2. 호텔 주제로 군집화된 데이터 추출
    3. 이 데이터에 해당하는 TfidfVectorizer 데이터 추출
    4. 각 문서가 피처 벡터화된 데이터를 cosisne_simularity() 이용해 상호 비교해 유사도 확인
    5. 최종결과: 약0.572의 코사인 유사도 값을 나타내며 문서 찾음

## 09. 한글 텍스트 처리 - 네이버 영화 평점 감정 분석

1. 한글 NLP 처리의 어려움
    - 이유: 띄어쓰기, 다양한 조사
    
 
2. KoNLPy 소개
    - 파이썬 대표적인 한글 형태소(단어로서 의미를 가지는 최소 단위) 패키지
    - 형태소 분석: 말뭉치를 이러한 형태소 어근 단위로 쪼개고 각 형태소에 품사 태깅을 부착하는 작업


3. 데이터 로딩
    1. **df 생성**
    2. 학습 데이터 세트의 0과1의 **Label 값 비율 확인**(1:긍정, 0:부정) => 균등
    3. **Null값** 공백변환. 문자가 아닌 **숫자**는 단어적 의미가 부족하므로 공백변환(re)
    4. 각 문장 한글 형태소 분석통해 **형태소 단어로 토큰화**
        - 한글 형태소 엔진: Twitter 클래스 이용
    5. 문장을 형태소 형태로 반환: **tw_tokenizer()**
    6. TF-IDF 피처 모델 생성: **TfidfVectorizer**
    7. **로지스틱 회귀** 이용해 분류 기반의 감정 분석 수행
        - 로지스틱 회귀 하이퍼 파라미터 C 최적화: GridSearchCV => 3.5(0.8593)
    8. **테스트 세트 이용**: 학습할 때 적용한 TfidfVectorizer 그대로 이용