    1) 텍스트 분석 : 비정형 텍스트에서 의미있는 정보를 추출.
                     -> 텍스트 분류, 감성분석, 텍스트 요약, 텍스트 군집화
    2) NLP(National Language Processing) : 머신이 인간의 언어를 이해하고 해석. ex) 기계번역, 질의응답 시스템
                                           -> 텍스트 분석을 향상하게 하는 기반기술

#### 텍스트 분석 수행 프로세스
    
    1) 텍스트 전처리 : 클렌징 / 대소문자변경 / 특수문자삭제 / 토큰화 / 의미없는 단어제거 / 어근 추출 등
    2) 피쳐 벡터화/추출
    3) ML모델 수립 및 학습/예측/평가
    
    
    -> 사이킷런으로도 일정부분의 텍스트 분석 기능 수행 가능 but 어근 처리 등의 다양한 텍스트 분석을 위해서는 
       NLTK, Gensim, SpaCy 등의 NLP 전용 패키지와 함께 사용

## 1 텍스트 사전 준비작업(텍스트 전처리) : 텍스트 정규화

### 1.1 클렌징
    
    텍스트에서 분석에 방해가 되는 불필요한 문자 / 기호를 사전에 제거
     ex) HTML, XML 태그 혹은 특정 기호

### 1.2 텍스트 토큰화

    ** 토큰 : 일련의 문자열을 구분할 수 있는 단위

#### 1.2.1 문장 토큰화(sentence tokenization)
     일반적으로 마침표, 개행 문자로 분리, 정규표현식을 사용하기도 함

In [1]:
# 마침표, 개행 문자등의 데이터 세트를 다운받는 코드, 최초에만 필요
from nltk import sent_tokenize
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\NK\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
from nltk import sent_tokenize
import nltk

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go ot work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go ot work, or go to church or pay your taxes.']


#### 1.2.2 단어 토큰화(Work Tokenization)
    일반적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리, 정규표현식을 사용하기도 함
    
    ** 단어 단위로 쪼갤 시 문맥적 의미가 무시 -> n-gram방식(연속된 n개의 단어를 하나의 토큰으로 만듬)으로 보완

In [3]:
from nltk import word_tokenize

sentence = 'The Matrix is everythere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everythere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [4]:
# 문장 토큰화 + 단어 토큰화

from nltk import word_tokenize, sent_tokenize

# 여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    # 문장별로 분리 토큰
    setences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'ot', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### 1.3 스톱워드 제거

    영어의 is, a, the 등 문장을 구성하는 필수 문법요소지만 문맥적으로 큰 의미가 없는 단어를 미리 삭제
     -> 삭제하지 않으면 빈도 수 때문에 문법요소가 중요한 단어로 인지 될수 있음
     
    ** NLTK는 가장 다양한 언어의 스톱워드를 제공하는 패키지

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\NK\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [7]:
# 예시 문장에서 stopwords를 필터링
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        # 소문자로 모두 변환합니다.
        word = word.lower()
        # 토큰화된 개별 단어가 스톱워드의 단어에 포함되지 않으면 word_token에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'ot', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### 1.4 어근 추출
    : 문법요소에 따라 변화한 단어에서 원형을 찾는 작업
    
    1) Stemming : 비교적 단순한 방법을 적용해 일부 철자를 훼손하면서 어근을 찾음 
           -> NLTK에서 Porter, Lancaster, Snowball Stemmer 지원
           
    2) Lemmatization : 비교적 복잡한 방법을 적용해 정확한 철자로 된 어근을 찾음. 대신 stemming에 비해 수행시간이 김
           -> NLTK에서 WordNetLemmatizer 제공

In [8]:
# Lancaster방식으로 Stemming

from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [9]:
# WorkNetLemmatizer방식으로 Lemmatization
# lemmatization은 정확한 원형 단어 추출을 위해 단어의 품사를 입력해주어야 함

from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\NK\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


## 2 BOW(Bag Of Words)

    문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델
    
    장점 : 쉽고 빠른 구축, 생각보다 문서의 특징을 잘 나타냄
    단점 : 1) 어순을 고려하지 않기 때문에 문맥의미 반영이 부족
           2) 희소행렬 문제 발생(행렬의 대다수 값이 0으로 채워짐)

### 2.1 피처 벡터화

    텍스트를 숫자형으로 바꾸는 작업

#### 2.1.1 CountVectorize 클래스
    - 모든 문서에서 각 단어가 나오는 빈도수를 count하는 카운트 기반 피처 벡터화 방식
    - 피처벡터화 뿐 아니라 텍스트 전처리(소대문자 일괄변환, 토큰화, 스톰워드 필터링 등) 수행
    - 주요 파라미터
       1) max_df : 너무 높은 빈도수를 가지는 단어 피처 제외
       2) min_df : 너무 낮은 빈도수를 가지는 단어 피처 제외
       3) max_features : 추출하는 피처의 개수를 제한하며 정수로 값을 지정
       4) stop_words : 지정된 언어의 스톱워드들을 필터링
       5) n_gram_range : n_gram의 n값 설정. 튜플의 형태로 지정하며 (범위 최솟값, 범위 최댓값)
       6) analyzer : 피처 추출을 수행할 단위를 지정
       7) token_pattern : 토큰화를 수행하는 정규 표현식 패턴을 지정
       8) tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용

#### 2.1.2 TfidfVectorizer 클래스
    - 모든 문서에서 각 단어가 나오는 빈도수를 count하되, 모든 문서 전반에 걸쳐 자주 나오는 단어는 패널티를 주는 TF-IDF 방식
    - 파라미터 및 변환방법은 CountVerctorizer와 동일

### 2.2 희소행렬
    피처벡터화 후 지나치게 많이 생성된 피처를 축소하는 작업

#### 2.2.1 COO(Coordinate) 형식
    0이 아닌 데이터를 별도의 배열에 저장하고, 그 데이터가 가리키는 행/열 위치를 별도의 배열로 저장하는 방식

In [10]:
import numpy as np
from scipy import sparse

dense = np.array([[3,0,1], [0,1,0]])

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 2.2.2 CSR(Compressed Sparse Row) 형식
    COO방식에서 행위치의 위치를 나타내는 별도의 배열을 저장하는 방식

In [11]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])

# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2,(row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR형식으로 변환
sparse_csr = sparse.csr_matrix((data2,col_pos,row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [12]:
# 실제 COO / CSR 활용

dense3 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

print(coo.toarray())
print(csr.toarray())

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


## 3 텍스트 분류 실습 - 20 뉴스그룹 분류

### 3.1 텍스트 정규화

In [13]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all', random_state=156)

In [14]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [15]:
import pandas as pd

print('target 클래스의 값과 분포도 \n', pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n', news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [16]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [17]:
# 텍스트 분석 의도에 맞춰 remove 파라미터로 기사의 헤더/푸터를 제거하고 순수 텍스트만으로 구성
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용 데이터만 추출, remove=('headers','footers','quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset='train', remove=('headers','footers','quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target

# subset='test'으로 테스트 데이터만 추출, remove=('headers','footers','quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset='test', remove=('headers','footers','quotes'), random_state=156)
X_test = test_news.data
y_test = test_news.target

print(f'학습데이터 크기 {len(train_news.data)}, 테스트 데이터 크기 {len(test_news.data)}')

학습데이터 크기 11314, 테스트 데이터 크기 7532


### 3.2 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가

#### 3.2.1 카운트 기반 피처 벡터화와 로지스틱회귀

In [18]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorization으로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit()된 CountVectorizer를 이용해 테스트 데이터를 피쳐 벡터화 변환 수행
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 텍스트의 CountVectorizer Shape :', X_train_cnt_vect.shape)

학습 데이터 텍스트의 CountVectorizer Shape : (11314, 101631)


In [19]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print(f'CountVectorized Logistic Regression의 예측 정확도는 {accuracy_score(y_test, pred):.3f}')

CountVectorized Logistic Regression의 예측 정확도는 0.607


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


#### 3.2.2 TFIDF기반 피처벡터화와 로지스틱 회귀

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화를 적용해 학습 데이터 세트와 테스트 데이터 세트 변환
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(f'TF-IDF Logistic Regression의 예측 정확도는 {accuracy_score(y_test, pred):.3f}')

TF-IDF Logistic Regression의 예측 정확도는 0.674


In [21]:
# TF-IDF 벡터화에 다양한 파라미터 적용

# stop words 필터링을 추가하고 ngram을 기본 (1,1)에서 (1,2)로 변경해 피처 벡터화 적용
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(f'TF-IDF Vectorized Logistic Regression의 예측 정확도는 {accuracy_score(y_test,pred):.3f}')

TF-IDF Vectorized Logistic Regression의 예측 정확도는 0.692


In [None]:
# GridSearchCV로 로지스틱 회귀의 하이퍼 파라미터 최적화 수행

from sklearn.model_selection import GridSearchCV

# 최적 C값 도출 튜닝 수행. CV는 3폴드 세트로 설정
params = {'C':[0.01,0.1,1,5,10]}
grid_cv_lr = GridSearchCV(lr_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print('Logistic Regression best C parameter:', grid_cv_lr.best_params_)

# 최적 C값으로 학습된 gird_cv로 예측 및 정확도 평가
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print(f'TF-IDF Vectorized Logistic Regression의 예측 정확도는 {accuracy_score(y_test, pred):.3f}')

### 3.3 사이킷런 파이프라인 사용 및 GridSearchCV와 결합

In [None]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect로, LogisticRegression객체를 lr_clf로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer 객체의 fit(), transform()과 LogisticRegression의 fit(), predict()가 필요없음
# pipeline의 fit()과 predict()만으로 한꺼번에 피처 벡터화와 ML학습.예측이 가능

pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print(f'Pipeline을 통한 Logistic Regression의 예측 정확도는 {accuracy_score(y_test, pred):.3f}')

In [None]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바 2개를 연달아 붙여 GridSearchCV에 사용될 파라미터/하이퍼 파라미터 이름과 값 설정
params = {'tfidf_vect__ngram_range':[(1,1),(1,2),(1,3)],
         'tfidf_vect__max_df':[100,300,700],
         'lr_clf__C':[1,5,10]}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3, scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train, y_train)
print(grid_cv_pipe.best_params_, grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print(f'Pipeline을 통한 Logistic Regression의 예측 정확도는 {accuracy_score(y_test, pred):.3f}')

## 4. 감정분석

### 4.1 지도학습 기반 감성분석 실습 - IMDB 영화평

In [None]:
import pandas as pd

review_df = pd.read_csv('imdb/labeledTrainData.tsv', header=0, sep='\t', quoting=3)
review_df.head()

In [None]:
print(review_df['review'][0])