# NLP(Natural Language Processing)와 TA(Text Analysis)

- NLP
    - 머신이 인간의 언어를 이해하고 해석하는데 중점
- TA
    - 텍스트 마이닝(Text Mining) 이라고도 불림
    - 비정형 텍스트에서 의미있는 정보를 추출하는데 중점
- NLP는 TA발전의 기반기술
    - NLP가 발전함에 따라 TA도 정교화

# 텍스트 분석의 영역
- 비지니스 인텔리전스(Business Intelligence)나 예측 분석
    - 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출
- 기술 영역
    - **텍스트 분류(Text Classification, Text Categorization) :** 문서가 속하는 카테고리 예측
    - **감정분석 (Sentiment Analysis) :** 감정/판단/믿음/의견/기분 등 주관적 요소 분석
    - **텍스트 요약 (Summarization) :** 주제나 중심사상 추출
    - **텍스트 군집화(Text Clustering)와 유사도 측정 :** 비슷한 유형 문서를 군집화

# 텍스트 분석의 수행 프로세스

1. 텍스트 전처리
2. 피처 벡터화/추출
3. ML 모델 수립 및 학습/예측/평가

# 파이썬 기반의 NLP, 텍스트 분석 패키지

- **NLTK(Natural Language Toolkit for Python)**
- **Gensim**
- **SpaCy**

# @@코드를 통한 실습@@

## 1. 텍스트 전처리 및 정규화
- Cleansing
- Tokenization
- Filtering/Stop Word Removal
- Stemming
- Lemmatization

### 1-1. Cleansing
- 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거
- HTML, XML 태그나 특정 기호 등을 사전에 제거

### 1-2. Tokenization

#### 1-2-1. Sentence Tokenization
- 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리
- 또는 정규 표현식에 따른 문장 토큰화 가능
- sent_tokenize()

In [10]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


#### 1-2-2. Word Tokenization
- 문장을 단어로
- 공백, 콤마(,), 마침표(.), 개행문자 등으로 분리
- 또는 정규 표현식에 따른 단어 토큰화 가능
- word_tokenize()

In [11]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


#### 1-2-3. Sentence Tokenization과 Word Tokenization 조합

In [12]:
from nltk import word_tokenize, sent_tokenize

# 문장별 단어 토큰화 함수 생성
def tokenize_text(text):
    
    # 문장별 토큰
    sentences = sent_tokenize(text)
    # 문장별 단어별 토큰
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 토큰화 결과
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### 1-3. Stop Word Removal
- 분석에 큰 의미 없는 단어 삭제
- is, the, a, will 등 문맥적으로 큰 의미 없는 단어

In [13]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [14]:
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


In [15]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 문장별 word_tokens list 에 대해 stop word 제거
for sentence in word_tokens:
    filtered_words=[]
    # 문장별 sentence list에 대해 stop word 제거
    for word in sentence:
        # 소문자 변환
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### 1-4. Stemming 과 lemmatization

- 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 과정

In [17]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [19]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


## 2. Bag of Words -BOW
- 문서가 가진 모든 단어(words)를 문맥이나 순서를 무시하고 일괄적으로 빈도값을 부여해 

### 2-1. 문서의 벡터화
1. 카운트 기반의 벡터화
2. TF-IDF(Term Frequency - Inverse Documant Frequency) 기반의 벡터화

### 2-2. 사이킷런
- **CountVectorizer**
    - Count 벡터화 클래스
    - 소문자 일괄 변환, 토큰화, 스톱워드 필터링 등 전처리도 함께 수행
    - 피쳐 백터화 방법
        1. 모든 문자를 소문자로 변경 등 전처리 수행
        2. 디폴트로 단어 기준 n_gram_range 반영하여 토큰화
        3. 텍스트 정규화 (단, stop_words 파라미터가 주어진 경우 스톱워드 필터링만 가능)
        4. 어근 변환은 직접 지원하진 않지만 tokenizer 파라미터에 커스텀 어근 변환 함수를 적용 가능
        5. max_df, min_df, max_feature등 파라미터 통해 토큰화된 단어를 피쳐로 추출하고 단어 빈도수 벡터값 적용
- **TFidfVectorizer**
    - TF-IDF 벡터화 클래스
    -  파라미터와 변환방법은 CountVectorizer와 동일

### 2-3. 희소행렬
- 값이 대부분 0으로 이루어진 행렬
- 메모리를 많이 차지함
- 적은 메모리를 차지하도록 변환하는 방법 필요
- **COO** 형식과 **CSR** 형식이 있음

#### 2-3-1. COO(Coordinate) 형식 개념
- 0이 아닌 값과 좌표로 표현

In [30]:
import numpy as np

# 임의의 데이터 생성
dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [31]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1]) # 3(0, 0), 1(0, 2), 2(1, 1)
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [33]:
# 행렬로 변환
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 2-3-2. CSR(Compressed Sparse Row) 형식 개념
- 행 위치의 시작점을 인덱싱 (같은 위치 값 반복하는것 개선)

In [34]:
dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


#### 2-3-3. 사이킷런 COO및 CSR 실제 사용 예시

In [35]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

## 3. 텍스트 분류 실습 - 20 뉴스그룹 분류

## 3-1. 텍스트 정규화

In [38]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156)

In [39]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [41]:
import pandas as pd

print('target 클래스의 값과 분포도', pd.Series(news_data.target).value_counts().sort_index(), sep='\n')
print('target 클래스의 이름들', news_data.target_names, sep='\n')

target 클래스의 값과 분포도
0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
Name: count, dtype: int64
target 클래스의 이름들
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [43]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

- 본문 제외 제목 등의 다른 정보 제거 (Target Leakage 방지)
    - remove 파라미터 

In [45]:
# subset='train'으로 학습용(Train) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news= fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target

# subset='test'으로 테스트(Test) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news= fetch_20newsgroups(subset='test',remove=('headers', 'footers','quotes'),random_state=156)
X_test = test_news.data
y_test = test_news.target
print('학습 데이터 크기 {0} , 테스트 데이터 크기 {1}'.format(len(train_news.data) , len(test_news.data)))

학습 데이터 크기 11314 , 테스트 데이터 크기 7532


## 3-2. 피쳐 벡터화 및 머신러닝 모델 학습/예측/평가

### 3-2-1. Count 기반 피쳐 벡터화

In [47]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()

# train 데이터 벡터화
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# test 데이터 벡터화
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 Text의 CountVectorizer Shape:',X_train_cnt_vect.shape)

학습 데이터 Text의 CountVectorizer Shape: (11314, 101631)


- Logistic Regression을 활용한 뉴스그룹 분류

In [48]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression(solver='liblinear')
lr_clf.fit(X_train_cnt_vect , y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

CountVectorized Logistic Regression 의 예측 정확도는 0.617


### 3-2-2. TF-IDF 기반 피쳐 벡터화

In [50]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorization 적용하여 학습 데이터셋과 테스트 데이터 셋 변환. 
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression(solver='liblinear')
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Logistic Regression 의 예측 정확도는 0.678


### 3-2-3. 성능향상
- 최적의 ML 알고리즘 선택
- 최상의 피쳐 전처리 수행

- 벡터화 파라미터 조정
    - stop words 필터링을 추가
    - ngram을 (1,2)로 변경

In [51]:
# stop words 필터링을 추가하고 ngram을 기본(1,1)에서 (1,2)로 변경하여 Feature Vectorization 적용.
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300 )
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression(solver='liblinear')
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.690


- 그리드 서치를 통한 로지스틱 리그레션 하이퍼파라미터 조정
    - 규제 강도 조절

In [53]:
from sklearn.model_selection import GridSearchCV

# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. 
params = { 'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf ,param_grid=params , cv=3 , scoring='accuracy' , verbose=1 )
grid_cv_lr.fit(X_train_tfidf_vect , y_train)
print('Logistic Regression best C parameter :',grid_cv_lr.best_params_ )

# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. 
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Fitting 3 folds for each of 5 candidates, totalling 15 fits
Logistic Regression best C parameter : {'C': 10}
TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.704


### 3-2-4. 사이킷런 Pipeline 사용을 통한 GridSearchCV와의 결합

In [54]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect 객체명으로, LogisticRegression객체를 lr_clf 객체명으로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(solver='liblinear', C=10))
])

# 별도의 TfidfVectorizer객체의 fit_transform( )과 LogisticRegression의 fit(), predict( )가 필요 없음. 
# pipeline의 fit( ) 과 predict( ) 만으로 한꺼번에 Feature Vectorization과 ML 학습/예측이 가능. 
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Pipeline을 통한 Logistic Regression 의 예측 정확도는 0.704


- 다양한 파라미터 시도
    - 연속 언더바2개(__)를 통해 파이프라인의 객체와 적용할 하이퍼파라미터 범위 설정 

In [55]:
from datetime import datetime
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),    # 객체1의 이름 'tfidf_vect'
    ('lr_clf', LogisticRegression(solver='liblinear'))        # 객체2의 이름 'lr_clf'
])

#시작 시간 기록
start_time = datetime.now()

# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 
# 파라미터/하이퍼 파라미터 이름과 값을 설정. . 
params = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],  # 객체1('tfidf_vect')의 ngram_range 서치 범위
           'tfidf_vect__max_df': [100, 300, 700],             # 객체1('tfidf_vect')의 max_df 서치 범위
           'lr_clf__C': [1, 5, 10]                            # 객체2('lr_clf')의 C 서치 범위
}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train , y_train)
print(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)

# 끝 시간 기록
end_time = datetime.now()

# 소요 시간 계산
elapsed_time = end_time - start_time
elapsed_minutes = elapsed_time.total_seconds() / 60  # 초 → 분
print(f"학습 소요 시간: {elapsed_minutes:.2f} 분")

# 모델 예측
pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Fitting 3 folds for each of 27 candidates, totalling 81 fits
{'lr_clf__C': 10, 'tfidf_vect__max_df': 700, 'tfidf_vect__ngram_range': (1, 2)} 0.7550828826229531
학습 소요 시간: 11.62 분
Pipeline을 통한 Logistic Regression 의 예측 정확도는 0.702
