## 클렌징

## 텍스트 토큰화

### 문장 토큰화
- 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것

In [4]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.7-py3-none-any.whl (1.5 MB)
Collecting regex>=2021.8.3
  Downloading regex-2022.9.13-cp38-cp38-win_amd64.whl (267 kB)
Collecting tqdm
  Downloading tqdm-4.64.1-py2.py3-none-any.whl (78 kB)
Installing collected packages: tqdm, regex, nltk
Successfully installed nltk-3.7 regex-2022.9.13 tqdm-4.64.1


In [5]:
from nltk import sent_tokenize
import nltk

# 마침표, 개행문자 등 데이터 세트 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [9]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text = text_sample)

print(f' sent_tokenize 객체 타입: \n{type(sentences)},\n\n 문장 개수:{len(sentences)}\n')
print(f' 출력: \n{sentences}')

 sent_tokenize 객체 타입: 
<class 'list'>,

 문장 개수:3

 출력: 
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화
- 문장을 단어로 토큰화
- 공백, 쉼포, 마침표, 개행문자 등으로 단어를 분리 혹은 정규표현식을 이용해 분리

In [11]:
from nltk import word_tokenize

sentence = sentences[0]

words = word_tokenize(sentence)

print(f' word_tokenize 객체 타입: \n{type(words)},\n\n 단어 개수:{len(words)}\n')
print(f' 출력: \n{words}')

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:15

 출력: 
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


### 문장 및 단어 토큰화

In [29]:
from nltk import sent_tokenize, word_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하도록 만드는 사용자 함수 생성
def tokenize_text(text):
    ## 문장 토큰화
    sentences = sent_tokenize(text)
    
    ## 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

# 수행
word_tokens = tokenize_text(text_sample)
print(f' word_tokenize 객체 타입: \n{type(word_tokens)},\n\n 단어 개수:{len(word_tokens)}\n')
print(f' 출력:')
word_tokens

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:3

 출력:


[['The',
  'Matrix',
  'is',
  'everywhere',
  'its',
  'all',
  'around',
  'us',
  ',',
  'here',
  'even',
  'in',
  'this',
  'room',
  '.'],
 ['You',
  'can',
  'see',
  'it',
  'out',
  'your',
  'window',
  'or',
  'on',
  'your',
  'television',
  '.'],
 ['You',
  'feel',
  'it',
  'when',
  'you',
  'go',
  'to',
  'work',
  ',',
  'or',
  'go',
  'to',
  'church',
  'or',
  'pay',
  'your',
  'taxes',
  '.']]

### n_gram
- 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것

## 스톱워드 제거
- 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어를 사전에 제거
- 빈번하게 텍스트에 나타나면 중요 단어로 인지될 수 있기 때문에 중요한 작업임

In [6]:
import nltk

# 스톱워드 목록 다운로드
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [44]:
print('스톱워드 리스트 내 단어 개수:')
len(nltk.corpus.stopwords.words('english'))

스톱워드 리스트 내 단어 개수:


179

In [46]:
print('스톱워드 리스트:')
nltk.corpus.stopwords.words('english')[:20]

스톱워드 리스트:


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [42]:
import nltk

# 스톱워드 리스트 생성
stopwords = nltk.corpus.stopwords.words('english')


all_tokens = []
for sentence in word_tokens:
    
    filtered_words = []
    for word in sentence:
        # 소문자로 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱워드 리스트에 포함되지 않으면 리스트에 담기
        if word not in stopwords:
            filtered_words.append(word)
        # 문장별 걸러진 단어를 최종 리스트에 담기    
    all_tokens.append(filtered_words)
        
all_tokens

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'],
 ['see', 'window', 'television', '.'],
 ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]

## Stemming과 Lemmatization

### Stemming
- 원형 단어로 변환 시, 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
- 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음

In [7]:
from nltk.stem import LancasterStemmer

# Stemmer 객체 생성
stemmer = LancasterStemmer()


# stem('단어') 메서드를 활용해 원하는 단어의 stemming 수행
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('faciest'))

work work work
amus amus amus
happy happiest
fant faciest


- work의 경우 working, works, worked 등 기본 단어에 ing, s, ed가 붙는 단순 형태라서 제대로 인식함
- 하지만, 다른 단의 경우 비교형, 최상급형에서 원형을 정확히 찾지 못함

### Lemmatization
- 품사와 같은 문법적 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌
- 따라서 수행시간이 Stemming보다 더 느림

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...


True

In [11]:
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...


True

In [12]:
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy


## 피처 벡터화

### BOW벡터화

### 희소행렬 - COO 형식

#### 희소행렬 형태의 BOW벡터화한 데이터프레임의 예시를 배열로 만들어서 COO방식으로 저장되는 것 확인하기

In [14]:
import numpy as np

# 예시 배열 만들기
dense = np.array([[3,0,1], [0,2,0]])

In [15]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# data의 행의 위치와 열의 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO형식 희소행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [16]:
# 확인
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### 희소행렬 - CSR 형식

In [18]:
dense2 =  np.array([[0,0,1,0,0,5], [1,4,0,3,2,5], [0,6,0,3,0,0],[2,0,0,0,0,0], [0,0,0,7,0,8], [1,0,0,0,0,0]])

In [20]:
# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray(), '\n')

print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]] 

CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


#### 과제1: 10행 10열의 희소행렬 (0의 비중 70% 이상)을 생성한 후 COO, CSR 방식으로 변환 후 다시 희소 행렬 출력

In [1]:
import numpy as np
import random

random_int_li = np.random.randint(1,10, size = 30).tolist() + np.zeros(70, int).tolist()
random.shuffle(random_int_li)

sparse_matrix = np.array(random_int_li).reshape(10,10)
sparse_matrix

array([[0, 7, 0, 0, 0, 0, 0, 1, 0, 7],
       [5, 1, 0, 0, 6, 0, 0, 2, 0, 4],
       [0, 0, 0, 6, 9, 0, 0, 0, 0, 2],
       [6, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 2, 0, 2, 0, 0, 4, 0],
       [0, 0, 8, 0, 0, 2, 7, 0, 0, 0],
       [0, 4, 0, 6, 0, 6, 0, 0, 0, 7],
       [0, 0, 2, 0, 9, 2, 0, 0, 4, 0],
       [0, 0, 2, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 5, 0, 0, 0, 0, 9, 0]])

In [2]:
def sparse_idx(sparse_matrix):
    data = []
    row_pos =[]
    col_pos = []

    for row_idx, rows in enumerate(sparse_matrix):
        for col_idx, i in enumerate(rows):
            # 0이 아닌 원소 추출
            if i != 0:
                data.append(i)
                # 0이 아닌 원소의 행, 열 인덱스 추출
                row_pos.append(row_idx)
                col_pos.append(col_idx)        
    row_pos_ind = [0]
    cumsum_i = 0
    for i in range(10):
        cumsum_i += row_pos.count(i)-1
        row_pos_ind.append(cumsum_i)
    
    return data, row_pos, col_pos, row_pos_ind

data, row_pos, col_pos, row_pos_ind = sparse_idx(sparse_matrix)

In [3]:
from scipy import sparse

## COO
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))
sparse_coo.toarray()

## CSR
sparse_csr = sparse.csr_matrix((data, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray(), '\n')

print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 7 0 0 0 0 0 1 0 7]
 [5 1 0 0 6 0 0 2 0 4]
 [0 0 0 6 9 0 0 0 0 2]
 [6 0 0 0 0 0 0 0 0 0]
 [0 0 0 2 0 2 0 0 4 0]
 [0 0 8 0 0 2 7 0 0 0]
 [0 4 0 6 0 6 0 0 0 7]
 [0 0 2 0 9 2 0 0 4 0]
 [0 0 2 0 0 0 0 0 1 0]
 [0 0 0 5 0 0 0 0 9 0]] 

CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 7 0 0 0 0 0 1 0 0]
 [5 1 0 0 6 0 0 0 0 7]
 [0 0 0 0 0 0 0 2 0 4]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 6 9 0 0 0 0 0]
 [6 0 0 0 0 0 0 0 0 2]
 [0 0 0 2 0 2 0 0 4 0]
 [0 0 8 0 0 2 7 0 0 0]
 [0 4 0 0 0 0 0 0 0 0]
 [0 0 0 6 0 0 0 0 0 0]]


# 실습: 텍스트 분류- 20 뉴스 그룹 분류

In [47]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset = 'all', random_state = 156)
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [97]:
import pandas as pd

print('target 클래스의 값과 분포도\n', pd.Series(news_data.target).value_counts().sort_index())
print('\n')
print('target 클래스의 이름들 \n', news_data.target_names)

target 클래스의 값과 분포도
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64


target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [98]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [99]:
from sklearn.datasets import fetch_20newsgroups

# subset = 'train'으로 학습용 데이터만 추출, remove = ('headers', 'footers', 'quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset = 'train',
                                remove = ('headers', 'footers', 'quotes'),
                                random_state = 156)

X_train = train_news.data
y_train = train_news.target


# subset = 'train'으로 학습용 데이터만 추출, remove = ('headers', 'footers', 'quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset = 'test',
                               remove = ('headers', 'footers', 'quotes'),
                               random_state = 156)
X_test = test_news.data
y_test = test_news.target


print(f'학습 데이터 크기: {len(train_news.data)}, 테스트 데이터 크기: {len(test_news.data)}')

학습 데이터 크기: 11314, 테스트 데이터 크기: 7532


## 로지스틱 회귀모델 적용

### CountVectorizer 기반

In [100]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorization으로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)


# 학습 데이터로 fit() 된 CountVectorizer를 이용해 테스트 데이터를 피처 벡처화 변환 수행
X_test_cnt_vect = cnt_vect.transform(X_test)


print('학습 데이터 텍스트의 CountVectorizer Shape:', X_train_cnt_vect.shape)

학습 데이터 텍스트의 CountVectorizer Shape: (11314, 101631)


In [101]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# LogisticRegression을 이용하여 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
### 주의: 벡터화 한 x_train 데이터 세트 이용해야 함
lr_clf.fit(X_train_cnt_vect, y_train)

## 예측
pred = lr_clf.predict(X_test_cnt_vect)

## 평가
accuracy = accuracy_score(y_test, pred)

print(f'CountVectorized Logistic Regression의 예측 정확도는 {np.round(accuracy,3)}')

CountVectorized Logistic Regression의 예측 정확도는 0.617


### TF-IDF 기반

#### 기본 파라미터 적용

In [102]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화를 적용해 학습데이터 테스트 데이터세트 변환
tfidf_vect = TfidfVectorizer()

# TF-IDF 벡터화를 적용#### 파라미터 수정 후 TF-IDF기반 로지스틱 회귀 모델 적용
tfidf_vect.fit(X_train)

#X_train, X_test 데이터를 TF-IDF 벡터로 변형시키기
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)


# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
### 주의: 벡터화한 x_train 데이터 세트 이용
lr_clf.fit(X_train_tfidf_vect, y_train)

## 예측
lr_clf.predict(X_test_tfidf_vect)

## 평가
accuracy = accuracy_score(y_test, pred)

print(f'TF-IDF Logistic Regression의 예측 정확도는 {np.round(accuracy,3)}')

TF-IDF Logistic Regression의 예측 정확도는 0.617


#### 파라미터 수정 후 적용

In [103]:
# 파라미터 수정한 TF-IDF 객체 생성
tfidf_vect = TfidfVectorizer(stop_words = 'english', 
                             ngram_range = (1,2),
                             max_df = 300)

# TF-IDF 벡터화 학습
tfidf_vect.fit(X_train)

# TF-IDF 벡터로 변환
X_train_tfidf_vect2 = tfidf_vect.transform(X_train)
X_test_tfidf_vect2 = tfidf_vect.transform(X_test)


# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
lr_clf.fit(X_train_tfidf_vect2, y_train)

## 예측
pred2 = lr_clf.predict(X_test_tfidf_vect2)

## 평가
accuracy2 = accuracy_score(y_test, pred2)

print(f'파라미터를 다르게 한 TF-IDF Logisitc Regression의 예측 정확도는 {np.round(accuracy2,3)}')

파라미터를 다르게 한 TF-IDF Logisitc Regression의 예측 정확도는 0.69


#### GridSearchCV를 이용한 하이퍼파라미터 최적화 수행 후 적용

In [104]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# GridSearchCV로 학습/평가/예측: 최적 C,값 도출 튜닝 수행 CV = 3인 폴드 세트로 설정
params = {'C': [0.01, 0.1, 1, 5, 10]}
lr_clf = LogisticRegression()

grid_cv_lr = GridSearchCV(lr_clf, param_grid = params, cv = 3, scoring = 'accuracy', verbose = 1)


## 학습
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print(f'Logistic Regression best C parameter: {grid_cv_lr.best_params_}')

## 예측
preds = grid_cv_lr.predict(X_test_tfidf_vect)

## 평가
accuracy = accuracy_score(y_test, preds)
print(f'TF-IDF Vectorized Logistic Regression의 예측 정확도: {np.round(accuracy, 3)}')



Fitting 3 folds for each of 5 candidates, totalling 15 fits
Logistic Regression best C parameter: {'C': 10}
TF-IDF Vectorized Logistic Regression의 예측 정확도: 0.685
