# 6.1 텍스트 정제하기

가장 기본적인 정제 방법은 strip, replace, split와 같은 파이썬의 기본 문자열 메서드를 사용하여 텍스트를 바꾸는 것이다.

In [1]:
text_data = ['Interrobang. By Aishwarya Henriette    ',
             'Parking And Going. By Karl Gautier', 
             '   Today Is The night. By Jarek Prakash    ']

In [2]:
# 공백 문자를 제거한다.

strip_whitespace = [string.strip() for string in text_data]

In [4]:
# 텍스트를 확인한다.

strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [5]:
# 마침표를 제거한다.

remove_periods = [string.replace('.', '') for string in strip_whitespace]

In [6]:
# 텍스트를 확인한다.

remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [7]:
# 함수 만들기
def capitalizer(string: str) -> str:
    return string.upper()

In [8]:
# 함수 적용하기

[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [9]:
# 정규 표현식 사용
import re

def replace_letters_with_X(string: str) -> str:
    return re.sub(r'[a-zA-Z]', 'X', string)

In [10]:
# 함수적용하기

[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

# 6.2 HTML 파싱과 정제하기

In [12]:
from bs4 import BeautifulSoup

In [13]:
html = """
<div class='full_name'><span style='font-weight:bold'>
Masego</span> Azra</div>"
"""

In [14]:
# html을 파싱하기
soup = BeautifulSoup(html, 'lxml')

In [15]:
# 'full_name' 이름의 클래스를 가진 div를 찾아 텍스트를 출력한다.
soup.find('div', {'class': 'full_name'}).text

'\nMasego Azra'

# 6.3 구두점 삭제하기

In [16]:
import unicodedata
import sys

In [17]:
# 텍스트를 만든다.
text_data = ['Hi!!! i. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']

In [18]:
# 구두점 문자로 이루어진 딕셔너리를 만든다.
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                            if unicodedata.category(chr(i)).startswith('P'))

In [19]:
# 문자열의 구두점을 삭제한다.
[string.translate(punctuation) for string in text_data]

['Hi i Love This Song', '10000 Agree LoveIT', 'Right']

----어려움,,

# 6.4 텍스트 토큰화하기

자연어 처리 툴킷 NLTK는 단어 토큰화를 비롯해 강력한 텍스트 처리 기능을 가지고 있다.

In [21]:
# 구두점 데이터를 다운로드 한다.
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\rlaek\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [22]:
from nltk.tokenize import word_tokenize

In [23]:
string = 'The science of today is the technology of tomorrow'

In [24]:
# 단어를 토큰으로 나눈다.
word_tokenize(string)

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [26]:
# 문장으로 나누기
from nltk.tokenize import sent_tokenize

In [27]:
string = 'The science of today is the technology of tomorrow. Tomorrow is today'

In [29]:
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today']

토큰화. 특히 단어 토큰화는 텍스트 데이터를 정제한 후 빈번하게 수행하는 작업이다.\
이는 유용한 특성을 만들기 위해 텍스트를 데이터로 변환하는 첫 번째 과정이다.

# 6.5 불용어 삭제하기

In [30]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\rlaek\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [31]:
from nltk.corpus import stopwords

In [32]:
tokenized_words = ['i',
                   'am',
                   'going',
                   'to',
                   'the',
                   'store',
                   'and',
                   'park']

In [34]:
# 불용어 적재
stop_words = stopwords.words('english')

In [35]:
# 불용어 삭제
[word for word in tokenized_words if word not in stop_words]

['going', 'store', 'park']

불용어는 작업 전에 삭제해야 하는 일련의 단어를 의미하기도 하지만 종종 유용한 정보가 거의 없는 매우 자주 등장하는 단어를 의미한다.\
NLTK는 불용어 리스트를 사용하여 토큰화된 단어에서 불용어를 찾고 삭제할 수 있다.

In [38]:
# 불용어 확인
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

NLTK의 stopwords는 토큰화된 단어가 소문자라고 가정한다.

사이킷런도 영어 불용어 리스트를 제공한다.

In [39]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

In [40]:
len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

In [41]:
list(ENGLISH_STOP_WORDS)[:5]

['us', 'again', 'there', 'whenever', 'anyhow']

# 6.6 어간 추출하기

In [42]:
from nltk.stem.porter import PorterStemmer

In [43]:
# 단어 토큰
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']

In [44]:
# 어간 추출기 만들기
porter = PorterStemmer()

In [45]:
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

어간 출출은 단어의 어간을 구분하여 기본 의미를 유지하면서 어미를 제거한다.\
예를 들어 tradition과 traditional은 어간 tradit을 가진다.\
두 단어는 다르지만 기본 의미에 가까워지고 샘플 간에 비교하기에 더 좋다.

# 6.7 품사 태깅하기

In [46]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\rlaek\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [47]:
from nltk import pos_tag
from nltk import word_tokenize

In [48]:
text_data = 'Chris loved outdoor running'

In [49]:
# 사전 훈련된 품사 태깅을 사용한다.
text_tagged = pos_tag(word_tokenize(text_data))

In [50]:
# 품사 확인하기
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

- NNP : 고유 명사, 단수
- NN : 명사, 단수 또는 불가산 명사
- RB : 부사
- VBD : 동사, 과거형
- VBG : 동사, 동명사 또는 현재 분사
- JJ : 형용사
- PRP : 인칭 대명사

In [51]:
# 단어 필터링
[word for word, tag in text_tagged if tag in ['NN', 'NNS', 'NNP', 'NNPS']]

['Chris']

조금 더 실전 같은 상황은 샘플의 트윗 문장을 각 품사에 따라 특성으로 변환할 때이다.\
예를 들어 명사가 있을 경우 1, 그렇지 않으면 0

In [52]:
from sklearn.preprocessing import MultiLabelBinarizer

In [53]:
tweets = ['I am eating a burrito for breakfast',
          'Political science is an amazing field',
          'San Francisco is an awesome city']

In [56]:
tagged_tweets = []

for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

In [57]:
tagged_tweets

[['PRP', 'VBP', 'VBG', 'DT', 'NN', 'IN', 'NN'],
 ['JJ', 'NN', 'VBZ', 'DT', 'JJ', 'NN'],
 ['NNP', 'NNP', 'VBZ', 'DT', 'JJ', 'NN']]

In [58]:
# 원-핫 인코딩을 사용하여 태그를 특성으로 변환
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [59]:
# 특성 이름을 확인
one_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

##### <n-그램 태그 모델>
n은 한 단어의 품사를 예측하기 위해 고려할 이전 단어의 수
- 먼저 TrigramTagger를 사용해 이전 두 단어를 고려하여 만들어본다.
- 두 개의 단어가 없다면 BigramTagger를 사용해 이전 한 단어의 품사를 참고한다.
- 이것도 실패하면 마지막으로 UnigramTagger를 사용해 그 단어 자체만을 참고한다.

In [60]:
import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\rlaek\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\brown.zip.


True

In [61]:
from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger

In [63]:
# 브라운 코퍼스에서 텍스트를 추출한 다음 문장으로 나눈다.
sentences = brown.tagged_sents(categories = 'news')

In [65]:
train = sentences[:4000]
test = sentences[4000:]

In [66]:
# 백오프 태그 객체를 만든다.
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff = unigram)
trigram = TrigramTagger(train, backoff = bigram)

In [67]:
# 정확도 확인하기

trigram.evaluate(test)

0.8174734002697437

# 6.8 텍스트를 BoW로 인코딩하기

In [71]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

In [72]:
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

In [73]:
# BoW 특성 행렬 만들기

count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

In [74]:
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

대량의 텍스트 데이터라면 희소 배열로 출력되는 것이 필수적이다.\
이 예는 간단하기 때문에 toaraay 메서드를 사용하여 샘플의 단어 카운트 행렬을 확인할 수 있다.

In [75]:
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]], dtype=int64)

In [76]:
# 특성 이름을 확인하기
count.get_feature_names()

['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love', 'sweden']

BoW 모델은 텍스트 데이터에 있는 고유한 단어마다 하나의 특성을 만든다. 이 특성은 각 단어가 샘플에 등장한 횟수를 담고 있다.\
예를 들면 이 해결에 나온 I love Brazil. Brazil! 문장에서 brazil 단어가 두 번 등장하기 때문에 brazil 특성의 값은 2이다.

BoW 특성 행렬의 값은 대부분 0 이다. 이런 종류의 행렬을 희소 행렬잉라고 부른다.\
행렬의 모든 원소를 저장하는 대신 0이 아닌 값만 저장하고 나머지 원소는 모두 0이라고 가정할 수 있다.\
CounVectorizer의 장점 중 하나는 기본적으로 희소행렬을 출력한다는 것이다.

특성을 단어 두 개(2-그램)나 단어 세 개(3-그램)로 만들 수 있다.\
ngram_range 매개변수로 n-그램의 최소와 최대 크기를 지정할 수 있다. 예를 들어 (2, 3)은 2-그램과 3-그램을 모두 만든다.

In [78]:
# 옵션을 지정하여 특성 행렬을 만든다.

count_2gram = CountVectorizer(ngram_range = (1, 2),
                              stop_words = 'english',
                              vocabulary = ['brazil'])
bag = count_2gram.fit_transform(text_data)

# 특성 행렬을 확인한다.
bag.toarray()

array([[2],
       [0],
       [0]], dtype=int64)

In [80]:
# 1-그램과 2-그램을 확인한다.
count_2gram.vocabulary_

{'brazil': 0}

CountVector에 대해 자세히 알고 싶으면 p181

# 6.9 단어 중요도에 가중치 부여하기

댓글, 리뷰 등 나오는 모든 빈도를 비교한다.

In [82]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [83]:
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

In [84]:
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

In [85]:
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [86]:
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [87]:
# 특성 이름을 확인하기.
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}

한 문서에 어떤 단어가 많이 등장할수록 그 문서에 더 중요한 단어일 것이다.\
예를 들어 esconomy 단어가 자주 나타난다면 경제에 관한 문서라는 증거가 된다. 이를 tf(단어 빈도)라고 부른다.

반대로 한 단어가 많은 문서에 나타난다면 이는 어떤 특정 문서에 중요하지 않는 단어라는 뜻이다.\
예를 들어 텍스트 데이터의 모든 문서에 after 단어가 포함되어 있다면 이 단어는 중요하지 않을 것이다. 이를 df(문서빈도)라고 한다.

기본적으로 사이킷런은 유클리드 노름(L2 노름)으로 tf-idf 벡터를 정규화한다. 결과값이 높을수록 그 문서에서 더 중요한 단어이다.\
자세한 내용은 p184