# Chapter 6. 텍스트 다루기

## 6.0 소개

* 비정형(unstructured) 텍스트 데이터
    * 책의 본문이나 트윗
    * 텍스트를 풍부한 정보를 가진 특성으로 변환하자.

## 6.1 텍스트 정제하기

* 비정형 텍스트 데이터에 기본적인 정제 작업 실시
    * strip, replace, split 파이썬 기본 문자열 메서드로 텍스트 변경

In [3]:
text_data = ["  Interrobang. By Aishwarya Henriette  ",
            "Parking And Going. By Karl Gautier",
            "   Today Is The night. By Jarek Prakash   "]

In [4]:
# 공백 문자 제거
strip_whitespace = [string.strip() for string in text_data]

In [5]:
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [6]:
# 마침표 제거
remove_periods = [string.replace(".","") for string in strip_whitespace]

In [7]:
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [8]:
# 함수 제작
def capitalizer(string: str) -> str:
        return string.upper()

In [11]:
[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [14]:
# 정규표현식
import re

def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

In [15]:
[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

* 텍스트 데이터 : 특성으로 만들기 전에 정제되어야 한다.

## 6.2 HTML 파싱과 정제하기

* 뷰티풀 수프(beautiful soup)

In [27]:
from bs4 import BeautifulSoup

html = """
<div class='full_name'><span style='font-weight:bold'>
Masego</span> Azra</div>
"""

In [28]:
soup = BeautifulSoup(html, "lxml")

soup.find("div", { "class" : "full_name" }).text

'\nMasego Azra'

## 6.3 구두점 삭제하기
* 텍스트 데이터에서 구두점을 삭제하고 싶다.
* 구두점 글자의 딕셔너리를 만들어 translate 메서드 적용

In [29]:
import unicodedata
import sys

text_data = ['Hi!!! I. Love. This. Song....',
            '10000% Agree!!! #LoveIT',
            'Right?!?!?!']

punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                           if unicodedata.category(chr(i)).startswith('P'))

[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

* translate : 속도가 매우 빨라 인기 있는 파이썬 함수
    * 유니코드 구두점을 키로, 값은 None인 punctuation 딕셔너리를 제작한다.
    * punctuation 있는 모든 문자를 None 바꾸어 구두점 삭제 효과를 낸다.

## 6.4 텍스트 토큰화하기
* 텍스트 개별 단어 나누기

* 파이썬 자연어 처리 툴킷 NLTK : 단어 토큰화를 비롯해 강력한 텍스트 처리 기능을 가진다.
    * Natural Language TooklKit

In [1]:
import nltk
nltk.download('punkt') # 구두점 데이터 다운로드

from nltk.tokenize import word_tokenize

# text
string = "The science of today is the technology of tomorrow"

word_tokenize(string) # 단어를 토큰으로 나누기

[nltk_data] Downloading package punkt to /Users/statstics/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [3]:
# 문장 나누기
from nltk.tokenize import sent_tokenize

string = "The science of today is the technology of tomorrow. \
          Tomorrow is today."

In [4]:
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today.']

* 토큰화 : 텍스트 데이터 정제 후에 여러번 수행하므로 유용한 특성을 만들기 위해 텍스트를 데이터로 변환하는 첫번째 과정이다.

## 6.5 불용어 삭제하기
* 토큰화된 텍스트 데이터에서 정보가가 없는 단어를 삭제한다.(a, is, of, on)
* NLTK의 stopwords 사용

In [5]:
# 불용어 데이터
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords

tokenized_words = ['i','am','going', 'to', 'go','to','the','store','and','park']

stop_words = stopwords.words('english')

[word for word in tokenized_words if word not in stop_words]

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/statstics/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['going', 'go', 'store', 'park']

* 불용어(stop word) : 작업 전에 삭제할 단어 혹은 유용한 정보가 거의 없고 매우 자주 등장하는 단어가 된다.
* NLTK가 불용어 리스트가 있으니 그 목록에서 확인 및 제거할 수 있다.

In [6]:
# 불용어 확인
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

* NLTK의 stopwords는 토큰화된 단어는 소문자를 가정한다.
* 사이킷런도 영어 불용어 리스트 제공한다.(318개)

In [11]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS 

len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

* 사이킷런 불용어는 frozenset 객체 : 인덱스 사용 불가
    * 리스트 변환 후 확인 가능

In [12]:
list(ENGLISH_STOP_WORDS)[:5]

['around', 'three', 'of', 'mine', 'thereafter']

## 6.6 어간 추출하기

* 토큰으로 나눈 단어를 어간으로 바꾼다.
* NLTK PorterStemmer 활용

In [14]:
from nltk.stem.porter import PorterStemmer

# 단어 토큰 제작
tokenized_words = ['i','am','humbled','by','this','traditional','meeting']

# 어간 추출기 제작
porter = PorterStemmer()

# 적용
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

* 어간 추출 : 단어의 어간을 구분하여 기본 의미를 유지하면서 어미 제거(~ing)
    * 읽기는 힘들지만 기본 의미에 가까워지고 샘플 간 비교하기 더 좋다.

## 6.7 품사 태깅하기

* 사전 훈련된 NLTK 품사 태깅 활용

In [18]:
import nltk
nltk.download('averaged_perceptron_tagger')

from nltk import pos_tag
from nltk import word_tokenize

text_data = "Chris loved outdoor running"

# 사전훈련된 품사 태깅을 사용한다.
text_tagged = pos_tag(word_tokenize(text_data))

text_tagged


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/statstics/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

* 출력 : 단어와 품사 태그로 이루어진 튜플의 리스트
* 펜 트리뱅크(penn Treebank) : 구문 주석 말뭉치

1. NNP 고유 명사, 단수  
2. NN 명사, 단수 또는 불가산 명사
3. RB 부사
4. VBD 동사, 과거형
5. VBG 동사, 동명사 또는 현재 분사
6. JJ 형용사
7. PRP 인칭 대명사

In [22]:
# 텍스트 태깅되면 태그를 이용해 특정 품사 찾을 수 있다.
[word for word, tag in text_tagged if tag in ['NN','NNS','NNP','NNPS']]

['Chris']

In [23]:
# 샘플의 트윗 문장
from sklearn.preprocessing import MultiLabelBinarizer

tweets = ["I am eating a burrito for breakfast",
         "Political science is an amazing field",
         "San Francisco is an awesome city"]

In [24]:
tagged_tweets = []

for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

In [25]:
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [26]:
# classes_ : 특성이 어떤 품사 갖는지 안다.
one_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

* 브라운 코퍼스 데이터 활용

* 백오프 n-그램 태그 모델
    * n : 한 단어의 품사를 예측하기 위해 고려할 이전 단어의 수
    * TrigramTagger : 이전 두 단어 고려
    * BigramTagger : 이전 한 단어 고려
    * UnigramTagger : 그 단어 자체만 참고

In [27]:
# 브라운코퍼스
import nltk
nltk.download('brown')

from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger

sentences = brown.tagged_sents(categories='news')

[nltk_data] Downloading package brown to /Users/statstics/nltk_data...
[nltk_data]   Package brown is already up-to-date!


In [28]:
train = sentences[:4000]
test = sentences[4000:] # 나머지 623

# 백오프 태그 객체 제작
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# 정확도 확인
trigram.evaluate(test)

0.8174734002697437

* 한글 품사 태깅 : KoNLPy

In [29]:
from konlpy.tag import Okt
okt = Okt()

text = '태양계는 지금으로부터 약 46억 년 전, 거대한 분자 구름의 일부분이 중력 붕괴를 일으키면서 형성되었다'

In [30]:
okt.pos(text)

[('태양계', 'Noun'),
 ('는', 'Josa'),
 ('지금', 'Noun'),
 ('으로부터', 'Josa'),
 ('약', 'Noun'),
 ('46억', 'Number'),
 ('년', 'Noun'),
 ('전', 'Noun'),
 (',', 'Punctuation'),
 ('거대한', 'Adjective'),
 ('분자', 'Noun'),
 ('구름', 'Noun'),
 ('의', 'Josa'),
 ('일부분', 'Noun'),
 ('이', 'Josa'),
 ('중력', 'Noun'),
 ('붕괴', 'Noun'),
 ('를', 'Josa'),
 ('일으키면서', 'Verb'),
 ('형성', 'Noun'),
 ('되었다', 'Verb')]

* 기존 태거도 활용 가능하다.
* 형태소 추출 morphs 메서드
* 명사만 추출 nouns 메서드

In [31]:
okt.morphs(text)

['태양계',
 '는',
 '지금',
 '으로부터',
 '약',
 '46억',
 '년',
 '전',
 ',',
 '거대한',
 '분자',
 '구름',
 '의',
 '일부분',
 '이',
 '중력',
 '붕괴',
 '를',
 '일으키면서',
 '형성',
 '되었다']

In [32]:
okt.nouns(text)

['태양계', '지금', '약', '년', '전', '분자', '구름', '일부분', '중력', '붕괴', '형성']

## 6.8 텍스트를 BoW로 인코딩하기
* 사이킷런 : CountVectorizer

* 텍스트 데이터에서 특정 단어의 등장 횟수를 나타내는 특성 만들기

In [2]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

text_data = np.array(['I love Brazil. Brazil!',
                     'Sweden is best','Germany beats both'])

# BoW 특성 행렬
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [3]:
# 대용량 데이터에서는 희소 행렬 필수적
# toarray() : 샘플의 단어  카운트 행렬 확인
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]])

In [4]:
# get_feature_names : 각 특성에 연결된 단어 확인 가능
count.get_feature_names()

['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love', 'sweden']

* BoW(Bag of Word) 모델
    * 텍스트 데이터에 있는 고유한 단어마다 하나의 특성 제작
    * 각 단어가 샘플에 등장한 횟수 포함
    * 수천 개의 특성을 가진 행렬을 만들 수 있다.
    * BoW 특성 행렬 : 데이터 저장 공간을 줄일 수 있다.
        * 대부분 0이지만, 0 아닌 값만 저장한다. 희소 행렬이다.
        * 메모리 줄인다.

* CountVectorizer
    * 기본적으로 희소 행렬 출력
    * ngram_range : n-그램의 최소와 최대 크기 지정 가능
    * stop_words : 내장된 리스트나 사용자가 지정한 리스트에 포함된 유용하지 않은 단어 제거 가능
    * vocabulary : 대상 단어나 구를 제한 가능. 국가 일므만 담은 BoW 특성 행렬 등.
    

In [6]:
# 예시
count_2gram = CountVectorizer(ngram_range=(1,2),
                             stop_words='english',
                             vocabulary=['brazil'])
bag = count_2gram.fit_transform(text_data)

In [7]:
bag.toarray()

array([[2],
       [0],
       [0]])

In [8]:
# 1그램과 2그램을 확인
count_2gram.vocabulary_

{'brazil': 0}

* 어휘 사전 : 텍스트에서 고유한 단어를 추출해서 순서대로 번호 매긴 것이다.
    * vocabulary_ 속성에 딕셔너리로 저장된다.
    * max_df : 단어가 등장할 문서의 최대 개수 지정(불용어 같은 너무 자주 등장하는 단어 제거)
    * min_df : 단어가 등장할 문서의 최소 개수 지정(드문 단어 제거)
        * 위 두 매개변수에 0~1사이 실숫값 지정하면 전체 문서 개수에 대한 비율이 된다.
    * max_features : CountVectorizer 어휘 사전의 크기를 제한.
        * 전체 문서에서 빈도순으로 최상위 max_features 개 단어가 추출된다.

## 6.9 단어 중요도에 가중치 부여하기
* tf-idf(단어 빈도-역문서 빈도) : 샘플에서 단어의 중요도에 따라 가중치가 부여된 BoW 모델 필요시 활용
    * 하나의 문서에 등장하는 단어의 빈도와 다른 모든 문서에 등장핳는 빈도를 비교한다.
    * 사이킷런 TfidfVectorizer 사용

In [9]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = np.array(['I love Brazil. Brazil!','Sweden is best', 'Germany beats both'])

In [10]:
# tf-idf 특성 행렬 제작
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [11]:
# 희소 행렬로 출력되므로, 밀집 배열로 출력하려면 toarray 활용.
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [13]:
# 특성 이름 확인 : vocabulrary_
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}

* 한 문서에 많이 등장하면 그 문서에 더 중요한 단어이다.
    * tf(term frequence) : 단어 빈도
* 한 단어가 여러 문서에 나타나면 반대로 특정 문서에 중요한 것은 아니다.
    * df(document frequence) : 문서 빈도
* 두 통계치를 연결하여 tf를 idf(역문서 빈도)에 곱한다.
    * tf-idf

$$tf-idf(t,d) = tf(t,d) \times idf(t)$$

$$idf(t) = \log{{1+n_d}\over{1+df(d,t)}}+1$$

* 사이킷런은 유클리드 노름(L2 노름)으로 tf-idf 벡터 정규화
    * 결괏값이 높을수록 그 문서에서 더 중요한 단어이다.
    * TfidfVectorizer::smooth_idf = True(기본값)이면 앞의 공식이 사용된다.
    * 분모와 분자에 1을 더하여 모든 단어가 포함된 가상의 문서를 만들고, 분모의 0이 되는 것을 막는다.
    * 반대롤 모든 문서에 포함된 단어가 있다면 분모가 매우 커져서 로그 값이 0이되므로, idf 공식에 1을 더한다.

* smooth_idf=False : 분모와 분자에 1을 더하지 않는 공식으로 변경한다.
$$idf(t) = \log{{n_d}\over{df(d,t)}}+1$$

* TfidfVectorizer::ngram_range, max_df, min_df, max_features 지원합니다.