# 6장. 텍스트 다루기

이 노트북을 주피터 노트북 뷰어(nbviewer.jupyter.org)로 보거나 구글 코랩(colab.research.google.com)에서 실행할 수 있습니다.

<table align="left">
  <td>
    <a target="_blank" href="https://nbviewer.org/github/rickiepark/machine-learning-with-python-cookbook/blob/master/06.ipynb"><img src="https://jupyter.org/assets/share.png" width="60" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/machine-learning-with-python-cookbook/blob/master/06.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 6.1 텍스트 정제

In [1]:
# 텍스트를 만듭니다.
text_data = ["   Interrobang. By Aishwarya Henriette     ",
             "Parking And Going. By Karl Gautier",
             "    Today Is The night. By Jarek Prakash   "]

# 공백 문자를 제거합니다.
strip_whitespace = [string.strip() for string in text_data]

# 텍스트를 확인합니다.
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [2]:
# 마침표를 제거합니다.
remove_periods = [string.replace(".", "") for string in strip_whitespace]

# 텍스트를 확인합니다.
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [3]:
# 함수를 만듭니다.
def capitalizer(string: str) -> str:
    return string.upper()

# 함수를 적용합니다.
[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [4]:
# 라이브러리를 임포트합니다.
import re

# 함수를 만듭니다.
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

# 함수를 적용합니다.
[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

## 6.2 HTML 파싱과 정제

In [5]:
# 라이브러리를 임포트합니다.
from bs4 import BeautifulSoup

# 예제 HTML 코드를 만듭니다.
html = """
       <div class='full_name'><span style='font-weight:bold'>
       Masego</span> Azra</div>"
       """

# html을 파싱합니다.
soup = BeautifulSoup(html, "lxml")

# "full_name" 이름의 클래스를 가진 div를 찾아 텍스트를 출력합니다.
soup.find("div", { "class" : "full_name" }).text

'\n       Masego Azra'

## 6.3 구둣점 삭제

In [6]:
# 라이브러리를 임포트합니다.
import unicodedata
import sys

# 텍스트를 만듭니다.
text_data = ['Hi!!!! I. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']

# 구두점 문자로 이루어진 딕셔너리를 만듭니다.
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                            if unicodedata.category(chr(i)).startswith('P'))

# 문자열의 구두점을 삭제합니다.
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

## 6.4 텍스트 토큰화

In [7]:
# 구두점 데이터를 다운로드합니다.
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/haesun/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [8]:
# 라이브러리를 임포트합니다.
from nltk.tokenize import word_tokenize

# 텍스트를 만듭니다.
string = "The science of today is the technology of tomorrow"

# 단어를 토큰으로 나눕니다.
word_tokenize(string)

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [9]:
# 라이브러리를 임포트합니다.
from nltk.tokenize import sent_tokenize

# 텍스트를 만듭니다.
string = "The science of today is the technology of tomorrow. Tomorrow is today."

# 문장으로 나눕니다.
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today.']

## 6.5 불용어 삭제

In [10]:
# 불용어 데이터를 다운로드합니다.
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/haesun/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
# 라이브러리를 임포트합니다.
from nltk.corpus import stopwords

# 단어 토큰을 만듭니다.
tokenized_words = ['i',
                   'am',
                   'going',
                   'to',
                   'go',
                   'to',
                   'the',
                   'store',
                   'and',
                   'park']

# 불용어를 적재합니다.
stop_words = stopwords.words('english')

# 불용어를 삭제합니다.
[word for word in tokenized_words if word not in stop_words]

['going', 'go', 'store', 'park']

In [12]:
# 불용어를 확인합니다.
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

In [13]:
stopwords.abspath

<bound method CorpusReader.abspath of <WordListCorpusReader in '/home/haesun/nltk_data/corpora/stopwords'>>

## 붙임

In [14]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

In [15]:
list(ENGLISH_STOP_WORDS)[:5]

['serious', 'side', 'thru', 'hers', 'keep']

## 6.6 어간 추출

In [16]:
# 라이브러리를 임포트합니다.
from nltk.stem.porter import PorterStemmer

# 단어 토큰을 만듭니다.
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']

# 어간 추출기를 만듭니다.
porter = PorterStemmer()

# 어간 추출기를 적용합니다.
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

## 6.7 품사 태깅

In [17]:
# 태거를 다운로드합니다.
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/haesun/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [18]:
# 라이브러리를 임포트합니다.
from nltk import pos_tag
from nltk import word_tokenize

# 텍스트를 만듭니다.
text_data = "Chris loved outdoor running"

# 사전 훈련된 품사 태깅을 사용합니다.
text_tagged = pos_tag(word_tokenize(text_data))

# 품사를 확인합니다.
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

In [19]:
# 단어를 필터링합니다.
[word for word, tag in text_tagged if tag in ['NN','NNS','NNP','NNPS'] ]

['Chris']

In [20]:
from sklearn.preprocessing import MultiLabelBinarizer

# 텍스트를 만듭니다.
tweets = ["I am eating a burrito for breakfast",
          "Political science is an amazing field",
          "San Francisco is an awesome city"]

# 빈 리스트를 만듭니다.
tagged_tweets = []

# 각 단어와 트윗을 태깅합니다.
for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

# 원-핫 인코딩을 사용하여 태그를 특성으로 변환합니다.
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [21]:
# 특성 이름을 확인합니다.
one_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

In [22]:
# 브라운 코퍼스를 다운로드합니다.
import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to /home/haesun/nltk_data...
[nltk_data]   Package brown is already up-to-date!


True

In [23]:
# 라이브러리를 임포트합니다.
from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger

# 브라운 코퍼스에서 텍스트를 추출한 다음 문장으로 나눕니다.
sentences = brown.tagged_sents(categories='news')

# 4,000개의 문장은 훈련용으로 623개는 테스트용으로 나눕니다.
train = sentences[:4000]
test = sentences[4000:]

# 백오프 태그 객체를 만듭니다.
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# 정확도를 확인합니다.
trigram.evaluate(test)

0.8174734002697437

## 붙임

In [24]:
# 코랩에서 실행하는 경우 다음 주석을 제거하고 실행하세요.
#!pip install konlpy

In [25]:
# 최신 버전의 tweepy 패키지가 설치될 경우 konlpy에서 StreamListener가 없다는 에러가 발생하므로 
# 3.10버전을 설치해 주세요. pip install tweepy==3.10
from konlpy.tag import Okt
okt = Okt()

In [26]:
text = '태양계는 지금으로부터 약 46억 년 전, 거대한 분자 구름의 일부분이 중력 붕괴를 일으키면서 형성되었다'

okt.pos(text)

[('태양계', 'Noun'),
 ('는', 'Josa'),
 ('지금', 'Noun'),
 ('으로부터', 'Josa'),
 ('약', 'Noun'),
 ('46억', 'Number'),
 ('년', 'Noun'),
 ('전', 'Noun'),
 (',', 'Punctuation'),
 ('거대한', 'Adjective'),
 ('분자', 'Noun'),
 ('구름', 'Noun'),
 ('의', 'Josa'),
 ('일부분', 'Noun'),
 ('이', 'Josa'),
 ('중력', 'Noun'),
 ('붕괴', 'Noun'),
 ('를', 'Josa'),
 ('일으키면서', 'Verb'),
 ('형성', 'Noun'),
 ('되었다', 'Verb')]

In [27]:
okt.morphs(text)

['태양계',
 '는',
 '지금',
 '으로부터',
 '약',
 '46억',
 '년',
 '전',
 ',',
 '거대한',
 '분자',
 '구름',
 '의',
 '일부분',
 '이',
 '중력',
 '붕괴',
 '를',
 '일으키면서',
 '형성',
 '되었다']

In [28]:
okt.nouns(text)

['태양계', '지금', '약', '년', '전', '분자', '구름', '일부분', '중력', '붕괴', '형성']

## 6.8 텍스트를 BoW로 인코딩하기

In [29]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# BoW 특성 행렬을 만듭니다.
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# 특성 행렬을 확인합니다.
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [30]:
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]])

In [31]:
# 특성 이름을 확인합니다.
# 사이킷런 0.24 버전 이하일 경우 get_features_names() 메서드를 사용하세요.
count.get_feature_names_out()

array(['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love',
       'sweden'], dtype=object)

In [32]:
# 옵션을 지정하여 특성 행렬을 만듭니다.
count_2gram = CountVectorizer(ngram_range=(1,2),
                              stop_words="english",
                              vocabulary=['brazil'])
bag = count_2gram.fit_transform(text_data)

# 특성 행렬을 확인합니다.
bag.toarray()

array([[2],
       [0],
       [0]])

In [33]:
# 1-그램과 2-그램을 확인합니다.
count_2gram.vocabulary_

{'brazil': 0}

## 6.9 단어 중요도에 가중치 부여하기

In [34]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 텍스트를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# tf-idf 특성 행렬을 만듭니다.
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# tf-idf 특성 행렬을 확인합니다.
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [35]:
# tf-idf 특성 행렬을 밀집 배열로 확인합니다.
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [36]:
# 특성 이름을 확인합니다.
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}