# 6장. 텍스트 다루기

<table align="left"><tr><td>
<a href="https://colab.research.google.com/github/rickiepark/ml-with-python-cookbook-2nd/blob/main/ch06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="코랩에서 실행하기"/></a>
</td></tr></table>

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m36.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m37.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [3]:
import numpy as np
import sklearn
import bs4
import nltk
import konlpy
import spacy
import transformers

print('numpy', np.__version__)
print('sklearn', sklearn.__version__)
print('bs4', bs4.__version__)
print('nltk', nltk.__version__)
print('konlpy', konlpy.__version__)
print('spacy', spacy.__version__)
print('transformers', transformers.__version__)

numpy 1.25.2
sklearn 1.2.2
bs4 4.12.3
nltk 3.8.1
konlpy 0.6.0
spacy 3.7.4
transformers 4.37.2


## 6.1 텍스트 정제

In [4]:
# 텍스트를 만듭니다.
text_data = ["   Interrobang. By Aishwarya Henriette     ",
             "Parking And Going. By Karl Gautier",
             "    Today Is The night. By Jarek Prakash   "]

# 공백 문자를 제거합니다.
strip_whitespace = [string.strip() for string in text_data]

# 텍스트를 확인합니다.
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [5]:
# 마침표를 제거합니다.
remove_periods = [string.replace(".", "") for string in strip_whitespace]

# 텍스트를 확인합니다.
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [6]:
# 함수를 만듭니다.
def capitalizer(string: str) -> str:
    return string.upper()

# 함수를 적용합니다.
[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [7]:
# 라이브러리를 임포트합니다.
import re

# 함수를 만듭니다.
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

# 함수를 적용합니다.
[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

In [8]:
# 문자열을 정의합니다.
s = "machine learning in python cookbook"

# 문자 "n"의 첫 번째 인덱스를 찾습니다.
find_n = s.find("n")

# "m"으로 시작하는 문자열인지 확인합니다.
starts_with_m = s.startswith("m")

# "python"으로 끝나는 문자열인지 확인합니다.
ends_with_python = s.endswith("python")

# 문자열이 알파벳과 숫자로 이루어져 있는지 확인합니다.
is_alnum = s.isalnum()

# (공백을 제외한) 알파벳으로만 이루어졌는지 확인하니다.
is_alpha = s.isalpha()

# utf-8로 인코딩합니다.
encode_as_utf8 = s.encode("utf-8")

# utf-8로 디코딩합니다.
decode = encode_as_utf8.decode("utf-8")

print(
  find_n,
  starts_with_m,
  ends_with_python,
  is_alnum,
  is_alpha,
  encode_as_utf8,
  decode,
  sep = "|"
)

5|True|False|False|False|b'machine learning in python cookbook'|machine learning in python cookbook


## 6.2 HTML 파싱과 정제

In [9]:
# 라이브러리를 임포트합니다.
from bs4 import BeautifulSoup

# 예제 HTML 코드를 만듭니다.
html = "<div class='full_name'>"\
       "<span style='font-weight:bold'>Masego"\
       "</span> Azra</div>"

# html을 파싱합니다.
soup = BeautifulSoup(html, "lxml")

# "full_name" 이름의 클래스를 가진 div를 찾아 텍스트를 출력합니다.
soup.find("div", { "class" : "full_name" }).text

'Masego Azra'

## 6.3 구둣점 삭제

In [10]:
# 라이브러리를 임포트합니다.
import unicodedata
import sys

# 텍스트를 만듭니다.
text_data = ['Hi!!!! I. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']

# 구두점 문자로 이루어진 딕셔너리를 만듭니다.
punctuation = dict.fromkeys(
  (i for i in range(sys.maxunicode)
  if unicodedata.category(chr(i)).startswith('P')
  ),
  None
)

# 문자열의 구두점을 삭제합니다.
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

## 6.4 텍스트 토큰화

In [11]:
# 구두점 데이터를 다운로드합니다.
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [12]:
# 라이브러리를 임포트합니다.
from nltk.tokenize import word_tokenize

# 텍스트를 만듭니다.
string = "The science of today is the technology of tomorrow"

# 단어를 토큰으로 나눕니다.
word_tokenize(string)

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [13]:
# 라이브러리를 임포트합니다.
from nltk.tokenize import sent_tokenize

# 텍스트를 만듭니다.
string = "The science of today is the technology of tomorrow. Tomorrow is today."

# 문장으로 나눕니다.
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today.']

## 6.5 불용어 삭제

In [14]:
# 불용어 데이터를 다운로드합니다.
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [15]:
# 라이브러리를 임포트합니다.
from nltk.corpus import stopwords

# 단어 토큰을 만듭니다.
tokenized_words = ['i',
                   'am',
                   'going',
                   'to',
                   'go',
                   'to',
                   'the',
                   'store',
                   'and',
                   'park']

# 불용어를 적재합니다.
stop_words = stopwords.words('english')

# 불용어를 삭제합니다.
[word for word in tokenized_words if word not in stop_words]

['going', 'go', 'store', 'park']

In [16]:
# 불용어를 확인합니다.
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

In [17]:
stopwords.abspath

## 붙임

In [18]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

In [19]:
list(ENGLISH_STOP_WORDS)[:5]

['re', 'name', 'anywhere', 'still', 'me']

## 6.6 어간 추출

In [20]:
# 라이브러리를 임포트합니다.
from nltk.stem.porter import PorterStemmer

# 단어 토큰을 만듭니다.
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']

# 어간 추출기를 만듭니다.
porter = PorterStemmer()

# 어간 추출기를 적용합니다.
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

## 6.7 품사 태깅

In [21]:
# 태거를 다운로드합니다.
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [22]:
# 라이브러리를 임포트합니다.
from nltk import pos_tag
from nltk import word_tokenize

# 텍스트를 만듭니다.
text_data = "Chris loved outdoor running"

# 사전 훈련된 품사 태깅을 사용합니다.
text_tagged = pos_tag(word_tokenize(text_data))

# 품사를 확인합니다.
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

In [23]:
# 단어를 필터링합니다.
[word for word, tag in text_tagged if tag in ['NN','NNS','NNP','NNPS'] ]

['Chris']

In [24]:
from sklearn.preprocessing import MultiLabelBinarizer

# 텍스트를 만듭니다.
tweets = ["I am eating a burrito for breakfast",
          "Political science is an amazing field",
          "San Francisco is an awesome city"]

# 빈 리스트를 만듭니다.
tagged_tweets = []

# 각 단어와 트윗을 태깅합니다.
for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

# 원-핫 인코딩을 사용하여 태그를 특성으로 변환합니다.
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [25]:
# 특성 이름을 확인합니다.
one_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

## 붙임

In [27]:
from konlpy.tag import Okt
okt = Okt()

In [28]:
text = '태양계는 지금으로부터 약 46억 년 전, 거대한 분자 구름의 일부분이 중력 붕괴를 일으키면서 형성되었다'

okt.pos(text)

[('태양계', 'Noun'),
 ('는', 'Josa'),
 ('지금', 'Noun'),
 ('으로부터', 'Josa'),
 ('약', 'Noun'),
 ('46억', 'Number'),
 ('년', 'Noun'),
 ('전', 'Noun'),
 (',', 'Punctuation'),
 ('거대한', 'Adjective'),
 ('분자', 'Noun'),
 ('구름', 'Noun'),
 ('의', 'Josa'),
 ('일부분', 'Noun'),
 ('이', 'Josa'),
 ('중력', 'Noun'),
 ('붕괴', 'Noun'),
 ('를', 'Josa'),
 ('일으키면서', 'Verb'),
 ('형성', 'Noun'),
 ('되었다', 'Verb')]

In [29]:
okt.morphs(text)

['태양계',
 '는',
 '지금',
 '으로부터',
 '약',
 '46억',
 '년',
 '전',
 ',',
 '거대한',
 '분자',
 '구름',
 '의',
 '일부분',
 '이',
 '중력',
 '붕괴',
 '를',
 '일으키면서',
 '형성',
 '되었다']

In [30]:
okt.nouns(text)

['태양계', '지금', '약', '년', '전', '분자', '구름', '일부분', '중력', '붕괴', '형성']

## 6.8 개체명 인식하기

In [31]:
# 라이브러리를 임포트합니다.
import spacy

# spaCy 패키지를 로드하고 텍스트를 파싱합니다.
# 그전에 "python -m spacy download en"을 실행해야 합니다.
nlp = spacy.load("en_core_web_sm")
doc = nlp("Elon Musk offered to buy Twitter using $21B of his own money.")

# 개체명을 출력합니다.
print(doc.ents)

# 각 개체명의 텍스트와 레이블을 출력합니다.
for entity in doc.ents:
    print(entity.text, entity.label_, sep=",")

(Elon Musk, 21B)
Elon Musk,PERSON
21B,MONEY


## 6.9 텍스트를 BoW로 인코딩하기

In [32]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# BoW 특성 행렬을 만듭니다.
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# 특성 행렬을 확인합니다.
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [33]:
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]])

In [34]:
# 특성 이름을 확인합니다.
count.get_feature_names_out()

array(['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love',
       'sweden'], dtype=object)

In [35]:
# 옵션을 지정하여 특성 행렬을 만듭니다.
count_2gram = CountVectorizer(ngram_range=(1,2),
                              stop_words="english",
                              vocabulary=['brazil'])
bag = count_2gram.fit_transform(text_data)

# 특성 행렬을 확인합니다.
bag.toarray()

array([[2],
       [0],
       [0]])

In [36]:
# 1-그램과 2-그램을 확인합니다.
count_2gram.vocabulary_

{'brazil': 0}

## 6.10 단어 중요도에 가중치 부여하기

In [37]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 텍스트를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# tf-idf 특성 행렬을 만듭니다.
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# tf-idf 특성 행렬을 확인합니다.
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [38]:
# tf-idf 특성 행렬을 밀집 배열로 확인합니다.
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [39]:
# 특성 이름을 확인합니다.
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}

## 6.11 텍스트 벡터를 사용해 검색 쿼리 텍스트의 유사도 계산하기

In [40]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

# 검색할 텍스트 데이터를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# tf-idf 특성 행렬을 만듭니다.
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# 검색 쿼리를 만들고 이를 tf-idf 벡터로 변환합니다.
text = "Brazil is the best"
vector = tfidf.transform([text])

# 입력 벡터와 다른 모든 벡터 사이의 코사인 유사도를 계산합니다.
cosine_similarities = linear_kernel(vector, feature_matrix).flatten()

# 가장 관련있는 항목의 인덱스를 순서대로 정렬합니다.
related_doc_indicies = cosine_similarities.argsort()[:-10:-1]

# 코사인 유사도에 따라 입력 쿼리와 가장 비슷한 텍스트를 출력합니다.
print([(text_data[i], cosine_similarities[i]) for i in related_doc_indicies])

[('Sweden is best', 0.6666666666666666), ('I love Brazil. Brazil!', 0.5163977794943222), ('Germany beats both', 0.0)]


## 6.12 감성 분석 분류기 사용하기

In [41]:
# 라이브러리를 임포트합니다.
from transformers import pipeline

# 감성 분석을 위한 NLP 파이프라인을 만듭니다.
classifier = pipeline("sentiment-analysis")

# 텍스트를 분류합니다.
# (처음 실행하면 필요한 데이터와 모델을 다운로드합니다)
sentiment_1 = classifier("I hate machine learning! It's the absolute worst.")
sentiment_2 = classifier(
    "Machine learning is the absolute"
    "bees knees I love it so much!"
)

# 감성 분석 결과를 출력합니다.
print(sentiment_1, sentiment_2)

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'NEGATIVE', 'score': 0.9998020529747009}] [{'label': 'POSITIVE', 'score': 0.9995730519294739}]
