# 텍스트 다루기

## 6.1 텍스트 정제하기

In [1]:
## 대부분의 텍스트 데이터는 특성으로 만들기 전에 정제되어야 한다.

#텍스트 데이터
text_data = ["     Interrobang. By Aishwarya Henriette     ",
            "Parking And Going. By Karl and Gautier",
            "     Today is The Night. By Jarek Prakash     "]

In [2]:
#공백 문자 제거하기
strip_whitespace = [string.strip() for string in text_data]

In [3]:
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl and Gautier',
 'Today is The Night. By Jarek Prakash']

In [4]:
#마침표 제거하기
remove_periods = [string.replace(".","")for string in strip_whitespace]

In [5]:
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl and Gautier',
 'Today is The Night By Jarek Prakash']

In [7]:
#함수를 만든다.
def capitalizer(string : str) -> str:
    return string.upper()

#함수를 적용한다.
[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL AND GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [8]:
#강력한 문자열 치환
import re

def replace_letter_with_X(string : str) ->str:
    return re.sub(r"[a-zA-Z]","X",string)

In [9]:
[replace_letter_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

### 6.2 HTML 파싱과 정제하기

In [10]:
#뷰티풀 수프는 HTML을 스크래핑하기 위한 강력한 라이브러리
#간단한 것만 다뤄볼거야
#라이브러리
from bs4 import BeautifulSoup

In [15]:
html ="""
        <div class ='full_name'><span style='font-weight:bold'>Masego</span>Azer</div>
    """

In [16]:
#html을 파싱한다.
soup = BeautifulSoup(html,"lxml")

In [18]:
#"full_name" 이름의 클래스를 가진div를 찾아 텍스트를 출력
soup.find("div",{"class" : "full_name"}).text

'MasegoAzer'

### 6.3 구두점 삭제하기

In [19]:
# 구두점에 정보가 있다면 수정하는 것을 고려해야한다.
#라이브러리
import unicodedata
import sys

In [20]:
text_data = ["Hi!!!!!I.Love. This. Sond ...",
            "10000% Agree!!! #LoveIT",
            "Right?!!?"]

In [21]:
#구두점 문자로 이루어진 딕셔너리를 만듭니다,
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                           if unicodedata.category(chr(i)).startswith('P'))

In [22]:
[string.translate(punctuation) for string in text_data]

['HiILove This Sond ', '10000 Agree LoveIT', 'Right']

### 6.4 텍스트 토큰화하기

In [24]:
#텍스트 데이터 정제한 후 빈번하게 수행되는 작업
#구두점 데이터 다운로드
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\권은선\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [25]:
#라이브러리 
from nltk.tokenize import word_tokenize

In [26]:
#텍스트를 만든다.
string = "The science of today is the technology of tomorrow"

In [27]:
#단어를 토큰으로 나눈다.
word_tokenize(string)

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [30]:
#문장을 토큰으로 나눈다.
from nltk.tokenize import sent_tokenize
string = """The science of today is the technology of tomorrow.
            Tomorrow is today"""

In [31]:
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today']

## 6.5 불용어 삭제하기

In [32]:
#불용어 = 정보가 거의 없는 매우 흔한 단어(Ex. is. of.on..)
#불용어 데이터 다운로드
import nltk
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\권은선\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [33]:
from nltk.corpus import stopwords


In [34]:
tokenized_words=['i','am','going','to','go','to','to','the','store','and','park']

In [35]:
#불용어 적재
stop_words = stopwords.words('english')

In [37]:
[word for word in tokenized_words if word not in stop_words]#불용어에 없을 때 출력한다.

['going', 'go', 'store', 'park']

In [38]:
#불용어를 확인
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

In [40]:
#사이킷런도 불용어를 제공한다.
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS


In [41]:
len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

In [43]:
list(ENGLISH_STOP_WORDS)[:5]

['against', 'them', 'down', 'four', 'next']

## 6.6 어간 추출하기

In [46]:
#라이브러리
from nltk.stem.porter import PorterStemmer

In [47]:
#단어로 토큰을 만든다.
tokenized_words=['i','am','humbled','by','this','traditional','meeting']

In [49]:
#어간 추출기를 만든다.
porter = PorterStemmer()


In [50]:
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

## 6.7 품사 태깅하기

In [52]:
#태거를 다운로드한다.
import nltk
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\권은선\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [53]:
#라이브러리
from nltk import pos_tag
from nltk import word_tokenize

In [54]:
#텍스트
text_data = "Chris loved outdoor running"

In [56]:
#문장을 토큰화 한 다음
#사전에 훈련된 품사 태깅을 사용합니다.
text_tagged = pos_tag(word_tokenize(text_data))

In [57]:
#품사를 확인한다.
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

In [58]:
# 원하는 품사를 찾을 수 있다.
[word for word,tag in text_tagged if tag in ['NM','NNS','NNP','NNPS']]

['Chris']

In [59]:
#좀더 긴 문장

In [60]:
#라이브러리
from sklearn.preprocessing import MultiLabelBinarizer


In [63]:
#텍스드
tweets= ['I am eating a burrito for breakfast',
       'Political science is an amazing field',
       'san Francisco is an awesome city']

In [64]:
tagged_tweets = []

In [65]:
#각 단어를 태깅한다.
for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word , tag in tweet_tag])

In [67]:
#원 -핫 인코딩을 사용하여 태그를 특성으로 변환
ont_hot_multi = MultiLabelBinarizer()
ont_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [68]:
ont_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

In [69]:
#자신만의 태그 모델을 훈련시키는 방법
#태깅된 대용량 문서가 필요한데 이것은 매우 노동 집약적이라 마지막수단
#만약 태깅된 대용량 문서가 있다면
#아래의 방법으로 훈련시킨다

#브라운 코퍼스(예제에서 사용할 문서 데이터) 다운로드
import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\권은선\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\brown.zip.


True

In [71]:
#라이브러리
from nltk.corpus import brown
from nltk.tag import UnigramTagger #그 단어 자체만 참고
from nltk.tag import BigramTagger # 이전 한 단어의 품사 참고
from nltk.tag import TrigramTagger #이전 두 단어의 품사 참고


In [72]:
#텍스트를 추출한 후 문장으로 나눈다.
sentences = brown.tagged_sents(categories ='news')

In [73]:
#4000개의 문장은 훈련용 623개는 테스트용
train = sentences[:4000]
test = sentences[4000:]


In [76]:
#백오프 태극 객체를 만든다.
unigram =UnigramTagger(train)
bigram =BigramTagger(train, backoff=unigram)
trigram= TrigramTagger(train, backoff=bigram)

In [77]:
#정확도를 확인한다.
trigram.evaluate(test)

0.8174734002697437

## 6.8 텍스트를 BoW로 인코딩하기

In [78]:
#특정단어의 등장횟수 구하기
#라이브러리 
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer



In [97]:
#텍스트 만듦
text_data = np.array(["I Love Brazil, Brazil!",
                     'Sweden is best',
                     'Germany beats both'])

In [98]:
#BoW특성 행렬을 만든다.
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

In [99]:
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [100]:
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]], dtype=int64)

In [101]:
#특성 이름확인
count.get_feature_names()

['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love', 'sweden']

In [102]:
# CountVectorizer의 장점
# BoW는 희소 행렬인데 CountVectorizer는 희소행렬을 출력한다.
# n-그램의 최소와 최대크기를  지정할 수 있다.
# stop_words 매개변수를 사용해 유용하지 않은 단어들을 제거할 수 있따.
#vocabulary매개변수를 사용해 단어나 구를 제한할 수 있다.

#장점 예시

In [106]:
count_2gram = CountVectorizer(ngram_range=(1,2),
                              stop_words="english",
                              vocabulary=['brazil'])
bag = count_2gram.fit_transform(text_data)

In [107]:
#브라질의 열을 출력
bag.toarray()

array([[2],
       [0],
       [0]], dtype=int64)

In [108]:
count_2gram.get_feature_names()

['brazil']

In [109]:
count_2gram.vocabulary_

{'brazil': 0}

## 6.9 단어 중요도에 가중치 부여하기

In [111]:
#tf : tern frequency(단어 빈도)
#df : document frequency(문서 빈도)
#단어빈도가 높을 수록 중요한 단어, 문서 빈도가 높을 수록 중요하지 않는 단어일 가능성이 높다.

#라이브러리
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [112]:
#텍스트 
text_data = np.array(["I love Brazil, Brazil!",
                     'Sweden is best',
                     'Germany beats both'])


In [115]:
#tf-idf 특성행렬을 만든다.
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

In [117]:
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [119]:
#tf-idf 특성행렬을 밀집 배열로 확인한다.
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [120]:
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}