## 텍스트 정제하기

In [3]:
# 텍스트 생성

text_data=["  Interrobang. By Aishwarya Henriette   ",
          "Parking And Going. By Karl Gautier",
          "    Today Is The night. By Jarek Prakash   "]

In [4]:
# 공백 문자 제거

strip_whitespace=[string.strip() for string in text_data]

In [5]:
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [6]:
# 마침표 제거

remove_periods=[string.replace(".", "") for string in strip_whitespace]

In [7]:
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [8]:
def capitalizer(string: str)-> str:
    return string.upper()

In [9]:
# 함수 적용

[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [11]:
# 정규표현식 사용
import re

In [12]:
def replace_letters_with_x(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "x", string)

In [13]:
# 함수 적용

[replace_letters_with_x(string) for string in remove_periods]

['xxxxxxxxxxx xx xxxxxxxxx xxxxxxxxx',
 'xxxxxxx xxx xxxxx xx xxxx xxxxxxx',
 'xxxxx xx xxx xxxxx xx xxxxx xxxxxxx']

## HTML 파싱과 정제하기

In [14]:
from bs4 import BeautifulSoup

In [15]:
# 예제 html

html=""" <div class='full_name'><span style='font-weight:bold'>Masego</span> Azra</div> """

In [16]:
# html 파싱

soup=BeautifulSoup(html,"lxml")

In [17]:
# full_name 이름의 클래스를 가진 div를 찾아 텍스트 출력

soup.find("div",{"class":"full_name"}).text

'Masego Azra'

## 구두점 삭제하기

In [18]:
import unicodedata
import sys

In [19]:
# 텍스트 생성

text_data=['Hi!!!! I. Love. This. Song....',
          '10000% Agree!!!! #LoveIT',
          'Right?!?!']

In [20]:
#  구두점 문자로 이루어진 딕셔너리 생성

punctuation=dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

In [24]:
# 문자열의 구두점 삭제

[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

## 텍스트 토큰화하기

In [26]:
# 구두점 데이터 다운로드

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [27]:
from nltk.tokenize import word_tokenize

In [28]:
string="The science of today is the technology of tomorrow"

In [31]:
# 단어를 토큰으로 나눔

word_tokenize(string)  # == string.split(' ')

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

In [33]:
'''
문장으로 나눌 수 도 있다
'''

from nltk.tokenize import sent_tokenize

In [34]:
string="The science of today is the technology of tomorrow. Tomorrow is today."

In [35]:
sent_tokenize(string)

['The science of today is the technology of tomorrow.', 'Tomorrow is today.']

## 불용어 삭제하기

In [37]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [38]:
from nltk.corpus import stopwords

In [39]:
# 단어 토큰 생성

token_words=['i','am','going','to','go','to','the','store','and','park']

In [41]:
# 불용어 적재
stop_words=stopwords.words('english')

In [42]:
# 불용어 삭제
[word for word in token_words if word not in stop_words]

['going', 'go', 'store', 'park']

#### 불용어
- 작업 전에 삭제해야 하는 일련의 단어
- 유용한 정보가 거의 없는 매우 자주 등장하는 단어

In [43]:
# 불용어 확인
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

NLTK의 stopwords 는 토큰화된 단어가 소문자라고 가정

사이킷런도 영어 불용어 리스트를 제공한다

NLTK의 영어 불용어는 179개이고, 사이킷런이 제공하는 영어 불용어는 318개 이다.

In [44]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

In [45]:
len(ENGLISH_STOP_WORDS), len(stop_words)

(318, 179)

In [46]:
'''
사이킷런의 불용어는 frozenset  객체이기 때문에 인덱스를 사용할 수 없다.
따라서, 리스트로 바꾸어 확인해야 한다.
'''

list(ENGLISH_STOP_WORDS)[:10]

['amoungst',
 'bill',
 'your',
 'sometimes',
 'my',
 'seems',
 'describe',
 'out',
 'hereby',
 'onto']

## 어간 추출하기
#### 토큰으로 나눈 단어를 어간(stem)으로 바꾸는 방법

In [47]:
from nltk.stem.porter import PorterStemmer

In [48]:
# 단어 토큰 생성

token_words=['i','am','humbled','by','this','traditional','meeting']

In [49]:
# 어간 추출기 생성
porter=PorterStemmer()

In [50]:
# 어간 추출기 적용
[porter.stem(word) for word in token_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

## 품사 태깅하기

In [51]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [58]:
from nltk import pos_tag  # 품사태깅
from nltk import word_tokenize  #단어 토큰화

In [59]:
text_data="Chris loved outdoor running"

In [60]:
# 품사 태깅

text_tagged=pos_tag(word_tokenize(text_data))

In [61]:
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

### NLTK의 품사태그

- NNP : 고유명사
- NIN : 명사, 단수 또는 불가산 명사
- RB : 부사
- VBD : 동사, 과거형
- VBG : 동사, 동명사 또는 현재분사
- JJ : 형용사
- PRP : 인칭 대명사

In [62]:
'''
품사 태깅을 사용해 명사만, 혹은 특정 품사만을 찾을 수 있다
'''
[word for word, tag in text_tagged if tag in ['NN','NNS','NNP','NNPS']]

['Chris']

In [63]:
from sklearn.preprocessing import MultiLabelBinarizer # 다중클래스 속성 라벨링

In [64]:
tweets=["I am eating a burrito for breakfast",
       "Political Science is an amazing field",
       "San Francisco is an awesome city"]

In [65]:
# 빈 리스트 생성
tagged_tweets=[]

In [66]:
# 각 단어와 트윗 태깅

for tweet in tweets:
    tweet_tag=nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

In [69]:
# 원핫 인코딩을 사용하여 태그를 특성으로 변환
ont_hot_multi=MultiLabelBinarizer()
ont_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 1, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [70]:
# 클래스 확인

ont_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

특별한 주제(전문분야)에 대한 영어 텍스트가 아니라면 가장 간단한 해결은 사전훈련된 NLTK의 품사 태깅을 사용하는 것이다.
pos_tag의 정확도가 낮다면 NLTK를 사용하여 자신만의 태그 모델을 훈련시킬 수 있다.

#### 태그 모델 훈련 예시

Backoff n-gram 태그 모델

n은 한 단어의 품사를 예측하기 위해 고려할 이전 단어의 수

- TrigramTagger : 이전 두 단어 고려
- BigramTagger : 이전 한 단어 고려
- UnigramTagger : 그 단어 자체만을 고려

만들어진 태그 모델의 정확도를 측정하려면 텍스트 데이터를 둘로 나누어
하나는 태그모델을 훈련하는 데 사용하고, 나머지 데이터로는 얼마나 태그를 잘 예측하는지 테스트한다.

In [71]:
# 태깅된 텍스트 Brown Corpus 로 예시 진행

import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\brown.zip.


True

In [72]:
from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger

In [73]:
# 브라운코퍼스에서 텍스트를 추출한 다음 문장으로 나눈다.

sentences=brown.tagged_sents(categories='news')

In [83]:
train=sentences[:4000]
test=sentences[4000:]

In [84]:
# 백오프 태그 객체 생성

unigram=UnigramTagger(train)
bigram=BigramTagger(train, backoff=unigram)
trigram=TrigramTagger(train,backoff=bigram)

In [85]:
# 정확도 확인
trigram.evaluate(test)

0.8174734002697437

In [86]:
# 한글 품사 태깅

from konlpy.tag import Okt
okt=Okt()

In [87]:
text='태양계는 지금으로부터 약 46억 년 전, 거대한 분자 구름의 일부분이 중력 붕괴를 일으키면서 형성되었다'

In [88]:
okt.pos(text)

[('태양계', 'Noun'),
 ('는', 'Josa'),
 ('지금', 'Noun'),
 ('으로부터', 'Josa'),
 ('약', 'Noun'),
 ('46억', 'Number'),
 ('년', 'Noun'),
 ('전', 'Noun'),
 (',', 'Punctuation'),
 ('거대한', 'Adjective'),
 ('분자', 'Noun'),
 ('구름', 'Noun'),
 ('의', 'Josa'),
 ('일부분', 'Noun'),
 ('이', 'Josa'),
 ('중력', 'Noun'),
 ('붕괴', 'Noun'),
 ('를', 'Josa'),
 ('일으키면서', 'Verb'),
 ('형성', 'Noun'),
 ('되었다', 'Verb')]

In [89]:
# 형태소 추출

okt.morphs(text)

['태양계',
 '는',
 '지금',
 '으로부터',
 '약',
 '46억',
 '년',
 '전',
 ',',
 '거대한',
 '분자',
 '구름',
 '의',
 '일부분',
 '이',
 '중력',
 '붕괴',
 '를',
 '일으키면서',
 '형성',
 '되었다']

In [91]:
# 명사 추출
okt.nouns(text)

['태양계', '지금', '약', '년', '전', '분자', '구름', '일부분', '중력', '붕괴', '형성']

## 텍스트를 BoW로 인코딩하기
#### 텍스트 데이터에서 특정 단어의 등장 횟수를 나타내는 특성 생성

In [92]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

In [93]:
# 텍스트 생성

text_data=np.array(['I love Korea, Korea!',
                   'France is the best',
                   'I will long for you '])

In [97]:
# BoW 특성 행렬을 만듭니다.

count=CountVectorizer()
bag_of_words=count.fit_transform(text_data)

In [98]:
bag_of_words

<3x10 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [99]:
'''
대량의 텍스트 데이터라면 희소 배열로 출력되는것이 필수적이다
'''

bag_of_words.toarray()

array([[0, 0, 0, 0, 2, 0, 1, 0, 0, 0],
       [1, 0, 1, 1, 0, 0, 0, 1, 0, 0],
       [0, 1, 0, 0, 0, 1, 0, 0, 1, 1]], dtype=int64)

In [101]:
count.get_feature_names()

['best', 'for', 'france', 'is', 'korea', 'long', 'love', 'the', 'will', 'you']

텍스트를 특성으로 변환하는 방법 중 가장 널리 사용하는 하나는 BoW 모델이다.
BoW 모델은 텍스트 데이터에 있는 고유한 단어마다 하나의 특성을 만든다.

이 특성은 각 단어가 샘플에 등장한 횟수를 담는다.

#### CountVecotrizer는 BoW 특성 행렬을 쉽게 만들 수 있는 편리한 매개변수를 많이 제공한다.

기본적으로 모든 특성은 단어 하나를 의미한다. 그러나 예외적인 상황이 있을때
ngram_range 매개변수로 각 특성의 최소와 최대 크기를 지정할 수 있다.

stop_words 매개변수를 사용해 내장된 리스트나 사용자가 지정한 리스트에 포함된 유용하지 않은 단어를 제거할 수 있다.

vocabulary 매개변수를 사용해 대상 단어나 구를 제한할 수 있다.

In [102]:
count_gram=CountVectorizer(ngram_range=(1,2),
                          stop_words='english',
                          vocabulary=['korea'])

In [103]:
bag=count_gram.fit_transform(text_data)

In [104]:
bag.toarray()

array([[2],
       [0],
       [0]], dtype=int64)

In [105]:
count_gram.vocabulary_

{'korea': 0}

#### CountVectorizer의 max_df 매개변수는 단어가 등장할 문서의 최대 개수 지정한다.
이 매개변수는 너무 자주 등장하는 단어를 제외할 때 사용한다.

#### min_df 매개변수는 단어가 등장하는 문서의 최소 개수를 지정한다.
이 매개변수는 드물게 등장하는 단어를 제외할 때 사용한다.

#### max_df와 min_df에 0~1 사이의 실수값을 지정하면 전체 문서 개수에 대한 비율이 된다.

#### CountVectorizer가 만드는 어휘 사전 크기를 제한하려면 max_features 매개변수를 지정한다.
전체 문서에서 빈도순으로 최상위 max_features개의 단어가 추출된다.

## 단어 중요도에 가중치 부여하기
#### tf-idf(단어 빈도-역문서 빈도)를 사용해 트윗, 영화리뷰, 연설문 등 하나의 문서에 등장하는 단어의 빈도와 다른 모든 문서에 등장하는 빈도 비교

In [106]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [109]:
# 텍스트 생성

text_data=np.array(['I love Korea, Korea!',
                   'France is the best',
                    'I really appreciate with your kindness'])

In [111]:
# tf-idf 특성 행렬 생성

tfidf=TfidfVectorizer()
feature_mat=tfidf.fit_transform(text_data)

In [112]:
feature_mat.toarray()

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.89442719, 0.4472136 , 0.        , 0.        , 0.        ,
        0.        ],
       [0.        , 0.5       , 0.5       , 0.5       , 0.        ,
        0.        , 0.        , 0.        , 0.5       , 0.        ,
        0.        ],
       [0.4472136 , 0.        , 0.        , 0.        , 0.4472136 ,
        0.        , 0.        , 0.4472136 , 0.        , 0.4472136 ,
        0.4472136 ]])

In [113]:
# 특성 이름 확인

tfidf.vocabulary_

{'love': 6,
 'korea': 5,
 'france': 2,
 'is': 3,
 'the': 8,
 'best': 1,
 'really': 7,
 'appreciate': 0,
 'with': 9,
 'your': 10,
 'kindness': 4}

한 문서에 어떤 단어가 많이 등장할수록 그 문서에 대해 더 중요한 단어일 것이다. (tf- term frequence)

반대로 한 단어가 많은 문서에 나타난다면 이는 어떤 특정 문서에 중요하지 않은 단어라는 뜻이다. (df- document frequency)

이 두 통계치를 연결하여 각 문서가 문서에 얼마나 중요한 단어인지를 점수로 할당할 수 있다.

#### tf-idf(t,d)=tf(t,d)*idf(t)

idf(t)=log((1+n)/1+df(d,t))+1     n: 문서의 개수