## 텍스트 토큰화
- 텍스트를 개별 단어로 나누기

In [1]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
import nltk

# 구두점 데이터 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### 단어 나누기

In [3]:
string = "현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다."
word_data = word_tokenize(string)   # 단어를 토큰 기준으로 나눈다.
print(word_data)

['현재', '걸그룹', '중', '유일하게', '모든', '멤버가', '글로벌', '하이앤드', '브랜드의', '‘', '글로벌', '앰버서더', '’', '로', '활동하고', '있다', '.']


### 문장 나누기

In [4]:
sent_string = "K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다. 현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다."
sent_data = sent_tokenize(sent_string)
print(sent_data)

['K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다.', '현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다.']


## 불용어 삭제

In [5]:
from nltk.corpus import stopwords
nltk.download('stopwords')      # 불용어 데이터 다운로드

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
tokenized_words = ["i", "am", "going", "to", "to", "the", "store", "and", "park"]

stop_words = stopwords.words('english')

# 불용어 삭제
filtered_words = [word for word in tokenized_words if word not in stop_words]

# 불용어 확인
stop_data = stop_words
print("불용어 리스트 :", stop_data)
print("불용어가 삭제된 결과 : ", filtered_words)

불용어 리스트 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so',

어간 추출

In [7]:
from nltk.stem.porter import PorterStemmer

In [8]:
tokenized_words_temp = ["i", "am", "going", "to", "go", "to", "the", "store", "and", "meeting"]

# 어간 추출기 생성
porter = PorterStemmer()
word_list_temp = []
for word in tokenized_words_temp :
    print(word)
    word_list_temp.append(porter.stem(word))
    
print(word_list_temp)

i
am
going
to
go
to
the
store
and
meeting
['i', 'am', 'go', 'to', 'go', 'to', 'the', 'store', 'and', 'meet']


## 품사 태깅

In [9]:
from nltk import pos_tag
from nltk import word_tokenize

In [10]:
nltk.download("averaged_perceptron_tagger")   # 태거 다운로드

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [11]:
text_data_tag = "Chris loved outdoor running"      # 샘플 텍스트 데이터
text_tagger = pos_tag(word_tokenize(text_data_tag))
print(text_tagger)        # 품사 확인 (단어와 품사 태그로 이루어진 튜플의 리스트 출력)

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]


### 단어 중요도 가중치 부여하기
- TfidVectorizer : tf-idf를 사용해 하나의 문서에 등장하는 단어의 빈도와 다른 모든 문서에 등장하는 빈도를 비교
- tf(단어 빈도) : 한 문서에 어떤 단어가 많이 등장할수록 그 문서에 더 중요한 단어
- df(문서 빈도) : 한 단어가 많은 문서에 나타나면 이는 어떤 특정 문서에 중요하지 않는 단어
- tf와 df 두 통계치를 연결하여 각 문서가 문서에 얼마나 중요한 단어인지를 점수로 할당
- tf를 idf(역문서 빈도)에 곱한다.

> tf - idf(t,d) = tf(t,d) x idf(t)

In [12]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = np.array((['I love Brazil. Brazil !',
                      'Sweden is best',
                      'Germany beats both']))

tfidf = TfidfVectorizer()    # tf-idf 특성 행렬을 만든다.
feature_matrix = tfidf.fit_transform(text_data)
feature_matrix    # tf-idf 특성 행렬을 확인
feature_matrix.toarray()    # tf-idf 특성 행렬을 밀집 배열 확인

tf = tfidf.vocabulary_        # 특성 이름을 확인
print("특성 확인 :", tf)

특성 확인 : {'love': 6, 'brazil': 3, 'sweden': 7, 'is': 5, 'best': 1, 'germany': 4, 'beats': 0, 'both': 2}
