In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import re 
import sys
import unicodedata
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk import pos_tag
import pytagcloud
import webbrowser

pygame 2.4.0 (SDL 2.26.4, Python 3.8.16)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [2]:
# 텍스트 정제
text_data = [" import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다. ????",
             " 정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는 데 사용됩니다. !!!!"]

In [3]:
# 공백 문자 제거
strip_whitespace = [string.strip() for string in text_data] # 공백 문자 제거 
print(strip_whitespace)

['import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다. ????', '정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는 데 사용됩니다. !!!!']


In [4]:
# 마침표 제거
remove_periods = [string.replace(".","") for string in strip_whitespace]
print(remove_periods)

['import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다 ????', '정규 표현식은 문자열 패턴을 검색, 추출, 대체 또는 분할하는 데 사용됩니다 !!!!']


In [5]:
# 구두점 삭제
temp = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))
data = [string.translate(temp) for string in remove_periods]
print(data)

['import re 모듈은 파이썬에서 정규 표현식을 사용하기 위해 제공되는 내장 모듈입니다 ', '정규 표현식은 문자열 패턴을 검색 추출 대체 또는 분할하는 데 사용됩니다 ']


### 텍스트 토큰화
- 텍스트를 개별 단어로 나누기

In [6]:
# 구두점 데이터 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Jay\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
string = "모듈은 정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다."
word_data = word_tokenize(string)
print(word_data)

['모듈은', '정규', '표현식을', '사용하여', '문자열에서', '패턴을', '찾고', '조작하는', '데', '사용되는', '파이썬', '내장', '모듈입니다', '.']


In [8]:
sent_string = "모듈은 정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다. 정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다."
sent_data = sent_tokenize(sent_string)
print(sent_data)

['모듈은 정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다.', '정규 표현식을 사용하여 문자열에서 패턴을 찾고 조작하는 데 사용되는 파이썬 내장 모듈입니다.']


### 불용어 삭제

In [9]:
# 불용어 데이터 다운로드
nltk.download('stopwords')  

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Jay\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [10]:
tokenized_words = ['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'park']
stop_words = stopwords.words('english')

# 불용어 삭제
filtered_words = [word for word in tokenized_words if word not in stop_words]

# 불용어 확인
stop_data = stop_words
print(f"불용어 리스트 : {stop_data}")
print(f"불용어가 삭제된 결과 : {filtered_words}")

불용어 리스트 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so',

### 어간 추출

In [11]:
tokenized_words_temp = ['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'park']

# 어간 추출기 생성
porter = PorterStemmer()
word_list_temp = []
for word in tokenized_words_temp : 
    word_list_temp.append(porter.stem(word))
print(word_list_temp)

['i', 'am', 'go', 'to', 'go', 'to', 'the', 'store', 'and', 'park']


### 품사 태깅

In [12]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Jay\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [13]:
text_data_tag = "Chris loved outdoor running"
text_tagger = pos_tag(word_tokenize(text_data_tag))
print(text_tagger)

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]


### 단어 중요도에 가중치 부여하기

In [14]:
text_data_01 = np.array(([
    "I love Brazil. Brazil !",
    "Sweden is best",
    "Germany beats both"
]))

# tf-idf 특성 행렬
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data_01)
print(feature_matrix)

# tf-idf 특성 행렬을 밀집 배열 확인
feature_matrix.toarray()
tf = tfidf.vocabulary_
print(tf)

  (0, 3)	0.8944271909999159
  (0, 6)	0.4472135954999579
  (1, 1)	0.5773502691896257
  (1, 5)	0.5773502691896257
  (1, 7)	0.5773502691896257
  (2, 2)	0.5773502691896257
  (2, 0)	0.5773502691896257
  (2, 4)	0.5773502691896257
{'love': 6, 'brazil': 3, 'sweden': 7, 'is': 5, 'best': 1, 'germany': 4, 'beats': 0, 'both': 2}


### Word Cloud 단어 뭉치를 가시화

In [15]:
tag = [('Hello', 100), ('World', 80), ('Python', 200)]
tag_list = pytagcloud.make_tags(tag, maxsize=50)
pytagcloud.create_tag_image(tag_list, 'word_cloud.jpg', size=(900,600), rectangular=False)
webbrowser.open('word_cloud.jpg')

True