In [1]:
import re

### 텍스트 정제
- 비정형 텍스트 데이터에 기본적인 정제 작업 - strip, replac, split 등 기본 문자열 메서드를 사용해 텍스트를 변경
- 정규 표현식을 사용해 문자열 치환

In [4]:
# 텍스트 정제
text_data = ["K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다. ???",
            "   현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다. !!!!!"]

In [5]:
# 공백 문자 제거
strip_whitespace = [string.strip() for string in text_data]   # 공백 문자 제거
print(strip_whitespace)

['K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다. ???', '현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다. !!!!!']


In [6]:
# 마침표 제거
remove_periods = [string.replace(".", "") for string in strip_whitespace]
print(remove_periods)

['K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다 ???', '현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다 !!!!!']


In [7]:
# 구두점 삭제
# 구두점 글자의 딕셔너리를 만들어 translate() 적용

# 모든 유니코드 구두점을 키로 하고 값은 None인 punctuation 딕셔너리를 만든다.
# 문자열로부터 punctuation에 있는 모든 문자를 None으로 바꾼다. (구두점 삭제 효과)

# 구두점 문자로 이루어진 딕셔너리 생성
import sys
import unicodedata

temp = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

# 문자열의 구두점을 삭제
data = [string.translate(temp) for string in text_data]
print(data)

['KPOP 3세대 대표 아이돌 그룹 중 하나로서 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다 ', '   현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 글로벌 앰버서더로 활동하고 있다 ']


## 텍스트 토큰화
- 텍스트를 개별 단어로 나누기

In [8]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
import nltk

# 구두점 데이터 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### 단어 나누기

In [12]:
string = "현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다."
word_data = word_tokenize(string)   # 단어를 토큰 기준으로 나눈다.
print(word_data)

['현재', '걸그룹', '중', '유일하게', '모든', '멤버가', '글로벌', '하이앤드', '브랜드의', '‘', '글로벌', '앰버서더', '’', '로', '활동하고', '있다', '.']


### 문장 나누기

In [15]:
sent_string = "K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다. 현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다."
sent_data = sent_tokenize(sent_string)
print(sent_data)

['K-POP 3세대 대표 아이돌 그룹 중 하나로서, 해외와 빌보드 메인 차트에서 많은 기록을 세우고 있는 세계적인 걸그룹이다.', '현재 걸그룹 중 유일하게 모든 멤버가 글로벌 하이앤드 브랜드의 ‘글로벌 앰버서더’로 활동하고 있다.']


## 불용어 삭제


In [16]:
from nltk.corpus import stopwords
nltk.download('stopwords')      # 불용어 데이터 다운로드

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
tokenized_words = ["i", "am", "going", "to", "to", "the", "store", "and", "park"]

stop_words = stopwords.words('english')

# 불용어 삭제
filtered_words = [word for word in tokenized_words if word not in stop_words]

# 불용어 확인
stop_data = stop_words
print("불용어 리스트 :", stop_data)
print("불용어가 삭제된 결과 : ", filtered_words)

불용어 리스트 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so',

어간 추출

In [20]:
from nltk.stem.porter import PorterStemmer

In [22]:
tokenized_words_temp = ["i", "am", "going", "to", "go", "to", "the", "store", "and", "meeting"]

# 어간 추출기 생성
porter = PorterStemmer()
word_list_temp = []
for word in tokenized_words_temp :
    print(word)
    word_list_temp.append(porter.stem(word))
    
print(word_list_temp)

i
am
going
to
go
to
the
store
and
meeting
['i', 'am', 'go', 'to', 'go', 'to', 'the', 'store', 'and', 'meet']


## 품사 태깅

In [24]:
from nltk import pos_tag
from nltk import word_tokenize

In [25]:
nltk.download("averaged_perceptron_tagger")   # 태거 다운로드

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\smjin\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [26]:
text_data_tag = "Chris loved outdoor running"      # 샘플 텍스트 데이터
text_tagger = pos_tag(word_tokenize(text_data_tag))
print(text_tagger)        # 품사 확인 (단어와 품사 태그로 이루어진 튜플의 리스트 출력)

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]


## Word Cloud 단어 뭉치를 가시화

In [28]:
!pip install pytagcloud

Collecting pytagcloud
  Downloading pytagcloud-0.3.5.tar.gz (754 kB)
     ------------------------------------- 754.7/754.7 kB 15.8 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: pytagcloud
  Building wheel for pytagcloud (setup.py): started
  Building wheel for pytagcloud (setup.py): finished with status 'done'
  Created wheel for pytagcloud: filename=pytagcloud-0.3.5-py3-none-any.whl size=759879 sha256=7fcf50db3950aa24fa298c4b53b1f19ddbe938e2e8fb612eb78bae74effa79ef
  Stored in directory: c:\users\smjin\appdata\local\pip\cache\wheels\77\50\a4\dbd4b0c5175da72ed028b680270c079d7c8d948320a859a727
Successfully built pytagcloud
Installing collected packages: pytagcloud
Successfully installed pytagcloud-0.3.5


In [30]:
!pip install pygame

Collecting pygame
  Downloading pygame-2.4.0-cp310-cp310-win_amd64.whl (10.6 MB)
     --------------------------------------- 10.6/10.6 MB 32.8 MB/s eta 0:00:00
Installing collected packages: pygame
Successfully installed pygame-2.4.0


In [32]:
!pip install simplejson

Collecting simplejson
  Downloading simplejson-3.19.1-cp310-cp310-win_amd64.whl (75 kB)
     ---------------------------------------- 75.5/75.5 kB 4.3 MB/s eta 0:00:00
Installing collected packages: simplejson
Successfully installed simplejson-3.19.1


In [37]:
!pip install pycopy-webbrowser

Collecting pycopy-webbrowser
  Downloading pycopy-webbrowser-0.0.0.tar.gz (631 bytes)


ERROR: pycopy-webbrowser from https://files.pythonhosted.org/packages/40/6f/3534aa5470f69aede4ec969a4f64981892e5bd838ea8e148d8d7ee52f1bc/pycopy-webbrowser-0.0.0.tar.gz does not appear to be a Python project: neither 'setup.py' nor 'pyproject.toml' found.


In [33]:
import pytagcloud
import webbrowser

In [38]:
tag = [('Hello', 100), ("World", 80), ("Python", 200)]
tag_list = pytagcloud.make_tags(tag, maxsize = 50)
pytagcloud.create_tag_image(tag_list, "woord_cloud.jpg", size=(900, 600), rectangular=False)

webbrowser.open('word_cloud.jpg')

True

ModuleNotFoundError: No module named 'Ipython'