## 1. 데이터 수집 및 정제
- 분석할 데이터를 수집하고, 불필요한 데이터나 중복된 데이터를 정제한다.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [12]:
import pandas as pd

# 데이터 불러오기
path = '/content/drive/MyDrive/KEMDy20_v1_1/wav/Session04/'
data = pd.read_table(path + 'Sess04_script01_User008F_022.txt', header=None, names=["text"], encoding="cp949")

# 중복된 데이터 제거
data.drop_duplicates(inplace=True)

# 특수 문자 제거
data["text"] = data["text"].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z0-9 ]", "", regex=True)

# 불용어 제거
stopwords = ["은", "는", "이", "가", "을", "를"]
data["text"] = data["text"].apply(lambda x: " ".join([word for word in x.split() if word not in stopwords]))

In [13]:
data

Unnamed: 0,text
0,c 아 이거는 좀 엄마 나이에 좀 너무 늙어 보이지 않을까


# 2. 문장 토큰화
- 텍스트 데이터를 문장 단위로 나누는 작업을 수행한다.

In [14]:
import nltk
nltk.download('punkt')

text = " ".join(data["text"].tolist())
sentences = nltk.sent_tokenize(text)

print(sentences)


['c 아 이거는 좀 엄마 나이에 좀 너무 늙어 보이지 않을까']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# 3. 단어 토큰화
- 문장을 단어 단위로 쪼개는 작업을 수행함


In [15]:
# 정규식을 이용한 단어 토큰화를 수행하는 예제
import nltk
nltk.download("punkt")
from nltk.tokenize import RegexpTokenizer

# tokenizer = RegexpTokenizer("[가-힣]+[a-z]+[A-z]")
tokenizer = RegexpTokenizer("[가-힣]+")
text = "안녕하세요. 반갑습니다! 제 이름은 Alice입니다."
words = tokenizer.tokenize(text)

print(words)

['안녕하세요', '반갑습니다', '제', '이름은', '입니다']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [25]:
import nltk
nltk.download('punkt')

text = " ".join(data["text"].tolist())
words = nltk.word_tokenize(text)

print(text)
print(words)

c 아 이거는 좀 엄마 나이에 좀 너무 늙어 보이지 않을까
['c', '아', '이거는', '좀', '엄마', '나이에', '좀', '너무', '늙어', '보이지', '않을까']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# 4. 불용어 처리
- 분석에 필요하지 않은 단어들을 제거한다.

In [7]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m66.8 MB/s[0m eta [36m0:00:00[0m
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp39-cp39-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 KB[0m [31m46.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [26]:
import konlpy
from konlpy.tag import Komoran

komoran = Komoran()
stop_words = ["은", "는", "이", "가", "을", "를"]

words = komoran.morphs(text)
filtered_words = [word for word in words if word not in stop_words]

print(filtered_words)


['c', '아', '이것', '좀', '엄마', '나이', '에', '좀', '너무', '늙', '어', '보이', '지', '않', '을까']
