In [1]:
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

In [2]:
nltk.download('punkt') # 토큰화 도구
nltk.download('punkt_tab') # 토큰화 도구
nltk.download('stopwords') # 불용어 사전

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [3]:
# 1. 샘플 영어 텍스트
text_en = """
This is an EXCELLENT example sentence, created for our NLP mission in 2025!
It's designed to show off the stop words; we are running these tests.
<p>The system loved the movie 'NLP Rocks' from 1999.</p>
We hope this-text is 100% useful... Good luck, Charlie! :)
"""

print("--- 1. 영어 원본 텍스트 ---")
print(text_en)


--- 1. 영어 원본 텍스트 ---

This is an EXCELLENT example sentence, created for our NLP mission in 2025!
It's designed to show off the stop words; we are running these tests.
<p>The system loved the movie 'NLP Rocks' from 1999.</p>
We hope this-text is 100% useful... Good luck, Charlie! :)



In [4]:
# 2. [정규표현식] 영문자/공백 외 모두 제거 및 소문자화
text_en = re.sub(r'[^a-zA-Z\s]', '', text_en) # (이전 과제 활용)
text_en = text_en.lower() # 소문자 통일

print("\n--- 2. 정제 및 소문자화 ---")
print(text_en)


--- 2. 정제 및 소문자화 ---

this is an excellent example sentence created for our nlp mission in 
its designed to show off the stop words we are running these tests
pthe system loved the movie nlp rocks from p
we hope thistext is  useful good luck charlie 



In [5]:
# 3. 토큰화 (Tokenization): 문장을 단어 리스트로 쪼개기
tokens_en = word_tokenize(text_en)
print("\n--- 3. 토큰화 ---")
print(tokens_en)


--- 3. 토큰화 ---
['this', 'is', 'an', 'excellent', 'example', 'sentence', 'created', 'for', 'our', 'nlp', 'mission', 'in', 'its', 'designed', 'to', 'show', 'off', 'the', 'stop', 'words', 'we', 'are', 'running', 'these', 'tests', 'pthe', 'system', 'loved', 'the', 'movie', 'nlp', 'rocks', 'from', 'p', 'we', 'hope', 'thistext', 'is', 'useful', 'good', 'luck', 'charlie']


In [6]:
# 4. 불용어(Stopword) 제거: 'a', 'the', 'is' 등 의미 없는 단어 제거
stop_words_en = set(stopwords.words('english')) # NLTK가 제공하는 불용어 셋
tokens_en_clean = []
for word in tokens_en:
  if word not in stop_words_en:
    tokens_en_clean.append(word)

print("\n--- 4. 불용어 제거 ---")
print(tokens_en_clean)


--- 4. 불용어 제거 ---
['excellent', 'example', 'sentence', 'created', 'nlp', 'mission', 'designed', 'show', 'stop', 'words', 'running', 'tests', 'pthe', 'system', 'loved', 'movie', 'nlp', 'rocks', 'p', 'hope', 'thistext', 'useful', 'good', 'luck', 'charlie']


In [7]:
# 5. 어간 추출 (Stemming): 단어를 원형(비슷한 것)으로 만들기
# 예: 'showing', 'shows' -> 'show' / 'runs', 'running' -> 'run'
# (Lemmatization도 있으나, Stemming이 더 '기본' 단계에 속합니다)
stemmer = PorterStemmer()
tokens_en_final = [stemmer.stem(word) for word in tokens_en_clean]

print("\n--- 5. 어간 추출 (최종 결과) ---")
print(tokens_en_final)


--- 5. 어간 추출 (최종 결과) ---
['excel', 'exampl', 'sentenc', 'creat', 'nlp', 'mission', 'design', 'show', 'stop', 'word', 'run', 'test', 'pthe', 'system', 'love', 'movi', 'nlp', 'rock', 'p', 'hope', 'thistext', 'use', 'good', 'luck', 'charli']


In [9]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m88.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (495 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m495.9/495.9 kB[0m [31m26.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0


In [14]:
# 1. Java(JDK) 설치 (Colab 등 리눅스 환경)
# -qq: 설치 과정의 불필요한 출력을 숨김
!sudo apt-get install openjdk-8-jdk-headless -qq > /dev/null

# 2. JAVA_HOME 환경 변수 설정
# (Java가 설치된 기본 경로를 알려줌)
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 78, <> line 6.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 


In [3]:
!java -version

openjdk version "1.8.0_462"
OpenJDK Runtime Environment (build 1.8.0_462-8u462-ga~us1-0ubuntu2~22.04.2-b08)
OpenJDK 64-Bit Server VM (build 25.462-b08, mixed mode)


In [8]:
!pip uninstall -y konlpy



In [7]:
!pip uninstall -y JPype1

Found existing installation: jpype1 1.6.0
Uninstalling jpype1-1.6.0:
  Successfully uninstalled jpype1-1.6.0


In [8]:
!pip install git+https://github.com/jpype-project/jpype.git

Collecting git+https://github.com/jpype-project/jpype.git
  Cloning https://github.com/jpype-project/jpype.git to /tmp/pip-req-build-782y5fe7
  Running command git clone --filter=blob:none --quiet https://github.com/jpype-project/jpype.git /tmp/pip-req-build-782y5fe7
  Resolved https://github.com/jpype-project/jpype.git to commit d33fd02a5946d8207f2f72f004f6ebce8ff22394
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: jpype1
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mBuilding wheel for jpype1 [0m[1;32m([0m[32mpyproject.toml[0m[1;32m)[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Building wheel for jpype1 (pyproject.toml) ... [?

In [None]:
!pip install konlpy

In [2]:
import sys
sys.version

'3.12.12 (main, Oct 10 2025, 08:52:57) [GCC 11.4.0]'

In [3]:
import re
from konlpy.tag import Okt # KoNLPy의 형태소 분석기 중 Okt 사용

In [4]:
# 1. 샘플 한국어 텍스트
text_ko = """
안녕하세요, Charlie님! :) 2025년 NLP 과제에 오신 것을 환영합니다~
<p>이것은 KoNLPy(Okt) 형태소 분석기 테스트를 위해 만들었어요.</p>
숫자 12345와 특수문자가 포함된 텍스트는 전처리가 필요합니다.
형태소 분석은 처음엔 조금 어려웠지만, 정말 재미있네요!
"""

print("--- 1. 한국어 원본 텍스트 ---")
print(text_ko)

--- 1. 한국어 원본 텍스트 ---

안녕하세요, Charlie님! :) 2025년 NLP 과제에 오신 것을 환영합니다~
<p>이것은 KoNLPy(Okt) 형태소 분석기 테스트를 위해 만들었어요.</p>
숫자 12345와 특수문자가 포함된 텍스트는 전처리가 필요합니다.
형태소 분석은 처음엔 조금 어려웠지만, 정말 재미있네요!



In [5]:
# 2. [정규표현식] 한글/공백 외 모두 제거
text_ko = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]', '', text_ko) # (이전 과제 활용)

print("\n--- 2. 정제 (한글/공백만 남기기) ---")
print(text_ko)


--- 2. 정제 (한글/공백만 남기기) ---

안녕하세요 님  년  과제에 오신 것을 환영합니다
이것은  형태소 분석기 테스트를 위해 만들었어요
숫자 와 특수문자가 포함된 텍스트는 전처리가 필요합니다
형태소 분석은 처음엔 조금 어려웠지만 정말 재미있네요



In [6]:
# 3. 토큰화 및 어간 추출 (Okt 형태소 분석기)
# (한국어는 토큰화와 어간 추출이 동시에 일어납니다)
okt = Okt()

# okt.morphs() : 텍스트를 형태소 단위로 쪼갬
# stem=True : '달려봅시다' -> '달리다' 처럼 원형으로 복원 (어간 추출)
tokens_ko = okt.morphs(text_ko, stem=True)

print("\n--- 3. 토큰화 및 어간 추출 (Okt) ---")
print(tokens_ko)

RuntimeError: Can't find org.jpype.jar support library

In [1]:

# 4. 불용어(Stopword) 제거: '이', '것', '은' 등 의미 없는 단어 제거
# (한국어는 NLTK처럼 표준화된 불용어 리스트가 없어, 보통 직접 정의합니다)
stop_words_ko = ['이', '것', '은', '는', '을', '를', '입니다'] # 예시 불용어
tokens_ko_final = []
for word in tokens_ko:
  if word not in stop_words_ko:
    tokens_ko_final.append(word)

print("\n--- 4. 불용어 제거 (최종 결과) ---")
print(tokens_ko_final)

NameError: name 'tokens_ko' is not defined

In [10]:
!pip install kiwi

Collecting kiwi
  Downloading kiwi-10.2.33.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m14.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting docopt-ng>=0.9.0 (from kiwi)
  Downloading docopt_ng-0.9.0-py3-none-any.whl.metadata (13 kB)
Downloading docopt_ng-0.9.0-py3-none-any.whl (16 kB)
Building wheels for collected packages: kiwi
  Building wheel for kiwi (pyproject.toml) ... [?25l[?25hdone
  Created wheel for kiwi: filename=kiwi-10.2.33-py3-none-any.whl size=616349 sha256=5184235d7093dc215c6d2c576dd831256c63b6cd7de0503bf0882e49ae04345b
  Stored in directory: /root/.cache/pip/wheels/0f/1b/31/4549fa1c6e95b201c53fd96468c0ea7f2c42855f6967ef1d86
Successfully built kiwi
Installing collected packages: docopt-ng, kiwi
Successfully installed docopt-ng-0.9.0 kiwi-10.2.33


In [12]:
from kiwi import Kiwi

ImportError: cannot import name 'Kiwi' from 'kiwi' (/usr/local/lib/python3.12/dist-packages/kiwi/__init__.py)

In [None]:
# 1. 설치 (간단)



text_ko = "안녕하세요, 이것은 123 한국어 텍스트 전처리 예제입니다! :) 빠르게 달려봅시다."

# 2. Okt() 대신 Kiwi() 호출
kiwi = Kiwi()

# 3. 토큰화 및 어간 추출
# kiwi.tokenize()는 (단어, 품사, 시작위치, 길이) 튜플을 반환
# Okt의 .morphs(stem=True)와 가장 유사한 방법:
tokens = kiwi.analyze(text_ko)[0][0] # 첫 번째 문장의 첫 번째 분석 결과

# (참고: 정규식 전처리가 Kiwi에는 크게 필요 없습니다. 자체적으로 잘 처리함)
print("--- Kiwi 결과 (어간 추출 O) ---")

# 'morphs' 리스트에서 'form' (원형) 또는 'lemma' (기본형)만 추출
# '달려봅시다' -> '달리다' + '어' + '보다'
final_tokens = []
for token in tokens:
  # token.form: '달려봅시다' (원본)
  # token.lemma: '달리다' (어간)
  # token.tag: 'VV' (품사: 동사)
  if token.tag in ['NNG', 'NNP', 'VV', 'VA']: # 명사, 동사, 형용사만 추출 (예시)
    final_tokens.append(token.lemma) # Okt의 stem=True와 유사한 'lemma' 사용

print(final_tokens)
# ['안녕하다', '이것', '한국어', '텍스트', '전처리', '예제', '빠르다', '달리다', '보다']

In [14]:
!pip install soynlp



In [15]:
from soynlp.tokenizer import LTokenizer

In [16]:
# 1. 샘플 한국어 텍스트
text_ko = """
안녕하세요, Charlie님! :) 2025년 NLP 과제에 오신 것을 환영합니다~
<p>이것은 KoNLPy(Okt) 형태소 분석기 테스트를 위해 만들었어요.</p>
숫자 12345와 특수문자가 포함된 텍스트는 전처리가 필요합니다.
형태소 분석은 처음엔 조금 어려웠지만, 정말 재미있네요!
"""

print("--- 1. 한국어 원본 텍스트 ---")
print(text_ko)

--- 1. 한국어 원본 텍스트 ---

안녕하세요, Charlie님! :) 2025년 NLP 과제에 오신 것을 환영합니다~
<p>이것은 KoNLPy(Okt) 형태소 분석기 테스트를 위해 만들었어요.</p>
숫자 12345와 특수문자가 포함된 텍스트는 전처리가 필요합니다.
형태소 분석은 처음엔 조금 어려웠지만, 정말 재미있네요!



In [17]:
# 3. 정규표현식으로 먼저 정제
import re
text_ko = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]', '', text_ko) # 한글, 공백만
text_ko = re.sub(r'\s+', ' ', text_ko).strip() # 다중 공백 -> 단일 공백

# 4. soynlp 토크나이저 사용 (L-Tokenizer)
# (원래 soynlp는 대량의 텍스트로 .fit() 학습을 시켜야 하지만,
# 여기서는 기본 제공 LTokenizer를 사용합니다.)
tokenizer = LTokenizer()
tokens_ko = tokenizer.tokenize(text_ko)

In [18]:


print("--- 1. 정제된 텍스트 ---")
print(text_ko)

print("\n--- 2. soynlp 토큰화 결과 ---")
print(tokens_ko)

# 5. 불용어 제거 (직접 정의)
stop_words_ko = ['이', '것', '은', '는', '을', '를', '입니다', '지만', '네요'] # 예시 불용어
tokens_ko_final = [word for word in tokens_ko if word not in stop_words_ko]

print("\n--- 3. 불용어 제거 결과 ---")
print(tokens_ko_final)

--- 1. 정제된 텍스트 ---
안녕하세요 님 년 과제에 오신 것을 환영합니다 이것은 형태소 분석기 테스트를 위해 만들었어요 숫자 와 특수문자가 포함된 텍스트는 전처리가 필요합니다 형태소 분석은 처음엔 조금 어려웠지만 정말 재미있네요

--- 2. soynlp 토큰화 결과 ---
['안녕하세요', '님', '년', '과제에', '오신', '것을', '환영합니다', '이것은', '형태소', '분석기', '테스트를', '위해', '만들었어요', '숫자', '와', '특수문자가', '포함된', '텍스트는', '전처리가', '필요합니다', '형태소', '분석은', '처음엔', '조금', '어려웠지만', '정말', '재미있네요']

--- 3. 불용어 제거 결과 ---
['안녕하세요', '님', '년', '과제에', '오신', '것을', '환영합니다', '이것은', '형태소', '분석기', '테스트를', '위해', '만들었어요', '숫자', '와', '특수문자가', '포함된', '텍스트는', '전처리가', '필요합니다', '형태소', '분석은', '처음엔', '조금', '어려웠지만', '정말', '재미있네요']
