NLTK 설치 및 기본 데이터 다운로드

In [3]:
# NLTK 설치
# pip install nltk

# 필요한 데이터 다운로드
import nltk
nltk.download('punkt')    # 토큰화 모듈
nltk.download('stopwords')  # 불용어 데이터
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

기본 토큰화 실습

In [4]:
from nltk.tokenize import word_tokenize, sent_tokenize

# 예제 텍스트
text = "Natural Language Processing is exciting and fun! It has many applications in real world."

# 문장 토큰화
sentences = sent_tokenize(text)
print("문장 토큰화 결과:")
for i, sentence in enumerate(sentences):
    print(f"문장 {i+1}: {sentence}")

# 단어 토큰화
tokens = word_tokenize(text)
print("\\n단어 토큰화 결과:")
print(tokens)


문장 토큰화 결과:
문장 1: Natural Language Processing is exciting and fun!
문장 2: It has many applications in real world.
\n단어 토큰화 결과:
['Natural', 'Language', 'Processing', 'is', 'exciting', 'and', 'fun', '!', 'It', 'has', 'many', 'applications', 'in', 'real', 'world', '.']


불용어(Stopwords) 제거 실습

In [5]:
from nltk.corpus import stopwords

# 불용어 목록 가져오기
stop_words = set(stopwords.words('english'))

# 불용어 제거
filtered_tokens = [token for token in tokens if token.lower() not in stop_words]

print("\\n원본 토큰:", tokens)
print("불용어 제거 후:", filtered_tokens)


\n원본 토큰: ['Natural', 'Language', 'Processing', 'is', 'exciting', 'and', 'fun', '!', 'It', 'has', 'many', 'applications', 'in', 'real', 'world', '.']
불용어 제거 후: ['Natural', 'Language', 'Processing', 'exciting', 'fun', '!', 'many', 'applications', 'real', 'world', '.']


In [7]:
from nltk.corpus import stopwords

# 불용어 목록 가져오기
stop_words_1 = set(stopwords.words('english'))
stop_words_2 = {'!', '.'}
stop_words = stop_words_1.union(stop_words_2)
# 불용어 제거
filtered_tokens = [token for token in tokens if token.lower() not in stop_words]

print("\\n원본 토큰:", tokens)
print("불용어 제거 후:", filtered_tokens)

\n원본 토큰: ['Natural', 'Language', 'Processing', 'is', 'exciting', 'and', 'fun', '!', 'It', 'has', 'many', 'applications', 'in', 'real', 'world', '.']
불용어 제거 후: ['Natural', 'Language', 'Processing', 'is', 'exciting', 'and', 'fun', 'It', 'has', 'many', 'applications', 'in', 'real', 'world']


In [8]:
from nltk.tokenize import word_tokenize, sent_tokenize

# 예제 텍스트
text = "자연어 처리는 흥미롭고 재미있어요! 현실 세계에는 많은 응용 프로그램이 있습니다."

# 문장 토큰화
sentences = sent_tokenize(text)
print("문장 토큰화 결과:")
for i, sentence in enumerate(sentences):
    print(f"문장 {i+1}: {sentence}")

# 단어 토큰화
tokens = word_tokenize(text)
print("\\n단어 토큰화 결과:")
print(tokens)


문장 토큰화 결과:
문장 1: 자연어 처리는 흥미롭고 재미있어요!
문장 2: 현실 세계에는 많은 응용 프로그램이 있습니다.
\n단어 토큰화 결과:
['자연어', '처리는', '흥미롭고', '재미있어요', '!', '현실', '세계에는', '많은', '응용', '프로그램이', '있습니다', '.']


In [13]:
# 필요한 패키지 설치
!pip install konlpy

from konlpy.tag import Okt

# 한국어 불용어 정의
korean_stopwords = {
    '이', '그', '저', '것', '이것', '저것', '그것',
    '나', '너', '우리', '저희', '당신', '그들', '그녀', '그분',
    '이런', '그런', '저런', '어떤', '무슨', '어느',
    '은', '는', '이', '가', '을', '를', '에', '의', '로', '으로',
    '과', '와', '이나', '나', '또는', '혹은',
    '하다', '있다', '되다', '같다',
    '및', '또한', '그리고', '따라서', '그러나', '하지만',
    '매우', '아주', '너무', '참', '정말', '그냥',
    '때문에', '그래서', '그러므로', '그러면', '그러니까',
    '이제', '곧', '즉', '곧바로', '바로',
    '예', '아니', '네', '그렇다', '아니다'
}

# 예제 텍스트
text = "자연어 처리는 매우 흥미롭고 재미있습니다! 실제 세계에서 많은 응용이 가능합니다."

# Okt 형태소 분석기 초기화
okt = Okt()

# 형태소 분석
morphs = okt.morphs(text)  # 형태소 단위로 분리
print("\n원본 형태소:", morphs)

# 불용어 제거
filtered_morphs = [word for word in morphs if word not in korean_stopwords]
print("불용어 제거 후 형태소:", filtered_morphs)

# 품사 태깅 결과에서 불용어 제거
pos_tagged = okt.pos(text)
print("\n품사 태깅 결과:")
for word, tag in pos_tagged:
    print(f"{word}/{tag}")

# 명사, 동사, 형용사만 추출 (품사 기반 불용어 제거)
content_words = []
for word, tag in pos_tagged:
    # 명사(Noun), 동사(Verb), 형용사(Adjective)만 선택
    if tag in ['Noun', 'Verb', 'Adjective']:
        content_words.append(word)

print("\n주요 품사만 추출 (명사, 동사, 형용사):")
print(content_words)

# 명사만 추출
nouns = okt.nouns(text)
print("\n명사만 추출:")
print(nouns)

# 통계
print("\n통계:")
print(f"전체 형태소 수: {len(morphs)}")
print(f"불용어 제거 후 형태소 수: {len(filtered_morphs)}")
print(f"주요 품사 단어 수: {len(content_words)}")
print(f"명사 수: {len(nouns)}")

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m79.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m26.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0

원본 형태소: ['자연어', '처리', '는', '매우', '흥미', '롭고', '재미있습니다', '!', '실제', '세계', '에서', '많은', '응용', '이', '가능합니다', '.']
불용어 제거 후 형태소: ['자연어', '처리', '흥미', '롭고', '재미있습니다', '!', '실제', '세계', '에서', '많은', '응용', '가능합니다', '.']

품사 태깅 결과:
자연어/Noun
처리/Noun
는/Josa
매우/Noun
흥미/Noun
롭고/Josa
재미있습니다/Ad

어간 추출(Stemming)과 표제어 추출(Lemmatization) 실습

In [14]:
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# WordNet 데이터 다운로드
nltk.download('wordnet')

# 어간 추출기와 표제어 추출기 초기화
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# 어간 추출 예제
words = ["running", "runs", "ran", "easily", "fairly"]
stemmed_words = [stemmer.stem(word) for word in words]

print("\\n어간 추출 결과:")
for original, stemmed in zip(words, stemmed_words):
    print(f"{original} -> {stemmed}")

# 표제어 추출 예제
words = ["running", "runs", "ran", "better", "goods"]
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

print("\\n표제어 추출 결과:")
for original, lemmatized in zip(words, lemmatized_words):
    print(f"{original} -> {lemmatized}")


[nltk_data] Downloading package wordnet to /root/nltk_data...


\n어간 추출 결과:
running -> run
runs -> run
ran -> ran
easily -> easili
fairly -> fairli
\n표제어 추출 결과:
running -> running
runs -> run
ran -> ran
better -> better
goods -> good


In [15]:
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# WordNet 데이터 다운로드
nltk.download('wordnet')

# 어간 추출기와 표제어 추출기 초기화
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# 어간 추출 예제
words = ["달리다", "달렸다", "달리냐", "쉬운", "공정한"]
stemmed_words = [stemmer.stem(word) for word in words]

print("\\n어간 추출 결과:")
for original, stemmed in zip(words, stemmed_words):
    print(f"{original} -> {stemmed}")

# 표제어 추출 예제
words = ["달리다", "달렸다", "달리냐", "쉬운", "공정한"]
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

print("\\n표제어 추출 결과:")
for original, lemmatized in zip(words, lemmatized_words):
    print(f"{original} -> {lemmatized}")


\n어간 추출 결과:
달리다 -> 달리다
달렸다 -> 달렸다
달리냐 -> 달리냐
쉬운 -> 쉬운
공정한 -> 공정한
\n표제어 추출 결과:
달리다 -> 달리다
달렸다 -> 달렸다
달리냐 -> 달리냐
쉬운 -> 쉬운
공정한 -> 공정한


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [16]:
# 필요한 패키지 설치
# pip install konlpy

from konlpy.tag import Okt  # KoNLPy의 Okt 형태소 분석기 사용

# 예제 한국어 텍스트
text = "자연어 처리는 매우 흥미롭고 재미있습니다! 실제 세계에서 많은 응용이 가능합니다."

# Okt 형태소 분석기 초기화
okt = Okt()

# 문장 분리 (한국어 문장 분리를 위해 간단한 규칙 적용)
sentences = [s.strip() for s in text.split('!') if s.strip()]
print("문장 분리 결과:")
for i, sentence in enumerate(sentences):
    print(f"문장 {i+1}: {sentence}")

# 형태소 분석
morphs = okt.morphs(text)  # 형태소 단위로 분리
pos = okt.pos(text)        # 품사 태깅

print("\n형태소 분석 결과:")
print(morphs)

print("\n품사 태깅 결과:")
for word, tag in pos:
    print(f"{word}/{tag}")

# 어간 추출 (동사/형용사의 어간 추출)
print("\n어간 추출 결과:")
for word, tag in pos:
    if tag in ['Verb', 'Adjective']:  # 동사나 형용사인 경우
        # '다'로 끝나는 경우 어간으로 간주
        if word.endswith('다'):
            print(f"{word} -> {word[:-1]}")
        # '고'로 끝나는 경우
        elif word.endswith('고'):
            print(f"{word} -> {word[:-1]}다")
        else:
            print(f"{word} -> {word}")

# 표제어 추출
print("\n표제어 추출 결과:")
for word, tag in pos:
    if tag in ['Verb', 'Adjective']:  # 동사나 형용사인 경우
        # '다'로 끝나는 경우
        if word.endswith('다'):
            print(f"{word} -> {word}")
        # '고'로 끝나는 경우
        elif word.endswith('고'):
            print(f"{word} -> {word[:-1]}다")
        # '습니다'로 끝나는 경우
        elif word.endswith('습니다'):
            stem = word[:-3]  # '습니다' 제거
            if stem.endswith('있'):  # '있습니다'의 경우
                print(f"{word} -> 있다")
            elif stem.endswith('었'):  # '었습니다'의 경우
                print(f"{word} -> {stem[:-1]}다")
            else:
                print(f"{word} -> {stem}다")
        # '어요'로 끝나는 경우
        elif word.endswith('어요'):
            print(f"{word} -> {word[:-2]}다")
        else:
            print(f"{word} -> {word}")

문장 분리 결과:
문장 1: 자연어 처리는 매우 흥미롭고 재미있습니다
문장 2: 실제 세계에서 많은 응용이 가능합니다.

형태소 분석 결과:
['자연어', '처리', '는', '매우', '흥미', '롭고', '재미있습니다', '!', '실제', '세계', '에서', '많은', '응용', '이', '가능합니다', '.']

품사 태깅 결과:
자연어/Noun
처리/Noun
는/Josa
매우/Noun
흥미/Noun
롭고/Josa
재미있습니다/Adjective
!/Punctuation
실제/Noun
세계/Noun
에서/Josa
많은/Adjective
응용/Noun
이/Josa
가능합니다/Adjective
./Punctuation

어간 추출 결과:
재미있습니다 -> 재미있습니
많은 -> 많은
가능합니다 -> 가능합니

표제어 추출 결과:
재미있습니다 -> 재미있습니다
많은 -> 많은
가능합니다 -> 가능합니다


Bag of Words 구현 실습

In [17]:
from collections import Counter

# 예제 문서
documents = [
    "Natural language processing is fascinating",
    "I love learning about NLP and its applications",
    "Machine learning and NLP go hand in hand"
]

# 각 문서의 단어 빈도 계산
def create_bow(document):
    # 소문자 변환 및 토큰화
    tokens = word_tokenize(document.lower())
    # 불용어 제거
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words and token.isalpha()]
    # 단어 빈도 계산
    word_freq = Counter(filtered_tokens)
    return word_freq

# 각 문서의 BOW 생성
bow_results = [create_bow(doc) for doc in documents]

# 결과 출력
print("\\nBag of Words 결과:")
for i, bow in enumerate(bow_results):
    print(f"\\n문서 {i+1}:")
    for word, count in bow.items():
        print(f"  {word}: {count}")


\nBag of Words 결과:
\n문서 1:
  natural: 1
  language: 1
  processing: 1
  is: 1
  fascinating: 1
\n문서 2:
  i: 1
  love: 1
  learning: 1
  about: 1
  nlp: 1
  and: 1
  its: 1
  applications: 1
\n문서 3:
  machine: 1
  learning: 1
  and: 1
  nlp: 1
  go: 1
  hand: 2
  in: 1


TF-IDF 구현 실습

In [18]:
import math
from collections import Counter, defaultdict

# 예제 문서
documents = [
    "Natural language processing is fascinating",
    "I love learning about NLP and its applications",
    "Machine learning and NLP go hand in hand"
]

# 각 문서 토큰화
tokenized_docs = []
for doc in documents:
    tokens = word_tokenize(doc.lower())
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words and token.isalpha()]
    tokenized_docs.append(filtered_tokens)

# 전체 어휘 사전 생성
vocab = set()
for doc in tokenized_docs:
    vocab.update(doc)

# 단어별 문서 빈도(DF) 계산
doc_freq = defaultdict(int)
for doc in tokenized_docs:
    for word in set(doc):  # 각 문서에서 한 번만 카운트
        doc_freq[word] += 1

# TF-IDF 계산 함수
def compute_tfidf(doc, doc_index):
    N = len(documents)  # 전체 문서 수
    tfidf_scores = {}

    # 단어 빈도(TF) 계산
    word_freq = Counter(doc)
    doc_len = len(doc)

    for word, freq in word_freq.items():
        # TF 계산 (정규화된 빈도)
        tf = freq / doc_len
        # IDF 계산
        idf = math.log(N / doc_freq[word])
        # TF-IDF 계산
        tfidf_scores[word] = tf * idf

    return tfidf_scores

# 각 문서의 TF-IDF 계산
tfidf_results = []
for i, doc in enumerate(tokenized_docs):
    tfidf_scores = compute_tfidf(doc, i)
    tfidf_results.append(tfidf_scores)

# 결과 출력
print("\\nTF-IDF 결과:")
for i, tfidf in enumerate(tfidf_results):
    print(f"\\n문서 {i+1}:")
    # 점수 기준 내림차순 정렬
    sorted_tfidf = sorted(tfidf.items(), key=lambda x: x[1], reverse=True)
    for word, score in sorted_tfidf:
        print(f"  {word}: {score:.4f}")


\nTF-IDF 결과:
\n문서 1:
  natural: 0.2197
  language: 0.2197
  processing: 0.2197
  is: 0.2197
  fascinating: 0.2197
\n문서 2:
  i: 0.1373
  love: 0.1373
  about: 0.1373
  its: 0.1373
  applications: 0.1373
  learning: 0.0507
  nlp: 0.0507
  and: 0.0507
\n문서 3:
  hand: 0.2747
  machine: 0.1373
  go: 0.1373
  in: 0.1373
  learning: 0.0507
  and: 0.0507
  nlp: 0.0507


NLTK 기본 토큰화와 불용어 제거

In [19]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# 예제 텍스트
text = "Natural Language Processing is exciting and fun!"

# 토큰화
tokens = word_tokenize(text)

# 영어 불용어 세트 가져오기
stop_words = set(stopwords.words('english'))

# 불용어 제거
filtered = [t for t in tokens if t.lower() not in stop_words]

# 결과 출력
print('원본:', tokens)
print('불용어 제거:', filtered)


원본: ['Natural', 'Language', 'Processing', 'is', 'exciting', 'and', 'fun', '!']
불용어 제거: ['Natural', 'Language', 'Processing', 'exciting', 'fun', '!']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
