In [1]:
import nltk
from collections import Counter
from nltk.tokenize import RegexpTokenizer
from nltk.tag import pos_tag

# ============================================
# 0. NLTK 데이터 다운로드
# ============================================
print("=== 0. NLTK 데이터 다운로드 ===")
# 말뭉치 다운받을 폴더: c:/nltk_data, d:/nltk_data 등
nltk.download('gutenberg')  # Emma 소설
nltk.download('punkt')      # 토큰화
nltk.download('averaged_perceptron_tagger')  # 품사태깅

# ============================================
# 1. Emma 소설 로드
# ============================================
print("\n=== 1. Emma 소설 로드 ===")
emma = nltk.corpus.gutenberg.raw('austen-emma.txt')
print(f"소설 전체 길이: {len(emma):,} 문자")
print(f"앞부분 200자:\n{emma[:200]}")

# ============================================
# 2. 특수문자가 들어가지 않은 3글자 이상의 단어만 추출해서 품사태깅
# ============================================
print("\n=== 2. 3글자 이상 단어 추출 및 품사태깅 ===")
# RegexpTokenizer: 정규표현식 [a-zA-Z]{3,}로 3글자 이상 영문자만 추출
ret = RegexpTokenizer(r'[a-zA-Z]{3,}')
words_3plus = ret.tokenize(emma)
print(f"추출된 단어 수: {len(words_3plus):,}")
print(f"처음 20개 단어: {words_3plus[:20]}")

# 품사태깅
tagged_list = pos_tag(words_3plus)
print(f"태깅된 단어 수: {len(tagged_list):,}")
print(f"처음 10개 태깅 결과: {tagged_list[:10]}")

# ============================================
# 3. "Emma" 단어 분석
# ============================================
print("\n=== 3. 'Emma' 단어 분석 ===")
# 등장 횟수 (대소문자 통합)
emma_count = sum(1 for word in words_3plus if word.lower() == 'emma')
print(f"'Emma' 등장 횟수: {emma_count:,}회")

# 품사태깅 결과 추출
emma_tags = [tag for word, tag in tagged_list if word.lower() == 'emma']
emma_tag_counts = Counter(emma_tags)

print(f"'Emma'의 품사 분포:")
for tag, count in emma_tag_counts.items():
    print(f"  품사 '{tag}': {count}회")

# 모든 "Emma" 인스턴스 출력 (처음 10개)
print(f"\n'Emma' 품사태깅 상세 (처음 10개):")
emma_instances = [(word, tag) for word, tag in tagged_list if word.lower() == 'emma']
for i, (word, tag) in enumerate(emma_instances[:10], 1):
    print(f"  {i}. '{word}' -> {tag}")
if len(emma_instances) > 10:
    print(f"  ... (전체 {len(emma_instances)}개)")

# ============================================
# 4. 명사만 추출 및 등장 횟수 분석
# ============================================
print("\n=== 4. 명사 추출 및 분석 ===")
# 원하는 품사: 명사(NN, NNS, NNP, NNPS)
noun_tags = ['NN', 'NNS', 'NNP', 'NNPS']

# 명사만 추출 (소문자로 변환하여 통일)
nouns_list = [word.lower() for word, tag in tagged_list if tag in noun_tags]
print(f"추출된 명사 수: {len(nouns_list):,}")

# 등장하는 명사의 종류별 갯수
noun_counter = Counter(nouns_list)
print(f"고유 명사 종류 수: {len(noun_counter):,}")

# 가장 많이 등장하는 명사 Top 20
print(f"\n가장 많이 등장하는 명사 Top 20:")
for i, (word, count) in enumerate(noun_counter.most_common(20), 1):
    print(f"  {i:2d}. {word:15s}: {count:,}회")

=== 0. NLTK 데이터 다운로드 ===

=== 1. Emma 소설 로드 ===
소설 전체 길이: 887,071 문자
앞부분 200자:
[Emma by Jane Austen 1816]

VOLUME I

CHAPTER I


Emma Woodhouse, handsome, clever, and rich, with a comfortable home
and happy disposition, seemed to unite some of the best blessings
of existence; an

=== 2. 3글자 이상 단어 추출 및 품사태깅 ===
추출된 단어 수: 123,807
처음 20개 단어: ['Emma', 'Jane', 'Austen', 'VOLUME', 'CHAPTER', 'Emma', 'Woodhouse', 'handsome', 'clever', 'and', 'rich', 'with', 'comfortable', 'home', 'and', 'happy', 'disposition', 'seemed', 'unite', 'some']


[nltk_data] Downloading package gutenberg to C:\nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package punkt to C:\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


태깅된 단어 수: 123,807
처음 10개 태깅 결과: [('Emma', 'NNP'), ('Jane', 'NNP'), ('Austen', 'NNP'), ('VOLUME', 'NNP'), ('CHAPTER', 'NNP'), ('Emma', 'NNP'), ('Woodhouse', 'NNP'), ('handsome', 'VBD'), ('clever', 'NN'), ('and', 'CC')]

=== 3. 'Emma' 단어 분석 ===
'Emma' 등장 횟수: 865회
'Emma'의 품사 분포:
  품사 'NNP': 838회
  품사 'VBP': 4회
  품사 'JJ': 4회
  품사 'VB': 5회
  품사 'NNS': 2회
  품사 'RB': 1회
  품사 'NN': 7회
  품사 'NNPS': 2회
  품사 'VBN': 1회
  품사 'VBD': 1회

'Emma' 품사태깅 상세 (처음 10개):
  1. 'Emma' -> NNP
  2. 'Emma' -> NNP
  3. 'Emma' -> NNP
  4. 'Emma' -> NNP
  5. 'Emma' -> NNP
  6. 'Emma' -> NNP
  7. 'Emma' -> NNP
  8. 'Emma' -> NNP
  9. 'Emma' -> NNP
  10. 'Emma' -> NNP
  ... (전체 865개)

=== 4. 명사 추출 및 분석 ===
추출된 명사 수: 30,633
고유 명사 종류 수: 3,852

가장 많이 등장하는 명사 Top 20:
   1. emma           : 849회
   2. mrs            : 698회
   3. miss           : 574회
   4. harriet        : 485회
   5. weston         : 434회
   6. thing          : 399회
   7. knightley      : 389회
   8. elton          : 385회
   9. jane           : 297회
  10. wo