**4주차 과제 - 영어 전처리**

- 과제: 아래 코드를 실행하고 실행화면을 캡쳐하여 반드시 **pdf** 파일로 변환하여 제출하시오.
- 유의사항: 본 과제의 목적은 학생들께서 아래 코드를 이용하여 텍스트 전처리를 경험해 보는 것입니다. 이 코드를 그대로 실행하여 제출해도 되지만 텍스트와 코드를 변경해 가면 실습하기를 추천합니다.

# **0. NLTK 라이브러리 다운로드**

In [6]:
import nltk  # Natural Language Toolkit (자연어 처리 도구 모음) 라이브러리

nltk.download('punkt')  # 토크나이저 모듈 다운로드
nltk.download('wordnet')  # 표제어 추출 모듈 다운로드
nltk.download('stopwords')  # 불용어 제거 모듈 다운로드
nltk.download('averaged_perceptron_tagger')  # 품사 태깅 모듈 다운로드

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

# **1. 토큰화(Tokenization)**

In [12]:
from nltk.tokenize import TreebankWordTokenizer

text = "You can’t make an omelette without breaking a few eggs."

# TreebankWordTokenizer 사용(Penn Treebank Tokenization)
print('TreebankWordTokenizer: ', TreebankWordTokenizer().tokenize(text))


TreebankWordTokenizer:  ['You', 'can’t', 'make', 'an', 'omelette', 'without', 'breaking', 'a', 'few', 'eggs', '.']


# **2. 표제어 추출(Lemmatization)**

In [13]:
from nltk.stem import WordNetLemmatizer  # NLTK의 표제어 추출기

lemmatizer = WordNetLemmatizer()  # 표제어 추출기 객체 생성

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',
         'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전: ', words)
# 각 단어의 표제어를 추출
print('표제어 추출 후: ', [lemmatizer.lemmatize(word) for word in words])

# 각 단어의 동사 품사로 표제어를 추출
print('dies의 동사 표제어: ', lemmatizer.lemmatize('dies', 'v'))
print('watched의 동사 표제어: ', lemmatizer.lemmatize('watched', 'v'))
print('has의 동사 표제어: ', lemmatizer.lemmatize('has', 'v'))

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']
dies의 동사 표제어:  die
watched의 동사 표제어:  watch
has의 동사 표제어:  have


# **3. 불용어 제거와 품사 태깅**

In [14]:
from nltk.corpus import stopwords  # 불용어(corpus of stopwords) 모듈
from nltk.tokenize import word_tokenize  # 토크나이저 모듈

stop_words_list = stopwords.words('english')  # 영어 불용어 리스트

print('불용어 개수: ', len(stop_words_list))  # 불용어 개수
print('불용어 출력: ', stop_words_list)  # 불용어 출력

불용어 개수:  179
불용어 출력:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', '

In [15]:
text = "The grass is always greener on the other side of the fence."

stop_words = set(stopwords.words('english'))  # 영어 불용어 집합

word_tokens = word_tokenize(text)  # 토큰화 실행

result = []
for word in word_tokens:
    if word not in stop_words:  # 불용어가 아니면 result에 추가
        result.append(word)

print('불용어 제거 전: ', word_tokens)
print('불용어 제거 후: ', result)

불용어 제거 전:  ['The', 'grass', 'is', 'always', 'greener', 'on', 'the', 'other', 'side', 'of', 'the', 'fence', '.']
불용어 제거 후:  ['The', 'grass', 'always', 'greener', 'side', 'fence', '.']


In [16]:
print(nltk.pos_tag(result))  # 토큰에 품사를 태깅

[('The', 'DT'), ('grass', 'NN'), ('always', 'RB'), ('greener', 'JJ'), ('side', 'NN'), ('fence', 'NN'), ('.', '.')]
