**3주차 실습 - 영어 전처리**

- 출처: 딥 러닝을 이용한 자연어 처리 입문(https://wikidocs.net/book/2155)

# **0. NLTK 라이브러리 다운로드**

In [1]:
import os
import nltk
import nltk.data

# NLTK 데이터 경로를 환경 변수로 설정합니다.


nltk.download('punkt')  # 토크나이저 모듈 다운로드
nltk.download('wordnet')  # 표제어 추출 모듈 다운로드
nltk.download('stopwords')  # 불용어 제거 모듈 다운로드
nltk.download('averaged_perceptron_tagger')  # 품사 태깅 모듈 다운로드

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\tomat\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [2]:
import nltk
# nltk.data.path.remove('C:\\Users\\tomat/nltk_data')
nltk.data.path

['D:\\Soma\\NLTK',
 'C:\\Users\\tomat/nltk_data',
 'F:\\Anaconda3_envs\\tensor2\\nltk_data',
 'F:\\Anaconda3_envs\\tensor2\\share\\nltk_data',
 'F:\\Anaconda3_envs\\tensor2\\lib\\nltk_data',
 'C:\\Users\\tomat\\AppData\\Roaming\\nltk_data',
 'C:\\nltk_data',
 'D:\\nltk_data',
 'E:\\nltk_data']

# **1. 토큰화(Tokenization)**

## 1-1. 단어 토큰화

In [3]:
# 텍스트 데이터의 특성과 사용 목적에 따라 토큰화 방법을 선택
# word_tokenize, WordPunctTokenizer, TreebankWordTokenizer 모듈
from nltk.tokenize import word_tokenize, WordPunctTokenizer, TreebankWordTokenizer

text = "You can't judge a book by its cover."

# word_tokenize 사용
print('word_tokenize: ', word_tokenize(text))

# WordPunctTokenizer 사용
print('WordPunctTokenizer: ', WordPunctTokenizer().tokenize(text))

# TreebankWordTokenizer 사용(Penn Treebank Tokenization)
print('TreebankWordTokenizer: ', TreebankWordTokenizer().tokenize(text))


word_tokenize:  ['You', 'ca', "n't", 'judge', 'a', 'book', 'by', 'its', 'cover', '.']
WordPunctTokenizer:  ['You', 'can', "'", 't', 'judge', 'a', 'book', 'by', 'its', 'cover', '.']
TreebankWordTokenizer:  ['You', 'ca', "n't", 'judge', 'a', 'book', 'by', 'its', 'cover', '.']


## 1-2. 문장 토큰화

In [4]:
from nltk.tokenize import sent_tokenize  # 문장 토크나이저

text = """Cosmos is a Greek word for the order of the universe.
It is, in a way, the opposite of Chaos.
It implies the deep interconnectedness of all things.
It conveys awe for the intricate and subtle way in which the universe is put together."""

print(sent_tokenize(text))  # 문장 단위로 텍스트를 분할

['Cosmos is a Greek word for the order of the universe.', 'It is, in a way, the opposite of Chaos.', 'It implies the deep interconnectedness of all things.', 'It conveys awe for the intricate and subtle way in which the universe is put together.']


In [5]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))  # 문장 단위로 텍스트를 분할

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


# **2. 표제어 추출(Lemmatization)**

In [6]:
from nltk.stem import WordNetLemmatizer  # NLTK의 표제어 추출기

lemmatizer = WordNetLemmatizer()  # 표제어 추출기 객체 생성

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',
         'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전: ', words)
# 각 단어의 표제어를 추출
print('표제어 추출 후: ', [lemmatizer.lemmatize(word) for word in words])

# 각 단어의 동사 품사로 표제어를 추출
print('dies의 동사 표제어: ', lemmatizer.lemmatize('dies', 'v'))
print('watched의 동사 표제어: ', lemmatizer.lemmatize('watched', 'v'))
print('has의 동사 표제어: ', lemmatizer.lemmatize('has', 'v'))

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']
dies의 동사 표제어:  die
watched의 동사 표제어:  watch
has의 동사 표제어:  have


# **3. 어간 추출(Stemming)**

In [8]:
from nltk.stem import PorterStemmer  # 포터 스테머(stemming) 모듈
from nltk.stem import LancasterStemmer  # 랭커스터 스테머(stemming) 모듈

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',
         'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전: ', words)
# 포터 스테머로 어간 추출
print('PorterStemmer 어간 추출 후:', [porter_stemmer.stem(w) for w in words])
# 랭커스터 스테머로 어간 추출
print('LancasterStemmer 어간 추출 후:', [lancaster_stemmer.stem(w) for w in words])


어간 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
PorterStemmer 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
LancasterStemmer 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


# **4. 정규 표현식(Regular Expression)**

In [10]:
import re  # 정규 표현식을 위한 모듈

# 'How are you, boy?'에서 [abc]에 해당하는 문자를 찾아서 출력
print(re.findall('[abc]', 'How are you, boy?'))

# '3a5b7c9d'에서 [0123456789]에 해당하는 문자를 찾아서 출력
print(re.findall('[0123456789]', '3a5b7c9d'))

['a', 'b']
['3', '5', '7', '9']


In [12]:
from nltk.tokenize import RegexpTokenizer  # 정규 표현식 토크나이저

text = 'Mr. Jone’s Orphanage is as cheery as cheery goes for a pastry shop'

# 문자, 숫자, '(apostrophe)를 포함해 단어 구분
#tokenizer = RegexpTokenizer('[\w]+') # 1글자 이상 단어 구분
tokenizer = RegexpTokenizer('[\w]{3,}') # 3글자 이상 단어 구분

# 토큰화 결과
print(tokenizer.tokenize(text))

['Jone', 'Orphanage', 'cheery', 'cheery', 'goes', 'for', 'pastry', 'shop']


In [9]:
# '(apostrophe)를 포함해 3글자 이상 단어 구분
tokenizer = RegexpTokenizer("[\w']{3,}")

# 토큰화 결과 출력
print(tokenizer.tokenize(text))

['Jone', 'Orphanage', 'cheery', 'cheery', 'goes', 'for', 'pastry', 'shop']


# **5. 불용어 제거와 품사 태깅**

In [13]:
from nltk.corpus import stopwords  # 불용어(corpus of stopwords) 모듈
from nltk.tokenize import word_tokenize  # 토크나이저 모듈

stop_words_list = stopwords.words('english')  # 영어 불용어 리스트

print('불용어 개수: ', len(stop_words_list))  # 불용어 개수
print('불용어 출력: ', stop_words_list)  # 불용어 출력

불용어 개수:  179
불용어 출력:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', '

In [14]:
text = "Family is not an important thing. It's everything."

stop_words = set(stopwords.words('english'))  # 영어 불용어 집합

word_tokens = word_tokenize(text)  # 토큰화 실행

result = []
for word in word_tokens:
    if word not in stop_words:  # 불용어가 아니면 result에 추가
        result.append(word)

print('불용어 제거 전: ', word_tokens)
print('불용어 제거 후: ', result)

불용어 제거 전:  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후:  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [15]:
print(nltk.pos_tag(result))  # 토큰에 품사를 태깅

[('Family', 'RB'), ('important', 'JJ'), ('thing', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('everything', 'NN'), ('.', '.')]
