### 단어 토큰화(Word Tolenization)

- 코퍼스(Corpus) : 분석에 활용하기 위한 자연어 데이터
- 토큰화: 하나의 코퍼스를 여러 개의 토큰(가장 작은 의미의 단위)으로 나누는 과정

In [1]:
# 영어 자연어 처리 패키지 : NLTK
from nltk.tokenize import word_tokenize

In [2]:
# punkt(토큰화 모듈) : 마침표나 약어(Mr,Dr) 고려하여 진행
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
text = "Although it's not a happily-ever-after ending, it is very realistic."

# 단어 토큰화
tokenized_words = word_tokenize(text)

# 띄어쓰기, 어퍼스트로피('),콤마(,)가 기준이 됨 
print(tokenized_words)

['Although', 'it', "'s", 'not', 'a', 'happily-ever-after', 'ending', ',', 'it', 'is', 'very', 'realistic', '.']


### 실습
- text.py 파일에는 영어 자연어 코퍼스(말뭉치)가 있음. 해당 코퍼스를 불러와서 단어 토큰화 진행

In [4]:
from text import TEXT
corpus = TEXT
tokenized_words = word_tokenize(corpus)
print(tokenized_words)

['After', 'reading', 'the', 'comments', 'for', 'this', 'movie', ',', 'I', 'am', 'not', 'sure', 'whether', 'I', 'should', 'be', 'angry', ',', 'sad', 'or', 'sickened', '.', 'Seeing', 'comments', 'typical', 'of', 'people', 'who', 'a', ')', 'know', 'absolutely', 'nothing', 'about', 'the', 'military', 'or', 'b', ')', 'who', 'base', 'everything', 'they', 'think', 'they', 'know', 'on', 'movies', 'like', 'this', 'or', 'on', 'CNN', 'reports', 'about', 'Abu-Gharib', 'makes', 'me', 'wonder', 'about', 'the', 'state', 'of', 'intellectual', 'stimulation', 'in', 'the', 'world', '.', 'At', 'the', 'time', 'I', 'type', 'this', 'the', 'number', 'of', 'people', 'in', 'the', 'US', 'military', ':', '1.4', 'million', 'on', 'Active', 'Duty', 'with', 'another', 'almost', '900,000', 'in', 'the', 'Guard', 'and', 'Reserves', 'for', 'a', 'total', 'of', 'roughly', '2.3', 'million', '.', 'The', 'number', 'of', 'people', 'indicted', 'for', 'abuses', 'at', 'at', 'Abu-Gharib', ':', 'Currently', 'less', 'than', '20', 'T

### 정제(Cleaning)
- 코퍼스에는 아무 의미도 없거나 목적에 부합하지 않은 단어들도 포함
- 전처리 과정에서 토큰들을 제거하는 작업을 **정제**
- 등장빈도, 단어길이, 불용어 등을 기준으로 사용

1. 등장빈도가 적은 단어

In [5]:
# 등장빈도가 2이하인 단어들만 추출

# 단어의 빈도 계산에 사용할 Counter() 함수 사용
from collections import Counter

In [6]:
# 전체 단어 토큰 리스트 = tokenized_words

# Counter 함수를 통해 단어의 빈도 수를 카운트하여 집합 생성
vocab = Counter(tokenized_words)
vocab

Counter({'After': 1,
         'reading': 1,
         'the': 30,
         'comments': 2,
         'for': 7,
         'this': 7,
         'movie': 3,
         ',': 21,
         'I': 5,
         'am': 1,
         'not': 4,
         'sure': 1,
         'whether': 1,
         'should': 1,
         'be': 3,
         'angry': 1,
         'sad': 1,
         'or': 4,
         'sickened': 1,
         '.': 28,
         'Seeing': 1,
         'typical': 1,
         'of': 15,
         'people': 9,
         'who': 3,
         'a': 12,
         ')': 2,
         'know': 2,
         'absolutely': 1,
         'nothing': 2,
         'about': 4,
         'military': 12,
         'b': 1,
         'base': 2,
         'everything': 1,
         'they': 3,
         'think': 1,
         'on': 9,
         'movies': 1,
         'like': 1,
         'CNN': 1,
         'reports': 1,
         'Abu-Gharib': 3,
         'makes': 3,
         'me': 1,
         'wonder': 1,
         'state': 2,
         'intellectual': 1,


In [7]:
# 빈도수가 2 이하인 단어 리스트를 추출
# items() 함수 활용 - 키와 값들의 쌍을 얻을 수 있게 해줌
# (1)리스트 컴프리헨션
low_freq_words = [key for key, value in vocab.items() if value <=2]
low_freq_words

['After',
 'reading',
 'comments',
 'am',
 'sure',
 'whether',
 'should',
 'angry',
 'sad',
 'sickened',
 'Seeing',
 'typical',
 ')',
 'know',
 'absolutely',
 'nothing',
 'b',
 'base',
 'everything',
 'think',
 'movies',
 'like',
 'CNN',
 'reports',
 'me',
 'wonder',
 'state',
 'intellectual',
 'stimulation',
 'world',
 'At',
 'time',
 'type',
 ':',
 '1.4',
 'Active',
 'Duty',
 'another',
 'almost',
 '900,000',
 'Guard',
 'Reserves',
 'roughly',
 '2.3',
 'indicted',
 'abuses',
 'Currently',
 'less',
 'than',
 '20',
 'That',
 '.00083',
 '%',
 'Even',
 'if',
 'indict',
 'single',
 'member',
 'ever',
 'stepped',
 'come',
 'close',
 'making',
 'whole',
 'flaws',
 'take',
 'YEARS',
 'cover',
 'understand',
 "'s",
 'supposed',
 'sarcastic',
 'but',
 'reality',
 'writer',
 'director',
 'trying',
 'commentary',
 'without',
 'enemy',
 'fight',
 'In',
 'has',
 'been',
 'its',
 'busiest',
 'when',
 'conflicts',
 'going',
 'is',
 'first',
 'called',
 'disaster',
 'relief',
 'humanitarian',
 'aid',

In [8]:
# 빈도수가 2 이하인 단어 리스트를 추출
# (2)반복문을 활용해서 빈도수가 2 이하인 단어 리스트를 추출
low_freq_words= []
for key, value in vocab.items():
    if value < 3:
        low_freq_words.append(key)
        
low_freq_words

['After',
 'reading',
 'comments',
 'am',
 'sure',
 'whether',
 'should',
 'angry',
 'sad',
 'sickened',
 'Seeing',
 'typical',
 ')',
 'know',
 'absolutely',
 'nothing',
 'b',
 'base',
 'everything',
 'think',
 'movies',
 'like',
 'CNN',
 'reports',
 'me',
 'wonder',
 'state',
 'intellectual',
 'stimulation',
 'world',
 'At',
 'time',
 'type',
 ':',
 '1.4',
 'Active',
 'Duty',
 'another',
 'almost',
 '900,000',
 'Guard',
 'Reserves',
 'roughly',
 '2.3',
 'indicted',
 'abuses',
 'Currently',
 'less',
 'than',
 '20',
 'That',
 '.00083',
 '%',
 'Even',
 'if',
 'indict',
 'single',
 'member',
 'ever',
 'stepped',
 'come',
 'close',
 'making',
 'whole',
 'flaws',
 'take',
 'YEARS',
 'cover',
 'understand',
 "'s",
 'supposed',
 'sarcastic',
 'but',
 'reality',
 'writer',
 'director',
 'trying',
 'commentary',
 'without',
 'enemy',
 'fight',
 'In',
 'has',
 'been',
 'its',
 'busiest',
 'when',
 'conflicts',
 'going',
 'is',
 'first',
 'called',
 'disaster',
 'relief',
 'humanitarian',
 'aid',

In [9]:
# 등장반도가 2 이하인 단어 리스트 개수 확인
print("빈도수가 2 이하인 단어수 : ",len(low_freq_words))

빈도수가 2 이하인 단어수 :  234


In [10]:
# 빈도수가 2 이하인 단어들을 제거한 결과를 따로 저장(cleaned_by_freq 변수에 저장)
# in, not in, 반복문(for), 조건문(if),append
cleaned_by_freq= []
for word in tokenized_words:
    if word not in low_freq_words:
        cleaned_by_freq.append(word)
cleaned_by_freq

['the',
 'for',
 'this',
 'movie',
 ',',
 'I',
 'not',
 'I',
 'be',
 ',',
 'or',
 '.',
 'of',
 'people',
 'who',
 'a',
 'about',
 'the',
 'military',
 'or',
 'who',
 'they',
 'they',
 'on',
 'this',
 'or',
 'on',
 'about',
 'Abu-Gharib',
 'makes',
 'about',
 'the',
 'of',
 'in',
 'the',
 '.',
 'the',
 'I',
 'this',
 'the',
 'number',
 'of',
 'people',
 'in',
 'the',
 'US',
 'military',
 'million',
 'on',
 'with',
 'in',
 'the',
 'and',
 'for',
 'a',
 'total',
 'of',
 'million',
 '.',
 'The',
 'number',
 'of',
 'people',
 'for',
 'at',
 'at',
 'Abu-Gharib',
 'makes',
 'the',
 'total',
 'of',
 'people',
 'of',
 'the',
 'total',
 'military',
 '.',
 'you',
 'every',
 'military',
 'that',
 'in',
 'to',
 'Abu-Gharib',
 ',',
 'you',
 'would',
 'not',
 'to',
 'that',
 'a',
 'number',
 '.',
 'The',
 'in',
 'this',
 'movie',
 'would',
 'to',
 '.',
 'I',
 'that',
 'it',
 'to',
 'be',
 ',',
 'in',
 ',',
 'the',
 'and',
 'are',
 'to',
 'make',
 'about',
 'the',
 'of',
 'the',
 'military',
 'an',
 '

In [11]:
print("빈도수가 3 이상인 단어수 : ",len(cleaned_by_freq))

빈도수가 3 이상인 단어수 :  306


In [12]:
# 길이가 2이하인 단어 제거
# 콤마, I, be, . 등 의미를 갖지 않는 단어 제거
cleaned_by_freq_len = []
# cleaned_by_freq에서 길이가 2이하인 단어 제거
# 제거된 값은 cleaned_by_freq_len 이라는 변수에 담기
for word in cleaned_by_freq:
    if len(word) >= 3:
        cleaned_by_freq_len.append(word)
cleaned_by_freq_len

['the',
 'for',
 'this',
 'movie',
 'not',
 'people',
 'who',
 'about',
 'the',
 'military',
 'who',
 'they',
 'they',
 'this',
 'about',
 'Abu-Gharib',
 'makes',
 'about',
 'the',
 'the',
 'the',
 'this',
 'the',
 'number',
 'people',
 'the',
 'military',
 'million',
 'with',
 'the',
 'and',
 'for',
 'total',
 'million',
 'The',
 'number',
 'people',
 'for',
 'Abu-Gharib',
 'makes',
 'the',
 'total',
 'people',
 'the',
 'total',
 'military',
 'you',
 'every',
 'military',
 'that',
 'Abu-Gharib',
 'you',
 'would',
 'not',
 'that',
 'number',
 'The',
 'this',
 'movie',
 'would',
 'that',
 'the',
 'and',
 'are',
 'make',
 'about',
 'the',
 'the',
 'military',
 'the',
 'military',
 'there',
 'are',
 'not',
 'The',
 'military',
 'the',
 'for',
 'and',
 'the',
 'the',
 'the',
 'military',
 'was',
 'the',
 'the',
 'the',
 'the',
 'the',
 'was',
 'military',
 'who',
 'people',
 'the',
 'people',
 'this',
 'movie',
 'and',
 'make',
 'was',
 'days',
 'and',
 'was',
 'and',
 'and',
 'days',
 'no

In [13]:
# 정제 결과 확인
print('정제 전',cleaned_by_freq[:10])
print('정제 후',cleaned_by_freq_len[:10])

정제 전 ['the', 'for', 'this', 'movie', ',', 'I', 'not', 'I', 'be', ',']
정제 후 ['the', 'for', 'this', 'movie', 'not', 'people', 'who', 'about', 'the', 'military']


### 정제함수 만들기

In [14]:
# 등장 빈도 기준 정제 함수 정의

def clean_by_freq(tokenized_words, freq):
    # 1. Counter 함수를 통해 단어의 빈도수를 카운트하여 단어 집합 생성
    # Vocab 이라는 변수에 담기
    vocab = Counter(tokenized_words)
    # 2. 빈도수가 freq 이하인 단어 추출
    # low_freq_words 라는 변수에 담기
    low_freq_words= []
    for key, value in vocab.items():
        if value < freq:
            low_freq_words.append(key)
    # 3. low_freq_words에 포함되지 않는 단어 리스트 생성
    # cleaned_words 라는 변수에 담기
    cleaned_words= []
    for word in tokenized_words:
        if word not in low_freq_words:
            cleaned_words.append(word)
    return cleaned_words

In [15]:
# 단어 길이 기준 정제함수
def clean_by_len(tokenized_words, length):
    cleaned_by_freq_len = []
    # 단어 길이가 length 이상인 단어들을 cleaned_by_freq_len 이라는 변수에 담기
    for word in tokenized_words:
        if len(word) >= length:
            cleaned_by_freq_len.append(word)
    return cleaned_by_freq_len

### 불용어 ( Stopwords)
- 코퍼스에서 큰 의미가 없거나, 분석 목적에서 벗어나는 단어들

1. 불용어를 모아 놓은 불용어 세트 준비
2. 코퍼스의 각 단어들이 불용어 세트에 포함이 되는지 확인
3. 불용어 세트에 있는 단어 토큰은 분석에서 제외(삭제)

In [16]:
# 코퍼스의 종류에 상관없이 많이 사용되는 기본 불용어 목록
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [17]:
# 불용어 세트 확인
# 분석에 크게 활용되지 않는 불용어 세트
# 집합 자료형(set) : 중복을 허용하지 않는 자료형 / 순서가 존재 X
stopwords_set = set(stopwords.words('english'))

# 불용어 개수
# 179개의 기본 불용어 목록 제공
print('기본 불용어 개수 : ',len(stopwords_set))
print(stopwords_set)

기본 불용어 개수 :  179
{'himself', 'mightn', 'then', 'we', 'o', 'she', 'nor', 'her', 'itself', 'has', 'about', 'for', 'd', 'not', 'mustn', "needn't", 'against', 'your', 'these', "shan't", 'he', 'no', 'out', "shouldn't", 'yours', 'am', 'between', "doesn't", 'wouldn', 'those', 'again', 'there', 'but', 'my', 'it', 'below', 'any', 'haven', 'above', 'up', 'under', 'this', 'after', 'ain', 'have', 'wasn', 'doesn', 'is', 'than', 'will', 'all', 'be', 'what', 'because', 'by', 'their', 'both', "that'll", 'didn', 'ma', 'had', 'some', "didn't", 'so', 'or', 'were', 'at', 'too', 'now', 'just', "weren't", 'into', 'same', 'as', 'only', 'other', 'me', "isn't", 'theirs', 'hadn', 'until', 'off', 'from', 'his', 'yourself', 'our', 'down', 'you', 'the', 'when', 'where', "hadn't", "won't", "wouldn't", "it's", 're', 'ours', 'how', "wasn't", 'each', 'whom', 'its', 'which', 'do', 'with', 'can', 'don', 'on', 'y', 'weren', 'doing', 'who', 'was', 'further', "aren't", 't', 'needn', 'shouldn', 'over', 'him', 'most', 'here'

In [18]:
# 불용어 목록에 새로운 단어 추가, 제거
# add(), remove()

stopwords_set.add('hello')
stopwords_set.remove('after')
stopwords_set.remove('my')
print('불용어 개수 : ',len(stopwords_set))
print(stopwords_set)

불용어 개수 :  178
{'himself', 'mightn', 'then', 'we', 'o', 'she', 'nor', 'hello', 'her', 'itself', 'has', 'about', 'for', 'd', 'not', 'mustn', "needn't", 'against', 'your', 'these', "shan't", 'he', 'no', 'out', "shouldn't", 'yours', 'am', 'between', "doesn't", 'wouldn', 'those', 'again', 'there', 'but', 'it', 'below', 'any', 'haven', 'above', 'up', 'under', 'this', 'ain', 'have', 'wasn', 'doesn', 'is', 'than', 'will', 'all', 'be', 'what', 'because', 'by', 'their', 'both', "that'll", 'didn', 'ma', 'had', 'some', "didn't", 'so', 'or', 'were', 'at', 'too', 'now', 'just', "weren't", 'into', 'same', 'as', 'only', 'other', 'me', "isn't", 'theirs', 'hadn', 'until', 'off', 'from', 'his', 'yourself', 'our', 'down', 'you', 'the', 'when', 'where', "hadn't", "won't", "wouldn't", "it's", 're', 'ours', 'how', "wasn't", 'each', 'whom', 'its', 'which', 'do', 'with', 'can', 'don', 'on', 'y', 'weren', 'doing', 'who', 'was', 'further', "aren't", 't', 'needn', 'shouldn', 'over', 'him', 'most', 'here', 'shan',

In [19]:
# 사용자가 직접 불용어 세트를 정의

my_stopwords_set = {'the', "isn't", 'him', 'weren', 'so', 'has', 'again', 'have', 'out', 'mustn', 'to', "shouldn't", 'against', 'after', 'off', 'can', 'about', 'whom', 'above', "mightn't", 'mightn', 'each', 'been', 'yourself', 'themselves', 'had', 'is', "hadn't", 'those', 'a', "you'll", 'over', 'that', 'how', "aren't", 'doing', 'y', 'herself', 'now', 'd', 'other', 'are', 'ain', 'having', 'its', "mustn't", 'he', 'then', 'yours', 'shouldn', 'but', 'on', 'more', 'i', 'yourselves', 'same', 'at', 'nor', 'isn', "haven't", 't', 'below', 'll', 'down', 'few', 'just', 'before', 'into', 'and', 'o', 'me', 'here'}
print(my_stopwords_set)

{'each', 'whom', 'its', 'mightn', 'then', 'o', 'nor', 'can', 'on', 'y', 'weren', 'has', 'doing', "aren't", 't', 'about', 'd', 'shouldn', 'mustn', 'over', 'him', 'against', 'here', 'he', 'i', 'themselves', 'out', "shouldn't", 'll', 'yours', 'those', 'again', 'but', 'below', 'above', 'few', 'after', 'ain', 'have', 'isn', 'is', 'yourselves', 'are', 'and', 'had', 'so', "you'll", 'having', 'at', "haven't", 'now', 'just', "mustn't", 'into', 'to', 'same', 'been', 'before', 'other', 'me', "isn't", 'off', 'that', "mightn't", 'yourself', 'down', 'a', 'the', 'more', "hadn't", 'how', 'herself'}


# 불용어 (Stopwords) 제거하기

In [20]:
# 등장빈도와 단어 길이를 기준으로 정제했던 변수 :cleaned_by_freq_len
cleaned_by_freq_len

# cleaned_by_freq_len 토큰을 하나씩 확인하면서 단어가 불용어 세트에
# 존재하지 않을 때에만 cleaned_words 변수에 값 담아주기
cleaned_words =[]
for word in cleaned_by_freq_len:
     if word not in stopwords_set:
        cleaned_words.append(word)
cleaned_words

['movie',
 'people',
 'military',
 'Abu-Gharib',
 'makes',
 'number',
 'people',
 'military',
 'million',
 'total',
 'million',
 'The',
 'number',
 'people',
 'Abu-Gharib',
 'makes',
 'total',
 'people',
 'total',
 'military',
 'every',
 'military',
 'Abu-Gharib',
 'would',
 'number',
 'The',
 'movie',
 'would',
 'make',
 'military',
 'military',
 'The',
 'military',
 'military',
 'military',
 'people',
 'people',
 'movie',
 'make',
 'days',
 'days',
 'people',
 'military',
 'every',
 'every',
 'people',
 'million',
 'every',
 'military',
 'make',
 'hour',
 'hour',
 'hour',
 'days',
 'makes',
 'minimum',
 'make',
 'get',
 'would',
 'The',
 'military',
 'people',
 'minimum',
 'The',
 'get',
 'minimum',
 'get']

### 불용어 처리 함수 만들기

In [21]:
# 불용어 제거 함수 만들기
def clean_by_stopwords(tokenized_words,stopwords_set):
    cleaned_words = []
    
    # 불용어 제거하는 코드 작성
    for word in tokenized_words:
        if word not in stopwords_set:
             cleaned_words.append(word)
                
    return cleaned_words

### 정규화(Normalizaton)
- The == the ->통합
- USA, America, United State America, U.S.A ...
- 형태가 다르지만 같은 의미를 나타내는 단어들이 많을 수록 분석이 어려워짐
- 의미가 같은 단어라면 형태를 하나로 통일 -> 정규화

#### 정규화방법1 :대소문자 통합

In [22]:
text = "What can I do for you? Do your homework now."

# 소문자로 변환() - lower() cf)대문자 upper()
print(text.lower())

what can i do for you? do your homework now.


#### 정규화방법2: 규칙 기반 정규화

In [23]:
text = "She became a US citizen. Ummmm, I think, maybe and or."

In [24]:
# 동의어 사전 만들어서 정규화 진행
# US를 USA, Ummmm을 Umm으로 통합
synonym_dict = {'US' : 'USA', 'U.S' : 'USA', 'Ummmm' : 'Umm', 'Ummm' : 'Umm'}

#단어 토큰화
tokenized_words =  word_tokenize(text)

normalized_words = []

# 동의어 사전에 있는 단어라면, value에 해당하는 값으로 변환

for word in tokenized_words : 
    if word in synonym_dict.keys() : 
        word = synonym_dict[word]
    normalized_words.append(word)
print(normalized_words)

['She', 'became', 'a', 'USA', 'citizen', '.', 'Umm', ',', 'I', 'think', ',', 'maybe', 'and', 'or', '.']


### 어간 추출
- 어간(Stem) : 특정한 단어의 핵심이 되는 부분
- 어간추출(Stemming) : 단어에서 어간을 찾아내는 것
- 어간추출을 하면 같은 단어로 통합되기 떄문에 정규화 방법 중 하나임  
- Formalize -> Formal(alize -> al)
- Relational -> Relate(ational->ate)
- Activate -> Activ(ate -> 제거)  

    - 코퍼스의 특성이나 상황에 따라 어간 추출을 하는게 적합할지를 판단
    - 분석에 활용해야하는 중요한 단어가 손실될 수 있음

#### NLTK로 어간 추출하기
- 어간 추출을 위한 알고리즘
    - 포터 스테머(Poter Stemmer)
    - 랭커스터 스테머(Lacaster Stemmer)
    - 어간을 추출하는 기준이 미세하게 다름

In [25]:
from nltk.stem import PorterStemmer

In [26]:
porter_stemmer = PorterStemmer()

In [27]:
text = "You are so lovely. I am loving you now."

# 단어 토큰화
tokenized_words =  word_tokenize(text)

In [28]:
tokenized_words[3]

'lovely'

In [29]:
# 포터스테머 활용
porter_stemmer.stem(tokenized_words[3])

'love'

In [30]:
porter_stemmer_words=[]

# 포터스테머 어간 추출
# 토큰화된 단어를 반복하면서 어간을 추출한다
# 값을 porter_stemmer_words 에 담아주기
for word in tokenized_words :
    stem = porter_stemmer.stem(word)
    porter_stemmer_words.append(stem)

In [31]:
print(porter_stemmer_words)

['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']


In [32]:
# 어간추출 전/후 비교
print('어간추출 전',tokenized_words)
print('어간추출 후',porter_stemmer_words)

어간추출 전 ['You', 'are', 'so', 'lovely', '.', 'I', 'am', 'loving', 'you', 'now', '.']
어간추출 후 ['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']


In [33]:
from nltk.stem import LancasterStemmer

In [34]:
# 랭커스터 스테머 객체 생성
lancaster_stemmer = LancasterStemmer()

In [35]:
# 단어 토큰화
text = "You are so lovely. I am loving you now."
tokenized_words =  word_tokenize(text)

In [36]:
# 단어를 돌아가면서 어간추출 진행
lancaster_stemmed_words = []

for word in tokenized_words :
    stem = lancaster_stemmer.stem(word)
    lancaster_stemmed_words.append(stem)

In [37]:
lancaster_stemmed_words

['you', 'ar', 'so', 'lov', '.', 'i', 'am', 'lov', 'you', 'now', '.']

In [38]:
# 어간추출 전/후 비교
print('어간추출 전',tokenized_words)
print('포터스테머 어간추출 후',porter_stemmer_words)
print('랭커스터스테머 어간추출 후',lancaster_stemmed_words)

어간추출 전 ['You', 'are', 'so', 'lovely', '.', 'I', 'am', 'loving', 'you', 'now', '.']
포터스테머 어간추출 후 ['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']
랭커스터스테머 어간추출 후 ['you', 'ar', 'so', 'lov', '.', 'i', 'am', 'lov', 'you', 'now', '.']


### 어간 추출 함수 코드화

In [39]:
from nltk.stem import PorterStemmer

# 포터스테머 어간 추출 함수
def stemming_by_porter(tokenized_words):
    porter_stemmer = PorterStemmer()
    porter_stemmed_words =[]
    for word in tokenized_words :
        stem = porter_stemmer.stem(word)
        porter_stemmed_words.append(stem)
    return porter_stemmed_words

### 문장 토큰화
- 단어의 품사는 문장 안에서 사용되는 위치에 따라 달라질 수 있기 떄문에 문장 토큰화 진행

In [40]:
# 토큰화 함수와 모듈 불러오기
from nltk.tokenize import sent_tokenize

In [41]:
text = "My email address is 'abcde@smhrd.com'. Send it to Mr.Kim."

# 문장 토큰화
# 약어와 같은 (Mr.,Dr.) 언어적인 특성을 고려해서 토큰화 
sent_tokenize(text)

["My email address is 'abcde@smhrd.com'.", 'Send it to Mr.Kim.']

In [42]:
text = "Can you forward my email to Mr.Kim? Thank you!"

# 느낌표, 물음표 등도 문장을 나누는 기준으로 적용
sent_tokenize(text)

['Can you forward my email to Mr.Kim?', 'Thank you!']

### 품사 태깅(POS ; Part of Speech Tagging)

- 각 단어가 어떤 품사로 쓰였는지 표시하는 작업 = 품사태깅
- 여러문장코퍼스 -> 문장 토큰화 -> 단어 토큰화 -> 품사태깅

In [43]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [44]:
# 품사태깅에 필요한 도구 불러오기
from nltk.tag import pos_tag

In [45]:
# 품사 태깅을 할 코퍼스를 문장 기준으로 토큰화
text = "Watching Time Chasers, it obvious that it was made by a bunch of friends. Maybe they were sitting around one day in film school and said, \"Hey, let\'s pool our money together and make a really bad movie!\" Or something like that."

tokenized_sents= sent_tokenize(text)

In [46]:
# 토큰화된 문장들을 반복하면서 단어 토큰화와 품사 태깅 작업진행
pos_tagged_list = []


for sentence in tokenized_sents:
    # 단어 토큰화
    tokenized_words = word_tokenize(sentence)
    # 품사 태깅
    pos_tagged = pos_tag(tokenized_words)
    # pos_tagged_list에 값 담아주기
    # 리스트로 끊어진 문장의 구분 없애기 -extend 활용
    pos_tagged_list.extend(pos_tagged)

In [47]:
# [(단어, 품사태그),(단어, 품사태그)] 형태로 품사 태깅된 결과 반환
# Penn Treebank POS Tags
pos_tagged_list

[('Watching', 'VBG'),
 ('Time', 'NNP'),
 ('Chasers', 'NNPS'),
 (',', ','),
 ('it', 'PRP'),
 ('obvious', 'VBZ'),
 ('that', 'IN'),
 ('it', 'PRP'),
 ('was', 'VBD'),
 ('made', 'VBN'),
 ('by', 'IN'),
 ('a', 'DT'),
 ('bunch', 'NN'),
 ('of', 'IN'),
 ('friends', 'NNS'),
 ('.', '.'),
 ('Maybe', 'RB'),
 ('they', 'PRP'),
 ('were', 'VBD'),
 ('sitting', 'VBG'),
 ('around', 'IN'),
 ('one', 'CD'),
 ('day', 'NN'),
 ('in', 'IN'),
 ('film', 'NN'),
 ('school', 'NN'),
 ('and', 'CC'),
 ('said', 'VBD'),
 (',', ','),
 ('``', '``'),
 ('Hey', 'NNP'),
 (',', ','),
 ('let', 'VB'),
 ("'s", 'POS'),
 ('pool', 'VB'),
 ('our', 'PRP$'),
 ('money', 'NN'),
 ('together', 'RB'),
 ('and', 'CC'),
 ('make', 'VB'),
 ('a', 'DT'),
 ('really', 'RB'),
 ('bad', 'JJ'),
 ('movie', 'NN'),
 ('!', '.'),
 ("''", "''"),
 ('Or', 'CC'),
 ('something', 'NN'),
 ('like', 'IN'),
 ('that', 'DT'),
 ('.', '.')]

- 품사태그 내용 정리
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

### 품사 태깅 함수 만들기

In [48]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.tag import pos_tag

# 품사 태깅 함수 정의
def pos_tagger(tokenized_sents):
    pos_tagged_words = []
    for sentence in tokenized_sents:
        # 단어 토큰화
        tokenized_words = word_tokenize(sentence)
        
        # 품사 태깅
        pos_tagged = pos_tag(tokenized_words)
        
        # 품사태깅한 데이터 담아주기 -extend 활용
        pos_tagged_words.extend(pos_tagged)
    return pos_tagged_words

### 표제어 추출
- 표제어를 기준으로 통합하면 단어 정규화가 이루어짐
- 단어의 근본적인 의미로 통합해주기
- am, are, is -> be
- happiest,happier -> happy
- 표제어 추출에는 WordNet POS Tag를 사용하여 품사 태깅 진행

In [64]:
# 표제어 추출을 하기 위한 품사 태깅 진행
text = 'You are the happiest person.'

# 단어 토큰화
tokenized_words = word_tokenize(text)
# 품사태그
tagged_words = pos_tag(tokenized_words)
print(tagged_words)

[('You', 'PRP'), ('are', 'VBP'), ('the', 'DT'), ('happiest', 'JJS'), ('person', 'NN'), ('.', '.')]


### WordNet Pos Tag : 영어 어휘 데이터베이스에 적용되어 있는 품사 태그
- N으로 시작하면 wn.NOUN
- J로 시작하면 wn.ADJ
- R로 시작하면 wn.ADV
- V로 시작하면 wn.VERB 로 통일

In [79]:
from nltk.corpus import wordnet as wn

In [81]:
# pennTreePosTag를 WordNetPosTag로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB
    else:
        return

In [82]:
# 표제어 추출을 위한 함수 호출
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [83]:
# 표제어 추출하기 위한 WordNetLemmatizer 클래스에 있는
# lemmatizer() 함수 호출
lemmatizer = WordNetLemmatizer()
lemmatized_words = [] # 표제어가 추출된 단어를 담을 리스트 생성

for word, tag in tagged_words:
    # WordNet Pos Tag로 변환하는 함수 호출
    wn_tag = penn_to_wn(tag)
    
    # 품사를 기준으로 표제어 추출
    if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
        lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag)) # 표제어 추출 함수
    else :
        lemmatized_words.append(word)

In [87]:
print('표제어 추출 전',tokenized_words)
print('표제어 추출 후',lemmatized_words)

표제어 추출 전 ['You', 'are', 'the', 'happiest', 'person', '.']
표제어 추출 후 ['You', 'be', 'the', 'happy', 'person', '.']


### 표제어 추출함수 정의

In [90]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet as wn
nltk.download('wordnet')
nltk.download('omw-1.4')

# pennTree -> WordNet으로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB
    else:
        return
    
# 표제어 추출해주는 함수 정의
def word_lemmatizer(pos_tagged_words):
    lemmatizer = WordNetLemmatizer() # 객체 생성
    lemmatized_words = [] # 표제어 추출된 단어를 담는 리스트
    
    for word, tag in pos_tagged_words:
        wn_tag = penn_to_wn(tag)
        
        if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
            lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag)) # 표제어 추출 함수
        else :
            lemmatized_words.append(word)           
    return lemmatized_words

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\smhrd\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
