### 단어 토큰화(Word Tokenization)

- 코퍼스(Corpus):분석에 활용하기 위한 자연어 데이터
- 토큰화 : 하나의 코퍼스를 여러 개의 토큰(가장 작은 의미의 단위)으로 나누는 과정

In [1]:
# 영어 자연어 처리 패키지 : NLTK
from nltk.tokenize import word_tokenize

In [2]:
# punkt(토큰화 모듈) : 마침표나 약어(Mr, Dr) 고려하여 진행
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
text = "Although it's not a happily-ever-after ending, it is very realistic."

# 단어 토큰화
tokenized_words = word_tokenize(text)

# 띄어쓰기, 어퍼스트로피(')가 기준이됨.
print(tokenized_words)

['Although', 'it', "'s", 'not', 'a', 'happily-ever-after', 'ending', ',', 'it', 'is', 'very', 'realistic', '.']


#### 실습
- text.py 파일에는 영어 자연어 코퍼스(말뭉치)가 있습니다. 해당 코퍼스를 불러와서 단어 토큰화를 진행

In [4]:
from text import TEXT as corpus

tokenized_words = word_tokenize(corpus)

In [5]:
tokenized_words

['After',
 'reading',
 'the',
 'comments',
 'for',
 'this',
 'movie',
 ',',
 'I',
 'am',
 'not',
 'sure',
 'whether',
 'I',
 'should',
 'be',
 'angry',
 ',',
 'sad',
 'or',
 'sickened',
 '.',
 'Seeing',
 'comments',
 'typical',
 'of',
 'people',
 'who',
 'a',
 ')',
 'know',
 'absolutely',
 'nothing',
 'about',
 'the',
 'military',
 'or',
 'b',
 ')',
 'who',
 'base',
 'everything',
 'they',
 'think',
 'they',
 'know',
 'on',
 'movies',
 'like',
 'this',
 'or',
 'on',
 'CNN',
 'reports',
 'about',
 'Abu-Gharib',
 'makes',
 'me',
 'wonder',
 'about',
 'the',
 'state',
 'of',
 'intellectual',
 'stimulation',
 'in',
 'the',
 'world',
 '.',
 'At',
 'the',
 'time',
 'I',
 'type',
 'this',
 'the',
 'number',
 'of',
 'people',
 'in',
 'the',
 'US',
 'military',
 ':',
 '1.4',
 'million',
 'on',
 'Active',
 'Duty',
 'with',
 'another',
 'almost',
 '900,000',
 'in',
 'the',
 'Guard',
 'and',
 'Reserves',
 'for',
 'a',
 'total',
 'of',
 'roughly',
 '2.3',
 'million',
 '.',
 'The',
 'number',
 'of',

#### 정제
- 코퍼스에는 아무 의미도 없거나 목적에 부합하지 않는 단어들도 포함
- 전처리 과정에서 토콘들을 제거하는 작업을 **정제**
- 등장빈도, 단어길이, 불용어 등을 기준으로 사용

등장빈도가 적은 단어

In [6]:
# 등장빈도가 2이하인 단어들만 추출

# 단어의 빈도 계산에 사용할 Counter() 함수 사용
from collections import Counter

In [7]:
# 전체 단어 토큰 리스트 = tokenized_words
# Counter 함수를 통해 단어의 빈도수를 카운트하여 집합 생성
vocab = Counter(tokenized_words)

In [8]:
vocab

Counter({'After': 1,
         'reading': 1,
         'the': 30,
         'comments': 2,
         'for': 7,
         'this': 7,
         'movie': 3,
         ',': 21,
         'I': 5,
         'am': 1,
         'not': 4,
         'sure': 1,
         'whether': 1,
         'should': 1,
         'be': 3,
         'angry': 1,
         'sad': 1,
         'or': 4,
         'sickened': 1,
         '.': 28,
         'Seeing': 1,
         'typical': 1,
         'of': 15,
         'people': 9,
         'who': 3,
         'a': 12,
         ')': 2,
         'know': 2,
         'absolutely': 1,
         'nothing': 2,
         'about': 4,
         'military': 12,
         'b': 1,
         'base': 2,
         'everything': 1,
         'they': 3,
         'think': 1,
         'on': 9,
         'movies': 1,
         'like': 1,
         'CNN': 1,
         'reports': 1,
         'Abu-Gharib': 3,
         'makes': 3,
         'me': 1,
         'wonder': 1,
         'state': 2,
         'intellectual': 1,


In [9]:
# 빈도수가 2이하인 단어 리스트를 추출
# items() 함수 활용 = 키와 값들의 쌍을 얻을 수 있게 해줌
vocab.items()
# 리스트 컴프리헨션
low_freq_words=[key for key, value in vocab.items() if value <= 2]
low_freq_words

['After',
 'reading',
 'comments',
 'am',
 'sure',
 'whether',
 'should',
 'angry',
 'sad',
 'sickened',
 'Seeing',
 'typical',
 ')',
 'know',
 'absolutely',
 'nothing',
 'b',
 'base',
 'everything',
 'think',
 'movies',
 'like',
 'CNN',
 'reports',
 'me',
 'wonder',
 'state',
 'intellectual',
 'stimulation',
 'world',
 'At',
 'time',
 'type',
 ':',
 '1.4',
 'Active',
 'Duty',
 'another',
 'almost',
 '900,000',
 'Guard',
 'Reserves',
 'roughly',
 '2.3',
 'indicted',
 'abuses',
 'Currently',
 'less',
 'than',
 '20',
 'That',
 '.00083',
 '%',
 'Even',
 'if',
 'indict',
 'single',
 'member',
 'ever',
 'stepped',
 'come',
 'close',
 'making',
 'whole',
 'flaws',
 'take',
 'YEARS',
 'cover',
 'understand',
 "'s",
 'supposed',
 'sarcastic',
 'but',
 'reality',
 'writer',
 'director',
 'trying',
 'commentary',
 'without',
 'enemy',
 'fight',
 'In',
 'has',
 'been',
 'its',
 'busiest',
 'when',
 'conflicts',
 'going',
 'is',
 'first',
 'called',
 'disaster',
 'relief',
 'humanitarian',
 'aid',

In [10]:
# 빈도수가 2이하인 단어 리스트를 추출
# 반복문을 사용해서 추출
low_freq_words2 = []
for k,v in vocab.items() :
    if v <= 2 :
        low_freq_words2.append(k)
low_freq_words2        

['After',
 'reading',
 'comments',
 'am',
 'sure',
 'whether',
 'should',
 'angry',
 'sad',
 'sickened',
 'Seeing',
 'typical',
 ')',
 'know',
 'absolutely',
 'nothing',
 'b',
 'base',
 'everything',
 'think',
 'movies',
 'like',
 'CNN',
 'reports',
 'me',
 'wonder',
 'state',
 'intellectual',
 'stimulation',
 'world',
 'At',
 'time',
 'type',
 ':',
 '1.4',
 'Active',
 'Duty',
 'another',
 'almost',
 '900,000',
 'Guard',
 'Reserves',
 'roughly',
 '2.3',
 'indicted',
 'abuses',
 'Currently',
 'less',
 'than',
 '20',
 'That',
 '.00083',
 '%',
 'Even',
 'if',
 'indict',
 'single',
 'member',
 'ever',
 'stepped',
 'come',
 'close',
 'making',
 'whole',
 'flaws',
 'take',
 'YEARS',
 'cover',
 'understand',
 "'s",
 'supposed',
 'sarcastic',
 'but',
 'reality',
 'writer',
 'director',
 'trying',
 'commentary',
 'without',
 'enemy',
 'fight',
 'In',
 'has',
 'been',
 'its',
 'busiest',
 'when',
 'conflicts',
 'going',
 'is',
 'first',
 'called',
 'disaster',
 'relief',
 'humanitarian',
 'aid',

In [11]:
low_freq_words == low_freq_words2

True

In [12]:
# 등장빈도가 2 이하인 단어 리스트 개수확인
print("등장빈도가 2 이하인 단어 수 : ",len(low_freq_words2))

등장빈도가 2 이하인 단어 수 :  234


In [13]:
# 등장빈도가 2 이하인 단어들을 제거한 결과를 따로 저장(cleand_by_freq)
# not in, 반복문(for),(조건문if)
cleaned_by_freq=[]
cleaned_by_freq2=[]
for k,v in vocab.items() :
    if v > 2 :
       cleaned_by_freq.append(k)
print(cleaned_by_freq)

for k,v in vocab.items() :
    if k not in low_freq_words :
        cleaned_by_freq2.append(k)
print(cleaned_by_freq2)

print(cleaned_by_freq==cleaned_by_freq2)

['the', 'for', 'this', 'movie', ',', 'I', 'not', 'be', 'or', '.', 'of', 'people', 'who', 'a', 'about', 'military', 'they', 'on', 'Abu-Gharib', 'makes', 'in', 'number', 'US', 'million', 'with', 'and', 'total', 'The', 'at', 'you', 'every', 'that', 'to', 'would', 'it', 'are', 'make', 'an', 'there', 'was', 'days', 'hour', 'minimum', 'get']
['the', 'for', 'this', 'movie', ',', 'I', 'not', 'be', 'or', '.', 'of', 'people', 'who', 'a', 'about', 'military', 'they', 'on', 'Abu-Gharib', 'makes', 'in', 'number', 'US', 'million', 'with', 'and', 'total', 'The', 'at', 'you', 'every', 'that', 'to', 'would', 'it', 'are', 'make', 'an', 'there', 'was', 'days', 'hour', 'minimum', 'get']
True


In [14]:
# 등장빈도가 3 이상인 단어 리스트 개수확인
print("등장빈도가 3 이상인 단어 수 : ",len(cleaned_by_freq))

등장빈도가 3 이상인 단어 수 :  44


In [15]:
# 길이가 2이하인 단어 제거
# 콤마, I, be,..등 의미를 갖지 않는 단어 제거
cleaned_by_freq_len = []

# cleaned_by_freq에서 길이가 2이하인 단어를 제거
# 제거된 값은 cleaned_by_freq_len 에 담기
for i in cleaned_by_freq :
    if len(i) > 2 :
        cleaned_by_freq_len.append(i)

In [16]:
print(cleaned_by_freq_len)

['the', 'for', 'this', 'movie', 'not', 'people', 'who', 'about', 'military', 'they', 'Abu-Gharib', 'makes', 'number', 'million', 'with', 'and', 'total', 'The', 'you', 'every', 'that', 'would', 'are', 'make', 'there', 'was', 'days', 'hour', 'minimum', 'get']


### 정제함수 만들기

In [17]:
# 등장 빈도 기준 정제 함수 정의
def clean_by_freq(tokenized_words, freq):
    # 1. Counter 함수를 통해 단어의 빈도수를 카운트하여 단어 집합 생성
    # Vocab 이라는 변수에 담기
    vocab = Counter(tokenized_words)
    
    # 2. 빈도수가 freq 이하인 단어 추출
    # low_freq_words 라는 변수에 담기
    low_freq_words = []
    for k,v in vocab.items() :
        if v <= freq :
            low_freq_words.append(k)
            
    # 3. low_freq_words 에 포함되지 않는 단어 리스트 생성
    # cleaned_words 라는 변수에 담기
    cleaned_words=[]
    for k,v in vocab.items() :
        if k not in low_freq_words :
            cleaned_words.append(k)
    return cleaned_words

# 단어 길이 기준 정제 함수
def cleane_by_len(tokenized_words, length):
    cleaned_by_freq_len = []
    for i in tokenized_words :
        if len(i) >= length :
            cleaned_by_freq_len.append(i)
    return cleaned_by_freq_len

### 불용어(Stopwords)
- 코퍼스에서 큰 의미가 없거나 분석 목적에서 벗어나는 단어들

1. 불용어를 모아 놓은 불용어 세트 준비
2. 코퍼스의 각 단어들이 불용어 세트에 포함되는지 확인
3. 불용어 세트에 있는 단어 토큰은 분석에서 제외(삭제)

In [18]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
# 불용어 세트 확인
# 분석에 크게 활용되지 않는 불용어 세트
# 집합 자료형(set) : 중복을 허용하지 않는 자료형 / 순서가 존재X
stopwords_set = set(stopwords.words('english'))

# 불용어 개수 확인
# 179개의 기본 불용어 목록 제공
print('불용어 개수 : ', len(stopwords_set))
print(stopwords_set)

불용어 개수 :  179
{'there', 'y', 'me', 'over', 'o', 'in', 'off', 'with', 'weren', 'mustn', "isn't", 'shouldn', 'further', 'which', 'itself', 'ain', 'this', "mustn't", 'themselves', 'them', 'were', 'because', 'that', 'can', 'very', 'don', 'but', 'you', 'our', 'why', 'not', 'only', 'these', 'above', "that'll", 'after', "hadn't", 'myself', "didn't", 'she', 'such', "shouldn't", 'are', 'having', 'an', 'has', "it's", 'under', "she's", 'then', 'hasn', 'didn', 'again', 'down', "hasn't", 'won', 't', 'each', "don't", 'm', "doesn't", 'am', 'at', 'about', "won't", "you've", 'on', 'does', 'couldn', 'a', 'those', 'him', 'do', 'any', 'few', 'more', 'of', 'same', 'below', 'mightn', 'before', 'if', 'my', 'and', 'against', 'some', "you're", "you'll", "couldn't", "mightn't", 'who', "wouldn't", "haven't", 'wasn', "needn't", 'yourself', 'being', 'through', 'he', 'what', 'as', 'during', 'how', "should've", 'yourselves', 'from', 'be', 'than', 'theirs', 'own', 'doing', 'by', 'did', 'his', 'no', "wasn't", 'ma', 'f

In [20]:
# 불용어 목록에 새로운 단어 추가, 제거
# add(), remove()
stopwords_set.add('hello')

In [21]:
print('불용어 개수 : ', len(stopwords_set))
print(stopwords_set)

불용어 개수 :  180
{'there', 'y', 'me', 'over', 'o', 'in', 'off', 'with', 'weren', 'mustn', "isn't", 'shouldn', 'further', 'which', 'itself', 'ain', 'this', "mustn't", 'themselves', 'them', 'were', 'hello', 'because', 'that', 'can', 'very', 'don', 'but', 'you', 'our', 'why', 'not', 'only', 'these', 'above', "that'll", 'after', "hadn't", 'myself', "didn't", 'she', 'such', "shouldn't", 'are', 'having', 'an', 'has', "it's", 'under', "she's", 'then', 'hasn', 'didn', 'again', 'down', "hasn't", 'won', 't', 'each', "don't", 'm', "doesn't", 'am', 'at', 'about', "won't", "you've", 'on', 'does', 'couldn', 'a', 'those', 'him', 'do', 'any', 'few', 'more', 'of', 'same', 'below', 'mightn', 'before', 'if', 'my', 'and', 'against', 'some', "you're", "you'll", "couldn't", "mightn't", 'who', "wouldn't", "haven't", 'wasn', "needn't", 'yourself', 'being', 'through', 'he', 'what', 'as', 'during', 'how', "should've", 'yourselves', 'from', 'be', 'than', 'theirs', 'own', 'doing', 'by', 'did', 'his', 'no', "wasn't",

In [22]:
stopwords_set.remove('hello')
print('불용어 개수 : ', len(stopwords_set))
print(stopwords_set)

불용어 개수 :  179
{'there', 'y', 'me', 'over', 'o', 'in', 'off', 'with', 'weren', 'mustn', "isn't", 'shouldn', 'further', 'which', 'itself', 'ain', 'this', "mustn't", 'themselves', 'them', 'were', 'because', 'that', 'can', 'very', 'don', 'but', 'you', 'our', 'why', 'not', 'only', 'these', 'above', "that'll", 'after', "hadn't", 'myself', "didn't", 'she', 'such', "shouldn't", 'are', 'having', 'an', 'has', "it's", 'under', "she's", 'then', 'hasn', 'didn', 'again', 'down', "hasn't", 'won', 't', 'each', "don't", 'm', "doesn't", 'am', 'at', 'about', "won't", "you've", 'on', 'does', 'couldn', 'a', 'those', 'him', 'do', 'any', 'few', 'more', 'of', 'same', 'below', 'mightn', 'before', 'if', 'my', 'and', 'against', 'some', "you're", "you'll", "couldn't", "mightn't", 'who', "wouldn't", "haven't", 'wasn', "needn't", 'yourself', 'being', 'through', 'he', 'what', 'as', 'during', 'how', "should've", 'yourselves', 'from', 'be', 'than', 'theirs', 'own', 'doing', 'by', 'did', 'his', 'no', "wasn't", 'ma', 'f

In [23]:
# 사용자가 직접 불용어 세트를 정의
my_stopwords_set = {"you're", 'doing', 'each', 's', 'ma', 'she', 'below', 'will', 'now', "you've", 'about', 'up', 'me', 'same', 'wasn', 'his', "you'd", 'a', "hadn't", 'i', "should've", 'as', 'with', 'over', 'just', 'do', "mightn't", 'those', "shan't", 'further', 'y', 'the', 'mightn', 'yourself', 'are', "you'll", 'they', 'm', 'wouldn', 'that', "haven't", 'our', 'above', 'after'}

### 불용어(Stopwords) 제거하기

In [24]:
cleaned_word = []

for word in cleaned_by_freq_len :
    if word.lower() not in stopwords_set :
        cleaned_word.append(word)
print(cleaned_word)

['movie', 'people', 'military', 'Abu-Gharib', 'makes', 'number', 'million', 'total', 'every', 'would', 'make', 'days', 'hour', 'minimum', 'get']


### 불용어 처리 함수 만들기

In [25]:
# 불용어 제거 함수 만들기
def clean_by_stopwords(tokenized_words, stopwords_set):
    cleaned_word = []
    for word in tokenized_words :
        if word not in stopwords_set :
            cleaned_word.append(word)
    return cleaned_word

### 정규화(Normalization)
- The, the -> 통합
- USA, America, United Stated America... -> 통합
- 형태가 다르지만 같은 의미를 나타내는 단어들이 많을 수록 분석이 어려워짐
- 의미가 같은 단어라면 형태를 하나로 통일 : 정규화

#### 정규화방법 1.대소문자 통합

In [26]:
text = "What can I do for you? Do your homework now."

# 소문자로 변환
print(text.lower())

what can i do for you? do your homework now.


#### 정규화방법 2. 규칙기반 정규화

In [27]:
# 동의어 사전을 만들어서 정규화 진행
text = "She became a US citizen. Ummmm, I think, maybe and or."

In [28]:
synonym_dict = {'US' : 'USA', 'U.S':'USA','Ummmm':'Umm','ummm':'umm'}

# 단어 토큰화
tokenize_words= word_tokenize(text)
normalized_words=[]
# 동의어 사전에 있는 단어라면, value에 해당하는 값으로 변환
for word in tokenize_words :
    if word in synonym_dict.keys():
        word = synonym_dict[word]        
    normalized_words.append(word)
normalized_words

['She',
 'became',
 'a',
 'USA',
 'citizen',
 '.',
 'Umm',
 ',',
 'I',
 'think',
 ',',
 'maybe',
 'and',
 'or',
 '.']

### 어간추출
- 어간(Stem) : 특정한 단어의 핵심이 ㅗ디는 부분
- 어간추출(Stemming) : 단어에서 어간을 찾아내는 것

- Formalize -> Formal(alize -> all)
- Relational -> Reaplate(ational -> ate)
- Activate -> Activ(ate - 제거)

    - 코퍼스의 특성이나 상황에 따라 어간 추출을 하는게 적합할지를 판단
    - 분석에 활용해야하는 중요한 단어가 손실될 수 있음

#### NLTK로 어간 추출하기
- 어간 추출을 위한 알고리즘
    - 포터 스테머(Poter Stemmer)
    - 랭커스터 스테머(Lancaster Stemmer)
    - 어간을 추출하는 기준이 미세하게 다름

In [29]:
from nltk.stem import PorterStemmer

In [30]:
porter_stemmer = PorterStemmer()

In [31]:
text = "You are so lovely. I am loving you now."

# 단어 토큰화
tokenized_words=word_tokenize(text)

In [32]:
# 포터스테머 활용
porter_stemmer_word=[]
for i in tokenized_words :
    word = porter_stemmer.stem(i)
    porter_stemmer_word.append(word)
porter_stemmer_word

['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']

In [33]:
# 어간추출 전/후 비교
print('어간추출 전 : ',tokenized_words)
print('어간추출 후 : ',porter_stemmer_word)

어간추출 전 :  ['You', 'are', 'so', 'lovely', '.', 'I', 'am', 'loving', 'you', 'now', '.']
어간추출 후 :  ['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']


In [34]:
from nltk.stem import LancasterStemmer

In [35]:
# 랭커스터 스테머 객체 생성
lancaster_stemmer = LancasterStemmer()

In [36]:
#단어토큰화
text = "You are so lovely. I am loving you now."
tokenized_words=word_tokenize(text)

In [37]:
#단어를 돌아가면서 어간추출 진행
lancaster_stemmed_word=[]
for i in tokenized_words :
    word = lancaster_stemmer.stem(i)
    lancaster_stemmed_word.append(word)
lancaster_stemmed_word

['you', 'ar', 'so', 'lov', '.', 'i', 'am', 'lov', 'you', 'now', '.']

### 어간추출 함수 코드화

In [38]:
from nltk.stem import PorterStemmer

#포터스테머 어간 추출함수
def stemming_by_porter(tokenized_words):
    porter_stemmer = PorterStemmer()
    porter_stemmer_words = []
    for i in tokenized_words :
        word = porter_stemmer.stem(i)
        porter_stemmer_words.append(word)    
    return porter_stemmer_words

### 문장 토큰화
 - 단어의 품사는 문장 안에서 사용되는 위치에 따라 달라질 수 있기 떄문에 문장 토근화 진행

In [39]:
# 토큰화 함수와 모듈 불어오기
from nltk.tokenize import sent_tokenize

In [40]:
text = "My email address is 'abcde@smhrd.com'. Send it to Mr.Kim."

# 문장 토큰화
# 약어와 같은 (Mr.,Dr.) 언어적인 특성을 고려해서 토큰화 진행
sent_tokenize(text)

["My email address is 'abcde@smhrd.com'.", 'Send it to Mr.Kim.']

In [41]:
text = "Can you forward my email to Mr.Kim? Thank you!"

# 느낌표, 물음표 등도 문장을 나누는 기준으로 작용
sent_tokenize(text)

['Can you forward my email to Mr.Kim?', 'Thank you!']

### 품사 태깅(POS : Part of Speach Taggind)

- 각 단어가 어떤 품사로 쓰였는지 표시하는 작업 = 품사태깅
- 여러문장코퍼스->문장 토큰화

In [62]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [63]:
text = "Watching Time Chasers, it obvious that it was made by a bunch of friends. Maybe they were sitting around one day in film school and said, \"Hey, let\'s pool our money together and make a really bad movie!\" Or something like that."

tokenized_sents = sent_tokenize(text)

In [64]:
# 품사태깅에 필요한 도구 불러오기
from nltk.tag import pos_tag

In [65]:
pos_tagged_list = []

for sentence in tokenized_sents:
    # 단어 토큰화
    tokenized_words = word_tokenize(sentence)
    # 품사 태깅
    pos_tagged = pos_tag(tokenized_words)    
    # pos_tagged_list에 값 담아주기
    # 리스트로 끊어진 문장의 구분 없애기 - extend활용
    pos_tagged_list.extend(pos_tagged)

In [70]:
print(pos_tagged_list)

[('Watching', 'VBG'), ('Time', 'NNP'), ('Chasers', 'NNPS'), (',', ','), ('it', 'PRP'), ('obvious', 'VBZ'), ('that', 'IN'), ('it', 'PRP'), ('was', 'VBD'), ('made', 'VBN'), ('by', 'IN'), ('a', 'DT'), ('bunch', 'NN'), ('of', 'IN'), ('friends', 'NNS'), ('.', '.'), ('Maybe', 'RB'), ('they', 'PRP'), ('were', 'VBD'), ('sitting', 'VBG'), ('around', 'IN'), ('one', 'CD'), ('day', 'NN'), ('in', 'IN'), ('film', 'NN'), ('school', 'NN'), ('and', 'CC'), ('said', 'VBD'), (',', ','), ('``', '``'), ('Hey', 'NNP'), (',', ','), ('let', 'VB'), ("'s", 'POS'), ('pool', 'VB'), ('our', 'PRP$'), ('money', 'NN'), ('together', 'RB'), ('and', 'CC'), ('make', 'VB'), ('a', 'DT'), ('really', 'RB'), ('bad', 'JJ'), ('movie', 'NN'), ('!', '.'), ("''", "''"), ('Or', 'CC'), ('something', 'NN'), ('like', 'IN'), ('that', 'DT'), ('.', '.')]


### 품사 태깅 함수 만들기

In [69]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.tag import pos_tag

# 품사 태깅 함수 정의
def pos_tagger(tokenized_sents):        
    pos_tagged_words = []
    for sentence in tokenized_sents:
        # 단어 토큰화
        tokenized_words = word_tokenize(sentence)
        # 품사 태깅
        pos_tagged = pos_tag(tokenized_words)    
        # 품사태깅한 데이터 담아주기(extend)
        pos_tagged_words.extend(pos_tagged)
    return pos_tagged_words

### 표제어 추출
- 표제어를 기준으로 통합하면 단어 정규화가 이루어짐
- 단어의 근본적인 의미로 통합해주기
- am, are, is -> be
- happier, haappiest = happy
- 표제어 추출에는 WordNet POS Tag를사용하여 품사 태깅 진행

In [72]:
# 표제어 추출을 하기 위한 품사 태깅 진행
text = 'You are the happiest person.'
# 단어 토큰화 word_tokenize
tokenized_words = word_tokenize(text)

# 품사태그 pos_tag
taggeed_words=pos_tag(tokenized_words)

### WordNet Pos Tag : 영어 어휘 데이터베이스에 적용되어 있는 품사태그
- N으로 시작하면 wn.NOUN
- J로 시작하면 wn.ADJ
- R로 시작하면 wn.ADV
- V로 시작하면 wn.VERB로 통일

In [73]:
from nltk.corpus import wordnet as wn

In [74]:
# pennTreePosTag를 WordNetPosTag로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
         return wn.NOUN
    elif tag.startswith('R'):
         return wn.ADV
    elif tag.startswith('V'):
         return wn.VERB

In [75]:
# 표제어 추출을 위한 함수 호출
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...


True

In [78]:
# 표제어 추출하기 위한 WordNetLemmatizer 클래스에 있는 lemmatizer()함수 호출
lemmatizer = WordNetLemmatizer()
lemmatized_words = []

for word, tag in taggeed_words:
    # WordNet pos Tag로 변환하는 함수 호출
    wn_tag = penn_to_wn(tag)
    
    # 품사를 기준으로 표제어 추출
    if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
        lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag)) # 표제어 추출함수
    else :
        lemmatized_words.append(word)

In [81]:
# 표제어 추출 확인
print(lemmatized_words)

['You', 'be', 'the', 'happy', 'person', '.']


### 

In [84]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet as wn
nltk.download('wordnet')
nltk.download('omw-1.4')

# pennTreePosTag를 WordNetPosTag로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
         return wn.NOUN
    elif tag.startswith('R'):
         return wn.ADV
    elif tag.startswith('V'):
         return wn.VERB
    else:
        return
        
def words_lemmatizer(pos_tagged_words):
    lemmatizer = WordNetLemmatizer()
    lemmatized_words = []

    for word, tag in pos_tagged_words:
        # WordNet pos Tag로 변환하는 함수 호출
        wn_tag = penn_to_wn(tag)

        # 품사를 기준으로 표제어 추출
        if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
            lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag)) # 표제어 추출함수
        else :
            lemmatized_words.append(word)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\SeeUSoon\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
