# CH9. 자연어 **전**처리

## 0. 필요한 라이브러리 
- [nltk](nltk.pos_tag(tokenized_corpus))

In [1]:
import pprint

import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer,LancasterStemmer,PorterStemmer

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/hwanghyejeong/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/hwanghyejeong/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/hwanghyejeong/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


## 1. NLP 용어
- `corpus`
- `token` & `tokenization`
- `stop words`
- `stemming`
- `lemmatization`
- `pos(part-of-speech) tagging`

### 1.1 What is Corpus?
- `corpus` : 자연어처리에서 모델을 학습시키키 위한 데이터
    - 자연어 연구를 위해 특정한 목적에서 표본을 추출한 집합

In [2]:
corpus = [
    "i love you", 
    "he loves me", 
    "she likes baseball", 
    "i hate you", 
    "sorry for that", 
    "this is awful"
]

### 1.2 What is Token & Tokenization?
- `token` : 자연어처리를 위해 문서를 나누는 단위
- `tokenization` : 문서를 문장이나 단어(상황에 따라 다름)로 분리하는 것

In [3]:
pprint.pprint(corpus)
corpus_in_one_sentence = " ".join(corpus)
tokenized_corpus = corpus_in_one_sentence.split()
print("\n== After Tokenization ==\n")
pprint.pprint(tokenized_corpus)

['i love you',
 'he loves me',
 'she likes baseball',
 'i hate you',
 'sorry for that',
 'this is awful']

== After Tokenization ==

['i',
 'love',
 'you',
 'he',
 'loves',
 'me',
 'she',
 'likes',
 'baseball',
 'i',
 'hate',
 'you',
 'sorry',
 'for',
 'that',
 'this',
 'is',
 'awful']


### 1.3 What is Stop Words?
- `stop words` : 불용어
    - 문장 내에서 많이 등장한다.
        - 그러나 분석과 관계 없다.
        - 분석 모델의 성능을 위해 사전에 제거해줘야 함
    - 예시 : "a", "the"

In [7]:
stop_words = set(stopwords.words('english'))
pprint.pprint(tokenized_corpus)
print("\n== After Removing Stop Words! ==\n")
stop_words_removed_tokenized_corpus = list(filter(lambda word: word not in stop_words,tokenized_corpus))
pprint.pprint(stop_words_removed_tokenized_corpus)

['i',
 'love',
 'you',
 'he',
 'loves',
 'me',
 'she',
 'likes',
 'baseball',
 'i',
 'hate',
 'you',
 'sorry',
 'for',
 'that',
 'this',
 'is',
 'awful']

== After Removing Stop Words! ==

['love', 'loves', 'likes', 'baseball', 'hate', 'sorry', 'awful']


### 1.4 What is Stemming?
- `stemming` : 어간 추출
    - 단어를 기본 형태로 만드는 작업
    - 품사가 달라도 사용 가능
        - 예시 : Automates, automatic, automation -> automat
    - 단어 자체만을 고려하야 사전에 없는 단어도 추출할 수 있다.
    - 방법
        - `potter` : 단어 원형이 비교적 잘 보존
        - `lancaster` : 단어 원형을 알아볼 수 없을 정도로 축소
            - 정확도가 낮아, 데이터셋 축소가 필요한 특수한 상황에서만 사용

In [19]:
porter_stemmer = PorterStemmer()

sample_word = "loves"
print(sample_word)
print("\n== After Stemming using Porter! ==\n")
print(porter_stemmer.stem(sample_word))

loves

== After Stemming using Porter! ==

love


In [20]:
lancaster_stemmer = LancasterStemmer()

sample_word = "loves"
print(sample_word)
print("\n== After Stemming using Lancaseter! ==\n")
print(lancaster_stemmer.stem(sample_word))

loves

== After Stemming using Lancaseter! ==

lov


### 1.5 What is Lemmatization?
- `lemmatization` : 표제어 추출
    - 단어를 기본 형태로 만드는 작업
    - 품사가 같아야 사용 가능
        - am, are, is -> be


In [21]:
lemmatizer = WordNetLemmatizer()

sample_word = "loves"
print(sample_word)
print("\n== After Lemmatization! ==\n")
print(lemmatizer.lemmatize(sample_word))

loves

== After Lemmatization! ==

love


### 1.6 What is POS Tagging?
- `pos` : part-of-speech, 품사
- `pos tagging` : 주어진 문장에서 품사를 식졀하기 위해 태그를 붙여주는 것
- [품사 태깅 종류(nltk 라이브러리 기준)](https://www.guru99.com/pos-tagging-chunking-nltk.html)
    - `VBZ`,`VBG` : 동사, 동명사, 현재분사
    - `PRP` : 인칭대명사
    - `JJ` : 형용사
    - `NNS` : 명사, 복수형
    - `CC` : 등위 접속사



In [22]:
nltk.pos_tag(tokenized_corpus)

[('i', 'NN'),
 ('love', 'VBP'),
 ('you', 'PRP'),
 ('he', 'PRP'),
 ('loves', 'VBZ'),
 ('me', 'PRP'),
 ('she', 'PRP'),
 ('likes', 'VBZ'),
 ('baseball', 'NN'),
 ('i', 'NN'),
 ('hate', 'VBP'),
 ('you', 'PRP'),
 ('sorry', 'VBP'),
 ('for', 'IN'),
 ('that', 'DT'),
 ('this', 'DT'),
 ('is', 'VBZ'),
 ('awful', 'JJ')]