In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# NLP(자연어 처리)
- 자연어 :  일상 생활에서 사용하는 보편적인 언어
- 자연어 처리 : 컴퓨터가 자연어 처리하는 일


# NLP 처리 대표 4가지
### 1.음성 인식(Speech Recognition)
### 2.번역(Translation)
### 3.요약(Text Summary)
### 4.분류(Text Classification)

<예시>
- Chatbot
- SIRI
- Translator


# 텍스트 전처리
- 컴퓨터에서 자연어를 효과적으로 처리할 수 있도록 전처리 과정 

- sentence - Tokenization - Cleaning,Stemming - Encoding - Sorting - Padding, Similarity


## 1. 토큰화 

### 단어 토큰화
- 주어진 문장에서 의미부여가 가능한 단위 찾기

### 문장 토큰화
- 문장 단위로 전체 문단에서 토큰화

### ** 한국어 토큰화
- 활용형이 많고 품사가 많아 어려움  

1) 단락을 문장단위로 분리해본다
- sent_tokenize 이용

In [None]:
from nltk.tokenize import sent_tokenize
nltk.download('punkt')
para = "Hello World. It's good to see you. Thanks for buying this book."
print(sent_tokenize(para))
['Hello World.', "It's good to see you.", 'Thanks for buying this book.']

['Hello World.', "It's good to see you.", 'Thanks for buying this book.']


['Hello World.', "It's good to see you.", 'Thanks for buying this book.']

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "NLP is natural language processing."
print(tokenizer.tokenize(text))

['NLP', 'is', 'natural', 'language', 'processing', '.']


In [None]:
from nltk.tokenize import word_tokenize
print(word_tokenize(text))

['NLP', 'is', 'natural', 'language', 'processing', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### 2. 정제(Cleaning)
- 데이터 사용 목적에 따라 노이즈 제거
   - 1)대문자 vs 소문자
   - 2) 출현횟수 적은 단어 제거 
   - 3) 길이가 짧은 단어, 지시대명사, 관사 제거

### 3.추출(Stemming)
- 어간(Stem) : 단어의 의미를 담은 핵심
- 접사(Affix) : 단어에 추가 용법 부여
- 어간 추출(Stemming) : 품사정보 X 
- 표제어 추출(Lemmatization) : 품사 정보 O
- 단어의 형태소 level에서 분석을 하게 되면 다른 품사 또는 다른 시제의 단어도 같은 형태로 토큰화 가능 

** Poter Algorithm : 대표적인 Stemming 방법 



In [1]:
from nltk.stem import PorterStemmer, LancasterStemmer
stem1 = PorterStemmer()
stem2 = LancasterStemmer()
words = ["eat", "ate", "eaten", "eating"]
print("Porter Stemmer :", [stem1.stem(w) for w in words])
print("Lancaster Stemmer :", [stem2.stem(w) for w in words])

Porter Stemmer : ['eat', 'ate', 'eaten', 'eat']
Lancaster Stemmer : ['eat', 'at', 'eat', 'eat']


In [4]:
import nltk
nltk.download('omw-1.4')
from nltk import WordNetLemmatizer
nltk.download('wordnet')
lemm = WordNetLemmatizer()
words = ["eat", "ate", "eaten", "eating"]
print("WordNet Lemmatizer :",[lemm.lemmatize(w, pos="v") for w in words]) 
# 이 단어들이 모두 동사라고 지정을 해줬음
# 시제나 형태가 달라도 모두 eat 이라는 결과를 확인 

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


WordNet Lemmatizer : ['eat', 'eat', 'eat', 'eat']


### 4.불용어(Stopword)
- 문장에서 대세로 작용하지 않는, 중요도가 낮은 단어 제거 

<제거 방법>
- 1) 불용어 목록 받아오기
- 2) 정제할 문장 토큰화 하기
- 3) 토큰화된 각 단어마다 
  - 단어가 불용어 목록에 없는 경우 - 정제 결과에 추가
  - 단어가 불용어 목록에 있는 경우 - pass 

In [None]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) # 영어에서의 불용어 

print('영어 불용어 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:40])
print('------------------------------------------------------------------')

word_tokens = word_tokenize(example)

result = []
for token in word_tokens: 
    if token not in stop_words: 
        result.append(token) 

print('토큰화 : ',word_tokens) 
print('불용어 제거 : ',result) 


영어 불용어 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this']
------------------------------------------------------------------
토큰화 :  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 :  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 5.정수 인코딩 및 Sorting()
- 처음 보는 모든 단어에 정수 부여
- 등장 횟수가 많은 단어에 앞번호 부여

Python enumerate 연산 

In [None]:
mylist = ['English','Math','Science']
for n, name in enumerate(mylist):
    print("Course : {}, Number : {}".format(name,n))

Course : English, Number : 0
Course : Math, Number : 1
Course : Science, Number : 2


  - 정수 인코딩 및 High-Frequency Sorting

In [5]:
vocab = {'apple' : 2, 'July' : 6, 'piano' : 4, 'cup' : 8, 'orange' : 1} # Bag of words (bow) 의 결과물 : 단어의 빈도수
vocab_sort = sorted(vocab.items(), key= lambda x:x[1], reverse= True)
print(vocab_sort)
word2inx = {word[0] : index + 1 for index, word in enumerate(vocab_sort)}
print(word2inx)

[('cup', 8), ('July', 6), ('piano', 4), ('apple', 2), ('orange', 1)]
{'cup': 1, 'July': 2, 'piano': 3, 'apple': 4, 'orange': 5}


  - BoW로 만들어진 토큰화의 결과를 가장 높은 빈도수부터 재정렬하고, 이를 통해 정수 인코딩을 하는 과정

- word2inx = {}를 만들고, 리스트에 없는 단어의 경우 새로 리스트와 BoW에 단어를 추가하고, 리스트에 있는 단어는 inx + 1

In [6]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Model-based RL don't need a value fuction for the policy. " \
    "but some of Model-based RL algorithms do have a value function. "
token_text = tokenizer.tokenize(text)
word2inx = {}
Bow = []
for word in token_text:
    if word not in word2inx.keys():
        word2inx[word] = len(word2inx)
        Bow.insert(len(word2inx)-1,1)
    else:
        inx = word2inx.get(word)
        Bow[inx] += 1
print(word2inx)
print(Bow)


{'Model-based': 0, 'RL': 1, 'do': 2, "n't": 3, 'need': 4, 'a': 5, 'value': 6, 'fuction': 7, 'for': 8, 'the': 9, 'policy.': 10, 'but': 11, 'some': 12, 'of': 13, 'algorithms': 14, 'have': 15, 'function': 16, '.': 17}
[2, 2, 2, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


### 6.Padding(Zero-padding)
- 문장의 길이가 가장 긴 값을 key
- 문장들에 정수 인코딩을 거친다.
- key의 길이에 맞춰서 각 문장에 0을 넣어 문장의 길이를 맞춤


    - One-hot Encoding
      : 저장공간이 많이 든다. - 평소에는 정수형, 필요할때만 원핫 인코딩으로 바꿔준다.


    - Word2vec Encoding
      : 단어의 유사성을 인코딩에 반영, 인코딩 벡터가 비슷하다 = 단어가 유사하다.


    - TF-IDF(Term Frequency - Inverse Document Frequency)
      : 단어들의 중요한 정도를 가중치로 매김

  
