# 01. 자연어 전처리란?

## ex1

`1` 맞춤법과 띄어쓰기 교정

> ex 1.  Oh, Hi helo. Nice to meetyou.
> 
> * step 1. 띄어쓰기 수정 : Oh, Hi hello. Nice to `meet you`.
>
> * step 2. 문장의 의미를 표현하는데 크게 기여하지 않는 단어 삭제
>   * ~~Oh~~, Hi hello. Nice to `meet you`.
>  
> * step 3. 중복된 의미 단어 제거
>   * ~~Oh~~, Hi ~~hello~~. Nice to `meet you`.

`2` 컴퓨터가 자연어를 잘 이해할 수 있도록 각 단어에 숫자 인덱스를 부여

* {'Hi':0, 'Nice':1, 'to':2, 'meet':3, 'you':4}

***

# 자연어 전처리 과정들

아래의 순서가 일반적이나 정해진 표준은 아님. 분석의 목적과 활용할 자연어 데이터의 특성에 따라 적용해야 하는 전처리 단계가 다 다르고, 각 단계를 적용하는 순서에도 차이가 발생할 수 있음

`1` 토큰화: 자연어 데이터를 분석을 위한 작은 단위(토큰)로 분리

`2` 정제: 분석에 큰 의미가 없는 데이터들을 제거

`3` 정규화: 표현 방법이 다르지만 의미가 같은 단어들을 통합

`4` 정수 인코딩: 컴퓨터가 이해하기 쉽도록 자연어 데이터에 정수 인덱스를 부여

***

# 02. 단어 토큰화(Word Tokenization)

`-` 코퍼스(Corpus) : 분석에 활용하기 위한 자연어 데이터(말뭉치)

`-` 이 코퍼스를 분석에 활용하려면 먼저 의미있는 작은 단위로 나눠야함

* `의미있는 작은 단위` $\to$ **토큰(Token)**

* 위 같은 과정을 토큰화(Tokenization)이라고 한다.

`-` 토큰화에는 단어 토큰화와 문장 토큰화가 있으며, 분석 목적에 맞게 둘 중 필요한 토큰화 방식을 적절하게 사용해야함.

* 이번 챕터에서는 단어 토큰화에 대해 학습할 것임

## NLTK

`1` 터미널에서 아래와 같은 커맨드르 실행

```python
conda install nltk
```

`2` 패키지에서 함수 로드

In [1]:
from nltk.tokenize import word_tokenize

`3` `nltk`에서 제공하는 토큰화 모듈인 `punkt`를 다운로드

* `punkt` : 마침표나 약어(Mr., Dr.)와 같은 특별한 언어적 특성을 고려하여 토큰화를 할 수 있게 해주는 모듈

In [2]:
import nltk
nltk.download("punkt")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 단어 토큰화 수행

In [3]:
text = "Although it's not a happily-ever-after ending, it is very realistic."

# 단어 토큰화
tokenized_words = word_tokenize(text)

print(tokenized_words)

['Although', 'it', "'s", 'not', 'a', 'happily-ever-after', 'ending', ',', 'it', 'is', 'very', 'realistic', '.']


`-` 기본적으로 띄어쓰기, 어퍼스트로피('), 콤마(,)를 기준으로 토큰화를 수행하고 있으며 `하이픈(-)`은 토큰화의 기준으로 사용하지 않음

* 어떠한 기준을 가지고 단어 토큰화를 하는게 더 좋다고는할 수 없다. 분석에 활용하려는 코퍼스의 특성에 따라 적절한 토큰화 기준을 사용하면 된다.

* [nltk 공식문서](https://www.nltk.org/api/nltk.tokenize.html)

***

# 03. 정제(Cleaning)

`-` 분석 목적에 적합하지 않은 단어들을 코퍼스에서 제거하는 과정

## 등장빈도가 적은 단어

In [4]:
from text import TEXT

In [5]:
corpus = TEXT

print(corpus)

After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who base everything they think they know on movies like this or on CNN reports about Abu-Gharib makes me wonder about the state of intellectual stimulation in the world. At the time I type this the number of people in the US military: 1.4 million on Active Duty with another almost 900,000 in the Guard and Reserves for a total of roughly 2.3 million. The number of people indicted for abuses at at Abu-Gharib: Currently less than 20 That makes the total of people indicted .00083% of the total military. Even if you indict every single military member that ever stepped in to Abu-Gharib, you would not come close to making that a whole number.  The flaws in this movie would take YEARS to cover. I understand that it's supposed to be sarcastic, but in reality, the writer and director are trying to make commen

### 빈도가 2이하인 단어들만 찾기

In [6]:
from collections import Counter

`1` 토큰화

In [7]:
t_words = word_tokenize(corpus)
#t_words

`2` 단어 빈도 수 카운트

In [8]:
vocab = Counter(t_words)
#vocab

`3` 단어 빈도수가 2이하인 단어 리스트 추출

In [9]:
uncommon_words = [key for key, value in vocab.items() if value <=2]
#uncommon_words

`4` 빈도수가 2이하인 단어들만 제거한 결과를 따로 저장

In [10]:
c_words = [word for word in t_words if word not in uncommon_words]
#c_words

***

## 길이가 짧은 단어

영어 단어의 경우, 알파벳 하나 또는 두개로 구성된 단어는 코퍼스의 의미를 나타내는 데 중요하지 않을 수 있다.

그래서 이러한 단어들은 제거하는 것이 좋음

`1` 길이가 2이하인 단어 제거

In [11]:
c_f_len = []

for word in c_words :
    if len(word) > 2:
        c_f_len.append(word)

`2` 정제 전과 후의 결과 비교

In [12]:
print('정제 전:', c_words[:10])
print('정제 후:', c_f_len[:10])

정제 전: ['the', 'for', 'this', 'movie', ',', 'I', 'not', 'I', 'be', ',']
정제 후: ['the', 'for', 'this', 'movie', 'not', 'people', 'who', 'about', 'the', 'military']


## 함수 생성

`-` 위에서 만든 정제 기준을 언제든 활용할 수 있도록 함수로 작성

In [13]:
from collections import Counter

# 등장 빈도 기준 정제 함수
def clean_by_freq(tokenized_words, cut_off_count):
    # 파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성
    vocab = Counter(tokenized_words)
    
    # 빈도수가 cut_off_count 이하인 단어 set 추출
    uncommon_words = {key for key, value in vocab.items() if value <= cut_off_count}
    
    # uncommon_words에 포함되지 않는 단어 리스트 생성
    cleaned_words = [word for word in tokenized_words if word not in uncommon_words]

    return cleaned_words

# 단어 길이 기준 정제 함수
def clean_by_len(tokenized_words, cut_off_length):
    # 길이가 cut_off_length 이하인 단어 제거
    cleaned_by_freq_len = []
    
    for word in tokenized_words:
        if len(word) > cut_off_length:
            cleaned_by_freq_len.append(word)

    return cleaned_by_freq_len

***

# 04. 불용어(stopwords)

정의 : 코퍼스에서 큰 의미가 없거나, 분석 목적에서 벗어나는 단어

## step1. 불용어 세트 준비

`-` `nltk`에서는 기본 불용어 목록 179개를 제공한다.

* 아래와 같은 방법으로 불용어 목록에 접근할 수 있다.

`1` 불용어 목록 로드

In [14]:
from nltk.corpus import stopwords

nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

`2` 불용어들을 세트 자료형으로 저장

In [15]:
stopwords_set = set(stopwords.words("english"))

print(f"불용어 개수: {len(stopwords_set)}")

불용어 개수: 179


`3` 불용어 추가 및 삭제

In [16]:
stopwords_set.add("hello")
stopwords_set.remove("the")
stopwords_set.remove("me")

print(f"불용어 개수: {len(stopwords_set)}")

불용어 개수: 178


## step2. 불용어 제거하기

In [17]:
stop_words_set = set(stopwords.words('english'))

# 불용어 제거
cleaned_words = []

for word in c_f_len:
    if word not in stop_words_set:
        cleaned_words.append(word)

In [18]:
# 불용어 제거 결과 확인
print('불용어 제거 전:', len(c_f_len))
print('불용어 제거 후:', len(cleaned_words))

불용어 제거 전: 169
불용어 제거 후: 67


## step3. 불용어 처리 함수 만들기

In [19]:
# 불용어 제거 함수
def clean_by_stopwords(tokenized_words, stop_words_set):
    cleaned_words = []
    
    for word in tokenized_words:
        if word not in stop_words_set:
            cleaned_words.append(word)
            
    return cleaned_words

***

# 05. 정규화(Normalization)

의미가 같은 단어들을 하나로 통일하는 과정

## 방법 1. 대소문자 통합

In [20]:
text = "What can I do for you? Do your homework now."

# 소문자로 변환
print(text.lower())

what can i do for you? do your homework now.


## 방법 2. 규칙 기반 정규화

`1` 동의어 사전 작성

In [21]:
synonym_dict = {'US':'USA', 'U.S':'USA', 'Ummm':'Umm', 'Ummmm':'Umm' }

`2` 단어 토큰화

In [22]:
text = "She became a US citizen. Ummmm, I think, maybe and or."
normalized_words = []

tokenized_words = nltk.word_tokenize(text)

`3` 동의어 사전에 있는 단어라면, `value`에 해당하는 값으로 변환

In [23]:
for word in tokenized_words : 
    if word in synonym_dict.keys() :
        word = synonym_dict[word]
    
    normalized_words.append(word)

`4` 결과 확인

In [24]:
print(normalized_words)

['She', 'became', 'a', 'USA', 'citizen', '.', 'Umm', ',', 'I', 'think', ',', 'maybe', 'and', 'or', '.']


***

# 06. 어간 추출(Stemming)

어간 : 특정한 단어의 핵심이 되는 부분

어간 추출 : 단어에서 어간을 찾아내 추출하는 것

`-` 포터 스테머 알고리즘(Porter Stemmer Algorithm) : 대표적인 어간 추출 알고리즘

* 단순히 어미만 잘라내는 방식

> ex
> * Formalize $\to$ Formal
> * Relational $\to$ Relate
> * **Activate $\to$ Activ(?)**
> * Encouragement $\to$ Encourage


* 단순히 어미를 잘라내기 때문에 `Activate` $\to$ `Activ(?)`처럼 사전에 없는 단어가 추출되는 경우도 있음

* 따라서 코퍼스이 특성이나 분석 여건에 따라 어간 추출을 하는게 적합한지 잘 판단해야 한다. 그렇지 않으면 분석에 활용돼야 하는 중요한 단어가 손실될 수 있음

## NLTK 어간추출

`1` 함수 로드

In [25]:
from nltk.stem import PorterStemmer

porter_stemmer = PorterStemmer()
porter_stemmed_words = []

`2` 단어 토큰화

In [26]:
text = "You are so lovely. I am loving you now."
tokenized_words = nltk.word_tokenize(text)

`3` 어간 추출

In [27]:
for word in tokenized_words:
    stem = porter_stemmer.stem(word)
    porter_stemmed_words.append(stem)

In [28]:
porter_stemmed_words

['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']

## extra. 랭커스터 스테머 알고리즘

In [29]:
from nltk.stem import LancasterStemmer

lancaster_stemmer = LancasterStemmer()
text = "You are so lovely. I am loving you now."
lancaster_stemmed_words = []

# 랭커스터 스테머의 어간 추출
for word in tokenized_words:
    stem = lancaster_stemmer.stem(word)
    lancaster_stemmed_words.append(stem)

In [30]:
lancaster_stemmed_words

['you', 'ar', 'so', 'lov', '.', 'i', 'am', 'lov', 'you', 'now', '.']

`-` 차이점 : 랭커스터 스테머 알고리즘은 뒤에 `e`와 같은 묵음 처리 부분을 어간에 포함시키지 않는다.

***

# 07. 실습. IMDB

`-` 데이터셋 : IMDb는 The Internet Movie Database의 약자로, 약 200만개 이상의 영화 관련 정보들이 저장되어 있는 데이터 베이스이다.

* 이중 10개의 데이터만 가져와서 사용

## step1. 데이터 로드

In [31]:
import warnings

warnings.filterwarnings(action = "ignore")

In [32]:
import pandas as pd

df = pd.read_csv('imdb.tsv', delimiter='\\t')
df

Unnamed: 0,review
0,"""Watching Time Chasers, it obvious that it was..."
1,I saw this film about 20 years ago and remembe...
2,"Minor Spoilers In New York, Joan Barnard (Elvi..."
3,I went to see this film with a great deal of e...
4,"""Yes, I agree with everyone on this site this ..."
5,"""Jennifer Ehle was sparkling in \""""Pride and P..."
6,Amy Poehler is a terrific comedian on Saturday...
7,"""A plane carrying employees of a large biotech..."
8,"A well made, gritty science fiction movie, it ..."
9,"""Incredibly dumb and utterly predictable story..."


## step2. 대소문자 통합

In [33]:
df['review'] = df['review'].str.lower()

## step3. 단어 토큰화

In [34]:
df['word_tokens'] = df['review'].apply(word_tokenize)

## step4. 데이터 정제

In [35]:
%load_ext autoreload
%autoreload 2

from preprocess import clean_by_freq
from preprocess import clean_by_len
from preprocess import clean_by_stopwords

`-` 이건 뭔데?

```python
%load_ext autoreload
%autoreload 2
```

* `ipynb` 파일에서 직접 만든 파이썬 모듈(`.py`)을 불러와 사용할 때, 파이썬 모듈 파일이 중간에 수정되면 해당 내용이 자동으로 반영되지 않는 문제가 발생

* 그래서, `preprocess.py` 파일을 수정할 때마다 커널을 `Restart`해야함

* 이러한 번거러움을 줄이기 위해 위의 코드를 실행한다.

In [36]:
stopwords_set = set(stopwords.words('english'))

df['cleaned_tokens'] = df['word_tokens'].apply(lambda x: clean_by_freq(x, 1))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_len(x, 2))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_stopwords(x, stopwords_set))

## step5. 어간 추출

In [37]:
from preprocess import stemming_by_porter

df['stemmed_tokens'] = df['cleaned_tokens'].apply(stemming_by_porter)

## step6. 결과 확인

In [38]:
df.head()

Unnamed: 0,review,word_tokens,cleaned_tokens,stemmed_tokens
0,"""watching time chasers, it obvious that it was...","[``, watching, time, chasers, ,, it, obvious, ...","[one, film, said, really, bad, movie, like, sa...","[one, film, said, realli, bad, movi, like, sai..."
1,i saw this film about 20 years ago and remembe...,"[i, saw, this, film, about, 20, years, ago, an...","[film, film]","[film, film]"
2,"minor spoilers in new york, joan barnard (elvi...","[minor, spoilers, in, new, york, ,, joan, barn...","[new, york, joan, barnard, elvire, audrey, bar...","[new, york, joan, barnard, elvir, audrey, barn..."
3,i went to see this film with a great deal of e...,"[i, went, to, see, this, film, with, a, great,...","[went, film, film, went, jump, send, n't, jump...","[went, film, film, went, jump, send, n't, jump..."
4,"""yes, i agree with everyone on this site this ...","[``, yes, ,, i, agree, with, everyone, on, thi...","[site, movie, bad, even, movie, made, movie, s...","[site, movi, bad, even, movi, made, movi, spec..."
