# Ch02. 텍스트 전처리 (Text Preprocessing)

# v04. 불용어 (Stopword)

- 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 **큰 의미가 없는 단어** 토큰을 제거하는 작업이 필요하다.
- 큰 의미가 없는 단어
  - 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들
  - ex) I, my, me, over, 조사, 접미사 같은 단어들  

- 이러한 단어들을 **불용어(stopword)**라고 한다.
- NLTK에서는 위와 같으 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있다.

<br>

## 4.1 NLTK에서 불용어 확인하기

In [2]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [3]:
from nltk.corpus import stopwords

stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

<br>

## 4.2 NLTK를 통해서 불용어 제거하기

In [6]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [8]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
  if w not in stop_words:
    result.append(w)

print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


- 'is', 'not', 'an'과 같은 단어들이 문장에서 제거됨

<br>

## 4.3 한국어에서 불용어 제거하기

- 토큰화 후에 **조사, 접속사** 등을 제거하는 방법을 통해 불용어를 제거할 수 있다.
- 하지만 불용어를 제거하려고 하다보면 조사나 접속사와 같은 단어들뿐만 아니라 **명사, 형용사**와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생기기도 한다.
- 결국에는 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다.

### 4.3.1 한국어 불용어 제거 실습

- 직접 불용어를 정의
- 주어진 문장으로부터 직접 정의한 불용어 사전을 참고로 불용어를 제거

In [9]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. \
예컨대 삼겹살을 구울 때는 중요한 게 있지."

stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님

stop_words = stop_words.split(' ')
word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
  if w not in stop_words:
    result.append(w)

# 위의 4줄은 아래의 한 줄로 대체 가능
# result = [word for word in word_tokens if word not in stop_words]

print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


<br>

### 4.3.2 보편적으로 선택할 수 있는 한국어 불용어 리스트

- [링크 1](https://www.ranks.nl/stopwords/korean)
- [링크 2](https://bab2min.tistory.com/544)

<br>

### 4.3.3 더 좋은 한국어 불용어 제거 방법

- 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 수많은 불용어를 정리해놓고, 이를 불러와서 사용하는 방법