# 불용어 제거 (Stop-word Removal)

- 문장에 자주 등장하지만, 문장의 주요 의미를 파악하는 데 큰 도움이 되지 않는 단어를 의미
  - 주로 조사, 접속사, 관사 등이 이에 해당함
    - 영어 예시: ‘a’, ‘an’, ‘the’, ‘in’, ‘on’, ‘and’, ‘but’ 등
    - 한국어 예시: ‘은’, ‘는‘, ‘이‘, ‘가‘, ‘를‘, ‘을‘, ‘에‘, ‘의‘, ‘도’, ‘로‘ 등
- 불용어 제거의 장단점
  - 장점
    - 연산 속도 향상: 처리해야 할 단어 수가 줄어들어 연산 속도 빨라짐
    - 모델의 일반화 능력 향상: 불필요한 단어에 의한 과적합 방지
  - 단점
    - 의미 손실 가능성: 불용어로 간주되어 삭제된 단어가 문맥 이해해 중요한 역할을 하는 경우가 있음
    - 언어 및 도메인 의존성: 일반적인 불용어 리스트가 특정 도메인이나 언어에 적합하지 않을 수 있음

## nltk를 이용한 불용어 제거

In [None]:
!pip install nltk
import nltk
nltk.download('stopwords')

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# 예제 텍스트
text = "This is a sample sentence, showing off the stop words filtration."

# 단어 토큰화
words = word_tokenize(text)
print("원본 단어들:", words)

# 영어 불용어 목록 가져오기
stop_words = set(stopwords.words('english'))
print("불용어 목록:", list(stop_words)[:10])  # 일부만 출력

# 불용어 제거
filtered_words = [word for word in words if word.lower() not in stop_words]
print("불용어 제거 후 단어들:", filtered_words)

## KoNLPy를 이용한 불용어 제거

In [None]:
!pip install konlpy

In [None]:
from konlpy.tag import Okt

# 형태소 분석기 객체 생성
okt = Okt()

# 예제 텍스트
text = "자연어 처리는 인공지능의 한 분야로서, 인간의 언어를 이해하고 처리합니다."

# 토큰화
tokens = okt.morphs(text)
print("원본 토큰들:", tokens)

# 불용어 제거
stop_words = ['은', '는', '이', '가', '을', '를', '에', '의', '도', '으로서', '하고', '합니다', ',', '.']
filtered_tokens = [word for word in tokens if word not in stop_words]
print("불용어 제거 후 토큰들:", filtered_tokens)

## 불용어 리스트의 커스터마이징

특정 도메인에서는 일반적인 불용어 외에도 해당 분야에서 자주 사용되어 중요도가 낮은 단어를 추가로 제거할 수 있음

```
domain_stop_words = ['오늘', '진짜', '정말', '많이', '이렇게']
stop_words.extend(domain_stop_words)
```

### 불용어 제거의 영향 확인

In [None]:
from collections import Counter
from konlpy.tag import Okt
okt = Okt()
text = "자연어 처리는 인공지능의 한 분야로서, 인간의 언어를 이해하고 처리합니다."
tokens = okt.morphs(text)
print("원본 토큰들: ", tokens)
word_counts = Counter(tokens)
print("불용어 제거 전 단어 빈도수: ", word_counts)
stop_words = ['은', '는', '이', '가', '을', '를', '에', '의', '도', '으로서', '하고', '합니다', ',', '.']
filtered_tokens = [word for word in tokens if word not in stop_words]
filtered_word_counts = Counter(filtered_tokens)
print("불용어 제거 후 단어 빈도수: ", filtered_word_counts)

불용어 제거 전/후의 단어 빈도수를 비교하여 불용어 제거가 데이터에 미치는 영향을 확인할 수 있음

# 실습

## 불용어 제거 적용하기

이전에 실습한 내용을 참고하여 주어진 토큰 리스트에서 불용어를 제거하세요. 불용어 목록은 ['is', 'a', 'the', 'of', 'and']입니다.

예시 입력

```
tokens = ['This', 'is', 'a', 'sample', 'of', 'text', 'and', 'tokenization', '.']
```
목표 출력

```
['This', 'sample', 'text', 'tokenization', '.']
```

## 불용어 제거 적용하기

이전에 실습한 내용을 참고하여 주어진 토큰 리스트에서 불용어를 제거하고, 제거한 후의 단어 빈도 수를 확인하시오

예시 입력

```
sentences = [
    "오늘 날씨가 정말 좋네요.",
    "저는 자연어 처리를 공부하고 있습니다.",
    "데이터 분석은 재미있지만 어려워요.",
    "파이썬은 정말 강력한 프로그래밍 언어입니다."]
```

목표 출력

```
단어 빈도수: Counter({'오늘': 1, '날씨': 1, '좋네요': 1, '저': 1, '자연어': 1, '처리': 1, '공부': 1, '데이터': 1, '분석': 1, '재미있지만': 1, '어려워요': 1, '파이썬': 1, '강력한': 1, '프로그래밍': 1, '언어': 1})
```