# 현대적 NLP 데이터 전처리 실습

## 학습 목표
- 텍스트 정제 기법 이해 및 실습
- 불용어 제거 및 정규화 방법 학습
- Hugging Face Tokenizer 활용 (한국어 모델)

## 학습 내용
1. 텍스트 정제 (특수문자, 이모지, URL 등)
2. 불용어 제거 및 정규화
3. Hugging Face Tokenizer 활용
4. 통합 전처리 파이프라인

---
## 1. 데이터 준비

---
## 2. 텍스트 정제 (Text Cleaning)

In [None]:
def clean_text_basic(text):
    # HTML 태그 제거
    # URL 제거
    # 이메일 제거
    # 전화번호 제거 (한국 형식: 02-1234-5678, 010-1234-5678 등)
    # 이모지 변환
    # 한글, 영문, 숫자만 유지
    # 중복 공백 정리
# 테스트

---
## 3. 불용어 제거

In [None]:
# 한국어 불용어 리스트 (기본)
def remove_stopwords(text, stopwords_list):
# 테스트

### 4. 숫자 처리

목적 - 의미를 보존하면서 노이즈를 줄이기 위함

숫자는 문장 의미에 중요하지 않은 경우가 많고, 값이 계속 바뀌어 희소성(sparsity) 을 키우며, 모델이 일반화하기 어렵게 만듭니다.

In [None]:
def normalize_numbers(text, mode='remove'):
# 테스트

---
## 5. 통합 전처리 파이프라인

In [None]:
def preprocessing_pipeline(text,
    # 1. 기본 정제 (HTML, URL, 이메일, 전화번호, 이모지, 특수문자 제거)
    # 2. 숫자 정규화
    # 3. 불용어 제거 (선택)
# 테스트

---
## 6. 실전 예제: 네이버 영화 리뷰 데이터 전처리

In [None]:
# 샘플 영화 리뷰 데이터
# 전처리 파이프라인 적용
# 결과 확인

---
## 7. 학습 정리

### 7.1 전처리 단계 요약

| 단계 | 목적 | 주요 기법 |
|------|------|----------|
| 텍스트 정제 | 노이즈 제거 | HTML/URL/이메일 제거, 이모지 처리 |
| 정규화 | 일관성 확보 | 특수문자 처리, 숫자 정규화 |
| 불용어 제거 | 중요 정보 강조 | 불용어 리스트 활용 |

### 7.3 딥러닝 모델 vs 전통적 방식 전처리 비교

전처리 방법은 사용하는 모델 유형에 따라 크게 달라집니다.

## 딥러닝 모델 vs 전통적 방식 전처리 비교

| 구분 | 딥러닝 모델 (BERT, GPT 등) | 전통적 방식 (TF-IDF, BOW) |
|---|---|---|
| 전처리 수준 | 최소한 (결측값 제거 중심) | 상세한 전처리 필수 |
| 이모지 처리 | 보통 유지 (감성 정보 활용) | 제거 권장 (노이즈) |
| URL / 이메일 | 보통 유지 | 제거 권장 |
| 불용어 제거 | Tokenizer가 자동 처리 | 명시적 제거 필요 |
| 특수문자 | 보통 유지 | 정규화 또는 제거 |
| Tokenizer 역할 | 토크나이징 + 정규화 자동 수행 | 별도 전처리 필요 |
| 주요 사용 사례 | BERT 파인튜닝, GPT, 임베딩 | TF-IDF, BOW 벡터화 |

---

## 상세 설명

### 1. 딥러닝 모델 (BERT, GPT 등)

**권장 전처리**
- 결측값 제거
- 기본 정제 (HTML 태그, 중복 공백)
- Tokenizer에 원문 그대로 전달

**피해야 할 전처리**
- 이모지 제거 (감성 정보 손실)
- 불용어 제거 (문맥 정보 손실)
- 대소문자 통일 (의미 차이 손실)
- 특수문자 완전 제거

**이유**
- Transformer 모델은 사전 학습 시 원본 텍스트 패턴을 학습
- 이모지·특수문자·URL도 의미 정보일 수 있음
- Tokenizer가 이미 정규화 및 분절 처리
- 과도한 전처리는 학습된 언어 패턴을 훼손할 수 있음

---

### 2. 전통적 방식 (TF-IDF, BOW)

**필수 전처리**
- HTML / URL / 이메일 제거
- 이모지 제거
- 불용어 제거
- 특수문자 정규화
- 숫자 제거 또는 치환

**이유**
- 단어 매칭 기반 모델
- 노이즈 토큰이 직접 성능 저하로 이어짐
- 불용어는 정보량 대비 차원만 증가
- 정규화 수준이 성능에 큰 영향
