# Text Preprocessing

##### 배경
- NLP(Natural Language Processing, 자연어 처리)는 "컴퓨터가 사람 말을 이해하고, 대답하고, 쓸 수 있도록 만드는 기술"
- NLP 활용 예시 : 스팸 메일 필터링, 번역, 질의 응답, 요약, 텍스트 생성(GPT)
- 순서 : 텍스트 전처리 -> 벡터화 -> 언어 모델 학습 -> 활용
---
- 텍스트 전처리 : 자연어 텍스트를 모델에 입력하기 전에, 불필요한 요소를 제거하고 일관되고 정제된 형태
- 주요 전처리 기법
    1. 소문자화 ("Apple" -> "apple")
    2. 특수 문자 및 숫자 제거 ("hi!😊3" -> "hi)
    3. 토큰화 ("I study NLP" -> ["I", "study", "NLP"])
    4. 불용어 제거 ("This is a student." -> "student")
    5. 표제어 추출 ("Playing" -> "play", "went" -> "go")

In [42]:
# 자연어 텍스트
text = "I have 2 dogs, and they are playing!!! 🐶 We are happy"

In [43]:
# 1. 소문자화
text = text.lower()
text

'i have 2 dogs, and they are playing!!! 🐶 we are happy'

In [44]:
# 2. 특수문자 및 숫자 제거
import re
text = re.sub(r'[^a-z\s]', '', text)  # 소문자 알파벳과 공백 제외한 모든 문자 제거
text

'i have  dogs and they are playing  we are happy'

In [45]:
# 3. 토큰화
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
print(tokens)


['i', 'have', 'dogs', 'and', 'they', 'are', 'playing', 'we', 'are', 'happy']


In [46]:
# 4. 불용어 제거
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
filtered = [w for w in tokens if w not in stop_words]
filtered

['dogs', 'playing', 'happy']

In [66]:
# 5. 표제어 추출
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(w, pos="v") for w in filtered]  # pos="verb"
lemmatized

['dog', 'play', 'happy']

In [68]:
"I have 2 dogs, and they are playing!!! 🐶 We are happy"

'I have 2 dogs, and they are playing!!! 🐶 We are happy'