# 데이터 클리닝 (Data Cleaning)




- 불필요한 문자 제거
 - HTML 태그, 이모지, 특수문자, 숫자 등 의미 없는 부분 제거
- 소문자화
  - 대소문자 차이로 인한 혼란을 줄이기 위해 모든 텍스트를 소문자로 변환
- 공백 및 중복 제거
  - 불필요한 공백이나 중복 단어를 정리

## 불필요한 문자 제거




- 구두점(Punctuation) 제거
 - 마침표, 쉼표 등과 같은 구두점 제거
- 특수 문자 제거
 - @, #, $, %, ^, & 등과 같은 특수 문자 제거
- 숫자 제거
 - 분석에 필요하지 않은 경우 숫자 제거

- Python 정규 표현식을 이용한 문자열 치환 설명
 - [정규식 설명 링크](http://pythonstudy.xyz/python/article/401-%EC%A0%95%EA%B7%9C-%ED%91%9C%ED%98%84%EC%8B%9D-Regex)


In [None]:
import re

text = "반갑습니다. 이 문장은 자연어 전처리를 실습하기 위한 예시 문장입니다.  :) #NLP #인공지능  #2025년"
# 구두점 및 특수 문자 제거
cleaned_text = re.sub(r'[^\w\s]', '', text)
print(cleaned_text)

In [None]:
text = "와우!!! 정말 재미있어요ㅎㅎㅎㅎㅎㅎ"
pattern = re.compile(r'(.)\1{2,}')
cleaned_text = pattern.sub(r'\1\1', text)
print(cleaned_text)

In [None]:
text = "문의사항이 있으시면 support@example.com 또는 http://example.com 을 방문해주세요. 연락처는 010-1234-5678 입니다."

# 이메일 주소 대체
text = re.sub(r'\S+@\S+', '<EMAIL>', text)
# URL 대체
text = re.sub(r'http\S+|www.\S+', '<URL>', text)
# 전화번호 대체
text = re.sub(r'\d{2,3}-\d{3,4}-\d{4}', '<PHONE>', text)
print(text)

## 소문자화

- 영어 등의 대소문자를 구분하는 언어에서 대소문자를 통일하여 단어의 중복을 방지
- 한국어의 경우 대소문자가 없으므로 이 단계는 생략할 수 있으나, 영어와 혼용된 텍스트에는 필요할 수 있음

In [None]:
text = "Natural Language Processing is FUN!"
normalized_text = text.lower()
print(normalized_text)

## 공백 및 중복 제거


- 여러 개의 공백을 하나의 공백으로 축소
- 문장의 시작과 끝의 공백을 제거


In [None]:
text = "반갑습니다. 이 문장은 자연어 전처리를 실습하기 위한 예시 문장입니다.  :) #NLP #인공지능  #2025년"
# 여러 공백을 하나로
cleaned_text = re.sub(r'\s+', ' ', text).strip()
print(cleaned_text)

# 실습



- 이전에 실습한 내용을 참고하여 아래 문장을 정규화 해보세요.
```
text = """
안녕하세요!!!  저는 홍길동입니다.
제 E-mail은 hong@gildong.com 이고,  홈페이지 주소는 http://gildong.com 이며, 전화번호는 010-1234-5678 입니다.
"""

```

적용할 정규화 방법론
- 소문자화
- URL 대체
- 전화번호 대체
- 특수 문자 및 구두점 제거
- 여러 개의 공백을 하나로 수정
- 반복 문자 처리