# (6강-실습-2) Text 전처리

- **실습 개요**: 정규표현식에 대해 살펴보고, 이외에 한글 라이브러리의 사용 사례를 살펴본다.
- **실습 진행 목적 및 배경**:
  - 텍스트 데이터의 전처리 방법에 대한 역량 증진
- **실습 수행으로 얻어갈 수 있는 역량**:
  - 텍스트 전처리에 대한 기본 지식
- **데이터셋 개요 및 저작권 정보**:
  - x
- **실습 핵심 내용**
  - 정규표현식 예시
  - 한글 자연어처리 라이브러리 PyKoSpacing, SOYNLP 사례 학습

In [None]:
# !pip install -qqq soynlp
# !pip install -qqq git+https://github.com/haven-jeon/PyKoSpacing.git

## 1. 불용어 처리와 정규 표현식

In [None]:
# 본 실습에서는 비교의 용이를 위해 불러온 데이터가 아닌 예시 문장으로 실습을 진행한다.
data = '안녕하세요 저는 홍길동이고ㅋㅋ 대한민국에서 살고 있어요! <b>개인정보</b> 제 이메일은 kildong@gmail.com이고 제 전화번호는 010-0000-1234 입니다.ㅋㅋㅋ'
print(data)

안녕하세요 저는 홍길동이고ㅋㅋ 대한민국에서 살고 있어요! <b>개인정보</b> 제 이메일은 kildong@gmail.com이고 제 전화번호는 010-0000-1234 입니다.ㅋㅋㅋ


In [None]:
import re

def clean_str(text):
    pattern = '([a-zA-Z0-9_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)' # E-mail제거
    text = re.sub(pattern=pattern, repl='', string=text)

    pattern = '010-(\d{3,4})-(\d{4})' # 전화번호 제거
    text = re.sub(pattern=pattern, repl='', string=text)

    pattern = '([ㄱ-ㅎㅏ-ㅣ]+)'  # 한글 자음, 모음 제거
    text = re.sub(pattern=pattern, repl='', string=text)

    pattern = '<[^>]*>' # HTML 태그 제거
    text = re.sub(pattern=pattern, repl='', string=text)

    text = re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]','', string=text) # 특수 문자 제거
    text = re.sub('\n', '.', string=text)
    return text

In [None]:
print('원본')
print(data)

원본
안녕하세요 저는 홍길동이고ㅋㅋ 대한민국에서 살고 있어요! <b>개인정보</b> 제 이메일은 kildong@gmail.com이고 제 전화번호는 010-0000-1234 입니다.ㅋㅋㅋ


In [None]:
print('수정본')
print(clean_str(data))

수정본
안녕하세요 저는 홍길동이고 대한민국에서 살고 있어요 개인정보 제 이메일은 이고 제 전화번호는  입니다


## 2. 다양한 텍스트 라이브러리

한글에서 사용하는 대표적인 라이브러리는 다음과 같습니다.

- `KoNLPy`: 여러 한국어 형태소 분석기를 편리하게 사용할 수 있음
- `Py-Hanspell`: 네이버 맞춤법 검사기를 기반으로 한 라이브러리로, 한국어 맞춤법과 띄어쓰기 오류를 교정
- `PyKoSpacing`: 띄어쓰기 라이브러리
- `SOYNLP`: 비지도 학습 방법으로 자연어 처리를 하는 라이브러리. 신조어 등에 대해 처리하기에 용이

### 2-1. 띄어쓰기

In [None]:
sent = '김철수는 1980년에 태어난 대한민국 국민으로, 한국에서 자랐지만 외국으로 건너가는 것을 꿈꿨습니다. 그는 새로운 문화와 언어를 탐험하며 세계적인 모험을 즐깁니다. 열정적이고 창의적인 성격으로, 항상 새로운 도전에 열려 있습니다. 끊임없이 배우고 성장하며, 자신의 이야기를 통해 다양한 사람들과 소통하는 것을 즐깁니다. 김철수는 풍부한 경험과 넓은 시야를 갖춘 글로벌 시민으로서, 세계를 무대로 활약하는 모습을 보여줍니다.'
new_sent = sent.replace(' ', '') # 띄어쓰기가 없는 문장 임의로 만들기

In [None]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

print(new_sent)
print(kospacing_sent)

김철수는1980년에태어난대한민국국민으로,한국에서자랐지만외국으로건너가는것을꿈꿨습니다.그는새로운문화와언어를탐험하며세계적인모험을즐깁니다.열정적이고창의적인성격으로,항상새로운도전에열려있습니다.끊임없이배우고성장하며,자신의이야기를통해다양한사람들과소통하는것을즐깁니다.김철수는풍부한경험과넓은시야를갖춘글로벌시민으로서,세계를무대로활약하는모습을보여줍니다.
김철수는 1980년에 태어난 대한민국 국민으로, 한국에서 자랐지만 외국으로 건너가는 것을 꿈꿨습니다. 그는 새로운 문화와 언어를 탐험하며 세계적인 모험을 즐깁니다. 열정적이고 창의적인 성격으로, 항상 새로운 도전에 열려 있습니다. 끊임없이 배우고 성장하며, 자신의 이야기를 통해 다양한 사람들과 소통하는 것을 즐깁니다. 김철수는 풍부한 경험과 넓은 시야를 갖춘 글로벌 시민으로서, 세계를 무대로 활약하는 모습을 보여줍니다.


### 2-2. 반복 문자 제거


In [None]:
from soynlp.normalizer import *
print(repeat_normalize('아야야야야야, 허리가 너무 아파 ㅠㅠㅠㅠ', num_repeats=1))

아야, 허리가 너무 아파 ㅠ


###**콘텐츠 라이선스**

<font color='red'><b>**WARNING**</b></font> : **본 교육 콘텐츠의 지식재산권은 재단법인 네이버커넥트에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다.** 다만, 비영리적 교육 및 연구활동에 한정되어 사용할 수 있으나 재단의 허락을 받아야 합니다. 이를 위반하는 경우, 관련 법률에 따라 책임을 질 수 있습니다.

