## 정규표현식(Regular Expression)
- 테스트: https://regex101.com/

In [1]:
import re

- 특수 문자

In [2]:
re.search('a.c', 'aaXcc')

<re.Match object; span=(1, 4), match='aXc'>

In [3]:
re.search('a.c', 'acaca')

![Alt text](image-1.png)

![Alt text](image-2.png)

In [4]:
# 유효한 핸드폰 번호
re.search('01\\d-\\d{3,4}-\\d{4}', '019-246-8027')

<re.Match object; span=(0, 12), match='019-246-8027'>

In [6]:
re.match('01\\d-\\d{3,4}-\\d{4}', '010101-3456789')

In [7]:
# 핸드폰 검증
def check_mobile(s):
    if re.match('01\\d-\\d{3,4}-\\d{4}', s):
        print('올바른 휴대전화 번호입니다.')
    else:
        print('엉터리 휴대전화 번호입니다.')

In [8]:
check_mobile('010-2345-9876')

올바른 휴대전화 번호입니다.


In [9]:
# 범위 - 영문자 한 글자
re.search('[A-Za-z]', '023 abc')

<re.Match object; span=(4, 5), match='a'>

In [10]:
# [^ ] : ^는 not의 의미
re.search('[^A-Za-z]', '023 abc')

<re.Match object; span=(0, 1), match='0'>

In [12]:
# 특수문자 제거
re.sub('[^A-Za-z\\s]', '', 'Hi! Everyone!!!')

'Hi Everyone'

In [13]:
# 한글과 공백을 제외한 글자는 제거
re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣\\s]', '', '안녕하세요? 여러분!!!')

'안녕하세요 여러분'

- 정규표현식 모듈 함수
![Alt text](image-4.png)

In [15]:
s = '사과,배:바나나|귤'
s.replace(',',' ').replace(':',' ').replace('|',' ').split()

['사과', '배', '바나나', '귤']

In [16]:
re.split('[,:|]', s)

['사과', '배', '바나나', '귤']

- 전처리 예

In [17]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [18]:
# white space를 기준으로 분리
text.split()

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [19]:
re.split('\\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [20]:
# 숫자와 newline을 제거
re.sub('[\\d\n]', '', text)         # re.sub('[0-9\n]', '', text)

' John    PROF James   STUD Mac   STUD'

In [21]:
# 길이가 2 이하인 단어를 제거한 후 다시 문장을 만드세요
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

In [22]:
# 구둣점 제거
clean_text = re.sub('[^A-Za-z ]', '', text)
clean_text

'Dont be fooled by the dark sounding name Mr Jones Orphanage is as cheery as cheery goes for a pastry shop'

In [23]:
# 길이가 2 이하인 단어 제거후 한 문장으로
' '.join([word for word in clean_text.split() if len(word) > 2])

'Dont fooled the dark sounding name Jones Orphanage cheery cheery goes for pastry shop'