In [None]:
# 정규표현식 모듈
import re

#########

# r'' 에서 r은 RawString - 순수 텍스트로 변경시켜주는 역할을 한다.

# | or
# ? : 앞의 문자열이 1 또는 0번 반복되는 패턴
# * : 앞의 문자열이 0번 이상 등장하는 패턴
# + : 앞의 문자열이 1번 이상 등장하는 패턴
# {} : 정확한 반복 횟수 지정 패턴
# {x,y} : x에서 y번째까지 반복 횟수 지정 패턴

# \d : 숫자
# \w : 문자, 숫자, 밑줄 문자.
# \s : 빈칸, 탭, 줄바꿈

## 사용자 정의 정규표현식
# [] : 사용자가 직접 패턴을 지정하는 사용자정의 패턴
# [aeiouAEIOU] : 모음 문자
# [a-zA-z] : 모든 영문자 , '-'를 통해 범위 지정
# [a-zA-Z0-9] : 모든 영문 대소문자, 숫자
# [^] : not을 의미, 지정된 패턴이 등장하지 않는 문자열 선택

# ^ - 시작부분을 의미
# $ - 문자열의 끝을 의미
# [^pattern] : not을 의미, 지정된 패턴이 등장하지 않는 문자열 선택...
# (일반정규표현식에서 *은 문자열 맨 앞)

# group 첫번째 탐색된 문자열
# search 탐색하여 해당 내용 리턴
# findall 리스트에 전부 담아 리턴

#########

reg = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 
mo = reg.search('My number is 415-555-2323')
mo.group()

reg = re.compile(r'Batman|Tina Fey')    # | or
mo = reg.search('Batman and Tina Fey')
mo.group()

reg = re.compile(r'Bat(wo)?man')        # ? : 앞의 문자열이 1 또는 0번 반복되는 패턴
mo = reg.search('The Adventures of Batwoman')
mo.group()

reg = re.compile(r'Bat(wo)*man')        # * : 앞의 문자열이 0번 이상 등장하는 패턴
mo = reg.search('The Adventures of Batwowoman')
mo.group()

reg = re.compile(r'Bat(wo)+man')        # + : 앞의 문자열이 1번 이상 등장하는 패턴
mo = reg.search('The Adventures of Batwowoman')
mo.group()

reg = re.compile(r'Bat(wo){3}man')        # {} : 정확한 반복 횟수 지정 패턴
mo = reg.search('The Adventures of Batwowowoman')
mo.group()

reg = re.compile(r'Bat(wo){3,5}man')        # {x,y} : x에서 y번째까지 반복 횟수 지정 패턴
mo = reg.search('The Adventures of Batwowowowoman')
mo.group()

reg = re.compile(r'\d\d\d-\d\d\d{0,2}-\d\d\d\d')
mo = reg.findall('Home : 414-555-7878, Work : 022-7458-6523')
mo

reg = re.compile(r'\d+\s\w+')       # 숫자가 하나이상 나오고, 스페이스, 문자가 하나 이상 패턴
mo = reg.findall('12 drums, 11 pipers, 10 loards, 9 ladies, 8 maids, 7 swans')
mo

reg = re.compile(r'[aeiouAEIOU]')   # 모음만
mo = reg.findall('emart song is very addicted, good FOOD')
mo

reg = re.compile(r'[^aeiouAEIOU]')  # 모음을 제외한 나머지
mo = reg.findall('emart song is very addicted, good FOOD')
mo

reg = re.compile(r'Hello')      # ^ 없으면 전체에서 탐색
mo = reg.findall('JUN!!!!!! Hello')
mo

reg = re.compile(r'^Hello')     # ^ 문자열의 시작
mo = reg.findall('Hello World')
mo

reg = re.compile(r'\d+$')       # $ 문자열의 마지막
mo = reg.findall('Your number 55 is 42')
mo

reg = re.compile(r'\w*\d+')     # 문자는 안나와도 된다, 숫자는 연속적이어야한다
mo = reg.findall('Your number 55 is 42')
mo

reg = re.compile(r'^\d+$')      # 숫자로 시작하고 숫자로 끝난다 (순수한 숫자)
mo = reg.findall('125123')
mo

In [None]:
# sub() : 문자열 속에서 패턴과 일치하는 문자열을 찾아서 다른 문자열로 교체...
# [python의 replace와 유사하지만, sub()은 보다 광범위한 패턴의 문자열을 찾을 수 있다.]
import re

# 비인식 처리 - 개인정보 등
reg = re.compile(r'Agent \w+')
reg.sub('Censored', 'Agent Alice gave the secret documents to Agent Bob.')

# 그룹을 만드는 방식 (\w) - \1*** 처리방법 
# (\w{2}) 2개의 문자열 구성
reg = re.compile(r'Agent (\w{2})\w+')
reg.sub(r'Censored \1***', 'Agent Alice gave the secret documents to Agent Bob.')

# 전화번호를 추출
text = '문의사항 02-3545-7381으로 연락해주세요. 집 전화번호는 031-7840-8541입니다.'
reg = re.compile('\d{2,3}-\d{4}-\d{4}')
reg.findall(text)

# 숫자만 추출
text = '문자열 10 중간에 234 숫자가 8개 있습니다.'
reg = re.compile('\d+') # re.compile('[0-9]+')
reg.findall(text)

# 이메일  추출
text = '저의 이메일은 pine@hanmail.net이고, 담당자 이메일은 fio@gmail.com 입니다'
reg = re.compile('[a-zA-Z0-9]+@[a-zA-Z0-9]+.[a-z]+')
reg.findall(text)

# 금액만 추출
text = '총 금액은 122330.6원 입니다. 세금은 5214.233원입니다...'
reg = re.compile('\d+.?\d*원')
reg.findall(text)

# 날짜를 추출
text = '계약날짜는 2015년 2월 15일, 계약 종료일은 2017년 06월 22일입니다.'
reg = re.compile('\d+년 \d+월 \d+일')
reg.findall(text)

# url을 비인식
text = ''' 저의 홈페이지 주소는 http://www.homapage.com 입니다. 당신의 홈페이지 주소는 http://www.yourhomapge.com입니다'''
reg = re.compile(r'http[s]?://w{3}.[a-zA-Z0-9_-]+.[a-z]+')
#reg.findall(text)
reg.sub('****',text)

# 이메일 비인식
text = '저의 이메일은 pine@hanmail.net이고, 담당자 이메일은 fio@gamil.com입니다'
reg = re.compile('[a-zA-Z0-9]+(@[a-zA-Z0-9]+.[a-z]+)')
reg.sub(r'***\1', text)

re.findall(r"[0-9]+ [0-9]+", '10 925')
# () 묶어서 그룹행
m = re.match(r"([0-9]+) ([0-9]+)", '10 925')
m.group()
m.group(1)
m.group(2)

# \d - 숫자
# \w - 문자, 숫자, 밑줄 문자
# \s = 빈칸, 탭, 줄바꿈

# \D = 숫자를 제외한 모든 문자
# \W = 문자 ,숫자, 밑줄 문자('_')를 제외한 모든 문자
# \S - 빈칸, 탭, 줄바꿈을 제외한 모든 문자

# 문자열에서 숫자만을 제외하고 싶다.
text = '서울 부동산 가격이 올해 평균 30% 증가했습니다.'
reg = re.compile('\D+')
reg.findall(text)

# 문자열에서 숫자만을 제외하고 싶다.
# sub메소드 버전
text = '서울 부동산 가격이 올해 평균 30% 증가했습니다.'
reg = re.compile('\d+')
reg.sub('',text)

# 한글만 찾고싶다
text = '서울 부동산 가격이 올해 평균 30% 증가했습니다.'
reg = re.compile('[가-힣]+')
reg.findall(text)

# 스페이스 포함되게 힣 뒤에 스페이스
text = '서울 부동산 가격이 올해 평균 30% 상승했습니다'
reg = re.compile('[가-힣 ]+')
reg.findall(text)

 # 서브 메소드 버전
text = '서울 부동산 apt가격이 올해 평균 30% 상승했습니다'
reg = re.compile('[^가-힣 ]+')
reg.sub('', text)

re.sub('apple|orange', 'fruits', 'apple box arange tree')
def temp(m):
    n = int(m.group())
    return str(n*10)

re.sub('[0-9]+', temp, 'apple 34 box2 orange 5 tree')
text = 'hello 1234'
re.sub('([a-z]+) ([0-9]+)', r'\2 \1', text)