### 정규표현식
* 특정 문자열의 패턴을 표현하는 식
* 문자열 처리함수를 사용하는 것보다 복잡한 표현을 간결하게 표현

In [1]:
import re

1. re.compile('정규표현식')
* 정규표현식 패턴 객체 생성

In [4]:
phonenum = re.compile(r'\d\d\d-\d\d\d\d-\d\d\d\d') # \d - 숫자, 정규표현식 객체 생성
mo = phonenum.search('My number is 010-1297-5252') # search 메서드 - 일치하는 패턴 리턴

In [5]:
mo.group()  # group 메서드 - 일치하는 패턴 리턴

'010-1297-5252'

2. search() 메서드
* 일치하는 패턴 중에 첫번째 패턴을 리턴

In [11]:
# () = 패턴의 그룹을 생성
phonenum = re.compile(r'(\d\d\d)-(\d\d\d\d-\d\d\d\d)')
mo1 = phonenum.search('My number is 010-1297-5252. Your number is 010-8748-3881')
mo1.group()

'010-1297-5252'

In [12]:
mo1.group().split('-')[0]
mo1.group(1)

'010'

In [13]:
mo1.group(2)

'1297-5252'

In [14]:
regex = re.compile(r'Batman|Tina Fey')  # or : '|'

In [16]:
mo2 = regex.search('Batman and Tina Fey')
mo2.group()

'Batman'

In [30]:
regex = re.compile(r'Bat(man|mobile|copter|bat)')
mo3 = regex.search('Batmobile lost a wheel!')
mo3.group()

'Batmobile'

In [31]:
regex = re.compile(r'Bat(wo)?man')  # ? : 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo4 = regex.search('The adventures of Batman')
mo4.group()

'Batman'

In [32]:
regex = re.compile(r'Bat(wo)?man')  # ? : 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo4 = regex.search('The adventures of Batwoman')
mo4.group()

'Batwoman'

In [33]:
regex = re.compile(r'Bat(wo)+man')  # + : 앞의 패턴이 1번 이상 등장하는 패턴
mo4 = regex.search('The adventures of Batwoman')
mo4.group()

'Batwoman'

In [34]:
regex = re.compile(r'Bat(wo)+man')  # + : 앞의 패턴이 1번 이상 등장하는 패턴
mo4 = regex.search('The adventures of Batwowowoman')
mo4.group()

'Batwowowoman'

In [35]:
regex = re.compile(r'Bat(wo)*man')  # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo4 = regex.search('The adventures of Batman')
mo4.group()

'Batman'

In [36]:
regex = re.compile(r'Bat(wo)*man')  # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo4 = regex.search('The adventures of Batwoman')
mo4.group()

'Batwoman'

In [37]:
regex = re.compile(r'Bat(wo)*man')  # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo4 = regex.search('The adventures of Batwowowowowowowoman')
mo4.group()

'Batwowowowowowowoman'

In [38]:
regex = re.compile(r'Bat(wo){2}man')  # {n} : 앞의 패턴이 n번 등장하는 패턴
mo4 = regex.search('The adventures of Batman')
mo4.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [40]:
regex = re.compile(r'Bat(wo){2}man')  # {n} : 앞의 패턴이 n번 등장하는 패턴
mo4 = regex.search('The adventures of Batwowoman')
mo4.group()

'Batwowoman'

In [42]:
regex = re.compile(r'Bat(wo){2,4}man')  # {n,m} : 앞의 패턴이 n~m번 등장하는 패턴
mo4 = regex.search('The adventures of Batwowowowoman')
mo4.group()

'Batwowowowoman'

3. findall() 메서드
* 일치하는 모든 패턴을 리스트 형식으로 리턴

In [43]:
# phonenum = re.compile(r'\d\d\d-\d\d\d\d-\d\d\d\d')
# mo5 = phonenum.search('Call : 415-8388-3729, work : 212-4859-3394')
# mo5.group()

'415-8388-3729'

In [44]:
phonenum = re.compile(r'\d\d\d-\d\d\d\d-\d\d\d\d')
phonenum.findall('Call : 415-8388-3729, work : 212-4859-3394')

['415-8388-3729', '212-4859-3394']

In [47]:
regex = re.compile(r'\d+\s\w+') # \s : 스페이스,탭,줄바꿈  /  \w : 문자,숫자,_
regex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 6 eggs')

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '6 eggs']

4. 사용자 정의 정규표현식 => []
* 사용자가 임의로 정의하는 패턴
* [aeiouAEIOU] => 영문자 모음
* [a-zA-Z] => 영문자 소문자 대문자
* [0-9] => 모든 숫자
* '-' => 범위지정
* ^ => 부정(not)

In [50]:
regex = re.compile(r'[aeiouAEIOU]')
regex.findall('Robocab eats baby food BaBy FOOD')

['o', 'o', 'a', 'e', 'a', 'a', 'o', 'o', 'a', 'O', 'O']

In [52]:
regex = re.compile(r'[^aeiouAEIOU]')
regex.findall('food BaBy FOOD')

['f', 'd', ' ', 'B', 'B', 'y', ' ', 'F', 'D']

5.
* ^ - 문자열의 시작 부분과 일치
* $ - 문자열의 끝 부분과 일치

In [54]:
regex = re.compile(r'^Hello')
regex.findall('Hello world')

['Hello']

In [55]:
regex = re.compile(r'^Hello')
regex.findall('python Hello')

[]

In [57]:
regex = re.compile(r'\d$')
regex.findall('Your number 5 is 42')

['2']

In [59]:
regex = re.compile(r'\d+$')
regex.findall('Your number 56 is 42')

['42']

6. sub()
* 매칭이 되는 문자열을 다른 값으로 대체

In [60]:
regex = re.compile(r'Agent \w+')
regex.sub('Censored', 'Agent Alice gave the secret documents of Agent Bob')

'Censored gave the secret documents of Censored'

In [62]:
regex = re.compile(r'Agent (\w{2})\w*')
regex.sub(r'Agent \1****', 'Agent Alice gave the secret documents of Agent Bob')

'Agent Al**** gave the secret documents of Agent Bo****'

# 반복
'+' : 한번 이상 등장하는 패턴   
'*' : 0번 이상 등장하는 패턴   
'?' : 0번 또는 1번 등장하는 패턴   
'{}' : 특정한 반복 횟수를 지정   
   
# 사용자 정의 표현식
[]   
[aeiou] : 소문자 모음   
[^xyz] : x,y,z를 제외한 패턴   
'-' : 범위를 지정   
[a-zA-Z0-9] : 영 대소문자 및 숫자   
'^' : not   
   
# 주요 메서드
search : 패턴과 일치하는 첫 번째 문자열   
findall : 패턴과 일치하는 모든 문자열 리스트로    
sub : 패턴과 일치하는 문자열을 다른 문자열로 대체   
   
# 매칭
'.' : 줄 바꿈 이외의 모든 어느 하나의 문자와 일치   
'^' : 줄의 시작과 일치   
'$' : 줄의 끝과 일치   

In [63]:
import re

In [69]:
# 전화번호를 출력
text = '문의사항은 02-3747-2993으로 연락 주세요. 비상시에는 010-8374-4773로 연락주세요'

regex = re.compile(r'\d{2,3}-\d+-\d+')
regex.findall(text)

['02-3747-2993', '010-8374-4773']

In [70]:
# 숫자만 출력
regex = re.compile('[0-9]')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다.')

['1', '0', '2', '3', '4', '8']

In [72]:
regex = re.compile('[0-9]+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다.')

['10', '234', '8']

In [71]:
regex = re.compile('\d+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다.')

['10', '234', '8']

In [79]:
# 이메일 찾기
text = '저의 이메일은 bit4883@gmail.com입니다. 회사 이메일은 j4jmm@yonsei.ac.kr입니다'
regex = re.compile('[a-zA-Z0-9_+.-]+@[a-zA-Z0-9.]+')
regex.findall(text)

['bit4883@gmail.com', 'j4jmm@yonsei.ac.kr']

In [83]:
# url 추출
text = '저의 홈페이지는 http://www.home.com입니다. 회사 홈페이지는 https://www.firm.com입니다.'
regex = re.compile('http[s]?://w{3}\.[a-zA-Z0-9]*\.[a-z]*')   # .은 아무 한글자 / \.은 '.'한글자
regex.findall(text)

['http://www.home.com', 'https://www.firm.com']

In [87]:
# 금액만 추출
text = '총 금액은 123456.78원 입니다'
re.findall('\d+\.*\d*', text)

['123456.78']

In [89]:
# 날짜만 추출
text = '계약 시작일 2015년 2월 15일. 계약 종료일 2018년 09월 30일'
re.findall('\d+년 \d+월 \d+일', text)

['2015년 2월 15일', '2018년 09월 30일']

In [90]:
# 날짜만 변경
text = '계약 시작일 2015년 2월 15일. 계약 종료일 2018년 09월 30일'
re.sub('((\d+)년 (\d+)월 (\d+)일)', '**년 **월 **일', text)

'계약 시작일 **년 **월 **일. 계약 종료일 **년 **월 **일'

In [93]:
#ip 추출하기
log_data = """
223.62.180.95 - - [07/Mar/2014:00:00:06 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
211.244.131.169 - - [07/Mar/2014:00:00:19 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
192.5.90.39 - - [07/Mar/2014:00:00:26 +0900] "GET / HTTP/1.1" 200 1964
"""
re.findall('[0-9.]{7,15}', log_data)  # \d+\.\d+\.\d+\.\d+

['223.62.180.95', '211.244.131.169', '192.5.90.39']