### 정규표현식
* 특정 문자열의 패턴을 표현하는 식
* 문자열 처리함수를 사용하는 것보다 복잡한 표현을 간결하게 표현

In [9]:
import re

1. re.compile('정교표현식')
* 정규표현식 패턴 객체 생성

In [16]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d') # \d - 숫자
mo = phonenum.search('My number is 415-555-4242') # search 매소드 - 일치하는 패턴 리턴

In [17]:
mo.group() # group 메소드 - 일치하는 패턴을 리턴..

'415-555-424'

2. search() 메소드
* 일치하는 패턴 중에 첫번째 패턴을 리턴..

In [22]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d')
mo = phonenum.search('My number is 415-555-4242. Your number is 214-895-8547')
mo.group()

'415-555-424'

In [24]:
# () - 패턴의 그룹을 생성

phonenum = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d)')
mo = phonenum.search('My number is 415-555-4242. Your number is 214-895-8547')
mo.group()

'415-555-424'

In [25]:
mo.group(1)

'415'

In [26]:
mo.group(2)

'555-424'

In [28]:
mo.group().split('-')[0]

'415'

In [30]:
regex = re.compile(r'Batman|Tina Fey') # '|' = or

In [34]:
mo = regex.search('Batman and Tina Fey')
mo.group()

'Batman'

In [50]:
regex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = regex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [51]:
regex = re.compile(r'Bat(wo)?man') # ? 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batman')
mo.group()

'Batman'

In [52]:
regex = re.compile(r'Bat(wo)?man') # ? 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [53]:
regex = re.compile(r'Bat(wo)?man') # ? 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [46]:
regex = re.compile(r'Bat(wo)+man') # + 앞 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [47]:
regex = re.compile(r'Bat(wo)+man') # + 앞 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

In [43]:
regex = re.compile(r'Bat(wo)+man') # + 앞 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [49]:
regex = re.compile(r'Bat(wo)*man') # * 앞 패턴이 0번 이상 등장하는 패2턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [54]:
regex = re.compile(r'Bat(wo)*man') # * 앞 패턴이 0번 이상 등장하는 패2턴
mo = regex.search('The adventures of Batman')
mo.group()

'Batman'

In [55]:
regex = re.compile(r'Bat(wo)*man') # * 앞 패턴이 0번 이상 등장하는 패2턴
mo = regex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

In [58]:
regex = re.compile(r'Bat(wo){2}man') # {n} - 반복횟수를 지정
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [66]:
regex = re.compile(r'Bat(wo){2,4}man') # {n,m} - 반복횟수 구간을 지정
mo = regex.search('The adventures of Batwowowowoman')
mo.group()

'Batwowowowoman'

In [66]:
regex = re.compile(r'Bat(wo){2,4}man') # {n,m} - 반복횟수 구간을 지정
mo = regex.search('The adventures of Batwowowowoman')
mo.group()

'Batwowowowoman'

In [43]:
regex = re.compile(r'Bat(wo)+man') # 앞 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [58]:
regex = re.compile(r'Bat(wo){2}man') # {n} - 반복횟수를 지정
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

3. findall() 메소드
* 일치하는 모든 패턴을 리스트 형식으로 리턴

In [70]:
phonenum = re.compile(r"\d\d\d-\d\d\d-\d\d\d\d")
mo = phonenum.search('call: 415-888-5478, work : 212-548-8965')
mo.group()

'415-888-5478'

In [71]:
phonenum = re.compile(r"\d\d\d-\d\d\d-\d\d\d\d")
phonenum.findall('call: 415-888-5478, work : 212-548-8965')

['415-888-5478', '212-548-8965']

In [75]:
regex = re.compile(r'\d+\s\w+') # \d - 숫자 \s - 스페이스, 탭, 줄바꿈, \w - 문자, 숫자, _
regex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 6 eggs')

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '6 eggs']

4. 사용자 정의 정규표현식 => []
* 사용자가 정의하는 패턴
* [aeiouAEIOU] => 영문자 모음
* [a-z,A-z] => 영문자 소문자 대문자
* [0-9] 모든 숫자
* '-' => 범위지정
* ^ => 부정

In [78]:
regex = re.compile(r'[aeiouAEIOU]')
regex.findall('Robocab eats baby food BaBy FOOD')

['o', 'o', 'a', 'e', 'a', 'a', 'o', 'o', 'a', 'O', 'O']

In [79]:
regex = re.compile(r'[^aeiouAEIOU]')
regex.findall('Robocab eats baby food BaBy FOOD')

['R',
 'b',
 'c',
 'b',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 ' ',
 'B',
 'B',
 'y',
 ' ',
 'F',
 'D']

5.
* ^ - 문자열의 시작 부분과 일치
* $ - 문자열의 끝부분과 일치

In [85]:
regex = re.compile(r"^Hello")
regex.findall("Hello python")

['Hello']

In [86]:
regex = re.compile(r"^Hello")
regex.findall("python Hello")

[]

In [88]:
regex = re.compile(r"\d+$")
regex.findall("Your number55 is 42")

['42']

In [85]:
regex = re.compile(r"^Hello")
regex.findall("Hello python")

['Hello']

In [85]:
regex = re.compile(r"^Hello")
regex.findall("Hello python")

['Hello']

6. sub()
*  매칭이 되는 문자열을 다른 값으로 대체..

In [96]:
regex = re.compile(r'Agent \w+')
regex.sub('Censord', 'Agent Alice gave the secret documents of Agent Bob')

'Censord gave the secret documents of Censord'

In [97]:
regex = re.compile(r'Agent (\w{2})\w*')
regex.sub(r'Agent \1****', 'Agent Alice gave the secret documents of Agent Bob')

'Agent Al**** gave the secret documents of Agent Bo****'

In [85]:
regex = re.compile(r"^Hello")
regex.findall("Hello python")

['Hello']

<!-- # 반복
* + - 한번 이상 등장하는 패턴
* * - 0번 이상 등장하는 패턴
* ? - 0번 또는 1번 등장하는 패턴
* {} - 특정한 반복 횟수를 지정

# 사용자 정의 표현식
* []
* [ariou] - 소문자 모음
* [^xyz] - x, y, z를 제외한 패턴
* - - 범위 지정
* [a-zA-Z0-9] - 영 대소문자 및 숫자
* ^ - not

# 주요 메소드
* search - 패턴과 일치하느 첫 번째 문자열
* findall - 패턴과 일치하는 모든 문자열
* sub - 패턴과 일치하는 문자열을 다른 문자열로 대체

# 매칭
* "." - 줄 바꿈 이외의 모든 한 개의 문자와 일치
* "^" - 줄의 시작
* "$" - 줄의 끝과 일치 -->

In [100]:
import re 

In [103]:
# 전화번호를 출력..
text = '문의사항은 02-3454-7355으로 연락주세요. \
비상 시에는 02-354-8547로 연락주세요'

regex = re.compile('\d{2,3}-\d+-\d+')
regex.findall(text)

['02-3454-7355', '02-354-8547']

In [105]:
# 숫자만 출력..
regex = re.compile('[0-9]+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다..')

['10', '234', '8']

In [106]:
regex = re.compile('\d+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다..')

['10', '234', '8']

In [108]:
# 이메일 찾기
text = '저의 이메일은 sky777@gmail.com입니다. \
회사 이메일은 sky777@bitcamp.company'
regex = re.compile('[a-zA-Z0-9_+.-]+@[a-zA-Z0-9]+\.+[a-z0-9]{2,4}')
regex.findall(text)

['sky777@gmail.com', 'sky777@bitcamp.comp']

In [111]:
# url 추출

text = '저의 홈페이지는 http://www.home.com입니다. \
회사 홈페이지는 https://www.firm.com입니다'

regex = re.compile('http[s]?://w{3}\.[a-zA-Z0-9]*\.[a-z]*')
regex.findall(text)

['http://www.home.com', 'https://www.firm.com']

In [113]:
# 금액만 추출
text = '총 금액은 123456.78원 입니다..'

re.findall('\d+\.\d*', text)


['123456.78']

In [117]:
# 날짜만 추출
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 08월 22일'

re.findall('\d+년 \d+월 \d+일', text)

['2015년 2월 15일', '2017년 08월 22일']

In [118]:
# 날짜만 추출
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 08월 22일'

re.sub('((\d+)년 (\d+)월 (\d+)일)', '**년 **월 **일', text)

'계약 시작일 **년 **월 **일, 계약 종료일 **년 **월 **일'

In [123]:
log_data = """
223.62.180.95 - - [07/Mar/2014:00:00:06 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200
211.244.131.169 - - [07/Mar/2014:00:00:19 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200
192.5.90.39 - - [07/Mar/2014:00:00:26 +0900] "GET / HTTP/1. 1" 200 1964
"""

# IP만 추출하기..

re.findall('\d+\.\d+\.\d+\.\d+', log_data)

['223.62.180.95', '211.244.131.169', '192.5.90.39']