### 정규 표현식
* 특정 문자열의 패턴을 표현하는 식
* 문자열 처리함수를 사용하는 것보다 복잡한 표현을 간결하게 표현

In [1]:
import re  # 정규 표현식 모듈

1. re.compile('정규 표현식')
* 정규표현식 패턴 객체 생성

In [5]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # \d: 숫자, 정규표현식 객체 생성
mo = phonenum.search('My number is 415-555-4242') # search 메소드 - 일치하는 패턴 리턴

In [7]:
mo.group()  # group 메소드 - 일치하는 패턴을 리턴..

'415-555-4242'

2. search() 메소드
* 일치하는 패턴 중에 첫번째 패턴을 리턴

In [9]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenum.search('My number is 415-555-4242. Your number is 214-895-8547')
mo.group()

'415-555-4242'

In [10]:
phonenum = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phonenum.search('My number is 415-555-4242. Your number is 214-895-8547')
mo.group()

'415-555-4242'

In [11]:
mo.group(1)

'415'

In [12]:
mo.group(2)

'555-4242'

In [13]:
mo.group().split("-")[0]

'415'

In [16]:
regex =re.compile(r'Batman|Tina Fey') # '|' - -> or 

In [17]:
mo = regex.search('Batman and Tina Fey')
mo.group()

'Batman'

In [18]:
regex = re.compile(r"Bat(man|mobile|copter|bat)")
mo = regex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [19]:
regex = re.compile(r'Bat(wo)?man')   # ? : 앞의 패턴이 0번 또는 1번 반복하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [20]:
regex = re.compile(r'Bat(wo)?man')   # 앞의 패턴이 0번 또는 1번 반복하는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [23]:
regex = re.compile(r'Bat(wo)+man')   # 앞의 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [25]:
regex = re.compile(r'Bat(wo)*man')   #  * : 앞의 패턴이 0번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [26]:
regex = re.compile(r'Bat(wo)*man')   #  * : 앞의 패턴이 0번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

In [28]:
regex = re.compile(r'Bat(wo){2}man')   #  {n} : 반복횟수를 지정
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [34]:
regex = re.compile(r'Bat(wo){2,4}man')   #  {n,m} : 반복횟수, 구간을 지정
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

3. findall() apthem
* 일치하는 모든 패턴을 리스트 형식으로 리턴

In [37]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenum.search('Call : 415-888-5478, work : 212-548-8965')
mo.group()

'415-888-5478'

In [None]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phonenum.findall('Call : 415-888-5478, work : 212-548-8965')


In [39]:
regex = re.compile(r"\d+\s\w+") # \d: 숫자, \s: 스페이스,탭,줄바꿈  \w: 문자,숫자,_
regex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 6 eggs')

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '6 eggs']

4. 사용자 정의 정규표현식 => []

* 사용자가 임의로 정의하는 패턴
* [aeiouAEIOU] => 영문자 모음
* [a-zA-Z] => 영문자 소문자 대문자
* [0-9] => 모든 숫자
* '-' => 범위지정
* ^ => 부정(not)

In [43]:
regex = re.compile(r'[aeiouAEIOU]')
regex.findall('Robocab eats baby food BaBy FOOD')

['o', 'o', 'a', 'e', 'a', 'a', 'o', 'o', 'a', 'O', 'O']

In [44]:
regex = re.compile(r'[^aeiouAEIOU]')
regex.findall('Robocab eats baby food BaBy FOOD')

['R',
 'b',
 'c',
 'b',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 ' ',
 'B',
 'B',
 'y',
 ' ',
 'F',
 'D']

5. 
* ^ - 문자열의 시작 부분과 일치
* $ - 문자열의 끝 부분과 일치 

In [46]:
regex = re.compile(r'^Hello')
regex.findall('Hello world')

['Hello']

In [47]:
regex = re.compile(r'^Hello')
regex.findall('python ^Hello')

[]

In [48]:
regex = re.compile(r'\d$') 
regex.findall('Your number5 is 42')

['2']

In [49]:
regex = re.compile(r'\d+$')
regex.findall('Your number5 is 42')

['42']

6. sub()
* 매칭이 되는 문자열을 다른 값으로 대체


In [55]:
regex = re.compile(r'Agent \w+')
regex.sub('censored', 'Agent Alice gave the secret documents of Agent Bob')

'censored gave the secret documents of censored'

In [88]:
regex = re.compile(r'Agent (\w{2})\w*')
regex.sub(r'Agent \1****', 'Agent Alice gave the secret documents of Agent Bob')

'Agent Al**** gave the secret documents of Agent Bo****'

In [None]:
## 반복
# + : 한번 이상 등장하는 패턴
# * : 0번 이상 등장하는 패턴   
# ? : 0번 또는 1번 등장하는 패턴
# {} : 특정한 번복 횟수를 지정

## 사용자 정의 표현식
# []
# [aeiou] - 소문자 모음
# [^xyz] - x,y,z 를 제외한 패턴
# "-" - 범위 지정
# [a-zA-Z0-9] - 영 대소문자 및 숫자
# ^- not

### 주요 메소드
# search - 패턴과 일치하는 첫 번째 문자열
# findall - 패턴과 일치하는 모든 문자열
# sub - 패턴과 일치하는 문자열을 다른 문자열로 대체

# ## 매칭
# "." - 줄 바꿈 이외의 모든 한 개의 문자와 일치
# "^" - 줄의 시작
# "$" - 줄의 끝과 일치

In [58]:
import re

In [65]:
# 전화번호를 출력..
text = '문의사항은 02-3454-7355으로 연락주세요. 비상 시에는 02-354-4589로 연락주세요'

regex = re.compile('\d{2,3}-\d+-\d+' )
regex.findall(text)

['02-3454-7355', '02-354-4589']

In [68]:
# 숫자만 출력
regex = re.compile('[0-9]+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다')

['10', '234', '8']

In [69]:
regex = re.compile('\d+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다')

['10', '234', '8']

In [79]:
# 이메일 찾기
text = "저의 이메일은 sky777@gmail.com입니다. 회사 이메일은 sky777@bitcamp.company" 
regex = re.compile('[a-zA-Z0-9_+.-]+@[a-zA-Z0-9]+\.[a-z0-9]{2,7}') #{2,4} 2자리~ 7자리
regex.findall(text)  

['sky777@gmail.com', 'sky777@bitcamp.company']

In [81]:
# url 추출

text = '저의 홈페이지는 http://www.home.com입니다. \
회사 홈페이지는 http://www.firm.com입니다.'

regex = re.compile('http[s]?://w{3}\.[a-z0-0]*\.[a-z]*')
regex.findall(text)

['http://www.home.com', 'http://www.firm.com']

In [82]:
# 금액만 추출
text = '총 금액은 123456.78원 입니다'

re.findall("\d+\.*\d*", text)

['123456.78']

In [85]:
# 날짜만 추출
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 08월 22일'
re.findall('\d+년 \d+월 \d+일', text)

['2015년 2월 15일', '2017년 08월 22일']

In [86]:
# 날짜만 변경
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 08월 22일'

re.sub('(\d+)년 (\d+)월 (\d+)일', '**년 **월 **일',text)

'계약 시작일 **년 **월 **일, 계약 종료일 **년 **월 **일'

In [92]:
# IP만 추출하기

log_data = """
223.62.180.95 - - [07/Mar/2014:00:00:06 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
211.244.131.169 - - [07/Mar/2014:00:00:19 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
192.5.90.39 - - [07/Mar/2014:00:00:26 +0900] "GET / HTTP/1.1" 200 1964
"""

regex = re.compile('\d+\.\d+\.\d+\.\d+')
regex.findall(log_data)

# re.findall('(\d+\.\d+\.\d+\.\d+)', log_data)  
# compile 할 때 안할 때 차이는??

['223.62.180.95', '211.244.131.169', '192.5.90.39']