# 정규표현식
---
- 특정 문자열의 패턴을 표현하는 식
- 문자열 처리함수를 사용하는 것보다 복잡한 표현을 간결하게 표현

In [3]:
import re

## 1. re.compile('정규표현식')

* 정규표현식 패턴 객체 생성

In [14]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')  # \d - 숫자, 정규표현식 객체 생성

# search 메서드 - 일치하는 패턴 리턴
mo = phonenum.search('My number is 415-555-4242')   # 정규표현식 생성 .search()

In [19]:
# group 메서드 - 일치하는 패턴을 리턴
mo.group()               # 정규표현식 출력 .group()

'415-555-4242'

## 2. search() 메서드
* 일치하는 패턴 중에 첫번째 패턴을 리턴

In [17]:
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenum.search('My number is 415-555-4242. Your number in 214-895-8547')
mo.group()

'415-555-4242'

### phonenum = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')   
 - ()을 활용하여 그룹화 할 수 있다.

In [18]:
phonenum = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phonenum.search('My number is 415-555-4242. Your number in 214-895-8547')
mo.group()

'415-555-4242'

In [20]:
mo.group(1)

'415'

In [21]:
mo.group(2)

'555-4242'

In [24]:
mo.group().split('-')

['415', '555', '4242']

### | == or

In [28]:
regex = re.compile(r'Batman|Tina Fey')  # '|' - or을 뜻한다

In [32]:
# group 메서드 - 일치하는 패턴을 리턴
mo = regex.search('Batman and Tina Fey')
mo.group()

'Batman'

### Bat(man|mobile|copter|bat) == Batman or Batmobile or Batcopter or Batbat

In [34]:
regex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = regex.search('Batmobile lost a wheel!')
mo.group()

'Batmobile'

### Bat(wo)?man == Batman or Batwoman

In [36]:
regex = re.compile(r'Bat(wo)?man')   # ? : 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batman')
mo.group()

'Batman'

In [41]:
regex = re.compile(r'Bat(wo)?man')   # ? : 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [38]:
regex = re.compile(r'Bat(wo)?man')   # ? : 앞의 패턴이 0번 또는 1번 반복되는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

AttributeError: 'NoneType' object has no attribute 'group'

### + : 앞의 패턴이 1번 이상 등장하는 패턴

In [43]:
regex = re.compile(r'Bat(wo)+man')   # + : 앞의 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwoman')
mo.group()

'Batwoman'

In [44]:
regex = re.compile(r'Bat(wo)+man')   # + : 앞의 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [48]:
regex = re.compile(r'Bat(wo)+man')   # + : 앞의 패턴이 1번 이상 등장하는 패턴
mo = regex.search('The adventures of Batman')
mo.group()

AttributeError: 'NoneType' object has no attribute 'group'

### * : 앞의 패턴이 0번 이상 등장하는 패턴

In [45]:
regex = re.compile(r'Bat(wo)*man')   # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [46]:
regex = re.compile(r'Bat(wo)*man')   # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo = regex.search('The adventures of Batman')
mo.group()

'Batman'

In [47]:
regex = re.compile(r'Bat(wo)*man')   # * : 앞의 패턴이 0번 이상 등장하는 패턴
mo = regex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

### {n} : 앞의 패턴이 n번 반복되는 패턴

In [50]:
regex = re.compile(r'Bat(wo){2}man')   # {2} : 앞의 패턴이 2번 반복되는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

### {n, m} : 앞의 패턴이 n~m번 반복되는 패턴

In [51]:
regex = re.compile(r'Bat(wo){2,4}man')   # {2, 4} : 앞의 패턴이 2~4번 반복되는 패턴
mo = regex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

In [52]:
regex = re.compile(r'Bat(wo){2,4}man')   # {2, 4} : 앞의 패턴이 2~4번 반복되는 패턴
mo = regex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

In [53]:
regex = re.compile(r'Bat(wo){2,4}man')   # {2, 4} : 앞의 패턴이 2~4번 반복되는 패턴
mo = regex.search('The adventures of Batwowowowoman')
mo.group()

'Batwowowowoman'

## 3. findall() 메서드
- 일치하는 모든 패턴을 리턴

In [56]:
# .group() : 일치하는 첫번째 패턴만 리턴
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenum.search('Call : 415-888-5478, work : 212-548-8965')
mo.group()

'415-888-5478'

In [58]:
# .findall() : 일치하는 모든 패턴을 리턴
phonenum = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phonenum.findall('Call : 415-888-5478, work : 212-548-8965')

['415-888-5478', '212-548-8965']

\d - 숫자   
\s - 공백, 탭, 줄바꿈   
\w - 문자, 숫자

In [63]:
# 숫자(여러자리) + 공백(하나) + 문자(여러자리)
regex = re.compile(r'\d+\s\w+')    # \d - 숫자, \s - 공백, 탭, 줄바꿈, \w - 문자, 숫자
regex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 6 eggs')

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '6 eggs']

## 4. 사용자 정의 정규표현식 => []    
* 사용자가 정의하는 패턴
* [aeiouAEIOU] => 영문자 모음
* [a-zA-Z] => 영문자 소문자 대문자
* [0-9] => 모든 숫자
* '-' => 범위지정
* ^ => 부정

In [64]:
# 모든 영문자 모음 리턴
regex = re.compile(r'[aeiouAEIOU]')
regex.findall('Robocab eats baby food Baby FOOD')

['o', 'o', 'a', 'e', 'a', 'a', 'o', 'o', 'a', 'O', 'O']

In [66]:
# ^ 모든 영문자 모음이 아닌 문자 리턴
regex = re.compile(r'[^aeiouAEIOU]')
regex.findall('Robocab eats baby food Baby FOOD')

['R',
 'b',
 'c',
 'b',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 ' ',
 'B',
 'b',
 'y',
 ' ',
 'F',
 'D']

## 5.    
* ^ - 문자열의 시작 부분과 일치   
* $ - 문자열의 끝 부분과 일치
* 주의 - 사용자 정의 정규표현식과는 다르다


In [70]:
# ^ - 문자열의 시작 부분과 일치하면 리턴
regex = re.compile(r'^Hello')
regex.findall('Hello world')

['Hello']

In [71]:
# ^ - 문자열의 뒷 부분과 일치해도 리턴해주지 않는다.
regex = re.compile(r'^Hello')
regex.findall('python Hello')

[]

In [78]:
# $ - 문자열의 맨 마지막 부분과 일치하면 리턴
regex = re.compile(r'\d$')     # 숫자(한자리) + 공백
regex.findall('Your number5 is 42')

['2']

In [77]:
regex = re.compile(r'\d+$')    # 숫자(여러자리) + 공백
regex.findall('Your number5 is 42')

['42']

## 6. sub()
* 매칭이 되는 문자열을 다른 값으로 대체

In [89]:
regex = re.compile(r'Agent \w+')      # Agent 뒤의 모든 문자열(공백이 나오기 전까지)

# Agent Alice를 Censored과 대체
regex.sub('Censored', 'Agent Alice gave the secret documents ot Agent Bob')

'Censored gave the secret documents ot Censored'

In [90]:
regex = re.compile(r'Agent (\w{2})\w*')  # Agent 뒤에 문자열 2개를 하나의 그룹
                                         # 그 뒤 문자열(공백 전까지)을 또 다른 패턴
    
# Agent Alice를 Consored 그룹1 + ****로 대체 
regex.sub(r'Censored \1****', 'Agent Alice gave the secret documents ot Agent Bob')

'Censored Al**** gave the secret documents ot Censored Bo****'

### 반복
- '+' : 한번 이상 등장하는 패턴
- '*' : 0번 이상 등장하는 패턴
- ? : 0번 또는 1번 등장하는 패턴
- {} : 특정한 반복 횟수를 지정

### 사용자 정의 표현식
- []
- [aeiou] - 소문자 모음
- [^xyz] - x, y, z 제외한 패턴
- '-' : 범위 지정
- [a-zA-Z0-9] - 영 대소문자 및 숫자
- ^ - not

### 주요 메서드
- search - 패턴과 일치하는 첫 번째 문자열 리턴
- findall - 패턴과 일치하는 모든 문자열 리턴
- sub - 패턴과 일치하는 문자열을 다른 문자열로 대체해서 리턴

### 매칭
- . - 줄 바꿈 이외의 모든 한 개의 문자와 일치
- ^ - 줄의 시작과 일치
- $ - 줄의 끝과 일치

In [91]:
import re

In [108]:
# 전화번호를 출력
text = '문의사항은 02-3454-7355으로 연락주세요.'

# 숫자(2~3)자리'-'숫자(모든자리)'-'숫자(모든자리)
regex = re.compile('\d{2,3}-\d+-\d+')
regex.findall(text)

['02-3454-7355']

In [109]:
text = '문의사항은 02-3454-7355으로 연락주세요. 비상 시에는 02-354-8547로 연락주세요'

# 숫자(2~3)자리'-'숫자(모든자리)'-'숫자(모든자리)
regex = re.compile('\d{2,3}-\d+-\d+')
regex.findall(text)

['02-3454-7355', '02-354-8547']

In [103]:
# 숫자만 출력
# 사용자 정규 표현식
regex = re.compile('[0-9]+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다.')

['10', '234', '8']

In [105]:
# 일반 정규 표현식
regex = re.compile('\d+')
regex.findall('문자열 10 중간에 234 숫자가 8개 있습니다.')

['10', '234', '8']

In [107]:
# 이메일 찾기
text = '저의 이메일은 sky777@gmail.com입니다.'

# [영문자, 숫자, 특수기호] @ [영문자, 숫자] . [영문자 숫자(2~4자리)]
regex = re.compile('[a-zA-Z0-9_+.-]+@[a-zA-Z0-9]+\.+[a-z0-9]{2,4}')
regex.findall(text)

['sky777@gmail.com']

In [111]:
text = '저의 이메일은 sky777@gmail.com입니다. 회사 이메일은 sky777@bitcamp.company'

# [영문자, 숫자, 특수기호] @ [영문자, 숫자] . [영문자 숫자(2~7자리)]
regex = re.compile('[a-zA-Z0-9_+.-]+@[a-zA-Z0-9]+\.+[a-z0-9]{2,7}')
regex.findall(text)

['sky777@gmail.com', 'sky777@bitcamp.company']

In [121]:
# url 추출
text = '저의 홈페이지는 http://www.home.com입니다. \
회사 홈페이지는 https://www.firm.com입니다.'

# [s]가 붙어도 되고 안붙어도 된다
# w가 3번 나온다   \. => w3번 뒤에 무조건 .이 나온다
# 모든 영문자와 숫자
# 모든 영문자
regex = re.compile('http[s]?://w{3}\.[a-zA-Z0-9]*.[a-z]*')
regex.findall(text)

['http://www.home.com', 'https://www.firm.com']

In [123]:
# 금액만 추출

text = '총 금액 123456.78원 입니다.'


# 숫자 + .(하나 이상) + 숫자
re.findall('\d+\.*\d*', text)

['123456.78']

In [137]:
# 날짜만 추출
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 8월 22일'

re.findall('\d+년 \d+월 \d+일',text)

['2015년 2월 15일', '2017년 8월 22일']

In [132]:
# 날짜만 변경
text = '계약 시작일 2015년 2월 15일, 계약 종료일 2017년 8월 22일'
re.sub('(\d+)년 (\d+)월 (\d+)일', '**년 **월 **일', text)

'계약 시작일 **년 **월 **일, 계약 종료일 **년 **월 **일'

### IP만 추출하기

In [139]:
import re

In [154]:
log_data = """
223.62.180.95 - - [07/Mar/2014:00:00:06 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
211.244.131.169 - - [07/Mar/2014:00:00:19 +0900] "GET /trapi/mts/Check.jsp HTTP/1.1" 200 3293
192.5.90.39 - - [07/Mar/2014:00:00:26 +0900] "GET / HTTP/1.1" 200 1964
"""

# IP만 추출하기
regex = re.compile('\d+\.\d+\.\d+\.\d+')
regex.findall(log_data)

['223.62.180.95', '211.244.131.169', '192.5.90.39']

In [152]:
import numpy as np
regex = re.compile('((\d+\.){3}\d+)')
np.array(regex.findall(log_data))[:,0].tolist()

['223.62.180.95', '211.244.131.169', '192.5.90.39']