In [10]:
# 반복

### + : 앞 문자가 한 번 이상 나오는 패턴 (1 ~)
### * : 앞 문자가 등장하지 않아도 되고 한 번 이상 등장하는 패턴 (0 ~)
### ? : 앞 문자가 등장하지 않거나 한 번 등장하는 패턴 (0, 1)

### 중괄호 -  특정 반복횟수를 구체적으로 명시
### (ha){3} - 'ha'가 3번 등자하는 패턴..
### (ha){3,5} - 'ha'가 3 ~5회 등장하는 패턴..

# 이스케이프(\)
### \\ - '\'를 그대로 출력.
### \d - 숫자
### \w - 숫자와 문자
### \s - 공백문자 (\t, \n)

### \D - 숫자를 제외한 문자
### \W - 숫자와 문자를 제외한 문자
### \S - 공백문자를 제외한 문자

# 매칭
### . - 하나의 문자
### ^ - 줄의 시작
### $ - 줄의 끝

# 사용자 정의 패턴 => [....]
### [aeiou] - 나열된 문자 중 1개와 일치
### [^aeiou] - 나열된 문자와 일치하지 않는 패턴..
### [^aeiou] - 나열된 문자와 일치하지 않는 문자를 찾는 패턴
### '-' - 문자나 숫자의 범위
### [a-zA-Z0-9] - 영문자 대소문자, 숫자와 일치하는 패턴

# 그룹
### () - 그룹 묶기

# 주요 메서드
### compile() - pattern을 컴파일하여 정규식 객체를 반환
### search() - 패턴과 일치하는 문자열을 객체형식으로 반환, 처음 일치하는 하나만 리턴
### findall() - 패턴과 일치하는 문자열을 모두 리스트에 담아서 리턴
### sub(pattern, repl, text) - 패턴과 일치하는 문자열을 새로운 문자열로 변경해서 
#                              text에서 pattern과 일치하는 문자열을 repl로 변경해서 리턴     


In [2]:
import re

In [8]:
# 전화번호 추출

text = '문의사항은 02-3454-7381으로 연락해주시기 바랍니다. 집 변호는 031-8455-7541입니다'
phonere = re.compile('((\d{2,3})-(\d{4}-\d{4}))')

phonere.findall(text)

[('02-3454-7381', '02', '3454-7381'), ('031-8455-7541', '031', '8455-7541')]

In [9]:
# 전화번호 추출

text = '문의사항은 02-3454-7381으로 연락해주시기 바랍니다. 집 변호는 031-8455-7541입니다'
phonere = re.compile('((\d{2,3})-(\d+-\d+))')

phonere.findall(text)

[('02-3454-7381', '02', '3454-7381'), ('031-8455-7541', '031', '8455-7541')]

In [7]:
# 전화번호 추출

text = '문의사항은 02-3454-7381으로 연락해주시기 바랍니다.'
phonere = re.compile('((\d{2,3})-(\d{4}-\d{4}))')

mo = phonere.search(text)
mo.group()

'02-3454-7381'

In [11]:
text = '문자열 10 중간에 234 숫자가 8 있습니다.'
re.findall('[0-9]+', text)

['10', '234', '8']

In [12]:
text = '문자열 10 중간에 234 숫자가 8 있습니다.'
re.findall('\d+', text)

['10', '234', '8']

In [15]:
# 이메일 추출 패턴
text = '저의 이메일은 ski777@hanmail.net이고, 직원 이메일은 fio99@gmail.com입니다'

phonere = re.compile('[a-z0-9A-Z]+@[a-z0-9A-Z]+.[a-z]{2,5}')
phonere.findall(text)

['ski777@hanmail.net', 'fio99@gmail.com']

In [16]:
# 금액만 추출

text = '총 금액은 1223044.6원입니다.'

re.findall('\d+.\d+원', text)

['1223044.6원']

In [17]:
# 날짜 패턴만 추출...

text = '계약시작일은 2015년 2월 15일, 계약 종료일 2017년 08월 22일입니다.'

re.findall('(\d+)년 (\d+)월 (\d+)일', text)

[('2015', '2', '15'), ('2017', '08', '22')]

In [18]:
# 날짜 패턴만 추출...

text = '계약시작일은 2015년 2월 15일, 계약 종료일 2017년 08월 22일입니다.'

re.findall('((\d+)년 (\d+)월 (\d+)일)', text)

[('2015년 2월 15일', '2015', '2', '15'), ('2017년 08월 22일', '2017', '08', '22')]

In [19]:
# URL만 추출..

text = '''
저의 홈페이지 주소는 https://www.homepage.com입니다.
당신의 홈페이지 주소는 http://www.yourhomepage.com입니다.
'''
urlre = re.compile('http[s]?://w{3}.[a-zA-Z0-9]+.[a-z]+')

urlre.findall(text)

['https://www.homepage.com', 'http://www.yourhomepage.com']

In [49]:
# log data추출

log_text = """
223.62.180.95 -- [107/Mar/2014:00:00:06 +0900] 'GET /trapi/mts/Check.jsp HTTP/1.1' 200 3293
211.244.131.169 -- [07/Mar/2014:00:00:19 +0900] 'GET /trapi/mts/Check.jsp HTTP/1.1' 200 3233
"""

# IP Address 추출
ipre = re.compile('([(\d+.)]+)')
iplist = ipre.findall(log_text)
iplist
iplist[0:100:11]



['223.62.180.95', '211.244.131.169']