# RegEx

* 정규표현식 (Regular expressions) 은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
* 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다. 
* 정규 표현식은 줄여서 간단히 "정규식"이라고도 말한다.

## 1. 메타 문자 (Meta characters)

* 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.
* . ^ $ * + ? { } [ ] \ | ( )

### (1) [ ] 문자 클래스
* 정규표현식에서 대괄호 [] 는 대괄호 안에 포함된 문자들 중 하나와 매치를 뜻한다.
* [] 안의 두 문자에 -를 사용하면 두 문자 사이의 범위를 뜻한다.
* [] 안에서 ^는 반대를 뜻한다.

* 문자 클래스	설명
* \d	숫자 [0-9]와 같다.
* \D	비숫자 [^0-9]와 같다.
* \w	숫자 + 문자 [a-zA-Z0-9]와 같다.
* \W	숫자 + 문자가 아닌 것 [^a-zA-Z0-9]와 같다.
* \s	공백 [ \t\n\r\f\v]와 같다.
* \S	비공백 [^ \t\n\r\f\v]와 같다.
* \b	단어 경계 (`\w`와 `\W`의 경계)
* \B	비단어 경계

```
[abc] # abc 중 하나와 매치
---
'a' # a와 매치
'boy' # b와 매치
'dye' # a, b, c 중 어느 문자와도 매치되지 않음

[a-c] # [abc]와 같음
[0-5] # [012345]와 같음
[a-zA-Z] # 모든 알파
[0-9] # 숫자

[^0-9] # 숫자를 제외한 문자만 매치
[^abc] # a, b, c를 제외한 모든 문자와 매치
```

### (2) . 모든 문자
* .은 줄바꿈 문자인 \n 을 제외한 모든 문자와 매치된다.
* ※ [] 사이에서 .을 사용할 경우 문자 원래의 의미인 마침표가 된다.

```
a.b # 'a + 모든 문자 + b'를 뜻함
---
aab # a와 b 사이의 a는 모든 문자에 포함되므로 매치
a0b # a와 b 사이의 0은 모든 문자에 포함되므로 매치
abc # a와 b 사이에 문자가 없기 때문에 매치되지 않음
```

```
a[.]b
---
a.b # a와 b 사이에 마침표가 있으므로 매치
a0b # a와 b 사이에 마침표가 없으므로 매치 안됨
```

### (3) 반복
* \* : 앞에 오는 문자가 0개를 포함하여 몇 개가 오든 모두 매치된다.
* \+ : 최소 한 번 이상 반복, + 앞에 있는 문자가 최소 한 번 이상 반복되어야 매치된다.
* ? : 없거나 하나 있거나, ? 앞에 있는 문자가 없거나 하나 있을 때 매치된다.
* {m, n} : 반복 횟수 지정, {m, n} 앞에 있는 문자가 m 번에서 n 번까지 반복될 때 매치된다.
    * {m}의 형태로 사용하면 반드시 m 번 반복인 경우만 매치된다.
    * {0,} 는 *, {1,} 는 +, {0,1} 는 ? 와 각각 동일하다.

```
lo*l
---
ll # 매치
lol # 매치
looool # 매치
looooooooooooooooooooool # 매치
lbl # 매치 안됨
loooooooooooobooooooool # 매치 안됨

lo+l
---
ll # 매치
lol # 매치
looool # 매치
looooooooooooooooooooool # 매치
lbl # 매치 안됨
loooooooooooobooooooool # 매치 안됨

lo+l
---
ll # 매치 안됨
lol # 매치
looooool # 매치

 lo{3, 5}l
 ---
 ll # 매치 안됨
 lol # 매치 안됨
 loool # 매치
 loooool # 매치
 looooool # 매치 안됨
```

### (4) | 여러 개의 표현식 중 하나
* 여러 개의 정규표현식들을 | 로 구분하면 or 의 의미가 적용되어 정규표현식들 중 어느 하나와 매치된다.

```
a|b|c # a or b or c
---
a # 매치
b # 매치
c # 매치
a b # 매치
a b c # 매치
d # 매치 안됨
```

### (5) ^ 문자열의 제일 처음과 매치 ★

* 문자열이 ^의 뒤에 있는 문자로 시작되면 매치된다. 
* 여러 줄의 문자열일 경우 첫 줄만 적용된다. (단, re.MULTILINE 옵션이 적용되면 각 줄의 첫 문자를 검사하여 매치된다.)
* \A 는 ^ 와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 첫 줄의 시작 문자를 검사한다.

```
^a
---
a # 매치
aaa # 매치
baaa # 매치 안됨
1aaa # 매치 안됨
```

### (6) \$ 문자열의 제일 마지막과 매치
* 문자열이 $의 앞에 있는 문자로 끝나면 매치된다. 
* 여러 줄의 문자열일 경우 마지막 줄만 적용된다. (단, re.MULTILINE 옵션이 적용되면 각 줄의 마지막 문자를 검사하여 매치된다.)
* \Z 는 $ 와 동일하지만 re.MULTILINE 옵션을 무시하고 항상
문자열 마지막 줄의 끝 문자를 검사한다.

```
a$
---
a # 매치
aa # 매치
baa # 매치
aabb # 매치안됨
```

### (7) 조건이 있는 표현식
* 표현식1(?=표현식2): 표현식1 뒤의 문자열이 표현식2와 매치되면 표현식1 매치.
* 표현식1(?!표현식2): 표현식1 뒤의 문자열이 표현식2와 매치되지 않으면 표현식1 매치.
* (?<=표현식1)표현식2: 표현식2 앞의 문자열이 표현식1과 매치되면 표현식2 매치.
* (?<!표현식1)표현식2: 표현식2 앞의 문자열이 표현식1과 매치되지 않으면 표현식2 매치.

```
'hello(?=world)' # hello 뒤에 world가 있으면 hello를 매치
---
helloworld # hello 뒤에 world가 있기 때문에 hello가 매치됨
byeworld # hello가 없기 때문에 매치 안됨
helloJames # hello 뒤에 world가 없기 때문에 매치 안됨

'hello(?!world)' # hello 뒤에 world가 없으면 hello를 매치
---
helloworld # hello 뒤에 world가 있기 때문에 매치 안됨
byeworld # hello가 없기 때문에 매치 안됨
helloJames # hello 뒤에 world가 없기 때문에 hello가 매치됨

'(?<=hello)world' # world 앞에 hello가 있으면 world를 매치
---
helloworld # world 앞에 hello가 있기 때문에 world가 매치됨
byeworld # world 앞에 hello가 없기 때문에 매치 안됨
helloJames # world가 없기 때문에 매치 안됨

'(?<!hello)world' # world 앞에 hello가 없으면 world를 매치
---
helloworld # world 앞에 hello가 있기 때문에 매치 안됨
byeworld # world 앞에 hello가 없기 때문에 world가 매치됨
helloJames # world가 없기 때문에 매치 안됨

```

## 2. 정규표현식 모듈
* compile() : 정규표현식을 컴파일하여 변수에 저장한 후 사용할 수 있다.
* 옵션
    * DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
    * IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
    * MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
    * VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

In [1]:
import re   #컴파일 할떄 re 써야함.(내가 정해주는건가?)

p = re.compile('[abc]')
print(type(p))

<class 're.Pattern'>


In [2]:
import re
p = re.compile('a.b')
#p = re.compile('a.b', re.DOTALL)

p.match('a\nb')

In [3]:
import re

p = re.compile('[a-z]')
#p = re.compile('[a-z]', re.I)

p.match('python')
p.match('Python')
p.match('PYTHON')

In [4]:
import re

#p = re.compile("^python\s\w+")
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


In [5]:
import re

#charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

## 3. 패턴 객체 메소드

In [6]:
import re

p = re.compile('[a-z]+') # 영문자 여러개
print(p)

re.compile('[a-z]+')


### (1) match()
* 시작부터 일치하는 패턴 찾기
* 문자열의 처음 시작부터 검색하여 일치하지 않는 부분이 나올 때까지 찾는다.
* 검색의 결과로 re.Match 객체를 리턴한다.

In [7]:
p.match('aaaaa')

p.match('bbbbbbbbb')

p.match('1aaaa')

p.match('aaa1aaa')

<re.Match object; span=(0, 3), match='aaa'>

### (2) search
* 전체 문자열에서 첫 번째 매치 찾기
* 문자열 전체에서 검색하여 처음으로 매치되는 문자열을 찾는다.
* 검색의 결과로 re.Match 객체를 리턴한다.

In [8]:
p.search('aaaaa')

p.search('11aaaa')

p.search('aaa11aaa')

p.search('1aaa11aaa1')

<re.Match object; span=(1, 4), match='aaa'>

### (3) findall
* 모든 매치를 찾아 리스트로 반환
* 문자열 내에서 일치하는 모든 패턴을 찾아 리스트로 반환한다.

In [9]:
p.findall('aaa')

p.findall('11aaa')

p.findall('1a1a1a1a1a')

p.findall('1aa1aaa1a1aa1aaa')

['aa', 'aaa', 'a', 'aa', 'aaa']

### (4) finditer
* 모든 매치를 찾아 반복가능 객체로 반환
* callable_iterator라는 객체가 반환되었다. 

In [10]:
p.finditer('a1bb1ccc')

<callable_iterator at 0x10853671d90>

In [11]:
iterator = p.finditer('a1bb1ccc')

for i in iterator:
    print(i)

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(2, 4), match='bb'>
<re.Match object; span=(5, 8), match='ccc'>


## 4. 매치 객체 메소드

* group(): 	매치된 문자열 출력
* start(): 	매치 시작지점 인덱스 출력
* end(): 	매치 끝지점 인덱스 출력
* span(): 	(start(), end())를 튜플로 출력

In [12]:
p = re.compile('[a-z]+')
result = p.search('1aaa11aaa1')
print(result)
print(result.group(), type(result.group()))
print(result.start(), type(result.start()))
print(result.end(), type(result.end()))
print(result.span(), type(result.span()))

<re.Match object; span=(1, 4), match='aaa'>
aaa <class 'str'>
1 <class 'int'>
4 <class 'int'>
(1, 4) <class 'tuple'>


## 5. 예제

### (1) 데이터 분리

In [13]:
import re
 
Nameage = '''
Janice is 22 and Theon is 33
Gabriel is 44 and Joey is 21
'''
 
ages = re.findall('\d{1,3}', Nameage)
names = re.findall('[A-Z][a-z]*', Nameage)
 
ageDict = {}

index = 0

for eachname in names:
    ageDict[eachname] = ages[index]
    index += 1
    
print(ageDict)

{'Janice': '22', 'Theon': '33', 'Gabriel': '44', 'Joey': '21'}


### (2) 문자열에서 단어 찾기

In [15]:
import re
 
# 문자열에서 단어 찾기
word = input('찾고자 하는 단어를 입력하세요')

if re.search(word, "we need to inform him with the latest information"):
    print('{}는 찾았습니다.'.format(word))
else :
    print('{}는 찾지 못했습니다.'.format(word))

찾고자 하는 단어를 입력하세요 12


12는 찾지 못했습니다.


In [None]:
import re
 
allinform = re.findall("inform","We need to inform him with the latest information!")
 
count = 0

for i in allinform:
    print(i)
    count += 1

print('%d개 찾았습니다.' % count)

In [None]:
import re
 
Str = "we need to inform him with the latest information"
 
for i in re.finditer("inform.", Str):
    locTuple = i.span()  # 시작 인덱스, 끝 인덱스
    print(locTuple)

### (3) 패턴과 일치하는 단어

In [62]:
import re
 
Str = "Sat, hat, mat, pat"
 
allStr = re.findall("[shmp]at", Str)
 
for i in allStr:
    print(i)

hat
mat
pat


### (4) 일치하는 일련의 문자 범위

In [63]:
import re
 
Str = "sat, hat, mat, pat"
 
someStr = re.findall("[h-m]at", Str)
 
for i in someStr:
    print(i)

hat
mat


### (5) 문자열 바꾸기

In [65]:
import re
 
import re

text = "I like apble And abple"
text_mod = re.sub('apble|abple', "apple", text) # re.sub（정규 표현식, 대상 문자열 , 치환 문자）
print (text_mod)

I like apple And apple


In [67]:
import re

text = """\
010-1234-5678 Kim
011-1234-5678 Lee
016-1234-5678 Han
"""
# 정규 표현식 사용 치환
text_mod = re.sub('^[0-9]{3}-[0-9]{4}-[0-9]{4}',"***-****-****",text, flags=re.MULTILINE) 
print (text_mod)

***-****-**** Kim
***-****-**** Lee
***-****-**** Han



In [73]:
import re

text = """\
010-1234-5678 Kim
011-1234-5678 Lee
016-1234-5678 Han
"""
# 정규 표현식 사용 치환
regex = re.compile('^[0-9]{3}-[0-9]{4}-[0-9]{4}', re.M)
text_mod = re.sub(regex,"***-****-****",text)

print (text_mod)

***-****-**** Kim
***-****-**** Lee
***-****-**** Han



### (6) \ 문제 해결

In [None]:
import re
 
randstr = "Here is \\Edureka"
 
print(randstr)
print(re.search("r\\Edureka", randstr)) 

In [78]:
import re
 
randstr = "Here is \\Edureka"
 
print(re.search(r"\\Edureka", randstr)) # r:  Raw string

<re.Match object; span=(8, 16), match='\\Edureka'>


### (7) 줄 바꿈 공백 제거

In [3]:
import re
 
randstr = '''
You Never
Walk Alone
Liverpool FC
'''
 
print('Before : ' + randstr)
 
regex = re.compile("\n")
 
randstr = re.sub(regex, " ", randstr)

print('After : ' + randstr)

Before : 
You Never
Walk Alone
Liverpool FC

After :  You Never Walk Alone Liverpool FC 


In [21]:
import re
 
# phone = "412-555-1212"
phone = "aaa-555-1212"

regex = re.compile("\d{0,3}-\d{4}-\d{4}")

if re.search(regex, phone):
    print("전화번호 형식이 올바름")
else:
    print("전화번호 형식이 틀림")

전화번호 형식이 틀림


In [25]:
import re
 
email = "ac@aol.com md@.com @seo.com dc@.com abc@cc.com"
regex = re.compile("[\w._%+-]{1,20}@[\w.-]{2,20}.[A-Za-z]{2,3}")
 
print("Email Matches: ", \
      len(re.findall(regex, email)))

Email Matches:  2


In [1]:
import urllib.request
import re
 
url = "http://www.summet.com/dmsi/html/codesamples/addresses.html"

response = urllib.request.urlopen(url)
 
html = response.read()
html_str = html.decode()

phone_number = re.compile("\(\d{3}\) \d{3}-\d{4}")
zip_code = re.compile('\d{3}-\d{4}')
 
pdata = re.findall(phone_number, html_str)
zdata = re.findall(zip_code, html_str)
                      
# for item in pdata:
#     print(item)
                      
# for item in zdata:
#     print(item)