# 정규표현식
* 사용자가 우편번호나 전화번호 , 이메일 주소를 맞는 형식으로 입력했는지 확인
* 크롤링한 자료에서 이메일이나 전화번호 등 추출
* 로그파일에서 특정 에러메시지가 들어간 라인을 찾을 때
* 텍스트에서 특정 문자열을 검색하거나 치환할 때

In [2]:
import re

## 파이썬에서 정규표현식 사용
* 패턴을 컴파일 후 적용
* 패턴 컴파일 없이 바로 적용

In [3]:
pattern = r'비'
text = "하늘에 비가 오고 있습니다.어제도 비가 왔고 오늘도 비가 오고 있습니다"

regex = re.compile(pattern)  # 패턴을 컴파일 시킴
result = regex.findall(text)
print(result)  # 리스트 타입으로 리턴

['비', '비', '비']


In [6]:
zipcode = input("우편번호 입력 : ")
pattern = r"\d{5}$"  # 숫자 5개가 반복되는 숫자로 끝나는것.
regex = re.compile(pattern)  #패턴을 컴파일 시킴
result = regex.match(zipcode)

if result != None:
    print("패턴이 일치합니다.")
else:
    print("Zipcode pattern mismatched.")

우편번호 입력 : 09000
패턴이 일치합니다.


### 정규식에서 자주 사용하는 함수
* `match(pattern, strinng)` - 문자열의 시작부분부터 매치가 되는지 검색
* `search(pattern, string)` - 문자열에 패턴과 매치가 되는 부분이 있는지 검색(처음이든, 중간이든 상관없다.)
* `findall(pattern, string)` - 정규식과 매칭되는 모든 문자열을 반환(리스트 타입으로 리턴)
* `finditer(pattern, string) - 정규식과 매칭되는 모든 문자열을 iterable객체로 반환
* `sub(pattern,replace,string,count=0,flag=0)` - 정규식과 매치되는 모든 문자열을 대체 문자열로 교체,결과를 str 타입으로 반환

#### match()함수

In [8]:
text1 = "I like star"
text2 = "star is beautiful"
pattern = "star"

print(re.match(pattern, text1))  # 첫부분부터 `star`가 나와야 매칭가능
print(re.match(pattern, text2))

matchObj = re.match(pattern, text2)
print(matchObj.group()) # 매칭된 문자열을 반환
print(matchObj.start()) # 매칭된 문자열 시작 위치
print(matchObj.end())   # 매칭된 문자열 종료위치
print(matchObj.span())  # 매칭된 문자열의 시작위치와 종료위치를 튜플로 반환

None
<re.Match object; span=(0, 4), match='star'>
star
0
4
(0, 4)


In [10]:
text1 = "I like star, red star, yellow star"
text2 = "star is beautiful"
pattern = "star"

print(re.search(pattern, text1))  # 첫부분부터 `star`가 나와야 매칭가능
print(re.search(pattern, text2))

matchObj = re.search(pattern, text1)
print(matchObj.group()) # 매칭된 문자열을 반환
print(matchObj.start()) # 매칭된 문자열 시작 위치
print(matchObj.end())   # 매칭된 문자열 종료위치
print(matchObj.span())  # 매칭된 문자열의 시작위치와 종료위치를 튜플로 반환


matchObj = re.search(pattern, text2)
print(matchObj.group()) # 매칭된 문자열을 반환
print(matchObj.start()) # 매칭된 문자열 시작 위치
print(matchObj.end())   # 매칭된 문자열 종료위치
print(matchObj.span())  # 매칭된 문자열의 시작위치와 종료위치를 튜플로 반환

<re.Match object; span=(7, 11), match='star'>
<re.Match object; span=(0, 4), match='star'>
star
7
11
(7, 11)
star
0
4
(0, 4)


#### findall()함수
* 문자열에 패턴과 매칭되는 부분에 대하여 string 리스트로 반환
* 반환값 일치하는 문자열들의 리스트
* 특정한 패턴과 일치하는 문자열만 추출할 때 사용

  예 ) 전화번호만 추출하거나 이메일만 추출하고자 할때.
   * 전화번호패턴 : r"\d{3}-\d{4}-\d{4}"
   * 이메일 패턴  r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"    

In [7]:
text = """
phone = 010-0000-0000 email:test1@nate.com
phone = 010-1111-1111 email:test2@naver.com
phone = 010-2222-2222 email:test3@gmail.com
"""
print()
print("전화번호 추출하기")
phonepattern = r"\d{3}-\d{4}-\d{4}"

matchObj = re.findall(phonepattern, text)
for item in matchObj:
    print(item)
    
print("Email추출")
emailpattern =  r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,4}\b"
matchObj = re.findall(emailpattern, text)

for item in matchObj:
    print(item)


전화번호 추출하기
010-0000-0000
010-1111-1111
010-2222-2222
Email추출
test1@nate.com
test2@naver.com
test3@gmail.com


### finditer()
* 문자열에 패턴과 매칭되는 부분에 대하여 매칭 객체를 리스트로 반환
* 반환값은 문자열이 아니라 매칭 객체라는 부분에서 find 함수와 차이가 남
* 특정한 패턴과 일치하는 문자열만 추출할 때 사용
  
   예 ) 전화번호만 추출하거나 이메일만 추출하고자 할

In [10]:
text = """
phone = 010-0000-0000 email:test1@nate.com
phone = 010-1111-1111 email:test2@naver.com
phone = 010-2222-2222 email:test3@gmail.com
"""
print()
print("전화번호 추출하기")
phonepattern = r"\d{3}-\d{4}-\d{4}"

matchObj = re.finditer(phonepattern, text)
for item in matchObj:
    print(item.group())
    print(item.span())
print()
    


전화번호 추출하기
010-0000-0000
(9, 22)
010-1111-1111
(52, 65)
010-2222-2222
(96, 109)



* finditer 함수는 패턴과 일치할 경우 MatchObject 형태의 객체 반복자를 반환
* 이터레이터 형태이므로 for 구문을 통해 일치한 대상에 대한 정보를 확인할 수 있음

### sub(pattern, replace, string, count=0, flag=0)
* 문자열에 패턴과 매칭되는 부분에 대하여 매칭 객체를 리스트로 반환
* 반환값은 문자열이 아니라 매칭 객체라는 부분에서 find 함수와 차이가 남
* 특정한 패턴과 일치하는 문자열만 추출할 때 사용
  
   예 ) 전화번호만 추출하거나 이메일만 추출하고자 할때
* `replace` - 문자열이 될 수도 있고,함수가 될 수도 있음.
* `count` - 최대 몇번까지 교체할 것인지를 설정하는 인자,값이 0이면 모두 교체, 0보다 크면 지정된 횟수만큼 교체

In [12]:
text1 = "I like star, red star, yellow star"
print()
pattern = 'star'

# text1의 문자열에서 pattern에 해당하는 문제를 'moon'으로 바꾸는것.
# count옵션의 디폴트값은 0 - 모두 교체

result = re.sub(pattern, 'moon', text1)  
print(result)

# count = 2의 의미는 2개만 patter에 해당하는 문자를 바꾸고자 하는 문자로 대치.
result2 = re.sub(pattern, 'moon', text1, count = 2)
print(result2)


I like moon, red moon, yellow moon
I like moon, red moon, yellow star


## 파이썬에서 정규식 패턴사용

#### 패턴 `^`
- 시작이 이 패턴으로 이루어져야 함.예) ^abc라면 abc로 시작하는 문자열

#### 패턴 `$`
* 패턴이 abc`$`이라면 abc로 끝나야 함.

#### 패턴 `[``]`
* 꺽쇠 가로안에 들어가는 모든 문자 패턴

#### `[^문자들]`
* 문자들로 시작하지 않아야 매칭

#### `[k|K]`
* 소문자 `k` 혹은 대문자 `K`