# 43 정규표현식 사용하기
- 정규표현식(Regular Expression) : 일정한 규칙(패턴)을 가진 문자열을 표현하는 방법
- 복잡한 문자열 속에서 특정한 규칙으로 된 문자열을 검색한 뒤 추출하거나 바꿀 때 사용함
- 문자열이 정해진 규칙에 맞는지 판단할 때도 사용함

## 43.1 문자열 판단하기
- re 모듈을 가져와서 사용, match함수에 정규표현식 패턴과 판단할 문자열을 넣음
- 'Hello World'.find('Hello') 와 같이 문자열 메서드로도 구현 가능

In [5]:
import re
print(re.match('Hello', 'Hello World'))
print(re.match('Python', 'Hello World'))

<re.Match object; span=(0, 5), match='Hello'>
None


- 문자열이 맨 앞 혹은 맨 뒤에 오는지 판단하기  
^문자열 (맨 앞)  
문자열$ (맨 뒤)

In [8]:
print(re.search('^Hello', 'Hello World'))
print(re.search('Hello$', 'Hello World'))

<re.Match object; span=(0, 5), match='Hello'>
None


- 지정된 문자열이 하나라도 포함되는지 판단하기
- 기본 개념 OR 연산자와 같다  
문자열|문자열|문자열

In [9]:
print(re.search('Hello|World', 'Hello'))

<re.Match object; span=(0, 5), match='Hello'>


## 43.2 범위 판단하기
- \* : 0개 이상 있나요?
- \+ : 1개 이상 있나요?

In [13]:
print(re.match('[0-9]*', '1234'))
print(re.match('[0-9]+', 'abcd'))
print(re.match('[0-9,a]+', 'abcd'))

<re.Match object; span=(0, 4), match='1234'>
None
<re.Match object; span=(0, 1), match='a'>


In [16]:
print(re.match('a+b', 'b')) # 1개 이상 없음 
print(re.match('a*b', 'b')) # 0개 이상 있음 

None
<re.Match object; span=(0, 1), match='b'>


문자가 한 개만 있는지 판단하기
- ? : 문자 0개 또는 1개인지 판단
- . : 문자 1개인지 판단

In [27]:
print(re.match('a?', 'abb')) 
print(re.match('a.', 'aab')) 
print(re.match('a.', 'bcc')) 
print(re.match('a?', 'bcc')) 
print(re.match('a?', 'bcca')) # 뒤에 있는 걸 확인 못함 

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 2), match='aa'>
None
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 0), match=''>


문자 개수 판단하기
- 문자{개수}
- (문자열){개수}

In [30]:
print(re.match('h{3}', '0hhh')) 
print(re.match('(hello){3}', 'hihellohellohello')) 
print(re.match('(hello){3}', 'hellohellohello')) 

None
None
<re.Match object; span=(0, 15), match='hellohellohello'>


문자 개수 판단하기
- [0-9]{개수}

In [33]:
print(re.match('[0-9]{3}', 'hihellohellohello000')) 
print(re.match('[0-9]{3}', '000hihellohellohello')) 
print(re.match('[0-9]{3}-[0-9]{4}-[0-9]{4}', '010-0000-0000')) 

None
<re.Match object; span=(0, 3), match='000'>
<re.Match object; span=(0, 13), match='010-0000-0000'>


- (문자){시작개수,끝개수}
- (문자열){시작개수,끝개수}
- \[0-9\]{시작개수,끝개수} 

**시작개수와 끝개수 사이에 띄어쓰면 안된다**

In [35]:
print(re.match('[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}', '010-0000-0000'))
print(re.match('[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}', '02-000-0000')) 

<re.Match object; span=(0, 13), match='010-0000-0000'>
<re.Match object; span=(0, 11), match='02-000-0000'>


숫자와 영문문자 조합하기 

In [44]:
print(re.match('[a-zA-Z0-9]+', 'Hello1234'))

<re.Match object; span=(0, 9), match='Hello1234'>


특정 문자 범위에 포함되지 않는지 판단하기 
- 대괄호 안에 ^를 넣어줌

In [47]:
print(re.match('[^A-Z]+', 'Hello')) 
print(re.match('[^A-Z]+', 'hello')) 

None
<re.Match object; span=(0, 5), match='hello'>


In [50]:
print(re.search('[0-9]+$', 'hello1234')) 

<re.Match object; span=(5, 9), match='1234'>


특수 문자 판단하기
- 정규표현식에 사용하는 특수문자 *, \+, ?, ., ^등을 판단할 때는 특수 문자에 \를 붙이면 됨  
- 단, \[\]안에서는 \를 붙이지 않아도 되지만 에러가 발생하는 경우에는 붙임

In [52]:
print(re.search('\*+', '1 **2'))
print(re.search('[$()a-zA-Z0-9]+', '$(document)'))

<re.Match object; span=(2, 4), match='**'>
<re.Match object; span=(0, 11), match='$(document)'>


단순히 숫자인지 문자인지 판단
- \d, \D, \w, \W를 사용 
- \d == \[0-9\]
- \D == \[^0-9\] : 숫자를 제외한 모든 문자
- \w == \[a-zA-Z0-9_\]
- \W== \[^a-zA-Z0-9_\]

In [54]:
print(re.match('\d+', '1230'))
print(re.match('\D+', 'abcd'))
print(re.match('\w+', '__00ffdf'))
print(re.match('\W+', '***'))

<re.Match object; span=(0, 4), match='1230'>
<re.Match object; span=(0, 4), match='abcd'>
<re.Match object; span=(0, 8), match='__00ffdf'>
<re.Match object; span=(0, 3), match='***'>


공백처리하기
- ''처럼 공백문자를 넣거나 \s, \S로 표현
- \s == \[ \\t\\n\\r\\f\\v\]
- \S == \[^ \\t\\n\\r\\f\\v\]

In [55]:
print(re.match('[a-zA-Z0-9 ]+', 'hello 1234'))
print(re.match('[a-zA-Z0-9\s]+', 'hello 1234'))

<re.Match object; span=(0, 10), match='hello 1234'>
<re.Match object; span=(0, 10), match='hello 1234'>


## 43.3 그룹 사용하기 
- 정규표현식 그룹 : 해당 그룹과 일치하는 문자열을 얻어올 때 사용 
- 공백으로 구분된 숫자를 두 그룹으로 나누어서 찾은 뒤 각 그룹에 해당하는 문자열(숫자)을 가져옴 

In [58]:
m = re.match('([0-9]+) ([0-9]+)', '10 295')
print(m.group(1))
print(m.group(2))
print(m.group())
print(m.group(0))

10
295
10 295
10 295


그룹에 이름을 지어서 구분
- (?P<이름>정규표현식)

In [63]:
m = re.match('(?P<func>[a-zA-Z_][a-zA-Z0-9_]+)\((?P<arg>\w+)\)', 'print(1234)')
print(m.group('func'))
print(m.group('arg'))

print
1234


패턴에 매칭되는 모든 문자열 가져오기
- re.findall('패턴', '문자열')

In [64]:
print(re.findall('[0-9]+', '1 2 Fizz 4 Buzz Fizz 7 8'))

['1', '2', '4', '7', '8']


## 43.4 문자열 바꾸기 
- sub 함수를 사용하여 패턴, 바꿀 문자열, 문자열, 바꿀 횟수 등을 넣어준다. 
- re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수)

In [68]:
print(re.sub('apple|orange', 'fruit', 'apple box orange tree'))

fruit box fruit tree


In [69]:
print(re.sub('[0-9]+', 'n', '3 orange 1 tree'))

n orange n tree


문자열 바꾸기 
- 바꿀 문자열 대신 교체 함수 지정 가능 
- 교체함수(매치객체)
- re.sub('패턴', 교제함수, '문자열', 바꿀 횟수)

In [73]:
def multiple10(m):
    n = int(m.group())
    return str(n * 10)

print(re.sub('[0-9]+', multiple10, '1 2 Fizz 4 Buzz Fizz 7 8'))

10 20 Fizz 40 Buzz Fizz 70 80


In [75]:
print(re.sub('[0-9]+', lambda m: str(int(m.group()) * 10), '1 2 Fizz 4 Buzz Fizz 7 8'))

10 20 Fizz 40 Buzz Fizz 70 80


찾은 문자열을 결과에 다시 사용하기
- 정규표현식을 그룹으로 묶음
- \\\숫자

In [76]:
print(re.sub('([a-z]+) ([0-9]+)', '\\2 \\1 \\2 \\1', 'hello 1234'))

1234 hello 1234 hello


In [80]:
print(re.sub('({\s*)"(\w+)":\s*"(\w+)"(\s*})', '<\\2>\\3</\\2>', '{ "name": "james"}'))

<name>james</name>


In [83]:
print(re.sub('({\s*)"(?P<key>\w+)":\s*"(?P<value>\w+)"(\s*})', '<\\g<key>>\\g<value>/<\\g<key>>', '{ "name": "james"}'))

<name>james/<name>


## 43.5 연습문제: 이메일 주소 검사하기
다음 소스 코드를 완성하여 주어진 이메일 주소가 올바른지 판단하도록 만드세요. emails 리스트에서 앞의 다섯 개는 올바른 형식이며 마지막 세 개는 잘못된 형식입니다.


**re.complie()**  
prog = re.compile(pattern)   
result = prog.match(string)  

result = re.match(pattern, string) 과 같음 

In [98]:
p = re.compile('^[a-zA-Z0-9-_+.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$')
emails = ['python@mail.example.com', 'python+kr@example.com',              # 올바른 형식
          'python-dojang@example.co.kr', 'python_10@example.info',         # 올바른 형식
          'python.dojang@e-xample.com',                                    # 올바른 형식
          '@example.com', 'python@example', 'python@example-com']          # 잘못된 형식
 
for email in emails:
    print(p.match(email) != None, end=' ')

True True True True True False False False 

## 43.6 심사문제: URL 검사하기
표준 입력으로 URL 문자열이 입력 입력됩니다. 입력된 URL이 올바르면 True, 잘못되었으면 False를 출력하는 프로그램을 만드세요. 이 심사문제에서 판단해야 할 URL의 규칙은 다음과 같습니다.

http:// 또는 https://로 시작
도메인은 도메인.최상위도메인 형식이며 영문 대소문자, 숫자, -로 되어 있어야 함
도메인 이하 경로는 /로 구분하고, 영문 대소문자, 숫자, -, _, ., ?, =을 사용함

In [103]:
p = re.compile('^[http://|https://]*[a-zA-Z0-9-.]+\.[a-zA-Z0-9-.]+/[a-zA-Z0-9-_.?=]')

url = input()

print(p.match(url) != None)

https://example/hello/world.html
False
