# 정규 표현식 사용하기

In [1]:
import re

def groupRegex(r):
    if r:
        return r.group()
    else:
        return None

In [2]:
# match
r1 = re.match("Hello","Hello, world!")
r2 = re.match("Python","Hello, world!")
r3 = re.search("^Hello","Hello,world")
print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

# findall
r4 = re.findall("Hello","Hello, world!")
print(r4)

Hello
None
Hello
['Hello']


### 지정된 문자열이 포함되는지 판단하기

* `^` : 문자열이 맨 앞에 오는지
* `$` : 문자열이 맨 뒤에 오는지

In [3]:
r1 = re.search("^Hello","Hello,world")
r2 = re.search("^Hello","hi,Hello,world")
r3 = re.search("world$","Hello, world")

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

Hello
None
world


### 문자열이 하나라도 포함되는지
* `|` : 문자열이 하나라도 포함되는지

In [4]:
r1 =re.match("hello|world","hello")
print(groupRegex(r1))

hello


### 범위 판단하기
* `*` : 문자(숫자)가 0개 이상인지
* `+` : 문자(숫자)가 1개 이상인지

In [5]:
r1 = re.match('[0-9]+','1234')
r2 = re.match('[0-9]*','1234')
r3 = re.match('[0-9]*','abcd')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

1234
1234



In [51]:
r1 = re.match('a*b','b')
r2 = re.match('a+b','b')
r3 = re.match('a*b','aab')
r4 = re.match('a+b','aab')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))
print(groupRegex(r4))

b
None
aab
aab


### 문자가 한 개만 있는지 판단하기
* `?` : 문자가 0개 또는 1개인지
* `.` : 문자가 1개인지

In [7]:
r1 = re.match('H?','H')
r2 = re.match('H?','Hi')
r3 = re.match('H.','Hi')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

H
H
Hi


### 문자 개수 판단하기
* `문자{개수}`: "문자"가 "개수"만큼 있는지
* `문자열{개수}`: "문자열"이 "개수"만큼 있는지
* `[0-9]{개수}`: "숫자"기 "개수"만큼 있는지

In [8]:
r1 = re.match('h{3}','hhhello')
r2 = re.match('(hello){3}','hellohellohello')
r3 = re.match('[0-9]{3}-[0-9]{3}-[0-9]{4}','010-101-0101')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

hhh
hellohellohello
010-101-0101


### 숫자와 영문 문자를 조합해서 판단하기
* `a-z`: 소문자
* `A-Z`: 대문자
* `가-힣`: 한글

In [9]:
r1 = re.match('[a-zA-Z0-9]+','Hello1234')
r2 = re.match('[A-Z0-9]+','hello')
r3 = re.match('[가-힣]+','홍길동')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))

Hello1234
None
홍길동


### 특정 문자 범위에 포함되지 않는지

* `[^범위]*`
* `[^범위]+`

In [60]:
r1 = re.search("[^A-Z]*",'hello')
r2 = re.search("[^A-Z]+",'hello')

print(groupRegex(r1))
print(groupRegex(r2))

hello
hello


### 특정 문자 범위로 끝나는지

* `[범위]*$`
* `[범위]*+`

In [18]:
r1 = re.search("[0-9]+$",'Hello1234')

print(groupRegex(r1))

1234


### 특수 문자 판단하기

* `\특수문자` :  특수 문자 판단
* `\d` : 모든 숫자
* `\D` : 숫자가 아닌 모든 문자
* `\w` : 영문 대소문자, 숫자, 밑줄 문자
* `\D` : 영문 대소문자, 숫자, 밑줄 문자가 아닌 모든 문자


In [27]:
r1 = re.search('\*+',"1 ** 2")
r2 = re.search('\d+','1234')
r3 = re.search('\D+','1234')
r4 = re.search('\D+','Hello')
r5 = re.search('\w+','Hello_1234')

print(groupRegex(r1))
print(groupRegex(r2))
print(groupRegex(r3))
print(groupRegex(r4))
print(groupRegex(r5))

**
1234
None
Hello
Hello_1234


### 공백 처리하기

* `\s` : 공백,  \t, \n, \r, \f, \v 을 포함
* `\S` : 공백을 제외하고 \t, \n, \r, \f, \v만 포함

In [35]:
r1 = re.search('[a-zA-Z0-9 ]+',"Hello 1234")
r2 = re.search('[a-zA-Z0-9\s]+',"Hello 1234")

print(groupRegex(r1))
print(groupRegex(r2))

Hello 1234
Hello 1234


### 그룹 사용하기

* `(정규 표현식) (정규 표현식)`
* `매치객체.group(숫자)` : 그룹에 해당하는 문자열(숫자)를 가져옴
* `매치객체.groups()` : 그룹에 해당하는 문자열(숫자)을 튜플로 반환
* `(?P<이름>정규표현식)` ->  `매치객체.group('그룹이름')`: 그룹에 이름을 지은 뒤 반환


In [41]:
r1 = re.match('([0-9]+) ([0-9]+)','10 123')
print(r1.group(1))
print(r1.group(2))
print(r1.group())
print(r1.group(0))
print(r1.groups())

10
123
10 123
10 123
('10', '123')


In [42]:
r1 = re.match('(?P<func>[a-zA-Z_][a-zA-Z0-9_]+)\((?P<arg>\w+)\)','print(1234)')
print(r1.group('func'))
print(r1.group('arg'))

print
1234


### 패턴에 매칭되는 모든 문자열 가져오기

* `re.findall('패턴','문자열')`

In [45]:
r1 = re.findall('[0-9]+','1 2 Fizz 4 Buzz Fizz 7 8')
print(r1)

['1', '2', '4', '7', '8']


### 문자열 바꾸기

* `re.sub('패턴','바꿀 문자열','문자열',바꿀 횟수)` 
* `re.sub('패턴',교체함수,'문자열',바꿀 횟수)` 


In [48]:
r1 = re.sub('apple|orange','fruit','apple box orange tree')
r2 = re.sub('[0-9]+',lambda m: str(int(m.group()) * 10),'1 2 Fizz 4 Buzz Fizz 7 8')

print(r1)
print(r2)

fruit box fruit tree
10 20 Fizz 40 Buzz Fizz 70 80
