## 정규표현식 (regular expression)
- 문자열을 패턴에 초점을 맞춰 특정한 형식으로 표현한 것
- abbcccdddd와 같은 문자열을 [ab{2}c{3}d{4}]와 같이 표현하는 것

In [2]:
# 're' 모듈은 파이썬에서 정규 표현식을 사용하기 위한 기능을 제공하는 모듈
import re

## re.match(pattern, string)
- 문자열의 시작 부분에서 정규 표현식 패턴 'pattern'을 검색

In [20]:
re.match('봄', '봄, 여름, 가을, 겨울')

<re.Match object; span=(0, 1), match='봄'>

In [10]:
# 가장 맨 앞의 인덱스에서 해당하는 패턴이 없으면 아무것도 출력되지 않는다.
re.match('여름', '봄, 여름, 가을, 겨울')

In [8]:
# 매칭이 안 되면 아무것도 출력되지 않는다.
re.match('맑음', '봄, 여름, 가을, 겨울')

In [31]:
# '|' 기호를 사용하면 여러 문자열 중 하나라도 포함되어 있으면 출력하낟.
print(re.match('fresh|milk', 'fresh milk'))
print(re.match('fresh|milk', 'milk fresh'))

<re.Match object; span=(0, 5), match='fresh'>
<re.Match object; span=(0, 4), match='milk'>


In [10]:
# 모든 숫자를 표현하는 방법 [0-9]
print(re.match('[0-9]', '135790')) # 이러면 숫자 1만 찾아진다.

# 원하는 모든 숫자를 찾기 위해서는 [0-9]+ 와 같은 식으로 작성한다.
# '+'는 찾고자 하는 pattern이 바로 앞의 문자나 그룹에 1개 이상 있는지 확인해준다.
print(re.match('[0-9]+', '135790홀수'))

# 물론 .match이기에 입력한 string의 앞에 찾고자 하는 패턴과 다른 것이 있으면 출력이 안 된다.
print(re.match('[0-9]+', '홀수135790홀수'))

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 6), match='135790'>
None


## re.search(pattern, string)
- 문자열 전체를 확인하고 정규 표현식 패턴 'pattern'을 검색

In [13]:
# 전체 패턴의 위치를 확인해준다.
re.search('가을', '봄, 여름, 가을, 겨울')
# 봄  , '' 여  름  , ''  가 을
#[0][1][2][3][4][5][6][7][8]

<re.Match object; span=(7, 9), match='가을'>

In [7]:
# .match와 달리 .search는 string의 앞에 찾고자 하는 패턴과 다른 것이 있어도 출력이 된다.
print(re.search('[0-9]+', '홀수135790홀수'))

<re.Match object; span=(2, 8), match='135790'>


pattern에서 찾을 범위를 다음과 같이 설정할 수 있다.
- a-z
- A-Z
- 가-힣
- 0-9

- [a-zA-Z가-힣0-9]* 전체를 찾기 위한 패턴 예시


In [14]:
# 소문자를 찾아서 출력한다.
re.search('[a-z]+', '13579 숫자는 odd')

<re.Match object; span=(10, 13), match='odd'>

In [15]:
re.search('[A-Z]+', '13579 숫자는 ODD')

<re.Match object; span=(10, 13), match='ODD'>

In [9]:
re.search('[가-힣]+', 'odd에해당하는숫자는13579입니다.')
# 이미 찾은 속성은 다시 찾지 못한다. (입니다가 출력이 되지 않았다.)

<re.Match object; span=(3, 11), match='에해당하는숫자는'>

In [13]:
re.search('[a-zA-Z가-힣0-9]+', 'odd에해당하는숫자는13579입니다.')

<re.Match object; span=(0, 19), match='odd에해당하는숫자는13579입니다'>

## 문자(열) 개수 판단하기
- re.search('문자(열){개수}', 'string')

In [19]:
# 정확한 '문자(열){개수}'의 의미는 문자가 개수만큼 나오는 곳을 찾으라는 것 
re.search('b{4}', 'abaabbaaabbbaaaabbbb')

<re.Match object; span=(16, 20), match='bbbb'>

In [21]:
# 문자열이라는 것을 구분하기 위해서는 소괄호를 문자열의 양 옆에 입력한다.
re.search('(BDA){3}', 'ADBDABDABDADA')

<re.Match object; span=(2, 11), match='BDABDABDA'>

## 패턴 응용(전화번호, 주민등록번호)
- 전화번호 패턴: 010-1234-5678
- 주민등록 패턴 (비식별화를 위한 앞6자리와 뒤 첫 1자리): 010101-1

In [25]:
human_regist_num = input("주민등록번호를 앞자리부터 입력하세요 ('-'기호도 넣어주세요!)")
summarize_human_regist_num = re.search('[0-9]+-[0-9]', human_regist_num)
print('주민등록번호는', summarize_human_regist_num.group(), '입니다.')

주민등록번호는 010101-1 입니다.


In [28]:
human_dial_num = input("전화번호를 앞자리부터 입력하세요 ('-'기호도 넣어주세요!)")
summarize_human_dial_num = re.search('[0-9]{3}-[0-9]{4}-[0-9]{4}', human_dial_num)
print('전화번호는', summarize_human_dial_num.group(), '입니다.')

전화번호는 010-1234-5678 입니다.


## 응용 - 문자 '^'
- not을 의미
- 특정 문자 범위 포함되지 않는지 판단하는 것
- [^범위]와 같은 방법으로 사용

In [32]:
# ^(not)의 의미는 말 그대로 아닌 것을 의미한다.
# 아래는 ^을 사용하지 않았을 때와 사용했을 때의 차이를 보여준다.
print(re.search('[a-zA-Z]+', 'CPythonJavaR1234'))
print(re.search('[^a-zA-Z]+', 'CPythonJavaR1234'))

<re.Match object; span=(0, 12), match='CPythonJavaR'>
<re.Match object; span=(12, 16), match='1234'>


## 응용 - 특수문자 찾기
- re.search('\찾을특수문자', ...)와 같은 식으로 사용한다.

In [33]:
re.search('\*+', '반짝반짝많은별*******************너무 많네')

<re.Match object; span=(7, 26), match='*******************'>

- 문자와 숫자의 패턴을 더 간단하게 표현할 수 있다.

- \d [0-9]
- \D [^0-9]
- \s [a-zA-Z0-9_]
- \S [^a-zA-Z0-9_]

In [35]:
print(re.search('\d', '홀수135790홀수'))
# 위의 코드는 re.search('[0-9]', '홀수135790홀수')와 같다.
print(re.search('\d+', '홀수135790홀수'))
# 위의 코드는 re.search('[0-9]+', '홀수135790홀수')와 같다.

<re.Match object; span=(2, 3), match='1'>
<re.Match object; span=(2, 8), match='135790'>


In [40]:
# 첫 번째 match 코드의 경우 공백을 포함하지 않았기에 My만 출력된다.
print(re.match('[a-zA-z0-9]+', 'My name is JuKyeong'))
# 두 번째 match 코드의 경우 공백을 포함하는 코드를 넣어기에 전부 출력된다.
print(re.match('[a-zA-Z0-9\s]+', 'My name is JuKyeong'))
# 위의 코드는 print(re.match('[a-zA-Z0-9 ]+', 'My name is JuKyeong'))와 같다.

<re.Match object; span=(0, 2), match='My'>
<re.Match object; span=(0, 19), match='My name is JuKyeong'>


## 정규표현식 복수사용
- 정규표현식을 복수로 묶을 수 있다.
- ex) re.search('(정규표현식)(정규표현식)', 'string')
- group을 사용해서 출력할 수 있다.

In [41]:
regular_expression_plural = re.search('([a-zA-Z가-힣]+) ([0-9]+)', 'odd는 13579')

In [42]:
regular_expression_plural.group(1)

'odd는'

In [43]:
regular_expression_plural.group(2)

'13579'

In [44]:
# .group(0)의 경우 작성한 모든 정규표현식에 해당하는 것을 출력한다.
regular_expression_plural.group(0)

'odd는 13579'

## re.findall('pattern', 'string')
- 정규 표현식에 매칭되는 모든 부분을 찾아 리스트로 반환하는 함수

In [45]:
# 코딩 관련 프로그램만 출력되게 한다.
cording_program = re.findall('[a-zA-Z]+', '1.Python 2.C 3.Java 4.R 5.SQL')
# 리스트로 찾은 문자열(코딩 관련 프로그램)을 반환해 준다.

In [46]:
cording_program

['Python', 'C', 'Java', 'R', 'SQL']

## re.sub('pattern(changed string)', 'change string', 'string', change count)
- 정규 표현식을 사용하여 문자열에서 패턴을 찾아 해당 패턴을 다른 문자열로 대체하는 역할

In [49]:
# 'banana'를 'orange'로 대체한다.
change_after=re.sub('banana', 'orange',
                    'apple, banana, samsung, fourstar')
print(change_after)

apple, orange, samsung, fourstar


In [56]:
re.sub('[1,3,5,7,9]+', '홀수', '1 2 3 4 5 6 7 8 9')

'홀수 2 홀수 4 홀수 6 홀수 8 홀수'