### 정규표현식 re

In [1]:
import re

#### re 명령어
+ re.match(패턴, 문자열): 문자열의 시작이 패턴과 일치하는지 조사 (일치하면 해당 인덱스, 일치하지 않으면 None 반환)
+ re.search(패턴, 문자열): 문자열 전체에서 패턴과 일치하는 부분이 있는지 조사 (일치하는 부분 有 -> 첫 인덱스, 일치하는 부분 無 -> None 반환)
+ re.findall(패턴, 문자열): 문자열에서 패턴과 일치하는 부분을 모두 찾아냄 (찾은 부분을 리스트로 반환)
+ re.split(구분자, 문자열): 문자열을 구분자 기준으로 자름 (잘라낸 각각의 문자열을 리스트로 반환)
+ re.sub(패턴, 대체문자, 문자열): 문자열에서 패턴을 찾아 대체문자로 바꿈 (바꾼 문자열 반환)
+ re.compile(패턴): 패턴을 미리 해석 (복잡한 패턴을 사전에 정의해놓고 사용하는 경우 코드 가독성이 높아짐)

In [2]:
# re.match()
str = '이사원,오대리,구과장,육차장,정부장'
re.match('이사원',str)

<re.Match object; span=(0, 3), match='이사원'>

In [4]:
re.match('오대리',str) # str은 '오대리'로 시작되지 않아 반환값 없음

In [5]:
# re.search()
re.search('이사원',str)

<re.Match object; span=(0, 3), match='이사원'>

In [6]:
re.search('오대리',str)

<re.Match object; span=(4, 7), match='오대리'>

In [7]:
# re.findall()
re.findall('장',str)

['장', '장', '장']

In [9]:
# re.split()
words = re.split(',',str) # ,를 기준으로 문자열 분리해서 words 리스트에 담기
words

['이사원', '오대리', '구과장', '육차장', '정부장']

In [10]:
words[1]

'오대리'

In [12]:
# 여러 음절 중 원하는 패턴이 들어 있는 음절 찾기
for w in words:
    if re.search('장', w):
        print(w)

구과장
육차장
정부장


In [13]:
# re.sub()
str = re.sub('구','9',str)
str = re.sub('오','5',str)
str = re.sub('이','2',str)
str = re.sub('육','6',str)
str

'2사원,5대리,9과장,6차장,정부장'

In [14]:
# 패턴 정의하기
re.findall('0123456789',str) # 0123456789가 통째로 패턴으로 인식되므로 문자열 찾을 수 없음

[]

In [15]:
re.findall('[0123456789]',str)

['2', '5', '9', '6']

In [16]:
# -로 간단히 표시할 수 있음
re.findall('[0-9]',str)

['2', '5', '9', '6']

In [17]:
# or을 의미하는 | 사용
re.findall('0|1|2|3|4|5|6|7|8|9',str)

['2', '5', '9', '6']

In [18]:
re.findall('과장|차장|부장',str)

['과장', '차장', '부장']

In [19]:
re.findall('[과장|차장|부장]',str) # 과,장,차,..와 같이 각각 개별적인 문자열로 인식

['과', '장', '차', '장', '부', '장']

+ __조심해야할 점: 공백조차도 패턴으로 인식되므로 의도되지 않은 공백을 넣으면 안됨__

#### re를 활용한 데이터 정제
+ 인터넷에서 수집해온 페이지에서 원하는 데이터를 뽑아내기 위해서는 문장->음절로 분해하는 과정 필요

In [None]:
nums = re.split(',',str)
nums

In [22]:
# 숫자가 포함된 직급만 표시
for n in nums:
    if re.search('[0-9]',n):
        print(n)

2사원
5대리
9과장
6차장


In [24]:
# 과장 이상의 직급만
for n in nums:
    if re.search('장',n):
        print(n)

9과장
6차장
정부장


In [26]:
# 문자열 내에 동일한 구문이 반복되는 경우 -> 반복 연산자를 활용
# BA를 포함한 문자열 모두 찾기
str = ['B','BA','BAAA','BAAAAA','CBA','CBABA','CBABABA']
for s in str:
    if re.search('BA',s):
        print(s)

BA
BAAA
BAAAAA
CBA
CBABA
CBABABA


In [27]:
# BAㅁㅁ 형태의 패턴
for s in str:
    if re.search('BA..',s):
        print(s)

BAAA
BAAAAA
CBABA
CBABABA


In [28]:
# BAㅁㅁㅁ 형태의 패턴
for s in str:
    if re.search('BA...',s):
        print(s)

BAAAAA
CBABABA


- 특정 문자를 지정하고 *,+,{} 등을 활용
  + "*": 0회 이상 반복 (BA*: B,BA,BAA,...)
  + +: 1회 이상 반복 (BA+: BA,BAA,BAAA,...)
  + ?: 1회 이하 반복 (BA?: B,BA)
  + {m,n}: m회 이상, n회 이하 반복
    * BA{2,4}: BAA,BAAA,BAAAA
    * BA{2}: BAA
    * BA{2,}: BAA,BAAA.BAAAA,...
    * BA{,2}: B,BA,BAA

In [29]:
for s in str:
    if re.search('BA*',s):
        print(s)

B
BA
BAAA
BAAAAA
CBA
CBABA
CBABABA


In [30]:
for s in str:
    if re.search('BA{2,3}',s):
        print(s)

BAAA
BAAAAA


In [31]:
for s in str:
    if re.search('(BA){3}',s):
        print(s)

CBABABA


In [33]:
for s in str:
    if re.search('BA',s):
        print(s)

BA
BAAA
BAAAAA
CBA
CBABA
CBABABA


In [32]:
# ^활용하여 C로 시작되는 것들 말고 B로 시작되는 것들만 찾아오기
for s in str:
    if re.search('^BA',s):
        print(s)

BA
BAAA
BAAAAA


In [35]:
# 이번에는 match 활용
for s in str:
    if re.match('BA',s):
        print(s)

BA
BAAA
BAAAAA


In [36]:
# BA로 딱 끝나는 문자열을 찾으려면... -> $
for s in str:
    if re.search('BA$',s):
        print(s)

BA
CBA
CBABA
CBABABA


In [37]:
for s in str:
    if re.search('^BA$',s):
        print(s)

BA


#### 핸드폰 번호 검색
+ re.compile() 활용

In [44]:
phone = ['010-1111-2222','01012345678','010 5555 7777',
        '0709999-0000','010.2222~5555','02-3774-3774']
phone_pattern = re.compile('010[-~= \.]?[0-9]{4}[-~= \.]?[0-9]{4}')

1. 핸드폰 인식 번호 010
2. 번호 사이 공백[-~=\.]?: 가능한 문자를 모두 고려, 각 기호는 or 조건으로 취급, 공백은 ' '를 넣어야 함
3. [-~=\.]?: .은 임의의 문자를 의미하는 특수기호이므로 그냥 넣어주면 파이썬이 제대로 인식할 수 없음
  - 특수기호를 넣을 때는 \를 병기
4. [-~=\.]?: []?는 []안의 내용이 0회 또는 1회 발생할 수 있다는 의미
5. 중간 및 끝 번호[0-9]{4}: 숫자가 4번 반복된다는 의미

In [45]:
for p in phone:
    if phone_pattern.search(p):
        print(p)

010-1111-2222
01012345678
010 5555 7777
010.2222~5555


In [46]:
for p in phone:
    if phone_pattern.search(p):
        p = re.sub('[^0-9]','',p) # \D도 같은 표현
        print(p[:3] + '-' + p[3:7] + '-' + p[7:])

010-1111-2222
010-1234-5678
010-5555-7777
010-2222-5555


#### 간편식을 이용한 패턴 정의
+ \d: [0-9] 숫자
+ \D: [^0-9] 숫자 제외 전체
+ \w: [A-Za-z0-9] 문자+숫자
+ \W: [^A-Za-z0-9] 문자와 숫자를 제외한 전체
+ \s: [ \t\n\r] 공백(스페이스,탭,엔터 등)
+ \S: [^ ] 공백 제외 전체

In [48]:
str = 'ABcd12!@ 가나'
print('숫자:',re.findall('\d',str))
print('숫자X:',re.findall('\D',str))
print('문자:',re.findall('\w',str))
print('문자X:',re.findall('\W',str))
print('공백:',re.findall('\s',str))
print('공백X:',re.findall('\S',str))

숫자: ['1', '2']
숫자X: ['A', 'B', 'c', 'd', '!', '@', ' ', '가', '나']
문자: ['A', 'B', 'c', 'd', '1', '2', '가', '나']
문자X: ['!', '@', ' ']
공백: [' ']
공백X: ['A', 'B', 'c', 'd', '1', '2', '!', '@', '가', '나']
