### 정규식

- 정규표현식
- Regular Expression
- 복잡한 문자열을 처리할 때 사용하는 기법
    - 문자열에서 원하는 데이터만 추출, 가공, 삭제 <= 전처리/정제    

In [1]:
# 1. 모듈 가져오기
import re

- 메타문자 (meta characters)
    - 일반표현 : | . ^ $ * + ? {} () []
    - 이스케이프 표현 : \d, \D, \s \S \w \W \b \B
    
- 함수
    - match()
    - search()
    - findall()
    - finditer()
    - sub()
    
- 그룹핑
- 전방탐색
    - 긍정형 전방 탐색
    - 부정형 전방 탐색

- 컴파일 옵션

In [2]:
test_txt = '''
BTS (Korean: 방탄소년단; RR: Bangtan Sonyeondan), also known as the Bangtan Boys, is a seven-member South Korean boy band formed in Seoul in 2013. The septet co-writes and produces much of their output. Originally a hip hop group, their musical style has evolved to include a wide range of genres. Their lyrics, often focused on personal and social commentary, touch on the themes of mental health, troubles of school-age youth, loss, the journey towards loving oneself, and individualism. Their work features references to literature and psychological concepts and includes an alternative universe storyline. The group have staged several world tours. 
'''
test_txt[:20]

'\nBTS (Korean: 방탄소년단;'

In [3]:
# 원문에서 한글 제거
# 한글 초성 + 중성 + 종성  => euc-kr, 16bit => 조합형 코드
# 한글 가,갸,거,겨,        => utf-8,  8bit => 완성형 코드
# 완성형 기준 => ㄱ ~ ㅣ -> 가 ~ 힣
hangul = re.compile('[ㄱ-ㅣ가-힣]+')

In [4]:
# 한글을 ''으로 대체해라 -> 제거해라
hangul.sub( '', test_txt )[:100]

'\nBTS (Korean: ; RR: Bangtan Sonyeondan), also known as the Bangtan Boys, is a seven-member South Kor'

In [5]:
alpha = re.compile('[a-zA-Z]+')

In [6]:
alpha.sub( '', test_txt )[:100]

'\n (: 방탄소년단; :  ),      ,   -         2013.   -      .     ,            .  ,       ,       ,   - , , '

- 1. 데이터를 보고 <= 통찰
- 2. 정제 및 추출을 할 수 있는 표현식을 구현한 후 <= 정규식 구현
- 3. 함수를 써서 데이터를 획득한다 <= 최종 추출


### 메타 문자

- **|**
- 의미 : or

In [7]:
# re.match( 정규식, 데이터 )
# re.match() : 특정 패턴이 데이터에 적용되었는지를 검사
if re.match( 'a|b|c', 'a' ):print('1. 매치된다')
if re.match( 'a|b|c', 'b' ):print('2. 매치된다')
if re.match( 'a|b|c', 'c' ):print('3. 매치된다')

1. 매치된다
2. 매치된다
3. 매치된다


In [8]:
if re.match( 'a|b|c', 'd' ):print('4. 매치된다')
# 한 개라도 일치되는 게 있으면 참
if re.match( 'a|b|c', 'ad' ):print('5. 매치된다')
# a나 b나 c중에 하나가 가장 먼저 시작한다(첫 글자) -> False
if re.match( 'a|b|c', 'da' ):print('6. 매치된다')

5. 매치된다


####  **[ ]**
- 의미 : 문자 클래스
- '['와  ']' 사이에는 어떤 문자도 들어갈 수 있다.
- []는 문자 한개를 의미한다.
- match(시작단어), search(전체 중 일치되는 단어)를 사용할 경우 한 개만 일치되도 참

In [9]:
# 문자열은 a, b, c 중에 하나가 시작문자여야 한다.
if re.match( '[abc]', 'a' ):print('1. 매치된다')
if re.match( '[abc]', 'efz' ):print('2. 매치된다')
if re.match( '[abc]', 'abd' ):print('3. 매치된다')
if re.match( '[abc]', 'b56' ):print('4. 매치된다')
    
if re.search( '[abc]', '56b' ):print('5. 매치된다')

1. 매치된다
3. 매치된다
4. 매치된다
5. 매치된다


####  **-**  
- 의미 : [] 문자 클래스 안에 두 개의 문자 사이에 표현하면
- from ~ to : 어디서부터 어디까지 범위를 표현

In [10]:
if re.match( '[0123456789]', '1' ):print('1. 매치된다')
if re.match( '[0-9]', '1' ):print('2. 매치된다')

1. 매치된다
2. 매치된다


In [11]:
if re.match( '[a-zA-Z]', '1' ): print('3. 매치된다')
if re.match( '[a-zA-Z]', 'B' ): print('4. 매치된다')

4. 매치된다


In [12]:
if re.match( '[0-9a-z]', 'Aa' ): print('5. 매치된다')
# 문자열 내에 존재하기만 하면 체크 됨.
if re.search( '[0-9a-z]', 'Aa' ): print('6. 매치된다')

6. 매치된다


In [13]:
# 한글 완성형 코드(utf-8)
if re.match( '[ㄱ-힣]', '가나다bc' ): print('7. 매치된다')

7. 매치된다


#### **.**

- 의미 : dot(.) 줄바꿈 기호 \n을 제외하고 모든 문자에 매치
- => 문자 클래스가 아닌 곳에서 해당 됨.
- 문자 클래스 내부에서 .은 .이다.

In [14]:
if re.match( '[a.b]', 'a' ): print('1. 매치된다')
if re.match( '[a.b]', 'b' ): print('2. 매치된다')
if re.match( '[a.b]', 'c' ): print('3. 매치된다')
    
if re.match( '[a.b]', 'ab' ): print('4. 매치된다')
if re.match( '[a.b]', 'a1b' ): print('5. 매치된다')
if re.match( '[a.b]', 'abc' ): print('6. 매치된다')
if re.match( '[a.b]', 'bcd' ): print('7. 매치된다')
if re.match( '[a.b]', 'cab' ): print('8. 매치된다')
    
if re.match( '[a.b]', '.ab' ): print('9. 매치된다')

1. 매치된다
2. 매치된다
4. 매치된다
5. 매치된다
6. 매치된다
7. 매치된다
9. 매치된다


In [15]:
# a문자b라는 형태로 출발해야 통과
if re.match( 'a.b', 'a' ): print('1. 매치된다')
if re.match( 'a.b', 'abc' ): print('2. 매치된다')
if re.match( 'a.b', 'a1b' ): print('3. 매치된다')
if re.match( 'a.b', 'a2be' ): print('4. 매치된다')

3. 매치된다
4. 매치된다


####  ^
- 의미 :
        일반 문자열 => 문자열의 맨 처음과 일치함을 의미
        문자 클래스내 => 배제, 해당 문자 배제
        re.MULTILINE => 각 라인의 처음과 일치함을 조사

In [16]:
# [^0-9]: 숫자를 제외하고 모든 문자가 시작문자가 될 수 있다.
if re.match( '[^0-9]', '1'): print('1.매치된다')
if re.match( '[^0-9]', '가'): print('2.매치된다')
if re.match( '[^0-9]', 'a'): print('3.매치된다')
if re.match( '[^0-9]', 'ab'): print('4.매치된다')

2.매치된다
3.매치된다
4.매치된다


#### $
- 의미 : 문자열의 맨 끝과 일치

In [17]:
# 숫자나 .으로 시작하고 끝난다.
if re.match( '^[0-9\.]$', '1' ): print('1. 매치된다')

1. 매치된다


In [18]:
if re.match( '^[0-9\.]$', '.' ): print('1. 매치된다')

1. 매치된다


In [19]:
# 문자열은 1개 -> 문자의 수량에서 False => 해결방안 * or +
if re.match( '^[0-9\.]$', '11' ): print('1. 매치된다')
if re.match( '^[0-9\.]$', '1.' ): print('2. 매치된다')
if re.match( '^[0-9\.]$', '.1' ): print('3. 매치된다')
if re.match( '^[0-9\.]$', '..' ): print('4. 매치된다')

#### *
- 의미 : *를 붙인 바로 앞 문자 0-무한대 반복

#### +
- 의미 :
        +를 붙인 바로 앞 문자 1-무한대 반복
        문자열 클래스 내부에서 기술하면 단순 +가 될수도 있고, 반복의 의미가 될 수도 있다.(주변값을 고려해서 해석)

In [20]:
if re.match( '^[0-9\.]+$', '11' ): print('1. 매치된다')
if re.match( '^[0-9\.]+$', '1.' ): print('2. 매치된다')
if re.match( '^[0-9\.]*$', '.1' ): print('3. 매치된다')
if re.match( '^[0-9\.]*$', '..' ): print('4. 매치된다')

1. 매치된다
2. 매치된다
3. 매치된다
4. 매치된다


In [21]:
# 정규식의 패턴에 늘어감에 따라 match는 종합적인 조건을 따지게 된다.
# 시작문자 and 끝문자 and 문자수 and 문자 성분
if re.match( '^[0-9\.]*$', '.asdf.' ): print('4. 매치된다')

In [22]:
data = '''류현진의 국내 매니지먼트를 담당하는 에이스펙 코퍼레이션은 “류현진이 25일 출국할 예정”이라고 전했다.

류현진은 메디컬테스트를 받고 이상이 발견되지 않으면 현지에서 입단 기자회견도 소화할 계획이다.

앞서 자유계약선수(FA) 신분인 류현진은 23일 토론토와 4년 8000만 달러(약 929억4000만 원)에 입단하기로 합의했다. 국내에서 훈련하던

류현진 대신해 에이전트 스콜 보라스가 협상을 진행했고, 토론토가 내민 조건에 합의했다. 미국과 캐나다 현지에서 기사가 쏟아졌지만 구단은 아직 확정 발표를 하지 않았다.

한국인 투수 FA 최대 규모 계약은 박찬호가 2001년 12월 21일 텍사스 레인저스와 맺은 5년 6500만 달러다. 

류현진은 메디컬테스트를 통과하고 정식 계약서에 사인하는 순간 한국인 투수 FA 역대 최대 규모 계약의 주인공이 된다.
'''
data
# 특정 단어가 시작문자로 여러줄에 걸쳐서 등장한다.

'류현진의 국내 매니지먼트를 담당하는 에이스펙 코퍼레이션은 “류현진이 25일 출국할 예정”이라고 전했다.\n\n류현진은 메디컬테스트를 받고 이상이 발견되지 않으면 현지에서 입단 기자회견도 소화할 계획이다.\n\n앞서 자유계약선수(FA) 신분인 류현진은 23일 토론토와 4년 8000만 달러(약 929억4000만 원)에 입단하기로 합의했다. 국내에서 훈련하던\n\n류현진 대신해 에이전트 스콜 보라스가 협상을 진행했고, 토론토가 내민 조건에 합의했다. 미국과 캐나다 현지에서 기사가 쏟아졌지만 구단은 아직 확정 발표를 하지 않았다.\n\n한국인 투수 FA 최대 규모 계약은 박찬호가 2001년 12월 21일 텍사스 레인저스와 맺은 5년 6500만 달러다. \n\n류현진은 메디컬테스트를 통과하고 정식 계약서에 사인하는 순간 한국인 투수 FA 역대 최대 규모 계약의 주인공이 된다.\n'

In [23]:
# 정규식을 컴파일하고,
# 이를 이용하여 데이터를 처리한다.
# \s : whitespace (공백, 탭... etc)
# \w : 한 단어( +, * 통해서 늘릴 수 있다.)
# 류현진으로 시작하고 한 칸 띄우고 단어 한 덩어리로 시작하는 문자열
p = re.compile( '^류현진\s\w+')

In [24]:
# 한번밖에 안 나온다 => 멀티 라인 미지원
p.findall( data )

[]

In [25]:
# 문자열 전체의 단락별 시작문자열이 패턴과 일치하면 다 수집
# 멀티 라인 지원
p = re.compile( '^류현진\w+', re.MULTILINE )
p.findall(data)

['류현진의', '류현진은', '류현진은']

In [26]:
# 문자열 전체에 동일 패턴이 보이면 다 수집
p = re.compile( '류현진\w+', re.MULTILINE )
p.findall(data)

['류현진의', '류현진이', '류현진은', '류현진은', '류현진은']

In [27]:
# $ : 문자열의끝 패턴
if re.match( '^[0-9]+[a-z]+$', '1' ): print('1. 매치된다')
if re.match( '^[0-9]+[a-z]+$', '11' ): print('2. 매치된다')
if re.match( '^[0-9]+[a-z]+$', '111111A' ): print('3. 매치된다')
if re.match( '^[0-9]+[a-z]+$', '111111a' ): print('4. 매치된다')

4. 매치된다


In [28]:
# 반복
# * : 0~무한대, 없어도 되고 많이 있어도 되고
if re.match( 'bus*an', 'buan' ): print('1. 매치된다')
if re.match( 'bus*an', 'busan' ): print('2. 매치된다')
if re.match( 'bus*an', 'bussan' ): print('3. 매치된다')

1. 매치된다
2. 매치된다
3. 매치된다


In [29]:
# + : 1~무한대
if re.match( 'bus+an', 'buan' ): print('1. 매치된다')
if re.match( 'bus+an', 'busan' ): print('2. 매치된다')
if re.match( 'bus+an', 'bussan' ): print('3. 매치된다')

2. 매치된다
3. 매치된다


- {}
    - 반복 횟수 지정
    - {2} 2번 반복
    - {2, 3} 2부터 3까지 반복
- ?
    - {0, 1}
    - 0번 OK, 1번 OK
    - 안 나오든지, 1번만 나오든지
    

In [30]:
if re.match( 'bus{2}an', 'buan' ): print('1. 매치된다')
if re.match( 'bus{2}an', 'busan' ): print('2. 매치된다')
if re.match( 'bus{2}an', 'bussan' ): print('3. 매치된다')

3. 매치된다


In [31]:
# 문자 클래스 안에서는 본질적인 의미가 없어진다. 그냥 문자로 본다.
if re.match( '[bus{2}an]', 'buan' ): print('1. 매치된다')
if re.match( '[bus{2}an]', 'busan' ): print('2. 매치된다')
if re.match( '[bus{2}an]', 'bussan' ): print('3. 매치된다')
    # 반복하고 싶으면 클래스 [] 바깥에서 

1. 매치된다
2. 매치된다
3. 매치된다


In [32]:
if re.match( 'bus{2,3}an', 'buan' ): print('1. 매치된다')
if re.match( 'bus{2,3}an', 'busan' ): print('2. 매치된다')
if re.match( 'bus{2,3}an', 'bussan' ): print('3. 매치된다')
if re.match( 'bus{2,3}an', 'busssan' ): print('4. 매치된다')
if re.match( 'bus{2,3}an', 'bussssan' ): print('5. 매치된다')

3. 매치된다
4. 매치된다


In [33]:
# 범위 안에서 전부 OK
if re.match( 'bus{2,4}an', 'buan' ): print('1. 매치된다')
if re.match( 'bus{2,4}an', 'busan' ): print('2. 매치된다')
if re.match( 'bus{2,4}an', 'bussan' ): print('3. 매치된다')
if re.match( 'bus{2,4}an', 'busssan' ): print('4. 매치된다')
if re.match( 'bus{2,4}an', 'bussssan' ): print('5. 매치된다')

3. 매치된다
4. 매치된다
5. 매치된다


In [34]:
# ?
if re.match( 'bus?an', 'buan' ): print('1. 매치된다')
if re.match( 'bus?an', 'busan' ): print('2. 매치된다')
if re.match( 'bus?an', 'bussan' ): print('3. 매치된다')

1. 매치된다
2. 매치된다


아래는 연습

In [35]:
# 핸드폰 전화번호 정규식
# 010-숫자4개-숫자4개
tel = re.compile( '01[0-9]-[0-9]{3,4}-[0-9]{4}' )

In [36]:
data = '''가나다라마바사010-1234-5678가마다라달미abvc010-1111-2222dsadk fldsajflew016-223-23423
dsafsdflkadjflw010-4444-5555da flkfjlaew010-33-23243233-010-2342-4433ds afnl016-324-3214asjdl
dsajlkdslkjds011-2222-4344fsjklajlk011-443-8990dsaklf  ajdlasjlks
'''

In [37]:
tel.findall(data)

['010-1234-5678',
 '010-1111-2222',
 '016-223-2342',
 '010-4444-5555',
 '010-2342-4433',
 '016-324-3214',
 '011-2222-4344',
 '011-443-8990']

In [38]:
email = re.compile( '[a-zA-Z0-9]+@[a-zA-Z0-9]+.com|[a-zA-Z0-9]+@[a-zA-Z0-9]+.net')

In [39]:
data = '''
dsfhkjldefrhkjqewhkj/email@email.comdsafdsa/fdsawakl90-_goo@gmail.comㄱㅁ나ㅓㅁㄴ어ㅣㅏㄴㅁㅇ
ㅇ람ㄴㅇ리ㅏㅓㅁㄴㅁㄺ디마dfsalkdf@naver.comdsakjfhsadkjeus07@daum.net강ㄴ미ㅏㅓ니ㅏㅓ
'''

In [40]:
email.findall(data)

['email@email.com',
 'goo@gmail.com',
 'dfsalkdf@naver.com',
 'dsakjfhsadkjeus07@daum.net']

연습 끝

In [41]:
# 핸드폰 전화번호 정규식
# 010-숫자4개-숫자4개
if re.match('^010-[0-9]{4}-[0-9]{4}$', '010-1234-5678'):
    print('1. 매치된다')

1. 매치된다


### 메타문자 > 이스케이프

- \d <-> \D
- \s <-> \S
- \w <-> \W
- \b <-> \B
- 기타
    - 문자 클래스에서 특수문자, 화이트스페이스 등을 표현할 때
    - . -> \ . 이런식으로 표현할 수 있다.

In [42]:
# \d : 숫자 => [0-9]
if re.match( '[\d]', '1' ): print('1. 매치된다')
if re.match( '[\d]', 'a' ): print('2. 매치된다')

1. 매치된다


In [43]:
# \D : 숫자 말고 나머지 => [^0-9]
if re.match( '[\D]', '1' ): print('1. 매치된다')
if re.match( '[\D]', 'a' ): print('2. 매치된다')

2. 매치된다


In [44]:
# \s : whitespace : \t, \n, \r, \f, \v 
# 수평탭, 개행, 캐리지리턴, 폼피드, 수직탭
# 눈에 보이지 않고, 공백처럼 보이면서 문자열 상에 정보를 제공하는 문자
if re.match( '[\s]', ' \t\n\r\f\v' ): print('1. 매치된다')
if re.match( '[\s]', 'a \t\n\r\f\v' ): print('2. 매치된다')

1. 매치된다


In [45]:
# \S : whitespace가 아닌 문자
if re.match( '[\S]', ' \t\n\r\f\v' ): print('1. 매치된다')
if re.match( '[\S]', 'a \t\n\r\f\v' ): print('2. 매치된다')

2. 매치된다


In [46]:
# \w : 문자, 숫자와 매치 : [a-zA-Z0-9_ㄱ-힣], 언어면 다 OK
if re.match( '[\w]', 'a0' ): print('1. 매치된다')
if re.match( '[\w]', '가' ): print('2. 매치된다')
if re.match( '[\w]', '1' ): print('3. 매치된다')
if re.match( '[\w]', '_' ): print('4. 매치된다')

1. 매치된다
2. 매치된다
3. 매치된다
4. 매치된다


In [47]:
# \w : 문자, 숫자가 아닌 문자와 매치, 특수문자, 이스케이프문자
# [^a-zA-Z0-9ㄱ-힣]
if re.match( '[\W]', 'a' ): print('1. 매치된다')
if re.match( '[\W]', '\t' ): print('2. 매치된다')
if re.match( '[\W]', '★' ): print('3. 매치된다')
if re.match( '[\W]', ' ' ): print('4. 매치된다')

2. 매치된다
3. 매치된다
4. 매치된다


In [48]:
# 일반 문자열은 인용부호(예:줄바꿈...)는 해석되서 처리된다.
a = 'ABC가나다\t]\n라'
print(a)

ABC가나다	]
라


In [49]:
# 만약 데이터를 그대로 받고 싶다면
# Raw String
# 이스케이프 문자가 적용되지 않는다.
a = r'ABC가나다\t]\n라'
print(a, type(a))

ABC가나다\t]\n라 <class 'str'>


In [50]:
# \b 단어구분자 (word boundary)
# 일반 단어는 whitespace로 구분된다.
# \b는 일반 단어에서 백키로 인식한다. 이 자체를 그대로 인식하게
# 하기 위해서 raw string으로 표현해야 한다.
p = re.compile( r'\bclass\b' )

In [51]:
m = p.search( 'no class at 1234')
print( m, m.group() )

<re.Match object; span=(3, 8), match='class'> class


In [52]:
m = p.search( 'the classifier at one' )
print( m )

None


### 함수

- match()
    - 문자열의 처음부터 정규식과 매칭되는지 조사
- search()
    - 문자열 전체를 검색하여 매칭되는지 조사
- findall()
    - 정규식에 매칭되는 모든 문자열을 리스트로 리턴
- finditer)
    - 정규식에 매칭되는 모든 문자열을 iterator로 리턴
- sub()
    - 규칙에 매칭되는 부분을 다른 문자로 변경

In [53]:
# 숫자가 나오고, 1~무한대로 반복될 수 있다.
p = re.compile( '[0-9]+')

In [54]:
# 매칭되는 것이 없다 => None
r = p.match( 'abcd5' )
print( r )

None


In [55]:
r = p.match( '5' )
print( r )
if r:
    print( r.group(), '일치되는 데이터가 나온다.' )

<re.Match object; span=(0, 1), match='5'>
5 일치되는 데이터가 나온다.


In [56]:
r = p.match( '123abcd' )
print( r )
if r:
    print( r.group(), '일치되는 데이터가 나온다.' )
else:
    print('일치되는 데이터가 없다.')

<re.Match object; span=(0, 3), match='123'>
123 일치되는 데이터가 나온다.


In [61]:
data = 'i am a HuMan. 2020 가나다라마바사 !@#$'
# 소문자만 찾아서, 소문자 글자 리스트를 리턴해라.

In [62]:
p = re.compile( '[a-z]+')
p.findall( data )

['i', 'am', 'a', 'u', 'an']

In [66]:
r = p.finditer (data)
for n in r:
    # 실제값, 시작인덱스, 끝인덱스, 인덱스튜플값
    print(n.group(), n.start(), n.end(), n.span())

i 0 1 (0, 1)
am 2 4 (2, 4)
a 5 6 (5, 6)
u 8 9 (8, 9)
an 10 12 (10, 12)


In [67]:
# 매치되는 부분을 다른 문자로 변경
p = re.compile( '(blue|red|white)' )

In [70]:
# 문자열 대체
p.sub( '색상', 'white 케이크 그리고 red 와인을 가지고 집에 가세요' )

'색상 케이크 그리고 색상 와인을 가지고 집에 가세요'

In [71]:
# 문자열 제거
p.sub( '', 'white 케이크 그리고 red 와인을 가지고 집에 가세요' )

' 케이크 그리고  와인을 가지고 집에 가세요'

In [72]:
test_txt[:20], len(test_txt)

('\nBTS (Korean: 방탄소년단;', 650)

In [89]:
# 한글
han = re.compile( '[ㄱ-힣\n\:\;\(\)\,\.0-9\-\']+' )
han.sub('', test_txt)

'BTS Korean  RR Bangtan Sonyeondan also known as the Bangtan Boys is a sevenmember South Korean boy band formed in Seoul in  The septet cowrites and produces much of their output Originally a hip hop group their musical style has evolved to include a wide range of genres Their lyrics often focused on personal and social commentary touch on the themes of mental health troubles of schoolage youth loss the journey towards loving oneself and individualism Their work features references to literature and psychological concepts and includes an alternative universe storyline The group have staged several world tours '

In [91]:
# 한글
# ascii를 이용하여 특수문자의 값의 범위를 활용하여 제거 가능
# => ex [\x3A-\x3F]
# 비영어권은 유니코드 혹은 완성형 코드의 숫치값 범위를 활용하여 제거한다.
# => ex [\u3A-\u3F]
han = re.compile( '[ㄱ-힣\n]+' )
han.sub('', test_txt[:100])

'BTS (Korean: ; RR: Bangtan Sonyeondan), also known as the Bangtan Boys, is a seven-member Sout'

### 그룹핑

- 그룹을 만들어주는 메타 문자 ()

In [93]:
p = re.compile( '(123)+' )

In [99]:
m = p.match( '123123123123123 123123 check?' )
m

<re.Match object; span=(0, 15), match='123123123123123'>

In [100]:
m.group(), m.group(0), m.group(1)

('123123123123123', '123123123123123', '123')

- m.group(0)
    - 매칭된 모든 문자열
- m.group(1)
    - 첫번째 그룹의 문자열
- m.group(2)
    - 두번째 그룹의 문자열
- m.group(n)
    - n번째 그룹의 문자열

In [102]:
# 이표현대로 문자열을 표현한다면?
# r'\w+\s+\d+[-]\d+[-]\d+'
p = re.compile(r'\w+\s+\d+[-]\d+[-]\d+')

In [103]:
m = p.search( '부산대역 010-1234-5678 abcd')

In [105]:
m.group()

'부산대역 010-1234-5678'

In [107]:
m.groups()
# 그룹이 없다 -> 정규식에 그룹화 표현이 없다.

()

In [108]:
m.group(0)

'부산대역 010-1234-5678'

In [112]:
m.group().split()[1].split('-')[1]  # 전화번호중 가운데번호 획득
# 이 방식은 정규식 자체가 그룹화되지 않아서 세부 정보를 취할 수가 없다.
# 그룹화를 이용하면 상세정보를 그룹별로 취할 수 있어서 데이터를 획득하기가 용이하다.

'1234'

In [113]:
p = re.compile(r'(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search( '부산대역 010-1234-5678 abcd')


In [120]:
m.groups(), m.group(1), m.group(2)

(('부산대역', '010-1234-5678'), '부산대역', '010-1234-5678')

In [121]:
len(m.groups())

2

In [122]:
# for n in range(1,3):
for n in range(1, len(m.groups())+1 ):
    print( m.group(n) )

부산대역
010-1234-5678


In [125]:
# 전화번호 상세 정보가 그룹화 되어있지 않다.
# 그룹 안에 그룹화처리를 하면 자동 분류가 된다.

p = re.compile(r'(\w+)\s+((\d+)[-](\d+)[-](\d+))')
m = p.search( '부산대역 010-1234-5678 abcd')

In [126]:
m.groups()

('부산대역', '010-1234-5678', '010', '1234', '5678')

In [127]:
for n in range(1, len(m.groups())+1 ):
    print( m.group(n) )

부산대역
010-1234-5678
010
1234
5678


#### 그룹핑된 문자열의 재참조

- 그룹핑 : 첫번째 그룹, 두번째 그룹, 세번째 그룹...
- \1, \2, \3,...

In [131]:
# 자기 참조는 정규식 형태도 일치하면서 값도 일치하는 경우
p = re.compile( r'(\b\w+)\s+\1' )
m = p.search( 'python numpy pandas pandas scipy tensorflow' )

In [132]:
m.group()

'pandas pandas'

In [133]:
m.groups()

('pandas',)

#### 그룹핑된 문자열 네이밍 처리

In [143]:
# (?P<이름>정규식)
p = re.compile(r'(?P<NAME>\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search( '부산대역 010-1234-5678 abcd')

In [144]:
m.groups()

('부산대역', '010-1234-5678')

In [146]:
# 이름을 부여하면 순서를 몰라도 된다.
m.group(1), m.group('NAME')

('부산대역', '부산대역')

#### 자기 참조를 했는데 이름이 있다.

In [149]:
# 자기 참조 그룹의 이름으로 자기 참조를 수행하는 방법
# (?P=이름)
p = re.compile( r'(?P<BS>\b\w+)\s+(?P=BS)' )
m = p.search( 'python numpy pandas pandas scipy tensorflow' )

In [151]:
m.group()

'pandas pandas'

### 컴파일 옵션

- re.compile( '정규식', '옵션' )
- DOTALL, S
    - 모든 문자 대비(\n 제외) => .
    - 모든 문자 대비(\n 포함) 
- IGNORECASE, I
    - 대소문자 구분없이 매칭
- MULTILINE, M
    - 여러줄 매칭
- VERBOSE, X
    - 복잡한 정규식을 사용하면 해석이 어렵다.
    - 정규식을 펼쳐서 각표현별로 주석을 다는 등을 할 수 있다.

#### DOTALL, S

In [6]:
p = re.compile('a.b')
print( p.match('a|b').group() )
print( p.match('a\nb') )
print( p.match('a\tb').group() )
print( p.match('acb').group() )

a|b
None
a	b
acb


In [7]:
p = re.compile('a.b', re.DOTALL )
print( p.match('a|b').group() )
print( p.match('a\nb').group() )

a|b
a
b


In [10]:
p = re.compile('a.b', re.S )
print( p.match('a|b').group() )
print( p.match('a\nb').group() )

a|b
a
b


#### IGNORECASE, I

In [11]:
p = re.compile('[a-z]')
print( p.match('python').group() )
print( p.match('Python') )
print( p.match('PYTHON') )

p
None
None


In [13]:
p = re.compile('[a-z]', re.I )
print( p.match('python').group() )
print( p.match('Python') )
print( p.match('PYTHON') )
print( p.match('1PYTHON') )

p
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>
None


#### VERBOSE, X

In [17]:
# 정규식을 이해하는데 시간이 걸린다.
x = re.compile( r'(0[0-7]+|[0-9]+|x[0-9a-fA-F]+);' )

In [18]:
x = re.compile( r"""
(                     # 그룹핑 시작
    0[0-7]+           # 8진수
    |                 # or 혹은
    [0-9]+            # 10진수
    |                 # or 혹은
    x[0-9a-fA-F]+     # 16진수
)                     # 그룹핑 끝
;
""", re.VERBOSE )

### 전방탐색(Lookahead Asserions)

- Positive(긍정)
    - 긍정형 전방 탐색 (?=..)
- Negaitve(부정)
    - 부정형 탐색 (?!..)

In [23]:
# http://ID:PW@m.naver.com
# OSI 7 Layer의 3/4 계층 TCP/IP의 프로토콜 규격
# 실습 = http를 획득해라
# http://m.naver.com
re.match( '\w+', 'http://m.naver.com' ).group()

'http'

In [24]:
p = re.compile('.+:')
m = p.search('http://m.naver.com')
m.group()

'http:'

In [25]:
# http, https, smtp, ftp ..etc.. 프로토콜 명만 원한다.
# 전방탐색은 정규식 표현이 까다롭고, 그룹핑 적용도 다소 어려운 조건일 경우 사용
# 긍정형 전방 탐색
# 여기서는 :을 기준으로 앞쪽을 탐색한다.
p = re.compile('.+(?=:)')
m = p.search('http://m.naver.com')
m.group()

'http'

In [None]:
# 부정형
# .*[.].*$ => 파일명
# 이런 정규식에서 확장자 중에 py, msi가 들어간 파일은 제외
# 부정형 전방탐색

In [26]:
p = re.compile('.*[.](?!py$|msi$).*$')

In [27]:
p.search('a.hwp').group()

'a.hwp'

In [31]:
print( p.search('a.py') )

None


In [32]:
print( p.search('a.msi') )

None


In [33]:
print( p.search('a.py2') )

<re.Match object; span=(0, 5), match='a.py2'>


In [34]:
print( p.search('a.2py') )

<re.Match object; span=(0, 5), match='a.2py'>


In [35]:
print( p.search('a.PY') )

<re.Match object; span=(0, 4), match='a.PY'>


#### 실습

- 주민번호 필터링
- 000101-5123456 => 000101-*******

In [40]:
# 숫자의 의미를 분석하여 정규식을 정하는 부분은 제외
p = re.compile( '(\d{6})[-]\d{7,7}' )

In [48]:
data = '''
MBC 940101-1234567
KBS 950101-2234567
'''

In [49]:
# \g<1> : 1번 그룹 참조
print( p.sub( '\g<1>-*******', data ) )


MBC 940101-*******
KBS 950101-*******



In [50]:
p = re.compile( '(\d{6})[-](\d)(\d{6,6})' )

In [51]:
print( p.sub( '\g<1>-\g<2>******', data ) )


MBC 940101-1******
KBS 950101-2******



In [54]:
print( p.sub( '\g<3>' '******', data ) )


MBC 234567******
KBS 234567******

