# 정규표현식(Regular Expressions)
 - 복잡한 문자열 처리

`.isdigit` : 문자열이 숫지인지를 판별 T/F  
`.isalpha` : 문자열이 문자인지를 판별 T/F  

## 1. 정규표현식 메타문자

- 메타: 정보의 정보, 데이터(전화번호부)의 데이터(색인),...
- 메타 문자: 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자

- 메타문자(meta characters) 종류 : `. ^ $ * + ? {} [] \ | ()`
> - **[문자/숫자]** : 대괄호 안에는 어떤 문자도 올 수 있음  
    - [abcdef] 의미? a,b,...,f 중에서 어떤 한 개의 문자와 매치 => 'a' 문자는 정규표현식에 매치됨
    - **[from-to]** : 범위 (문자[a-zA-Z], 숫자[0-9])
    - **[^문자/숫자]** : `^`은 not의 의미임. (즉, 문자/숫자가 아닌 숫자/문자만 매치)
  - **별도 표기법**
      - `\d`(숫자 = `[0-9]`), `\D`(숫자가 아닌 것=`[^0-9]`)
      - `\s`(공백문자=`[\t\n\r\f\v]`), `\S`(공백문자가 아닌 것=`[^\t\n\r\f\v]`)
      - `\w`(문자+숫자=`[a-zA-Z0-9_]`), `\W`(문자+숫자가 아닌 것=`[^a-zA-Z0-9_]`)
  - **Dot(.)** : 줄바꿈 문자(\n)을 제외한 모든 문자와 매치됨
      - `re.DOTALL` : \n 문자와도 매치됨
      - ex) a.b = "a+모든문자+b"  // a[.]b = "a+Dot(.)+b" (문자 Dot(.) 그대로를 의미함)
  - **반복**
      - '*' : * 바로 앞 문자가 0번 이상 반복
      - '+' : + 바로 앞 문자가 1번 이상 반복
      - {m,n} : 반복 횟수를 고정, m부터 n까지 매치({1,}='+' // {0,}='*')
      - '?' : {0,1}의 의미. "a+b(있어도 되고 없어도 된다)+c"
  - **|** : '또는'의 의미
  - **^** : 문자열의 맨 처음과 일치하는 문자열 매치
  - **$** : 문자열의 맨 끝과 일치하는 문자열 매치
  - **\A** : 문자열의 처음과 매치됨. (re.MULTILINE 옵션 사용 시 줄과 상관없이 전체 문자열의 처음하고만 매치)
  - **\Z** : 문자열의 끝과 매치됨.(re.MULTILINE 옵션 사용 시 줄과 상관없이 전체 문자열의 끝과 매치)
  - **\b** : 단어 구분자.`r'\b` (공백에 의해 구분)
  - **\B** : 공백으로 구분된 단어가 아닌 경우 매치

## 2. 정규식을 이용한 문자열 검색

- 정규 표현식 모듈 : **`import re`**
> **`p = re.compile('ab*')`** : 정규 표현식 컴파일(한 번 만든 패턴 객체를 여러번 사용해야 할 때)
 - `re.DOTALL(S) = re.S` : . 이 줄바꿈 문자를 포함하여 모든 문자와 매치
 - `re.IGNORECASE(I) = re.I` : 대소문자 구별없이 매치
 - `re.MULTILINE(M) = re.M` : 여러줄과 매치할 수 있도록 한다.('^', '$' 메타문자의 사용과 관계가 있는 옵션)
 - `re.VERBOSE(X) = re.X` : verbose 모드를 사용(정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게됨, 문자열에 사용된 공백은 컴파일할 때 제거되나, [] 안에 사용한 공백은 제외)
 - `백슬래시\` : "\section" 문자열을 찾기 위한 정규식을 만들 때,  `\s`로 해석됨. => '\\\\section' or r'\\section' 으로 작성

> - **`re.match("패턴", "문자열")`** : 문자열의 처음부터 정규식과 매치되는지 조사(왼쪽부터 순차적)
>> - match 객체
    - group() : 매치된 문자열을 돌려줌
    - start() : 매치된 문자열의 시작 위치를 돌려줌
    - end() : 매치된 문자열의 끝 위치를 돌려줌
    - span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려줌
- **`re.search("패턴", "문자열")`** : 문자열 전체를 검색하여 매치(전체 영역)
- **`findall()`** : 정규식과 매치되는 모든 문자열을 리스트로 돌려줌
- **`finditer()`** : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 돌려줌

- re.search("^패턴$", "문자열") : 특정 문자열이 맨 앞(^)/뒤($)에 오는지 판별
- re.match("패턴1|패턴2", "문자열") : 패턴1또는 패턴2가 문자열에 포함되어 있는지 확인

## 3. Grouping

- `()`: 그룹을 만들어 주는 메타 문자
- `m.group(인덱스)` : 그루핑된 부분의 문자열만 뽑아냄.
    - group(0) : 매치된 전체 문자열
    - group(1) : 첫 번째 그룹에 해당되는 문자열
    - group(n) : n번째 그룹에 해당되는 문자열
    * 그룹이 중첩되어 있는 경우, 바깥쪽부터 시작 -> 안쪽으로 인덱스가 증가
- `(?<name>...) : 그룹 이름 설정
    - 재참조 : (?P=그룹이름)

## 4. 문자열 바꾸기 (sub)

- `re.sub('패턴','바꿀 문자열','대상 문자열', count=1)` : method를 사용하면 정규식과 매치된 부분을 다른 문자로 치환함
    * count : 바꾸기 횟수 제어
- `sub("\g<그룹이름> \g<그룹이름>", "대상 문자열")` : 그룹과 그룹을 바꿈


--------------------------------------------------------------------------------

**[web1]**

In [26]:
import re

In [3]:
# 정규식을 사용하지 않았을 때,

jumin = '''park 850b01-12a4567
kim 950202-2345678'''
print(jumin)

# jumin 데이터의 뒷 부분을 모두 *로 변환하여 출력
for line in jumin.split("\n"):
    for word in line.split(" "):
        if len(word)==14 and word[:6].isdigit() and word[7:].isdigit():
            word=word[:6]+"-"+"*******"
            print(word)

park 850b01-12a4567
kim 950202-2345678


In [5]:
# 예시) isdigit
d="12s34"
print(d.isdigit())

False


In [6]:
# 정규표현식 사용

jumin="""park 850101-1234567
kim 950202-2345678
"""

import re #regular expression( 정규 표현식 모듈)

p=re.compile("(\d{6})[-]\d{7}") #정규식 작성(정상적인 주민번호에 대한 일반적인 규칙을 정의: 숫자6-7자리 구성)
print(p.sub("\g<1>-*******",jumin))

park 850101-*******
kim 950202-*******



In [7]:
# match

#"hello, world" 문자열에 hello 문자열이 있는지 판단

print(re.match("hello", "hello, world"))
#출력(매치됨) : <re.Match object; span=(0, 5), match='hello'>

print(re.match("hi", "hello, world"))
# #출력(매치안됨) : None

<re.Match object; span=(0, 5), match='hello'>


In [27]:
#특정 문자열이 맨앞/뒤 오는지 판단

print(re.search("^hello", "hello, world")) #hello로 시작하는지 확인
print(re.search("world$", "hello, world")) #world로  끝나는지 확인

#hello 또는 world 문자열이 포함되어 있는지 확인
print(re.match("hello|world", "hello"))
print(re.match("hi|world", "hello"))

<re.Match object; span=(0, 5), match='hello'>
<re.Match object; span=(7, 12), match='world'>
<re.Match object; span=(0, 5), match='hello'>
None


-----------------------------------------------------------------------------

In [28]:
# 메타문자

# [a-d] 정규식 의미 : [abcd], [a-f]==[abcdef]
# [0-5] == [012345]

print(re.match("[0-9]","1234"))  # 1234는 0~9까지 숫자에 해당
print(re.match("[0-9]*","1234")) # 1234는 0~9까지 숫자에 해당, *은 문자(숫자)가 0개 이상 있는지 확인
print(re.match("[0-9]*","a1234"))  # a1234는 a는 [0-9] 범위가 아님. 원래는 None이 나와야 함. 그러나 *이 있으므로 0개도 매칭이 된 것으로 출력

print(re.match("[0-9]+","1234")) # 1개 이상 있는지 확인
print(re.match("[0-9]+","12a34"))
print("="*50)
print(re.match("[0-9]+","a12a34"))
print(re.match("[0-9]+","a12a34"))
# [a-z],[A-Z],[a-zA-Z], [^0-9]:0-9(숫자)를 제외한 문자
# ^hello, hello$

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 4), match='1234'>
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 4), match='1234'>
<re.Match object; span=(0, 2), match='12'>
None
None


In [29]:
print(re.search("^hi","hello, hi"))   # 문자열이 hi로 시작해야 함(시작하지 않으므로 None)
print(re.search("hi","hello, hi"))   # span=(7,9), match='hi'
print(re.match("hi","hello, hi"))  #None

print(re.match("hello|hi|good", "good"))
print(re.match("[0-9]*","12a3bcd"))  # 숫자가 0개 이상 있는지 판단
print(re.match("[0-9]+","12a3bcd"))  # 숫자가 1개 이상 있는지 판단
# *, + 기호는 숫자, 문자에서 사용가능함
print(re.match("[a-z]*","aabb12a3"))  # 알파벳 문자가 0개 이상 있는지 판단
print(re.match("[a-z]+","aabb12a3"))  # 알파벳 문자가 0개 이상 있는지 판단
# search는 앞에서 매치가 안되었더라도 뒤에서 매치가 되면 출력됨

None
<re.Match object; span=(7, 9), match='hi'>
None
<re.Match object; span=(0, 4), match='good'>
<re.Match object; span=(0, 2), match='12'>
<re.Match object; span=(0, 2), match='12'>
<re.Match object; span=(0, 4), match='aabb'>
<re.Match object; span=(0, 4), match='aabb'>


In [30]:
print(re.match("a*", "b")) # *은 *앞에 있는 문자가 0개 이상 나왔을 때 매치
# a 문자가 0개 이상 있으면 매치
print(re.match("b*", "b"))
# b문자가 0개 이상 있으면 매치
print(re.match("a*b", "b"))  # a문자가 0개 이상 있고 b가 나오면 매치
print(re.match("a*b", "bb"))  # a문자가 0개 이상 있고 b가 나오면 매치
print(re.match("a+b", "b"))  # a문자가 1개 이상 나와야하고 반드시 b가 그 뒤로 나와야 함
print(re.match("a+b", "ab"))
print(re.match("a+b", "aaaabb"))  # aaaab 까지만 매치
print(re.match("a+b*", "aaaabb"))  # aaaabb 까지 매치
print(re.match("a+b*", "aaaabbbbcccc"))  # aaaabbbb 까지 매치

<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 1), match='b'>
<re.Match object; span=(0, 1), match='b'>
<re.Match object; span=(0, 1), match='b'>
None
<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 5), match='aaaab'>
<re.Match object; span=(0, 6), match='aaaabb'>
<re.Match object; span=(0, 8), match='aaaabbbb'>


------------------------------------------------------------------------
**[web2]**

-----------------------------------------------------------------------------
**[web3_sub]**

In [15]:
import re

print(re.sub("apple|orange", "fruit","apple tree banana orange"))

In [19]:
# 1 2 apple 3 banana 4 6 9 30 tree
# 수치데이터 => "num"으로 변경

print(re.sub("[0-9]+", "num","1 2 apple 3 banana 4 6 9 30 tree"))
print(re.sub("[0-9]+", "num","1 2 apple 3 banana 4 6 9 30 tree",1))  # 바꿀횟수 지정

num num apple num banana num num num num tree
num 2 apple 3 banana 4 6 9 30 tree


In [20]:
pat = re.compile("apple|orange")
m = pat.sub("fruit","apple tree banana orange")
print(m)

fruit tree banana fruit
