- Regular Expression #문자열에서 무언가를 찾고자 했을 때 검색하는 끝판왕
- 특정한 패턴과 일치하는 문자열을 "검색", "치환", "제거"하는 기능을 지원
- https://docs.python.org/3/library/re.html
- https://regexr.com : 정규표현식 테스트 사이트

## 1. 특수문자들

### (1) 반복


    * : 0회 이상 반복
        ab* : a, ab, abb, abbb, ...
        lo*l : ll, lol. lool. loool, ...
    
    + : 1번 이상 반복
        ab+ : ab, abb, abbb, abbb, ...
        
    ? : 0번 또는 1번
        ab? : a, ab
        
    {m} : m회 반복
        a[3]bc : aaabc
        
    {m,n} : m회부터 n회까지 반복 #공백이 있으면 안된다고함
        a{2,4}bc : aabc, aaabc, aaaabc
       

### (2) 매칭

        . : 줄바꿈 문자를 제외한 모든 문자와 매치
            a.b : ab, aab, abb, adb, a!b, a@b, ...
            
        ^ : 문자열의 시작과 매치
            ^abc
            ^(abc)
        
        $ : 문자열의 마지막과 매치
            ...a$
        
        [] : 문자집합 중 한 문자와 매치
            [abc]xyz : axyz, bxyz, cxyz
            [a-z]bc : abc, bbc, cbc, dbc, ..., zbc
            a[.]b : a.b  #대괄호안에 .이 오게되면 모든 문자와 매치되는 .이 아니라 일반 .이다.
            [abc.^]z : az, bz, cz, .z, ^z #대괄호안에 매칭기호가 들어오면 일반기호로 간주
            [^abc]z :  dz, ez, fz, ... 
            대괄호 안에서의 ^가 맨앞에 위치할 경우 not을 의미한다. 즉, abc가 아닌 모든문자가 들어갈 수 있다.

### (3) 특수문자(\문자)



    \d : 모든 숫자와 매치
    ab\d\dc : ab00c, ab01c, ab02c, ...
    
    \D : 숫자가 아닌 모든 문자와 매치
    
    \s : 공백문자와 매치
    \S : 공백문자를 제외한 모든 문자
    
    \w : 특수문자를 제외한 모든 숫자와 문자
    \W : 숫자 또는 문자가 아닌 모든 문자와 매치

### (4) 파이썬에서 제공하는 정규표현식 API

- compile()
- match()
- search()
- findall()
- finditer()
- split()
- sub()
- ...


### (5) 맛보기실습

In [1]:
a = "1,2,3,4,5"
print(a)

1,2,3,4,5


In [5]:
##### 12345추출

print(a.replace(",", "")) #콤마를 공백으로
print(a[::2])

for i in a:
    if i != ",":
        print(i, end='')

12345
12345
12345

In [2]:
import re



a = "1,2,3,4,5"
#pattern = re.compile("\D")
pattern = re.compile("[^0-9]")
result = re.sub(pattern, '',a)
print(result)

12345


---

In [30]:
b = """
    홍길동 : 1234, Gil-Dong Hong,
    이길동 : 3915, Gil-Dong Lee,
    박길동 : 0000, Gil-Dong Park
"""

In [24]:
### 홍길동 이길동 박길동

b = b.strip()
print(b)

홍길동 : 1234, Gil-Dong Hong,
    이길동 : 3915, Gil-Dong Lee,
    박길동 : 0000, Gil-Dong Park


In [26]:
b = b.split("\n")
print(b)

['홍길동 : 1234, Gil-Dong Hong,', '    이길동 : 3915, Gil-Dong Lee,', '    박길동 : 0000, Gil-Dong Park']


In [29]:
for i in b:
    i = i.split(":")
    print(i[0].strip())

홍길동
이길동
박길동


In [33]:
b = """
    홍길동 : 1234, Gil-Dong Hong,
    이길동 : 3915, Gil-Dong Lee,
    박길동 : 0000, Gil-Dong Park
"""

##### 정규 표현식

pattern = re.compile("[^가-힣]")  #한글의 시작과 끝은 가-힣
result = re.sub(pattern, '', b)
print(result)

홍길동이길동박길동


### (6) API 사용법

#### 1) match(), search()

- 객체를 생성해서 사용
- 함수를 직접 호출

In [47]:
### 객체를 생성하여 사용

p = re.compile("[0-9] [a-z]+ .+") #여러번 사용할 경우 이렇게 ... = ....compile()로 객체를 생성해주면 편하다
sample = "3 djawlstjd qnfjqek dsjiaesfij xwpaefi asdfs whssk qnfjqek ah sksms djswp wlqdp rksk"

print(bool(p.match(sample)))                 #bool 함수를 쓰면 아주 간단하게 있는지 없는지 확인가능
print(bool(p.match("dlrudsla dPQmek dlswjdgka")))
print(bool(p.match("rladlrud 3 dhkswjs dPQmek")))
print(bool(p.search("rladlrud 3 dhkswjs dPQmek")))

True
False
False
True


In [9]:
### 함수를 사용하는 방법

sample = "3 djawlstjd qnfjqek dsjiaesfij xwpaefi asdfs whssk qnfjqek ah sksms djswp wlqdp rksk"

print(re.match("[0-9] [a-z]+ .+", sample)) #해당값이 존재한다
print(re.search("[0-9] [a-z]+ .+", sample)) # span=(0, 84)는 일치하는 값의 위치를 알려줌
print(re.search("[0-9] [a-z]+ .+", "3 z z"))
print(re.search("[0-9] [a-z]+ .+", "ejifsjdsf")) # 결과창의 None 은 일치하는 것이 없다는 것

print(bool(re.match("[0-9] [a-z]+ .+", sample)))
print(bool(re.search("[0-9] [a-z]+ .+", sample)))
print(bool(re.search("[0-9] [a-z]+ .+", "3 z z"))) #객체를 만들지 않고 직접 입력 해서 테스트
print(bool(re.search("[0-9] [a-z]+ .+", "ejifsjdsf"))) ##객체를 만들지 않고 직접 입력 해서 테스트

<re.Match object; span=(0, 84), match='3 djawlstjd qnfjqek dsjiaesfij xwpaefi asdfs whss>
<re.Match object; span=(0, 84), match='3 djawlstjd qnfjqek dsjiaesfij xwpaefi asdfs whss>
<re.Match object; span=(0, 5), match='3 z z'>
None
True
True
True
False


In [28]:
sample = "안녕하세요. 내 나이는 30살이고 전화번호는 010-111-1111입니다. 어쩌구 저쩌구"

print(bool(re.search("...-...-....", sample)))         #전화번호가 있는지 찾아보자!
print(bool(re.search("\d\d\d-\d\d\d-\d\d\d\d", sample)))    #방법은 여러가지!
print(bool(re.search("\d+-\d+-\d+", sample)))          #방법은 여러가지!
print(bool(re.search("[0-9]{3}-\d{3,4}-\d{4}", sample))) #방법은 여러가지! \d{3,4} = \d가 3개거나 4개거나!

result = re.search("[0-9]{3}-\d{3,4}-\d{4}", sample)
print(result)
print("--------------")
print(result.group()) # spqn = (25, 37)을 통해 위치를 알 수 있다. match= 를 통해 매칭된 값도 볼 수 있다.
print(result.start()) # 시작위치인 25가 튀어나온다(spqn = (25, 37))
print(result.end()) # 끝 위치가 나온다
print(result.span()) # 시작위치와 끝위치가 나온다.

True
True
True
True
<re.Match object; span=(25, 37), match='010-111-1111'>
--------------
010-111-1111
25
37
(25, 37)


### 2) findall(), finditer()

In [39]:
sample = "life 3333 is 222 333 too 10 short"

p = re.compile("[a-z]+")
d = re.compile("\D")
g = re.compile("\D+")

print(p.match(sample))
print(bool(p.match(sample))) #match를 통해 자기가 작성한 pattern이 정상적인지 확인이 가능하다.

p1 = p.findall(sample) # 설정한 패턴으로 리스트로 묶어서 포장해줌
print(m)           #['life', 'is', 'too', 'short']처럼 단어별로 묶어서 나왔다.
d1 = d.findall(sample) # 글자 1개당 ''로 묶였다. # 심지어 공백까지 묶였다.
print(d1)
g1 = g.findall(sample) #공백을 포함한 단어별로 묶였다.
print(g1)

p2 = p.finditer(sample) #위치가 나옴
print(p2) # print해도 원위치가 나옴

<re.Match object; span=(0, 4), match='life'>
True
['life', 'is', 'too', 'short']
['l', 'i', 'f', 'e', ' ', ' ', 'i', 's', ' ', ' ', ' ', 't', 'o', 'o', ' ', ' ', 's', 'h', 'o', 'r', 't']
['life ', ' is ', ' ', ' too ', ' short']
<callable_iterator object at 0x000002EE19CF1EE0>


In [52]:
## 직접 풀어본 문제

sample = "1234 abc가나다ABC_555_6 mbc air air"

# bc로 끝나는 3글자 : abc, mbc
endbc = re.compile("\Sbc")
print(bool(endbc.match(sample)))
endbc1 = endbc.findall(sample)
print(endbc1)

# a로 시작하는 3글자 : abc, air, air

starta = re.compile("a\S\S")
print(bool(starta.match(sample)))
starta1 = starta.findall(sample)
print(starta1)


# 가장 마지막에 air로 끝나는 문자 : air

lastair = re.compile("\S*air")
print(bool(lastair.match(sample)))
lastair1 = lastair.findall(sample)
print(lastair1)


# 가장 처음에 1로 시작하는 숫자들 : 1234

start1 = re.compile("1\d+")
print(bool(start1.match(sample)))
start11 = start1.findall(sample)
print(start11)

# 1을 제외한 모든 데이터 : 234 abc가나다ABC_555_6 mbc air air

except1 = re.compile("[^1]+")
print(bool(except1.match(sample)))
except11 = except1.findall(sample)
print(except11)

False
['abc', 'mbc']
False
['abc', 'air', 'air']
False
['air', 'air']
True
['1234']
False
['234 abc가나다ABC_555_6 mbc air air']


In [58]:
###강사님 해설을 곁들인
### 의도에 따라 여러가지 방법으로 가능함
## 하지만 조금 더 범위를 좁게 해줘야 수행능력이 좋아짐(속도가)

sample = "1234 abc가나다ABC_555_6 mbc air air"

# bc로 끝나는 3글자 : abc, mbc
print(re.findall("[a-z]bc", sample)) #나는 소문자만 찾을거야
print(re.findall("\Dbc", sample)) # 특수문자와 대문자도 다 찾을거야
print(re.findall(".bc", sample)) # 줄바꿈을 제외한 모든 것이라도 찾을거야

# a로 시작하는 3글자 : abc, air, air

print(re.findall("a..", sample)) # 줄바꿈 제외하고 다 a로 시작하는 3글자를 찾을거야
print(re.findall("a[a-z]{2}", sample)) # 정확히 소문자만 찾을거야
print(re.findall("a[a-z][a-z]", sample)) # 위에거랑 같은거야

# 가장 마지막에 air로 끝나는 문자 : air
print(re.findall("air$", sample)) # $를 air뒤에 써줘서 air가 마지막에 매핑되서 찾음.
print(re.findall("\S*air", sample))


# 가장 처음에 1로 시작하는 숫자들 : 1234

print(re.findall("^1[0-9]*", sample))
print(re.findall("1\d*", sample))

# 1을 제외한 모든 데이터 : 234 abc가나다ABC_555_6 mbc air air

print(re.findall("[^1]+", sample))
print(re.findall("[^1]*", sample)) ### 이렇게 하면 공백도 잡아버린다


['abc', 'mbc']
['abc', 'mbc']
['abc', 'mbc']
['abc', 'air', 'air']
['abc', 'air', 'air']
['abc', 'air', 'air']
['air']
['air', 'air']
['1234']
['1234']
['234 abc가나다ABC_555_6 mbc air air']
['', '234 abc가나다ABC_555_6 mbc air air', '']


#### 3) split()

In [78]:
sample = "mbc,kbs sbs:ytn" # 콤마와 공백 그리고 :로 이상하게 나누어져 있음

print(sample.split(",")) # 뭐를 써서 스플릿하더라도 깔끔하게 안나옴
print(sample.split(" "))
print(sample.split(":"))

print("--------------------------------------")

print(re.split(",| |:", sample)) # 콤마 or 공백 or : 3가지 모두로 스플릿한다 #결과창 깔끔
print(re.split("\W", sample)) # 숫자 or 문자가 아닌 것과 매칭한다

['mbc', 'kbs sbs:ytn']
['mbc,kbs', 'sbs:ytn']
['mbc,kbs sbs', 'ytn']
--------------------------------------
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


#### 4) sub : 교체, 변경

In [81]:
sample = "1234 abc가나다ABC_555_6"

## 888 abc가나다ABC_888_888
print(re.sub("[0-9]+","888",sample)) #숫자를 모두 888로 바꾸겠다.

## 8888 abc가나다ABC_888_8
print(re.sub("[0-9]","8",sample)) #입력된 숫자 1개당 모두 8로 바꿔주겠다.

print("-----------------------------------------")

sample = "mbc, kbs        sbs:ytn"

# mbc, kbs, sbs, ytn
print(re.sub("\W+",",", sample))  # \W에 +(1회이상반복)을 붙여줘서 숫자 or 문자가 아닌 것들(복수)과 매칭한다

888 abc가나다ABC_888_888
8888 abc가나다ABC_888_8
-----------------------------------------
mbc,kbs,sbs,ytn


### (7) Flags(컴파일 옵션)

- S(DOTALL)
- I(IGNORECASE)
- M(MULTILINE)

In [89]:
p = re.compile("a.b") # .은 줄바꿈을 제외한 모든 문자
print(p.match("axb is bla bla ~~"))
print(p.match("a+b is bla bla ~~"))
print(p.match("a\nb is bla bla ~~")) #줄바꿈이라서 역시 안된다

print("------------------------------------------------------------")

p = re.compile("a.b", re.S) # DOTALL(약어 S)의 설정방법
print(p.match("axb is bla bla ~~"))
print(p.match("a+b is bla bla ~~"))
print(p.match("a\nb is bla bla ~~")) #위에선 안되던 것이 DOTALL을 등록하니까 되었다.


<re.Match object; span=(0, 3), match='axb'>
<re.Match object; span=(0, 3), match='a+b'>
None
------------------------------------------------------------
<re.Match object; span=(0, 3), match='axb'>
<re.Match object; span=(0, 3), match='a+b'>
<re.Match object; span=(0, 3), match='a\nb'>


In [91]:
p = re.compile("[a-z]") 

print(p.match("python"))
print(p.match("Python")) # 소문자만을 범위로 설정했더니 None 발생

print("------------------------------------------------------------")

p = re.compile("[a-zA-Z]") # 대문자 소문자를 모두 찾기 위해 [a-zA-Z]를 사용했다.

print(p.match("python"))
print(p.match("Python"))

print("------------------------------------------------------------")

p = re.compile("[a-z]", re.I) #IGNORECASE(약칭 I)의 설정방법 # 대소문자 구별없이 찾겠다!

print(p.match("python"))
print(p.match("Python"))

<re.Match object; span=(0, 1), match='p'>
None
------------------------------------------------------------
<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
------------------------------------------------------------
<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


In [100]:
sample = """python one
life is too short
python two
you need python
Python three
other python four
"""


p = re.compile("[pP]ython [a-z]+")
print(p.findall(sample))


p = re.compile("[pP]ython [a-z]+", re.M)
print(p.findall(sample))


p = re.compile("^[pP]ython [a-z]+") # python xxx로 시작되는 각 줄의 파이썬만 찾아보자!
print(p.findall(sample))            # 시작에 매칭하는 ^를 사용
                                    # 그런데 한개만 나와버림


p = re.compile("^[pP]ython [a-z]+", re.M) # 이럴 때 MULTILINE을 사용하면 모두 찾아준다.
print(p.findall(sample))


['python one', 'python two', 'Python three', 'python four']
['python one', 'python two', 'Python three', 'python four']
['python one']
['python one', 'python two', 'Python three']


In [None]:
# 한글문자 전체 : [가-힣]
# 한글 전체 : [ㄱ-ㅎ|ㅏ-ㅣ|가-힣]