# 2023-04-19

---

## 정규 표현식(정규식)

: 패턴을 만들어 필터링 => 복잡한 문자열을 처리

In [107]:
# 주민등록번호 형식인지 조사, 
# 주민등록번호 뒷자리를 *로 변환하기

data = '''
park 800905-1049118
kim 700905-1059119
'''

In [2]:
# 정규식x

result = []
for line in data.split("\n"):       # 한줄씩 자르기
    word_result = []

    for word in line.split(" "):    # 이름, 주민등록번호 부분 자르기

        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit(): # 주민등록번호 형식인지 조사
            word = word[:6] + "-" + "*******"   # 뒷자리 *******로 변경'

        word_result.append(word)            # word_result = ['park','800905-*******']

    result.append(" ".join(word_result))    # " ".join(list) : list의 문자열합치기

print("\n".join(result))    # result = ['park 800905-*******','kim 700905-*******']



park 800905-*******
kim 700905-*******



In [3]:
# 정규식

import re

#                  \d:숫자{자리수}
pat = re.compile("(\d{6})[-]\d{7}")     # .compile(패턴) => 정규식
print(pat.sub("\g<1>-*******",data))    


park 800905-*******
kim 700905-*******



In [110]:
pat = re.compile("(\d+)[-]\d+")     
print(pat.sub("\g<1>-*******",data)) 


park 800905-*******
kim 700905-*******



### **메타 문자**

* .  ^  $  *  +  ?  {}  []  \  |  ()

 #### ***문자 클래스 []***
 = 한 자 선택(패턴/통과)
 
 한 자 -> [어떤 문자든 들어갈 수 있다] -> 한 자
 


 ex1)

[abc]  : a or b or c 이면 통과

        -> "a"      => "a"
        -> "before" => "b"

ex2)  -

[0-9]       : 0부터 9까지(0 or 1 or 2 or 3 or ... or 9)

        [0-9]{6} => 6자리 모두 숫자인 것만 통과

[a-zA-Z]    : a부터z, A부터Z

[가-힣]     : 한글

ex3)  ^     : not

[^0-9]

#### **많이 사용하는 문자 클래스**

* \d    : [0-9]

* \D    : [^0-9]

* \s    : [\t\n\r\g\v] :: whitespace(tab,newline,커서이동...) 문자와 매치(공백 포함)

* \S    : [^\t\n\r\g\v] :: whitespace 문자가 아닌 것과 매치

* \w    : [a-zA-Z0-9]

* \W    :[^a-zA-Z0-9]

#### ***Dot(.)***
: \n(줄바꿈) 제외 모든 문자와 매칭




* a.b :   a + 모든 문자 + b => 총 3자

        <- aab, a0b, acb

! a[.]b : a.b만 가능

#### ***반복***

##### 1. *

* ca*t     :   c로 시작 t로 끝, a반복

        -> ct, cat, caaaaaaat

        ( * : 0 ~ 무한대 개)

##### 2. +

* ca+t
        -> cat, caaaaaat

        ( + : 1 ~ 무한대 개)

##### 3. {m,n}

: {m} : m개     |     {m,n} : m~n개

* ca{2}t : caat

* ca{2,4}t : caat, caaat, caaaat : a 2~4개


#### 4. ?

: 0 아니면 1개  

* ab?c : ac, abc

### ***re 모듈***

In [4]:
import re
p = re.compile('ab*')   #틀생성(정규식) : pattern object

#### 정규식을 이용한 문자열 검색

* match()   : 문자열의 처음부터 정규식과 매칭되는지 조사                 => match object

* search()  : 문자열 전체를 검색하여 정규식과 매칭되는지 조사            => match object

* **findall()** : 정규식과 매치되는 모든 문자열을 리스트로 리턴 => list

* finditer()    : 정규식과 매치되는 모든 문자열을 iterator object로 리턴  => match object  

In [7]:
import re
p = re.compile('[a-z]+')    # 소문자 알파벳 한개 이상

#### ***match()***

In [10]:
# match()

m = p.match("pyThon")
print(m)

<re.Match object; span=(0, 2), match='py'>


In [26]:
m = p.match("3 pyThon")
print(m)

None


In [27]:
# 매칭 결과 추출 -> group()

p = re.compile('[a-z]+')
m = p.match('string goes here')

if m :
    print("match found : ", m.group())
else :
    print("No match")

match found :  string


***match object의 메소드***

* group() : 매치된 문자열 리턴
* start() : 매치된 문자열의 시작위치 리턴
* end() : 매치된 문자열의 끝 위치 리턴
* span() : 매치된 문자열의 (시작,끝)에 해당되는 튜플을 리턴

In [50]:
p = re.compile('[a-z]+')
m = p.match("python")
m.group()

'python'

In [51]:
m.start()

0

In [52]:
m.end()

6

In [53]:
m.span()

(0, 6)

```python
p = re.compile('[a-z]+')
m = p.match("python")
```
-> 축약
```
m = p.match('[a-z]+','python')
```

#### ***search()***

In [16]:
# search()

m = p.search("pyThon")
print(m)

<re.Match object; span=(0, 2), match='py'>


In [24]:
m = p.search("3 pyThon")
print(m)

<re.Match object; span=(2, 4), match='py'>


#### ***findall()***

In [35]:
# findall()

p = re.compile('[a-z]+')
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [111]:
p = re.compile('[a-z]+')
m = p.findall('string goes 3here')

if m :
    print("match found : ", m)
else :
    print("No match")

match found :  ['string', 'goes', 'here']


#### ***finditer()***

In [44]:
# finditer()

p = re.compile('[a-z]+')
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x00000238A3DBC0D0>


In [45]:
for r in result: 
    print(r.group())

life
is
too
short


### **컴파일 옵션**

옵션명(약어)

* DOTALL(S)     : . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록한다.

* IGNORECASE(I) : 대소문자에 관계없이 매치할 수 있도록 한다.

* MULTILINE(M)  : 여러줄과 매치할 수 있도록 한다.

In [54]:
# DOTALL

import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [55]:
p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m.group())

a
b


In [59]:
# IGNORECASE

p = re.compile('[a-z]',re.I)
p.match('pyThon')

<re.Match object; span=(0, 1), match='p'>

In [64]:
# MULTILINE

import re   # 외장모듈

# \n : 공백,탭,다음줄 | \w :알파벳숫자 => [a-zA-Z0-9]
p = re.compile('^python\s\w+',re.MULTILINE)

data = '''python one
life is too short
python two
you need python
python three'''

In [65]:
print(p.findall(data))

['python one', 'python two', 'python three']


### ***백슬래시 문제***

re.compile('\section') == ([\t\n\r\f\v]ection)

 백슬래시 문제 해결 : 

re.complie('\\\\section') ==> re.compile(r'\\section')

### **메타문자 나머지**

In [67]:
# | : or

p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


In [68]:
# ^ : 문자열의 맨 처음과 일치? = 시작하는

print(re.search('^Life','Life is too short'))
print(re.search('^Life','My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [69]:
# $ : 문자열의 맨 끝과 일치? = 끝나는

print(re.search('short$','Life is too short'))
print(re.search('short$','Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


* \A    : 문자열의 처음과 매치 = ^와 동일 
* \Z    : 문자열의 맨 끝과 매치 = $
* **\b**    : 단어 구분자
* \B    : whitespace로 구분된 단어가 아닌 경우

In [70]:
# \b
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [71]:
print(p.search('the declassified algorithm'))

None


In [75]:
print(p.search('one subclass is'))

None


In [72]:
# \B
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

None


In [74]:
print(p.search('ther declassified algorithm'))

<re.Match object; span=(7, 12), match='class'>


In [76]:
print(p.search('one subclass is'))

None


### ***그룹핑( )***

In [77]:
p = re.compile("(ABC)+")
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [92]:
pat = '(\w+)\s+((\d+)[-]\d+[-]\d+)'
data = 'park 010-1234-1234'
m = re.search(pat,data)
m.group(0), m.group(1), m.group(2), m.group(3)

('park 010-1234-1234', 'park', '010-1234-1234', '010')

In [94]:
m.group(1,2,3)

('park', '010-1234-1234', '010')

#### 그룹핑된 문자열 재참조하기

In [100]:
# \1 : ()그룹핑된것 중 첫번째 그룹지칭, 두번째:\2
#              (공백+알파벳/숫자)+공백+\1(재참조) => 두번 연속 같은 단어 나올때
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

#### **그룹핑된 문자열에 이름 붙이기**

In [101]:
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search("park 010-1234-1234")
print(m.group('name'))

park


In [102]:
# 붙인 이름으로 재참조 가능
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

### ***전방 탐색***

- 긍정 탐색 (?=...) : ...에 해당되는 정규식과 매치되어야함

- 부정 탐색 (?!...) : ...에 해당되는 정규식과 매치되지않아야함

In [103]:
p = re.compile('.+:')
m = p.search('http://google.com')
print(m.group())

http:


In [105]:
# 긍정형

p = re.compile('.+(?=:)')
m = p.search('http://google.com')
print(m.group())

http
