In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os

#change path
root_dir = "/content/drive/My Drive/"
base_dir = root_dir + 'python_lesson/python Coding improvement'
os.chdir(base_dir)

#mount google driver
#from google.colab import drive
#drive.mount('/content/gdrive', force_remount=True)
#root_dir = "/content/gdrive/My Drive/"

파이썬 코드 가독성을 높이기 위해 코딩 습관을 개선시키자는 목적하에 작성됨.

---

### 정규 표현식

- `[a-zA-Z]`: 알파벳 모두
- `[0-9]`: 숫자
- `^`: 반대(not)
- `\d`: `[0-9]`와 동일
- `\D`: `[^0-9]`와 동일
- `\s`: whitespace문자와 매치. `[ \t\n\r\f\v]`와 동일
- `\S`: `[^ \t\n\r\f\v]`와 동일
- `\w`: 문자+숫자. `[a-zA-Z0-9_]`와 동일
- `\W`: [^a-zA-Z0-9_]`와 동일

- Dot(.): 줄바꿈 문자인 `\n`을 제외한 모든 문자와 매치됨.
  - `a.b`: a와 b 사이에 줄바꿈 문자를 제외한 어떤 문자가 들어가도 모두 매치
- `*`: 반복을 의미(최소 0번 이상)
  - `ca*t`: `*`문자 바로 앞에 있는 a가 0번 이상 반복되면 매치
- `+`: 반복(최소 1번 이상)
  - `ca+t`: `+` 문자 바로 앞에 있는 a가 1번 이상 반복되면 매치
- `({m,n},?)`: 반복 횟수 제한 가능.
  - `ca{2}t`: a가 2번 반복되면 매치
  - `ca{2,5}t`: a가 2~5번 반복되면 매치
  - `ab?c`: b가 0~1번 사용되면 매치

### 정규식을 사용한 문자열 검색

- `match()`: 문자열의 처음부터 정규식과 매치되는지 조사
- `search()`: 문자열 전체를 검색하여 정규식과 매치되는지 조사
- `findall()`: 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.
- `finditer()`: 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

In [3]:
import re
p = re.compile('[a-z]+')

In [7]:
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [5]:
m = p.match("3 python")
print(m)

None


In [10]:
p = re.compile('[a-z]+')
m = p.match("python")
print('Match found: ', m.group()) if m else print('No match')

Match found:  python


In [11]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [12]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


In [13]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [14]:
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x7f5ffbe36510>


In [15]:
for r in result: print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


- `group()`: 매치된 문자열을 반환
- `start()`: 매치된 문자열의 시작 위치 반환
- `end()`: 매치된 문자열의 끝 위치 반환
- `span()`: 매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환

In [17]:
import re
p = re.compile('[a-z]+')
m = p.match("python")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


### 컴파일 옵션

- `re.DOTALL`, `re.S`: dot 문자(.)가 줄바꿈 문자를 포함하여 모든 문자와 매치
- `re.IGNORECASE`, `re.I`: 대﹒소문자에 관계 없이 매치
- `re.MULTILINE`, `re.M`: 여러 줄과 매치
- `re.VERBOSE`, `re.X`: verbose 모드를 사용한다.


In [24]:
import re
m = re.match('a.b', "a\nb")
print(m)

m = re.match('a.b', 'a\nb', re.S)
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [25]:
m = re.match('[a-z]', 'python', re.I)
print(m)

m = re.match('[a-z]', 'Python', re.I)
print(m)

m = re.match('[a-z]', 'PYTHON', re.I)
print(m)

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>


In [26]:
data = """python one
life is too short
python two
you need python
python three"""

In [29]:
p = re.compile("^python\s\w+")
print(p.findall(data))

['python one']


In [30]:
p = re.compile("^python\s\w+", re.M)
print(p.findall(data))

['python one', 'python two', 'python three']


In [35]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA_F]+);')

In [37]:
# re.VERBOSE 옵션 사용하면 문자열에 사용된 whitespace는 컴파일 시 제거됨.

charref = re.compile(r"""
&[#] #Start of a numeric entity reference
(
  0[0-7]+ # Octal form
  | [0-9]+ # Decimal form
  | x[0-9a-fA-F]+ # Hexadecimal form
)
;
""", re.X)

### 메타 문자

- `^`: 문자열의 맨 처음과 일치함을 의미
- `$`: 문자열의 끝과 매치
- `\A`: 문자열의 처음과 매치됨을 의미.(각 줄이 아닌 전체 줄에서 해당)
- `\Z`: 문자열의 끝과 매치됨을 의미.(각 줄이 아닌 전체 줄에서 해당)
- `\b`: 단어 구분자(Word boundary) (Raw String임을 알려주는 기호 r을 반드시 붙이기)
- `\B`: whitespace로 구분된 단어가 아닌 경우에만 매치.

In [38]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [39]:
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


In [41]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))

<re.Match object; span=(3, 8), match='class'>
None


### 그루핑

- `group(0)`: 매치된 전체 문자열
- `group(1)`: 첫 번째 그룹에 해당하는 문자열
- `group(2)`: 두 번째 그룹에 해당하는 문자열
- `group(3)`: n 번째 그룹에 해당하는 문자열

In [43]:
m = re.search('(ABC)+', 'ABCABCABC OK?')
print(m)
print(m.group(0))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [49]:
m = re.search(r"\w+\s+\d+[-]\d+[-]\d+", 'park 010-1234-1234')
print(m)

m = re.search(r"(\w+)\s+((\d+)[-]\d+[-]\d+)", 'park 010-1234-1234')
print(m.group(1))
print(m.group(2))
print(m.group(3)) # 그루핑 인덱스는 밖 -> 안

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010


정규식 `(\b\w+)\s+\1`은 '(그룹)+" "+그룹과 동일한 단어'와 매치됨을 의미한다. <br>
2개의 동일한 단어를 연속적으로 사용해야만 매치된다. `\1`은 정규식의 그룹 중 첫 번째 그룹을 가리킨다.

In [55]:
 p = re.compile(r'(\b\w+)\s+\1')
 p.search('Paris in the the spring').group()

'the the'

### 그루핑된 문자열에 이름 붙이기

`(?P<그룹이름>...)`

In [56]:
m = re.search(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)', 'park 010-1234-1234')
print(m.group("name"))

park


### 전방 탐색

- `(?=...)`: 긍정형 전방 탐색, ...에 해당하는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
- `(?!...)`: 부정형 전방 탐색, ...에 해당하는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.

In [60]:
m = re.search(".+(?=:)", "http://google.com")
print(m.group())

# :에 해당하는 문자열이 정규식 엔진에 소비되지 않음(검색에는 포함되지만 검색 결과에는 제외)

http


#### 긍정형 전방 탐색

`.*[.].*$` 이 정규식은 '파일 이름 + . + 확장자'를 나타내는 정규식이다.

이 정규식에 확장자가 'bat인 파일은 제외해야 한다'는 조건을 추가해 보자.

`.*[.][^b].*$` 이 정규식은 확장자가 b라는 문자로 시작하면 안 된다는 의미. 하지만 .bar파일도 걸러낼 수 있다.

`.*[.]([^b]..|.[^a].|..[^t])$` 이 정규식은 아쉽게도 확장자의 문자 개수가 2개인 케이스를 포함하지 못하는 오동작을 한다.

`.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$` 확장자의 문자 개수가 2개여도 통과되는 정규식.

#### 부정형 전방 탐색

위 정규식에서 bat 파일말고 exe 파일도 제외하라는 조건이 추가

`*[.](?!bat$).*$` 확장자가 bat가 아닌 경우에만 통과. 

`.*[.](?!bat$|exe$).*$` exe 역시 제외하라는 조건 추가

### 문자열 바꾸기

sub 메서드의 첫 번째 매개변수는 '바꿀 문자열(replacement)'이 되고, 두 번째 매개변수는 '대상 문자열'이 된다. 

In [64]:
p= re.sub('(blue|white|red)', 'colour', 'blue socks and red shoes')
p

'colour socks and colour shoes'

In [65]:
p= re.sub('(blue|white|red)', 'colour', 'blue socks and red shoes', count=1)
p

'colour socks and red shoes'

In [67]:
# 바꿀 문자열 부분에 '\g<그룹이름>'을 사용하면 정규식의 그룹 이름 참조 가능

p = re.sub(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)', '\g<phone> \g<name>', 'park 010-1234-1234')
p

'010-1234-1234 park'

### Greedy vs Non-Greedy

'<.*>' 정규식의 매치 결과로 < html> 문자열을 돌려주기를 기대했을 것이다. 하지만 '*' 메타 문자는 매우 탐욕스러워서 매치할 수 있는 최대한의 문자열인 < html>< head>< title>< Title</ title>문자열을 모두 소비해 버렸다.

다음과 같이 non-greedy 문자인 ?를 사용하면 *의 탐욕을 막을 수 있다.

In [68]:
s = '<html><head><title>Title</title>'
print(len(s))
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

32
(0, 32)
<html><head><title>Title</title>


In [69]:
print(re.match('<.*?>', s).group())

<html>
