# 정규 표현식

In [1]:
cc_list = """
Ezra koenig <ekoenig@vpwk.com>,
Rostam Batmanglij <rostam@vpwk.com>,
Chris Tomson <ctomson@vpwk.com>,
Bobbi Baio <bbaio@vpwk.com>
"""

In [2]:
cc_list

'\nEzra koenig <ekoenig@vpwk.com>,\nRostam Batmanglij <rostam@vpwk.com>,\nChris Tomson <ctomson@vpwk.com>,\nBobbi Baio <bbaio@vpwk.com>\n'

## 검색

특정 이름이 있는지 없는지 체크

In [3]:
"Rostam" in cc_list

True

In [5]:
import re

re.search(r'Rostam', cc_list)

<re.Match object; span=(33, 39), match='Rostam'>

In [6]:
if re.search(r'Rostam', cc_list):
    print("I find it!")

I find it!


## 캐릭터 세트

In [8]:
re.search(r'[RB]obb[i,y]', cc_list)

<re.Match object; span=(103, 108), match='Bobbi'>

a-z, A-Za-z, A-Za-z0-9

In [9]:
re.search(r'Chr[a-z][a-z]', cc_list)

<re.Match object; span=(70, 75), match='Chris'>

\+ 는 1번 이상 나타나는 것

In [10]:
re.search(r"[A-Za-z]+", cc_list)

<re.Match object; span=(1, 5), match='Ezra'>

{ } 는 정확한 개수를 입력할 때

In [11]:
re.search(r"[A-Za-z]{6}", cc_list)

<re.Match object; span=(6, 12), match='koenig'>

와일드카드 문자를 사용할땐 이스케이프 문자(\\)를 사용해야한다

In [14]:
re.search(r"[A-Za-z]+@[a-z]+\.[a-z]+", cc_list) 

<re.Match object; span=(14, 30), match='ekoenig@vpwk.com'>

## 케릭터 클래스

\\w 는 [a-zA-Z0-9_] 를 의미하고 \\d 는 [0-9]를 의미한다

In [15]:
re.search(r"\w+", cc_list)

<re.Match object; span=(1, 5), match='Ezra'>

In [17]:
re.search(r"\w+@\w+\.\w+", cc_list)

<re.Match object; span=(14, 30), match='ekoenig@vpwk.com'>

## 그룹

괄호를 사용해 일치한 대상을 그룹(group)을 정의할 수 있다.
- 여기서 0은 전체를 의미하고 그 뒤는 각각의 그룹을 의미한다.

In [19]:
re.search(r"(\w+)@(\w+)\.(\w+)", cc_list)

<re.Match object; span=(14, 30), match='ekoenig@vpwk.com'>

In [23]:
matched = re.search(r"(\w+)@(\w+)\.(\w+)", cc_list)
matched.group(0), matched.group(1), matched.group(2), matched.group(3)

('ekoenig@vpwk.com', 'ekoenig', 'vpwk', 'com')

## 네임드 그룹

정의한 그룹에 ?p\<NAME>을 추가해 해당 그룹에 이름을 부여할 수 있다. 이 이후부터는 번호 대신 이름을 통해 접근이 가능하다.

In [31]:
matched = re.search(r"(?P<name>\w+)@(?P<SLD>\w+)\.(?P<TLD>\w+)", cc_list)

print(matched.group("name"), matched.group("SLD"), matched.group("TLD"))
print(matched.group(0), matched.group(1), matched.group(2), matched.group(3))

ekoenig vpwk com
ekoenig@vpwk.com ekoenig vpwk com


## 모두찾기

In [33]:
matched = re.findall(r"\w+@\w+\.\w+", cc_list)
matched

['ekoenig@vpwk.com', 'rostam@vpwk.com', 'ctomson@vpwk.com', 'bbaio@vpwk.com']

In [34]:
matched = re.findall(r"(\w+)@(\w+)\.(\w+)", cc_list)
matched

[('ekoenig', 'vpwk', 'com'),
 ('rostam', 'vpwk', 'com'),
 ('ctomson', 'vpwk', 'com'),
 ('bbaio', 'vpwk', 'com')]

In [36]:
name = [i[0] for i in matched]
name

['ekoenig', 'rostam', 'ctomson', 'bbaio']

## 찾기 반복자

In [37]:
matched = re.finditer(r"\w+@\w+\.\w+", cc_list)
matched

<callable_iterator at 0x237a673a760>

In [38]:
next(matched)

<re.Match object; span=(14, 30), match='ekoenig@vpwk.com'>

In [41]:
next(matched)

<re.Match object; span=(115, 129), match='bbaio@vpwk.com'>

In [42]:
matched = re.finditer(r"(?P<name>\w+)@(?P<SLD>\w+)\.(?P<TLD>\w+)", cc_list)

In [43]:
for m in matched:
    print(m.groupdict())

{'name': 'ekoenig', 'SLD': 'vpwk', 'TLD': 'com'}
{'name': 'rostam', 'SLD': 'vpwk', 'TLD': 'com'}
{'name': 'ctomson', 'SLD': 'vpwk', 'TLD': 'com'}
{'name': 'bbaio', 'SLD': 'vpwk', 'TLD': 'com'}


## 치환

문자열의 일부 또는 전체를 치환

In [44]:
re.sub("\d","#", "The passcode you enter was 09876")

'The passcode you enter was #####'

In [47]:
user = re.sub("(?P<name>\w+)@(?P<SLD>\w+)\.(?P<TLD>\w+)", "\g<TLD>.\g<SLD>.\g<name>", cc_list)
print(user)


Ezra koenig <com.vpwk.ekoenig>,
Rostam Batmanglij <com.vpwk.rostam>,
Chris Tomson <com.vpwk.ctomson>,
Bobbi Baio <com.vpwk.bbaio>



## 컴파일링
정규표현용 함수

In [51]:
regex = re.compile(r"\w+@\w+\.\w+")

In [53]:
regex.findall(cc_list)

['ekoenig@vpwk.com', 'rostam@vpwk.com', 'ctomson@vpwk.com', 'bbaio@vpwk.com']

---
# 지연 평가(lazy evaluation)

대량의 데이터를 다루는 상황에서 결과를 사용하기 전에 모든 데이터를 처리하지 않고자 하는 것

## 제너레이터

제너레이터 함수를 작성할때는 return 구문보다 yield 키워드를 사용한다.

yield는 매번 제너레이터가 호출되면 yield에서 지정한 값을 반환하고 다음 호출이 있을 때 까지 자신의 상태를 정지한다.

In [54]:
def count_num():
    n=0
    while True:
        n +=1
        yield n

In [60]:
counter = count_num()
counter

<generator object count_num at 0x00000237A867A430>

In [61]:
next(counter), next(counter), next(counter), next(counter)

(1, 2, 3, 4)

In [63]:
def fib():
    first = 0
    last = 1
    while True:
        first, last = last, first + last
        yield first

In [64]:
f = fib()
f

<generator object fib at 0x00000237A86FB190>

In [65]:
next(f),next(f),next(f),next(f),next(f),next(f),next(f),next(f)

(1, 1, 2, 3, 5, 8, 13, 21)

for 문을 통한 반복

In [67]:
f = fib()
for x in f:
    print(x)
    if x > 13:
        break

1
1
2
3
5
8
13
21


## 제너레이터 내포

In [74]:
list_o_nums = [x for x in range(100)]
gen_o_nums = (x for x in range(100))

In [70]:
print(list_o_nums)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


In [73]:
gen_o_nums

<generator object <genexpr> at 0x00000237A86FBDD0>

In [75]:
import sys
sys.getsizeof(list_o_nums), sys.getsizeof(gen_o_nums)

(904, 112)