# 정규표현 함수
## re.search 함수

패턴이 문자열의 어느 위치에 있든지 상관없이, **처음으로** 일치하는 부분을 찾는다.<br>
일치하는 부분을 찾지 못하면 NoenType(None)을 반환한다.<br>
re.Match로 반환되기 때문에 group(), groups()를 사용할 수 있다.

In [1]:
import re

In [2]:
re.search('\s+', '\t\n123\t\nabc\t\n')

<re.Match object; span=(0, 2), match='\t\n'>

search()는 문자열 전체에서 패턴을 찾는다. <br>
$를 사용하면, 문자열의 마지막 부분에서 일치하는 것을 찾는다.<br>

참고: match와 \$를 함께 사용한다면, 문자열의 시작(^)부터 끝($)까지 완전 일치해야 한다!

In [3]:
re.search('\s+$', '\t\n123\n\tabc\t\n\n')

<re.Match object; span=(10, 13), match='\t\n\n'>

In [4]:
re.search('\s+$', '\t\n123\n\tabc\t\n\n').group()

'\t\n\n'

In [5]:
re.search('(\s+)$', '\t\n123\n\tabc\n\n\n').groups()
# re.search('\s+$', '\t\n123\n\tabc\n\n\n').groups()

('\n\n\n',)

In [75]:
re.search('(\s)+$', '\t\n123\n\tabc\n\n\n').groups()

('\n',)

## 정규표현과 조건문

In [77]:
a = ['abc', 'bcd103', '103abc']

In [None]:
# re.search('\w+', a)

TypeError: expected string or bytes-like object, got 'list'

In [9]:
for i in a:
    if re.search('\d+', i):
        print(i, re.search('\d+', i).group())

# 찾는 것이기 때문에 첫 시작 위치는 상관없다.

bcd103 103
103abc 103


## 불 자료형 Bool Type

숫자 0, 빈 문자열, 빈 리스트, 빈 튜플, None 객체는 항상 거짓이다.<br>
추가로 빈 집합, 빈 사전 등도 모두 거짓이다.

In [10]:
True + True + 2 * True

4

In [11]:
False + False

0

In [12]:
for i in [0, 1, -2, 3, '', 'a', [], [0], (), (1,), None]:
    if i:
        print(i)

1
-2
3
a
[0]
(1,)


(참고) NoneType == None

In [13]:
type(None)

NoneType

## 연습문제 1

In [14]:
import os
os.chdir('C:/Users/yunji/Desktop/코퍼스언어학')
word = open('02_data.txt').read().split()

In [15]:
L = list()

# re.search('\W', i)에서 
# ['1/2', '1/8', '3/4-', '3/4-', '1/2', '1/2', '8-', '1/2']
# 얘네를 빼야 한다. 그래서 알파벳 문자 포함하는 search를 또 해야 함.

for i in word:
    if re.search('[a-zA-Z]', i) and re.search('\W', i):
        L.append(i)

# _를 추가하고 싶으면 어떻게 해야 할까??
# for i in word:
#     if re.search('[^\da-zA-Z]', i):
#         L.append(i)

In [16]:
len(L)

189

In [17]:
L[:10]

['center.',
 'cups;',
 'aside.',
 'bowl,',
 'flour,',
 'powder,',
 'salt,',
 'soda;',
 'aside.',
 'attachment,']

## 최소 매칭: ?

In [18]:
a = '<a href="in.html">HERE<a href="out.html">'
a

'<a href="in.html">HERE<a href="out.html">'

기본적으로 최장 일치(Greedy Matching)이다.

In [19]:
re.search('href=".*"', a).group()
# 왜 "까지일까? .*이 쭉 되다가 그 뒤에 "이 있기 때문에!!
# "로 마무리 되어야 한다.
# 최장이기 때문에 in.html"에서 끝나지 않고 out.html"로 끝나는 것이다.

'href="in.html">HERE<a href="out.html"'

최소 매칭(Non-Greedy or Lazy Mathcing)을 보고 싶다면, ?를 추가하면 된다.<br>
다음 패턴 요소를 만족시킬 수 있는 최소한의 문자만 가져간다.

In [20]:
re.search('href=".*?"', a).group()
# 반복 메타 문자 뒤의 물음표는 '최소 매칭 물음표'이다.
# 반복 메타 문자 뒤가 아닌 물음표는 '반복 메타 문자 물음표'이다.
# ?는 쉽게 말하면 최소를 의미하기 때문에, in.html" 뒤에 끝나는 것.

'href="in.html"'

## re.findall 함수

처음부터 탐색. 최장 일치로!!!<br>
앞으로 가장 많이 쓸 거다.

return 형식이 항상 **list**이다.<br>
매치되는 문자열이 없다면 빈 리스트 [ ]를 출력한다.

findall 함수를 가장 많이 사용한다.

In [21]:
a

'<a href="in.html">HERE<a href="out.html">'

?를 써주면, 마찬가지로 비탐욕적 탐색을 실행한다.

In [22]:
re.findall('href=".*?"', a)

['href="in.html"', 'href="out.html"']

( )를 해주면 괄호 내부에 있는 내용만 반환해준다.

In [23]:
re.findall('href="(.*?)"', a)

['in.html', 'out.html']

기본적으로는 Greedy!!!

In [24]:
re.findall('href=".*"', a)
# 최장 매칭

['href="in.html">HERE<a href="out.html"']

In [25]:
re.findall('\w+', a)

['a', 'href', 'in', 'html', 'HERE', 'a', 'href', 'out', 'html']

( )를 해서 캡쳐 그룹을 찾아낼 때 기존에 저장된 캡쳐본은 덮어쓰기 때문에, 마지막 글자가 저장되는 것을 볼 수 있다.

In [26]:
re.findall('(\w)+', a)

['a', 'f', 'n', 'l', 'E', 'a', 'f', 't', 'l']

### 어휘 경계는 어디일까?<br>
\\b는 **위치**이지 문자가 아니다!!<br>
(\\\b는 어휘 경계를 말한다. \w와 \W 사이, 문자열 시작(끝)과 \w 사이)<br>
(\w : 숫자, 자연어, _)

.가 \n을 제외하기 때문에, 아래의 경우 123, abc로 끊긴다.<br>
공백 문자는 \W(비단어)이기 때문에 \\b 안에 해당되지 않는다.

In [27]:
re.findall('\\b.+\\b', '\t\n123\n\tabc\n\n\n')

['123', 'abc']

만약 3 뒤에 \t가 왔으면 결과는 다르게 나온다.<br>
이때의 어휘 경계는 1부터 c까지이다.<br>
\t는 경계를 만드는 위치이지 매칭을 멈추게 하는 문자가 아니다.<br>
.+이 경계를 무시하고 계속 나아가기 때문에 \t가 포함되는 것

In [28]:
re.findall('\\b.+\\b', '\t\n123\t\tabc\n\n\n')

['123\t\tabc']

In [29]:
re.findall('\\b.+\\b', '\t\n123abc\n\n\n')

['123abc']

In [79]:
re.findall('\\b.+\\b', '\t\n123..abc..\n\n\n')
# 최장일치이기 때문에 ..도 매칭이 된다!!
# abc..\n로 끝나기 때문에 abc에서 끊기는 것

['123..abc']

In [31]:
re.findall('\\b.', '\t123.abc.\n')

['1', '.', 'a', '.']

In [None]:
re.findall('.\\b', '\t123.abc.\n')

['\t', '3', '.', 'c']

-은 이스케이프 문자가 아니라 [ ] 안에 꼭 넣을 필요는 없다.<br>
캡쳐 그룹이 0/1개이면 리스트에 단일 요소들로 저장된다.<br>
만약 캡쳐 그룹이 2개 이상이면, 매칭된 내용들을 tuple로 묶어 list에 저장한다.

In [84]:
re.findall('(\w+)\s+(\d+[-]\d+[-]\d+)', "park 010-1234-5678")

[('park', '010-1234-5678')]

In [34]:
re.findall('(\w+)\s+(\d+[-](\d+[-]\d+))', "park 010-1234-5678")

[('park', '010-1234-5678', '1234-5678')]

In [None]:
re.findall('(\w+)\s+(\d+[-](\d+)[-](\d+))', "park 010-1234-5678")

[('park', '010-1234-5678', '1234', '5678'),
 ('chpo', '010-234-1234', '234', '1234')]

In [89]:
re.search('(\w+)\s+(\d+[-](\d+)[-](\d+))', "park 010-1234-5678").group(1, 2, 3, 4)

('park', '010-1234-5678', '1234', '5678')

$ 는 문자열 끝과 매치, 문자열 마지막 문자가 \n 경우 그 왼쪽과 매치되는 문자이다.<br>
문자열 마지막 문자가 \n인 경우의 그 왼쪽과 매치되는 문자는 '.'이고, 문자열 끝은 '\n'라 두 개가 매치된다.

In [91]:
re.findall('[\w\W]$', '\t123.abc.\n')

['.', '\n']

In [38]:
re.findall('[\w\W]$', '\t123.abc.\n\n')

['\n', '\n']

In [39]:
re.findall('[\w\W]$', '\t123.abc.\n\t')

['\t']

## re.split 함수

문자열 메소드의 split()과 구분해야 한다.<br/>
캡쳐 그룹을 사용하면 그 구분자 자체도 list에 포함된다.<br>
구분자가 문자열의 시작이나 끝에 있으면 그 위치에 ''를 생성한다.

In [93]:
re.split('\W+', '\t\n123..abc..\n\n\n')
# \t\n 123 .. abc ..\n\n\n

['', '123', 'abc', '']

In [41]:
re.split('\W+', '\t\n123..abc..\n\n\n', 1)
# 왼쪽에서부터 n번만 분리해라.

['', '123..abc..\n\n\n']

In [42]:
re.split('\W+', '\t\n123..abc..\n\n\n', 2)

['', '123', 'abc..\n\n\n']

In [95]:
re.split('\W+', '\t\n123..abc..\n\n\n', 3)

['', '123', 'abc', '']

In [96]:
re.split('(\W+)', '\t\n123..abc..\n\n\n')
# 구분자도 출력하려면 정규표현식에 그룹핑() 해주면 된다.

['', '\t\n', '123', '..', 'abc', '..\n\n\n', '']

캡쳐 그룹을 아래와 같이 지정되면 덮어씌워지는 것을 기억하자

In [45]:
re.split('(\W)+', '\t\n123..abc..\n\n\n')

['', '\n', '123', '.', 'abc', '\n', '']

구분자가 있는가 없는가, 구분자가 있을 수 있는지 확인해 보아야 한다.

In [100]:
re.split('\W+(\w+)', '\t\n123..abc..\n\n\n')

['', '123', '', 'abc', '..\n\n\n']

In [101]:
re.split('\W+(\w+)', '\t\n123..abc..\n\n\n', 1)

['', '123', '..abc..\n\n\n']

In [102]:
re.split('(\W+)(\w+)', '\t\n123..abc..\n\n\n')

['', '\t\n', '123', '', '..', 'abc', '..\n\n\n']

## re.sub 함수
패턴과 일치하는 부분을 다른 문자열로 대체한다.<br>
re.sub(pattern, repl, string, count, flags)


In [49]:
re.sub('red|blue', 'write', "red and blue painting")

'write and write painting'

In [50]:
re.sub('red|blue', 'write', "red and blue painting", 1)
# 왼쪽에서 n번만 바꿔라.

'write and blue painting'

In [51]:
re.sub('(red|blue) and', 'write', "red and blue painting")

'write blue painting'

In [52]:
re.sub('and (red|blue)', 'write', "red and blue painting")

'red write painting'

## re.compile 함수
하나의 정규표현식을 여러 번 쓸 수 있다!! <br>
반복해서 쓰지 않아도 된다.<br>
re.compile(pattern, flags)<br><br>
re.Pattern 자료형이다.<br>
그렇기 때문에 '(\w+)\s+=\s+(\w+)'.match 이런 식으로는 쓰면 안 된다.

In [53]:
p = re.compile('(\w+)\s+=\s+(\w+)')

In [103]:
type(p)

re.Pattern

In [107]:
p.match('abc = 1234').groups()

('abc', '1234')

In [56]:
p.search('bc = 12').groups()

('bc', '12')

In [57]:
p.findall('abc = 1234 bc = 12')

[('abc', '1234'), ('bc', '12')]

## 정규표현 flags
- re.DOTALL(re.S): 점 문자 포함, \n까지 포함하자!
- re.IGNORECASE(re.I): 대소문자 무시하자!
- re.MULTILINE(re.M): ^와 $의 동작이 바뀐다(\n으로 구분될 때).
  - ^: 문자열 시작뿐만 아니라 각 줄의 시작에서도 매치된다.
  - $: 문자열 끝뿐만 아니라 각 줄의 끝에서도 매치된다.

In [58]:
re.match('.+', 'ab\ncd').group()

'ab'

. 는 \n을 포함하지 않지만 re.DOTALL과 re.S를 쓰면 \n도 표현할 수 있다.

In [59]:
re.match('.+', 'ab\ncd', re.DOTALL).group()

'ab\ncd'

In [60]:
re.match('.+', 'ab\ncd', re.S).group()

'ab\ncd'

In [110]:
re.match('[a-z]+', 'pyTHon').group()

'py'

In [None]:
# re.match('[A-Z]+', 'pyTHon').group()

AttributeError: 'NoneType' object has no attribute 'group'

In [111]:
re.match('[A-Z]+', 'pyTHon', re.IGNORECASE).group()

'pyTHon'

In [115]:
re.match('[A-Z]+', 'pyTHon', re.I).group()

'pyTHon'

^ 은 문자열 시작을 나타낸다.

In [116]:
re.findall('^[a-z]+', 'ab\ncd\nef')

['ab']

In [118]:
re.findall('^[a-z]+', 'ab\ncd\nef', re.MULTILINE)

['ab', 'cd', 'ef']

In [67]:
re.findall('^[a-z]+', 'ab\ncd\nef', re.M)

['ab', 'cd', 'ef']

In [68]:
re.findall('[a-z]+$', 'ab\ncd\nef')

['ef']

In [69]:
re.findall('[a-z]+$', 'ab\ncd\nef', re.M)

['ab', 'cd', 'ef']

## 정규표현 함수의 논항수와 flags

In [70]:
re.match('[A-Z]+', 'pyTHon', re.I).group()

'pyTHon'

In [71]:
re.match('[A-Z]+', 'pyTHon', flags=re.I).group()

'pyTHon'

In [120]:
re.sub('[A-Z]+', '***', 'pyTHon')

'py***on'

In [123]:
re.sub('[A-Z]+', '***', 'pyTHon', re.I)

'py***on'

In [122]:
re.sub('[A-Z]+', '***', 'pyTHon', flags=re.I)

'***'

위 결과가 다르게 나오는 이유는 인자 전달 위치가 다르기 때문이다.<br>
- re.match(pattern, string, flags)
- re.search(pattern, string, flags)
- re.findall(pattern, string, flags)
- re.split(pattern, string, maxsplit, flags)
- re.sub(pattern, repl, string, count, flags)
- re.compile(pattern, flags)

## 연습문제 2

제어구문 최대한 안 쓰고 해보기!

In [72]:
a = '''회원 명단입니다.
Donald Trump\t\tTrump.python@python.ac.kr
Barack Obama   obama@python.org
이상입니다.
'''
a

'회원 명단입니다.\nDonald Trump\t\tTrump.python@python.ac.kr\nBarack Obama   obama@python.org\n이상입니다.\n'

In [73]:
for i in re.findall('\w+\s+\w+\s+(.+@.+)', a):
    print(i)
print()

for i in re.findall('(\w+.?\w+@.+)', a):
    print(i)
print()

print('\n'.join(re.findall('[a-z.]+@[a-z@.]+', a, re.I))); print()

print('\n'.join(re.findall('[a-z.]+@[a-z.]+', a, re.I))); print()

for i in a.split():
    if '@' in i: print(i)

Trump.python@python.ac.kr
obama@python.org

Trump.python@python.ac.kr
obama@python.org

Trump.python@python.ac.kr
obama@python.org

Trump.python@python.ac.kr
obama@python.org

Trump.python@python.ac.kr
obama@python.org
