# 정규식 사용 VS 비사용
- 주민등록번호를 포함하고 있는 문자열에서 주민등록번호 뒷자리를 '*' 문자로 변경

In [2]:
data = """
park 800904-1234567
kim 841130-1023451
"""

result = []
for line in data.split('\n'):
    word_results = []
    for word in line.split():
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_results.append(word)
    result.append(' '.join(word_results))
print('\n'.join(result))


park 800904-*******
kim 841130-*******



In [6]:
import re
data = """
park 800904-1234567
kim 841130-1023451
"""
pat = re.compile('(\d{6})[-]\d{7}') #숫자{6}개 - 숫자{7개}
print(pat.sub(r'\1-*******', data))



park 800904-*******
kim 841130-*******



In [9]:
phone = ['홍길동:010-1111-1111', '우리집:02-555-5555']    
phone_number =re.compile('(\d{2,3})[-]\d{3,4}[-]\d{4}')
for p in phone:
    m =re.search('\d{2,3}-\d{3,4}-\d{4}',p).group()
    print(m)
# print(phone_number,phone)

010-1111-1111
02-555-5555


## findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.

In [11]:
import re

# '+'으로 알파벳 소문자가 1개 이상이면 매치
p = re.compile('[a-z]+')
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


## finditer()
- 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.

In [13]:
result = p.finditer('life is too short')
for m in result:
    print(m)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


- group : 매치된 문자열 반환
- start() : 매치된 문자열의 시작 위치를 반환
- end(): 매치된 문자열의 끝 위치
- span() : 매치된 문자열의 시작과 끝을 인덱스로 반환

# Match 객체 함수

In [14]:
import re
p = re.compile('[a-z]+')
m = p.search('python')

print(m.group())
print(m.start())
print(m.end())
print(m.span())


python
0
6
(0, 6)


## DOTALL
- dot(.) 메타문자가 줄바꿈 문자( \n)을 포함한 모든 문자와 매치된다.


In [4]:
import re

m = re.match('a.b','a\nb')
print(m)

p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [6]:
s = '''hello
python'''

p = re.compile('hello.python', re.DOTALL)
m = p.match(s)
print(m)

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자에 관계 없이 매치한다

In [11]:
p = re.compile('[a-z]+', re.IGNORECASE)
m = p.match('python')
print(m)

m = p.match('Python')
print(m)

m = p.match('PYTHON')
print(m)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


## MULTILINE
- 여러 줄의 문자열에 대해 ^(~로 시작 하는지),$(~로 끝나는지) 메타문자를 적용할 수 있다.


In [16]:
# p = re.compile('^python\s\w+') # python으로 시작 공백이 하나 최소 1이상 반복
# p = re.compile('python\s\w+')
p = re.compile('^python\s\w+',re.MULTILINE) #문자열의 각 줄마다 ^,$ 메타문자를 적용한다
text = '''python one
life is too short
python two
you need python
python three'''

m = p.findall(text)
print(m)

['python one', 'python two', 'python three']


## VERBOSE
- VERBOSE 패턴 문자열에 사용된 공백은 컴파일시 제거된다.
- 패턴 문자열에 주석을 넣을 수 있다.

In [18]:
p = re.compile(r'''
$[#]            # start of a numeric entity reference
(
    0[0-7]+     # Octal form
    |[0-9]+     # Decimal form
)
''',re.VERBOSE)
print(p)

re.compile('\n$[#]            # start of a numeric entity reference\n(\n    0[0-7]+     # Octal form\n    |[0-9]+     # Decimal form\n)\n', re.VERBOSE)


# 백슬레시


In [24]:
import re
# '\section' 으로 해석된 문자열이 전달되어[\t\n\r\f\v]ection 과 같은 의미로 해석
p = re.compile('\\section')
# \section -> ection으로 수정하면 검색 됨
m = p.search('What is \section and example?')
print(m)

p = re.compile(r'\\section')
# \section -> ection으로 수정하면 검색 됨
m = p.search('What is \section and example?')
print(m)

None
<re.Match object; span=(8, 16), match='\\section'>


# 메타문자

- \A 는 줄과 상관 없이 문자열의 처음 하고만 일치된다.
- \Z 줄과 상관없이 전체 문자열의 끝가 일치
- \b 단어 앞뒤가 공백으로 구분된 단어와 일치함을 의미 \b 백스페이스를 의미하므로 단어 구분자로 사용되기 위해서는 r을 반드시 붙여줘야 한다.
- \B 반대로 단어 앞뒤가 공백으로 구분된 단어가 아님을 의미한다.

## |
- or의 의미

In [26]:
import re

p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


## ^
- ^ 다음에 나오는 문자열로 시작하는지 판단

In [27]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life','My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


## $
- 문자열의 끝과 일치하는지 판단

In [28]:
print(re.search('short$','Life is too short'))
print(re.search('short$','Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


# \A
- 문자열의 처음과 일치함을 의미
- MULTILINE 옵션 안먹힘
- MULTILINE 옵션 안쓴 ^ 와 동일

In [29]:
p = re.compile('\Apython\s\w+', re.MULTILINE)
text = '''python one
life is too short
python two
you need python
python three'''

m= p.findall(text)
print(m)


['python one']


## \b
- 단어 앞뒤가 공백으로 구분되어 있는지 검사
- 매치 결과로 공백을 포함하지 않는다.
- \s는 공백을 포함하고 있는지를 검사. 즉, 공백도 일치하는 문자열로 검색결과에 포함
- Raw String 문자 r을 붙여줘야 한다.

In [35]:
# p = re.compile(r'\bclass\b)
p = re.compile(r'\sclass\s') # 공백을 포함한 매치 결과를 반환
# 공백을 포함하지 않고 매치 결과를 반환
print(p.search('no class at all'))
print(p.search('the declassfield algorithm'))
print(p.search('one subclass is'))

<re.Match object; span=(2, 9), match=' class '>
None
None


# \B
- 단어 앞뒤가 공백으로 구분된 단어가 아닌경우 일치

In [37]:
p = re.compile(r'\Bclass\B') 
print(p.search('no class at all'))
print(p.search('the declassfield algorithm'))
print(p.search('one subclass is'))

None
<re.Match object; span=(6, 11), match='class'>
None


## \
- 정규 표현식에서 사용하는 메타 문자를 문자 그대로 표현하려면 앞에\를 붙임

In [39]:
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m)


<re.Match object; span=(4, 10), match='안녕하세요?'>


## 그룹핑
- () 메타 문자는 그룹을 만든다.
- 그룹을 만들면 group() 함수를 사용하여 그룹핑된 부분의 문자열만 뽑아낼수있다
    - group(0) : 일치된 전체 문자열, group()와 동일
    - group(1) : 첫 번째 그룹에 해당하는 문자열
    - group(n) : n 번째 그룹에 해당하는 문자열
- '₩번호' 를 이용하면 번호에 해당하는 그룹을 재참조 한다. 표현식은 Raw String 으로 선언해야 한다.
  - 그룹핑에 이름 붙이기
    - (?P<그룹 이름>)

In [46]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group()) # m.group(0) 과 동일. 일치된 전체 문자열 반환
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [50]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(0))
print(m.group(1))
print(m.group(2))

park 010-1234-1234
park
010-1234-1234


- 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다.

In [55]:
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(3))

010


- \번호를 이용한 그룹 재참조
- Raw String으로 표현해야 된다.

In [59]:
re.match(r'(a)(b)\1\2','abab')

<re.Match object; span=(0, 4), match='abab'>

In [60]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris is the the spring').group()

'the the'

- 그룹에 이름 붙이기
- (?P<그룹 이름>)

In [61]:
p = re.compile('(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

park


## 전방 탐색
- 표현식1(?=표현식2) : 긍정 전방 탐색 : 표현식1 뒤의 문자열이 표현식2와 매치되면 표현식1 매치.(표현식2의 문자열은 결과로 반환되지않음)
- 표현식1(?!표현식2) : 부정 전방 탐색 : 표현식1 뒤의 문자열이 표현식2와 매치되지 않으면 표현식1 매치.(표현식2의 문자열은 결과로 반환되지않음)


## 후방 탐색
- 텍스트를 반환하기 전에 뒤쪽을 탐색하는 것
- (?<=표현식2) 표현식1 : 긍정 후방 탐색 : 표현식1 앞의 문자열이 표현식2와 매치되면 표현식1 매치.(표현식2의 문자열은 결과로 반환되지않음)
- (?<!표현식2) 표현식1 : 부정 후방 탐색 : 표현식1 앞의 문자열이 표현식2와 매치되지 않으면 표현식1 매치.(표현식2의 문자열은 결과로 반환되지않음)

In [67]:
#URL 에서 프로토콜 이름만 검색
p = re.compile('.+(?=:)')
m = p.search('http://www.naver.com')
print(m.group())

http


In [72]:
# 파일 이름 확장자 중 bat 파일만 제외하고 추출하기
filenames = ['autoexe.bat','python.exe','sysinfo.cf']
p = re.compile('.+[.](?!bat).+') # 뒤에 .+ -> 확장자까지 일치 문자열로 찾기 위해서
for filename in filenames:
    m = p.search(filename)
    if m :
        print(m.group())

python.exe
sysinfo.cf


In [75]:
p = re.compile('(?<=\$)\d+[.]\d+')
m = p.search('ABC01: $23.45')
print(m.group(0))

23.45


# 문자열 바꾸기

In [80]:
p = re.compile('blue|white|red')
p.sub('color','blue socks and red socks')

'color socks and color socks'

# 정규표현식 실습

## 한글 찾기/ 한글 제거

In [95]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[^\.\sㄱ-힣]+', s) # 한글만 제거
# m = re.findall('[ㄱ-힣]+', s) # 한글만 찾기
print(m)

['good', 'morning']


## 대문자로 시작하는 단어 찾기

In [107]:
text = '''Edit the Expression & Text to see matches. Roll over matches or the expression for details.
PCRE & JavaScript flavors of RegEx are supported. Validate your expression with Tests mode.'''

m = re.findall('[A-Z][a-z]',text)
print(m)

['Edit', 'Expression', 'Text', 'Roll', 'Java', 'Script', 'Reg', 'Ex', 'Validate', 'Tests']


## 문장 안에 이메일 주소 추출하기

In [123]:
text = '''Ryan has sent an invoice email to john.d@yahoo.com by using his email id ryan.arjun@gmail.com and
 he also shared a copy to his boss rosy.gray@amazon.co.uk on the cc part.'''

m = re.findall('[a-zA-Z]\w*[.]?\w*@[a-zA-Z]\w*[.]\w*[.]?\w*', text)
print(m)

['john.d@yahoo.com', 'ryan.arjun@gmail.com', 'rosy.gray@amazon.co.uk']


## 입력 받은 주민번호의 유효성 검증

In [1]:
import re
j = input('입력')
print(j)
# p = re.compile('\d{2}[0-1]\d{1}[0-3]\d{1}-[1-4]\d{6}')
p = re.compile('\d{2}(0[1-9]|1[0-2](0[1-9]|1[0-9]|2[0-9]|3[0-1])-[1-4]\d{6})')
# (0[1-9]1[0-2]) : 월의 앞자리가 0일때 뒷자리가 1~9까지 ㅇ또는 | 앞자리가 1일때 뒷자리는 0~2까지 허용
m = p.match(j)
if m:
    print('유요한 주민번호 형식입니다')
else:
    print('잘못된 입력입니다')




980911-1559216
유요한 주민번호 형식입니다


selenium 모듈 정의
- 웹 어플리케이션 테스트를 위한 프레임워크
- 다양한 언어에서 지원하며 사용자가아닌 프로글매 이 웹브라우저를 제어할수 있도록 지원
- 브라우저마다 클라이엉ㄴ트 프로그램 이 별도로 필요
- 크롤링 보다는 웹을 제어하는 목적이 더 큼