# 정규식 사용 vs 비사용
- 주민등록번호를 포함하고 있는 문자열에서 주민등록번호 뒷자리를 '*' 문자로 변경

In [1]:
data = """
park 800904-1234567
kim 841130-1023451
"""
result= []
for line in data.split('\n'):
  word_result=[]
  for word in line.split():
    if len(word) == 14 and word[:6].isdigit() and word[7].isdigit():
      word = word[:6] + '-' + '*******'
    word_result.append(word)
  result.append(' '.join(word_result))
print('\n'.join(result))


park 800904-*******
kim 841130-*******



In [2]:
import re
data = """
park 800904-1234567
kim 841130-1023451
"""
pat = re.compile('(\d{6})[-]\d{7}')
# pat = re.compile('([0-9]{6})[-]\d{7}')

print(pat.sub(r'\1-*******',data))


park 800904-*******
kim 841130-*******



### 정규 표현식
- 메타 문자
  - 정규 표현식에 사용되어 지는 특별한 의미를 갖는 문자
```. ^ $ " + ? {} [] ₩ | ()```
- 문자 클래스[]
  - [] 안에 포함된 문자들 중 하나와 매치 여부를 확인한다.
  - 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위(form-to)를 의미한다.
  - 문자 클래스 안에 ^메타 문자가 사용되면 `not`의 의미를 갖는다.
  - ^[0-9]는 숫자가 아닌 문자만 매치된다.
  - ^ 메타 문자가 [] 밖에 사용되면 특정 문자로 시작하는지 판단

- 자주 사용하는 문자클래스
  - ₩: 정규 표현식에서 사용하는 문자 그대로 표현하려면 앞에 ₩를 붙임 예) `₩+`, `₩"`
  - ₩d: 숫자와 매치 [0-9]와 동일한 표현식
  - ₩D: 숫자가 아닌것과 매치, [^0-9]와 동일한 표현식
  - ₩s: 공백문자(space, tab)와 매치, [₩t ₩n ₩r ₩f ₩v]와 동일한 표현식
  - ₩S: 공백문자가 아닌것과 매치 [^ ₩t ₩n ₩r ₩f ₩v]와 동일한 표현식
  - \w: 문자+숫자와 매치, [a-zA-Z0-9]
  - \W: 문자+숫자가 아닌 문자와 매치, [a-zA-Z0-9]
  - 한글 여부 : [ㄱ-힣]

- Dot(.)
    - Dot(.) 메타 문자는 줄바꿈 문자인 **\n을 제외한 모든 문자와 매치**됨을 의미한다.
    - [] 사이에.을 사용할 경우 문자 원래의 의미인 마침표가 된다.
- 반복(*)
    - *은 *바로 앞에 있는 문자가 **0부터 무한대로 반복**될 수 있다는 의미이다.

- 반복(+)
    - +는 최소 1번 이상 반복될때 사용한다
- 반복 횟수 지정({m,n})
    - {} 메타 문자는 **반복 횟수를 지정**할 수 있다. {m,n} 정규식을 사용하면 반복횟수가 m부터 n까지 매치할 수 있다.
    m 또는 n을 생략하거나 정수 한개 만 쓸 수도 있다. {m,}이면 반복횟수가 m이상인 경우이고, {n,}이면 반복 횟수가 n이하를 의미한다.

- ? 앞에 문자가 `하나 있거나 없을 떄` 매치된다.
- $ 앞에 있는 문자로 끝나면 매치된다. 여러줄의 문자열일 경우 마지막 줄만 적용된다.
- ^ 다음에 있는 문자로 시작하면 매치된다.
- [^]: 안에서 사용되면 not

### re 모듈 사용
- re모듈의 compile 함수를 이용하여 정규 표현식을 컴파일 한다.
```python
import re
p = re.compile("ab")
```
- 정규식을 사용한 문자열 검색
  - 컴파일 된 객체를 이용하여 다음의 함수를 이용하여 문자열 검색을 할 수 있다.
    - match(): 문자열의 처음시작부터 검색하여 일치하지 않는 부분이 나올 떄까지 찾는다.
    - search(): 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.
    - findall(): 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.
    - finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.
- 컴파일과 매치의 동시 수행
match(패턴,찾고싶은 문자열)
```python
m = re.match('[a-z]+','python')
```

# 2. 문자열 검색

In [3]:
import re
# 알파벳 소문자가 1개 이상이면 매칭
p = re.compile('[a-z]+')

### match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [8]:
m1 = p.match('python')
print(m1)

m2 = p.match('pYthon')
print(m2)

m3 = p.match('3 python')
print(m3)

m = p.match('python')
if m:
  print('Match Found:',m.group())
else:
  print('Not Match')

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None
Match Found: python


### search()
- 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.

In [9]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


## [문제] 전화번호 추출하기
- 다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하시오.
- phone = ['홍길동:010-1111-1111','우리집:02-555-5555']
- 참고: \d, {n}

In [24]:
import re
# 알파벳 소문자가 1개 이상이면 매칭
p = re.compile('\d{2,3}-\d{3,4}-\d{4}')

In [26]:
phone = ['홍길동:010-1111-1111','우리집:02-555-5555']

for phone_num in phone:
  m = re.search(p,phone_num).group()
  print(m)


010-1111-1111
02-555-5555


### findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.

In [32]:
import re
# 알파벳 소문자가 1개 이상이면 매칭
p = re.compile('[a-z]+')

result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


### finditer()
- 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.

In [35]:
result = p.finditer('life is too short')
for m in result:
  print(m)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


# Match 객체 함수

In [37]:
import re
p = re.compile('[a-z]+')
m = p.search('python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


# 4. 컴파일 옵션 

## DOTALL
- dot(.) 메타 문자가 줄바꿈 문자(\n)를 포함한 모든 문자와 매치된다.

In [3]:
import re

m = re.match('a.b','a\nb')
print(m)

p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [6]:
s = '''hello
python'''

p = re.compile('hello.python',re.DOTALL)
m = p.match(s)
print(m)

<re.Match object; span=(0, 12), match='hello\npython'>


### IGNORECASE
- 대소문자에 관계 없이 매치한다.

In [7]:
p = re.compile('[a-z]+', re.IGNORECASE)
m= p.match('python')
print(m)

m = p.match('Python')
print(m)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>


### MULTILINE
- 여러 줄의 문자열에 대해 ^,$ 메타문자를 적용할 수 있다.

In [11]:
# ^ p로 시작하는지
# p = re.compile('^python\s\w+')
# MULTILINE 은 ^, $ 메타 문자를 문자열의 각 줄마다 적용한다.
p = re.compile('python\s\w+',re.MULTILINE)

text= '''python one
life is too short
python two
you need python
python three'''

m = p.findall(text)
print(m)

['python one', 'python two', 'python\npython']


### 4.4 VERBOSE
  - VERBOSE 옵션을 사용하면 패턴 문자열에 사용된 공백은 컴파일 시 제거된다.
  - 패턴 문자열에 주석을 넣을 수 있다.

In [13]:
p = re.compile(r'''
&[#]     # start of a numeric entity reference
(
  0[0-7]+ # Octal form
  |[0-9]+ # Decimal form
)
''',re.VERBOSE)

print(p)

re.compile('\n&[#]     # start of a numeric entity reference\n(\n  0[0-7]+ # Octal form\n  |[0-9]+ # Decimal form\n)\n', re.VERBOSE)


### 5. 백슬레시 문제 

In [20]:
import re

# '\section'으로 해석된 문자열이 전달되어 [\t\n\r\f\v] ection과 같은 의미로 해석
p = re.compile('\\section')
# \section -> ection으로 수정하면 검색 됨
m = p.search('What is \section and example?')
print(m)

p = re.compile(r'\\section')
m = p.search('What is \section and example?')
print(m)

None
<re.Match object; span=(8, 16), match='\\section'>


# 6. 메타 문자
### 6.1 
- or 의 의미

In [21]:
import re

p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


### 6.2 ^
- ^다음에 나오는 문자열로 시작하는지 판단

In [22]:
print(re.search('^Life','Life is too short'))
print(re.search('^Life','My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


### 7. ₩A
- 문자열의 처음과 일치함을 의미
- MULTILINE 옵션 안먹힘
- MULTILINE 옵션 안쓴 ^ 와 동일

In [29]:
# \A 처음과 일치해야만 찾아줌
p = re.compile('\Apython\s\w+',re.MULTILINE)
text = '''python one
life is too short
python two
you need python
python three'''

m= p.findall(text)
print(m)

['python one']


### ₩b
- 단어 압뒤가 공백으로 구분되어 있는지 검사
- 매치 결과로 공백을 포함하지 않는다.
- \s는 공백을 포함하고 있는지를 검사. 즉, 공백도 일치하는 문자열로 검색결과에 포함
- Raw String 문자 r을 붙여줘야 한다.

In [31]:
# p = re.compile(r'\bclass\b')

# 공백을 포함한 매치 결과를 반환
p = re.compile(r'\sclass\s')
# 공백을 포함하지 않고 매치 결과를 반환
print(p.search('no class at all'))
print(p.search('the declassfied algorithm'))
print(p.search('one subclass is'))


<re.Match object; span=(2, 9), match=' class '>
None
None


### ₩B
- 단어 앞뒤가 공백으로 구분된 단어가 아닌 경우 일치

In [33]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('the declassfied algorithm'))
print(p.search('one subclass is'))

None
<re.Match object; span=(6, 11), match='class'>
None


### 8.1 ₩
- 정규 표현식에서 사용하는 메타 문자를 문자 그대로 표현하려면 앞에 ₩를 붙임

In [34]:
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m)

<re.Match object; span=(4, 10), match='안녕하세요?'>


# 데이터의 가공
### 파이선에서 정규 표현식 사용
- 그룹핑
  - () 메타 문자는 그룹을 만든다.
  - 그룹을 만들면 group() 함수를 사용하여 그룹핑된 부분의 문자열만 뽑아낼 수 있다.
  - group(0): 일치된 전체 문자열, group(0)과 동일
  - group(1): 첫 번째 그룹에 해당하는 문자열
  - group(n): n 번째 그룹에 해당하는 문자열
  - '₩번호' 를 이용하면 번호에 해당하는 그룹을 재참조 한다. 표현식은 Raw String 으로 선언해야 한다.
  - 그룹핑에 이름 붙이기
    - (?P<그룹 이름>)

# 9. 그룹핑

In [49]:
import re

p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group(0)) # 일치된 전체 문자열 반환
print(m.group(1)) # 첫 번째 그룹에 해당하는 문자열

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


- 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다.

In [54]:
# 모든단어 , 공백포함 , 숫자 , 숫자 , 숫자
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(3))

010


- ₩번호를 이용한 그룹 재참조
- Raw String으로 표현해야 한다.

In [56]:
re.match(r'(a)(b)\1\2','abab')

<re.Match object; span=(0, 4), match='abab'>

In [57]:
# 
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris is the the spring').group()

'the the'

- 그룹에 이름 붙이기
- (?P<그룹 이름>)

In [59]:
p = re.compile('(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

park


### 전방 탐색
  - 표현식1(?=표현식2): 긍정 전방탐색
    - 표현식1 뒤에 문자열이 표현식2와 매치되면 표현식1매치. 표션식2의 문자열은 결과로 반환하지 않는다.
  - 표현식1(?!=표현식2): 부정 전방탐색
    - 표현식1 뒤에 문자열이 표현식2와 매치되지 않으면  표현식1매치. 표션식2의 문자열은 결과로 반환하지 않는다.

### 후방탐색
- 텍스트를 반환하기 전에 뒤쪽으 탐색하는 것
- (?<=표현식>) 표현식: 긍정 후방탐색
- (?<!=표현식>) 표현식: 부정 후방탐색

# 전방탐색 / 후방탐색
### 긍정 전방 탐색

In [67]:
import re

# URL에서 프로토콜 이름만 검색
p = re.compile('.+(?=:)')
m = p.search('http://www.naver.com')
print(m.groups(0))

()


### 10.2 부정 전방 탐색

In [68]:
# 파일 이름의 확장자 중 bat 파일만 제외하고 추출하기
filenames = ['autoexe.bat','python.exe','sysinfo.cf']
p = re.compile('.+.[.](?!bat).+') # 뒤에 . + -> 확장자까지 일치 문자열로 찾기 위해
for filename in filenames:
  m= p.search(filename)
  if m:
    print(m.group())

python.exe
sysinfo.cf


### 10.3 후방탐색

In [70]:
p = re.compile('(?<=\$)\d+[.]\d+')
m = p.search('ABC01: $23.45')
print(m.group())

23.45


# 11 문자열 바꾸기

In [74]:
p = re.compile('blue|white|red')
#  count = 0 | 생략하면 전체를 다 바꾼다.
p.sub('colur','blue socks and red socks') #, count = 0)

'colur socks and colur socks'

# 12 정규 표현식 실습
### 12.1 한글 찾기 / 한글 제거

In [82]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[ㄱ-힣]+',s)
print(m)
m = re.findall('[^\.\sㄱ-힣]+',s)
print(m)

['한글이에요', '안녕하세요']
['good', 'morning']


### 12.2 대문자로 시작하는 단어 찾기

In [94]:
text = 'Lorem ipsum dolor sit amet PCRE consectetur adipisicing elit. In architecto odio repudiandae ut quibusdam iste inventore! Blanditiis, autem quaerat sit possimus saepe unde corporis facere enim expedita nulla cumque suscipit.'

m1 = re.findall('[A-Z]\w+',text)
m2 = re.findall('[A-Z][a-z]+',text)

print(m1)
print(m2)

['Lorem', 'PCRE', 'In', 'Blanditiis']
['Lorem', 'In', 'Blanditiis']


### 12.3 문장 안에 이메일 주소 추출하기

In [104]:
text = '''Ryan has sent an invoice email to john.d@yahoo.com by using
his email id ryan.arjun@gmail.com and he also shared a copy to his boss
rosy.gray@amazon.com.co.uk on the cc part.'''

p = re.compile('[a-zA-Z]\w*[.]?\w*@[a-zA-Z]\w*[.]\w*[.]?\w*')
m1 = re.findall(p,text)
m2 = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b',text)
print(m1)
print(m2)

['john.d@yahoo.com', 'ryan.arjun@gmail.com', 'rosy.gray@amazon.com.co']
['john.d@yahoo.com', 'ryan.arjun@gmail.com', 'rosy.gray@amazon.com.co.uk']


### 12.4 입력 받은 주민번호의 유효성 검증

In [109]:
import re

jumin = input("주민등록번호 입력: ")
p = re.compile('\d{2}[0-1]\d{1}[0-3]\d{1}-[1-4]\d{6}')
m = p.match(jumin)

if m:
    print("유효함")
else:
    print("유효하지 않음")

유효하지 않음


# 2. BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있도록 도와주는 파이선 외부 라이브러리
- DOM Tree 형태로 구조화된 웹 페이지의 특정 요소를 이용하여 데이터를 추출하는 방법이 훨씬 유용
  - DOM Tree 부터 데이터를 추출해 올 수 있는 다양한 기능을 제공

### 2.1 Parser별 출력 결과 비교

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup('<a></p>','html.parser')
print('html.parser')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>',features='lxml')
print('lxml')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>','xml')
print('xml')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>','html5lib')
print('html5lib')
print(soup)
print('-'*40)

html.parser
<a></a>
----------------------------------------
lxml
<html><body><a></a></body></html>
----------------------------------------
xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
----------------------------------------
html5lib
<html><head></head><body><a><p></p></a></body></html>
----------------------------------------


In [3]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
res = requests.get(URL)

soup = BeautifulSoup(res.text,'html.parser')

#태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li)

#태그와 속성을 이용한 접근 (만약 속성이 존재하지 않으면 에러 발생)
# print(soup.a['id'])

#함수는 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a',attrs={'title':'구글봇'}))
# title 속성 값이 '구글봇'인 어떤 element를 찾아 출력
print(soup.find(attrs={'title':'구글봇'}))




<title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
<li id="footer-info-lastmod"> 이 문서는 2023년 4월 30일 (일) 18:34에 마지막으로 편집되었습니다.</li>
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>


In [4]:
### 2.3 검색: 태그
import requests as req
from bs4 import BeautifulSoup

res = req.get('https://www.naver.com')
soup = BeautifulSoup(res.text,'html.parser')

print(soup.title)
print(soup.title.name) # 태그의 이름
print(soup.title.string) # 태그 내의 문자열, soup.title.text 가능

print(soup.img)
print(soup.img['src']) # 이미지 태그의 src 속성값


<title>NAVER</title>
title
NAVER
<img alt="스승의 날" class="special_img" height="160" src="https://s.pstatic.net/static/www/mobile/edit/20230515/mobile_000957580983.gif" width="415"/>
https://s.pstatic.net/static/www/mobile/edit/20230515/mobile_000957580983.gif
