## 웹스크래핑을 위한 웹페이지 요소선택 실습

In [1]:
html = """
<html>
<head><title>HTML Sample</title>
</head>
<body>
    <h1>Hello CSS</h1>
    <div id="subject">선택자</div>
    <div class="contents">선택자를 어떻게 작성하느냐에 따라
      <span>다른 <b>요소가 반환</b></span> 됩니다.</div>
    <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>
</body>
</html>
"""

In [2]:
html

'\n<html>\n<head><title>HTML Sample</title>\n</head>\n<body>\n    <h1>Hello CSS</h1>\n    <div id="subject">선택자</div>\n    <div class="contents">선택자를 어떻게 작성하느냐에 따라\n      <span>다른 <b>요소가 반환</b></span> 됩니다.</div>\n    <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>\n</body>\n</html>\n'

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser') # html파싱
soup


<html>
<head><title>HTML Sample</title>
</head>
<body>
<h1>Hello CSS</h1>
<div id="subject">선택자</div>
<div class="contents">선택자를 어떻게 작성하느냐에 따라
      <span>다른 <b>요소가 반환</b></span> 됩니다.</div>
<div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>
</body>
</html>

In [14]:
el_h1 = soup.select_one('h1')
el_h1.text

'Hello CSS'

In [11]:
el_div = soup.select('div') # html의 div 다 꺼내기
el_div

[<div id="subject">선택자</div>,
 <div class="contents">선택자를 어떻게 작성하느냐에 따라
       <span>다른 <b>요소가 반환</b></span> 됩니다.</div>,
 <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>]

In [13]:
el_span = soup.select('span')
el_span

[<span>다른 <b>요소가 반환</b></span>]

In [18]:
# b
soup.select_one("div b")

<b>요소가 반환</b>

In [21]:
soup = BeautifulSoup(html, 'html.parser')
result = soup.select("div b")
print(result) 

[<b>요소가 반환</b>, <b>활용</b>]


직계 '>'

In [17]:
# div > span > b
soup.select("div > span > b")

[<b>요소가 반환</b>]

In [None]:
soup.select(".contents") # 클래스(.)가 contents인 이름을 가진 요소

[<div class="contents">선택자를 어떻게 작성하느냐에 따라
       <span>다른 <b>요소가 반환</b></span> 됩니다.</div>]

In [24]:
soup.select("#subject") # 아이디(#)가 subject인 이름을 가진 요소

[<div id="subject">선택자</div>]

In [25]:
# 아이디 선택자
soup.select('#subject')

# 속성 선택자
soup.select('[class = contents]')

[<div class="contents">선택자를 어떻게 작성하느냐에 따라
       <span>다른 <b>요소가 반환</b></span> 됩니다.</div>]

## 정규표현식

정규표현식은 문자열에서 특정한 패턴을 찾거나, 검색하거나, 바꾸기 위해 쓰는 표현방법

In [2]:
# 정규표현식
import re
patten = re.compile(r'\d+') # 숫자이면서 1개 이상 반복되는 것
match = patten.match('123abc')
if match :
    print(match.group())

123


In [None]:
import re
contents = 'hello grovy04@gmail.com 010-222-3333 world 02-5678-9988'

# raw, 위의 예에서 전화번호를 찾는 패턴
phone_pattern = re.compile(r'\d{2,3}-\d{3,4}-\d{4}') 

# re.findall(phone_pattern, contents)와 같음
phone_list = phone_pattern.findall(contents)  

print(phone_list)

# 이메일 패턴
email_pattern = re.compile(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}') 

email_list = re.findall(email_pattern, contents)
print(email_list)

['010-222-3333', '02-5678-9988']
['grovy04@gmail.com']


In [6]:
# 1. 전화번호 추출
string = 'hello grovy04@gmail.com 010-222-3333 world 02-5678-9988'

\d+	| 숫자가 하나 이상인 부분과 매치	| '123abc'.match(r'\d+') -> '123'

\D+	 | 숫자가 아닌 부분과 매치	 | 'abc123'.match(r'\D+') -> 'abc'

In [None]:
# 2. 패턴 정하기
pattern = re.compile(r'\d{2,3}-\d{3,4}-\d{4}')
# 숫자가 2개 혹은 3개 - 숫자가 3개 혹은 4개 - 숫자 4 인 패턴 (전화번호)

# match_list = patten.match(string) # 처음부터 찾기
# match_list = patten.search(string) # 1개 찾기
match_list = patten.findall(string) # 다 찾기
match_list

['04', '010', '222', '3333', '02', '5678', '9988']

In [13]:
# 3. 이메일 패턴
email_pattern = re.compile(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}') 
# 문자열은 역슬래시로 표시해야한다.

match_list1 = email_pattern.findall(string)
match_list1

['grovy04@gmail.com']

In [15]:
string2 = 'abc123def456'
result = re.compile(r'\d+')
result.sub('***',string2)

'abc***def***'