# 2. 크롤링(crawling) 이해 및 기본

## 2.2 BeautifulSoup 라이브러리를 활용한 예제

In [None]:
import requests
from bs4 import BeautifulSoup

<br>

### 2.2.1 `requests` 라이브러리를 활용한 HTML 페이지 요청

In [None]:
# res 객체에 HTML 데이터가 저장됨
res = requests.get('https://news.v.daum.net/v/20170615203441266')

# res.content로 데이터 추출 가능
#print(res.content)

<br>

### 2.2.2 HTML 페이지 파싱

- `BeautifulSoup(HTML데이터, 파싱방법)`
  - HTML 문서를 파싱할 때는 파싱 방법으로 `'html.parser'` 사용

In [None]:
soup = BeautifulSoup(res.content, 'html.parser')

<br>

### 2.2.3 필요한 데이터 검색

In [4]:
title = soup.find('title')
print(title)

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>


<br>

### 2.2.4 필요한 데이터 추출

In [5]:
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


<br>

## 2.3 BeautifulSoup 라이브러리 활용 다양한 예제

- `find()`와 `find_all()` 메서드 사용법 이해
  - `find()` : 가장 먼저 검색되는 태그 반환
  - `find_all()` : 전체 태그 반환

In [None]:
from bs4 import BeautifulSoup

html = """
<html>
    <body>
        <h1 id='title'>[1]크롤링이란?</h1>;
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
    </body>
</html>
"""

In [7]:
soup = BeautifulSoup(html, "html.parser")

# 태그로 검색
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


<br>

### 2.3.1 `find()`

- 가장 먼저 검색되는 태그 반환

In [8]:
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


<br>

### 2.3.2 `find(id='id값')`

- 태그에 있는 id로 검색

In [9]:
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


<br>

### 2.3.3 `find('태그명', class_='css 클래스명')`

- HTML 태그와 CSS class를 활용해서 필요한 데이터 추출

In [10]:
paragraph_data = soup.find('p', class_='cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [11]:
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


<br>

### 2.3.4 `find('태그명', attrs = {'속성키': '속성값'})`

- HTML 태그와 태그에 있는 속성: 속성값을 활용해서 필요한 데이터 추출

In [12]:
paragraph_data = soup.find('p', attrs={'align': 'center'})

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
파이썬을 중심으로 다양한 웹크롤링 기술 발달
파이썬을 중심으로 다양한 웹크롤링 기술 발달


<br>

### 2.3.5 `find_all()`

- 관련된 모든 데이터를 리스트 형태로 추출

In [13]:
paragraph_data = soup.find_all('p')

print(paragraph_data)
print(paragraph_data[0].get_text())
print(paragraph_data[1].get_text())

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>, <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달


<br>

## 2.4 BeautifulSoup 라이브러리 활용 string 검색 예제

- 태그가 아닌 문자열 자체로 검색
- 문자열, 정규표현식 등으로 검색 가능
  - 문자열 검색의 경우 한 태그 내의 문자열과 exact matching인 것만 추출
  - 이것이 의도한 경우가 아니라면 정규표현식 사용

In [None]:
res = requests.get('http://v.media.daum.net/v/20170518153405933')

soup = BeautifulSoup(res.content, 'html5lib')

In [15]:
print(soup.find_all(string='오대석'))

['오대석']


In [16]:
print (soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))

['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']


In [17]:
print(soup.find_all(string='AI'))

[]


In [18]:
import re

print(soup.find_all(string=re.compile('AI'))[0])

[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI | Daum 뉴스


<br>

## 2.5 연습 문제

- 다음 사이트에서 링크가 되어 있는 모든 제목을 가져와서 출력
- https://news.daum.net/digital/

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.daum.net/digital/')
soup = BeautifulSoup(res.content, 'html.parser')

In [20]:
link_title = soup.find_all('a', attrs={'data-tiara-layer': 'article', 'class': 'link_txt'})

for num in range(len(link_title)):
    print(link_title[num].get_text().strip())

7년 후 자율주행 선진국 추진..타다처럼 반발 부딪히면?
인텔, 실시간 지름길 추천 스타트업 '무빗' 인수
2027년 전국 주요 도로서 '완전 자율주행' 구현..사업 예타 통과
코로나19로 웃은 넷플릭스, '뜨거운 감자'된 까닭은?
넷플릭스 망사용료 무임승차 논란..공정위 "면밀히 검토 중"
"공짜망 안돼? 韓정부 상대로 페북도 이겼는데"..'김앤장' 앞세운 넷플릭스
반도체·신약개발 산파.. '방사광가속기' 입지 8일 발표
충북도, 12년 만에 방사광가속기 유치 도전.."준비된 재수생"
"절치부심 12년을 기다렸다"..충북, 방사광가속기 품을까
딥페이크 적용 'GAN 알고리즘' 처리..모바일 기기서도 이미지 합성
스포츠 기술로 '거리두기'하는 기업들
인간 두뇌를 닮을 필요가 없어진 인공지능의 진화
'디지털 위안화'도 있는데 '디지털 원화'는 없나?
카페인, 피부에 양보하세요?..커피 밖 카페인
애플워치, 병원에서 놓친 관상동맥질환 찾아냈다
박수경 과기보좌관 어떤지 물어보니 "아! 간사하겠다던 그 분"
갤럭시S20 공시지원금 대폭 올라.. 가격 10만원대까지 떨어지기도
임영웅·아이유를 만화 캐릭터로..'selfie 2 waifu' 화제
스마트폰 세계 1위 삼성전자, 인구 많은 '빅 마켓'에선 '끙끙'
D램값 12% 폭등, 코로나에 '데이터 신경제' 속도 붙었다
"2년 약정 '빵집폰' 수두룩"..스마트폰 대목 '불법보조금 전쟁'
세계 첫 코로나 치료제 '렘데시비르'..치료비 500만원 넘을 듯
LCD서 한국 밀어낸 중국, 이젠 대형 OLED다.. 기술자 빼내기 잰걸음
반도체·신약개발 산파.. '방사광가속기' 입지 8일 발표
"2년 약정 '빵집폰' 수두룩"..스마트폰 대목 '불법보조금 전쟁'
'유리천장' 깬 40대 여성 과학자..박수경 청와대 과학기술보좌관
