## 🔎크롤링

### **BeautifulSoup4**
- 파이썬에서 HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출할 수 있도록 도와주는 라이브러리
- 웹 크롤링이나 스크래핑 작업에 자주 사용, requests와 함께 사용하면 웹 페이지의 정보를 손쉽게 가져올 수 있다.

#### 1. **설치**
```bash
# beautifulsoup 설치
pip install beautifulsoup4

# requests - 웹 페이지 요청 라이브러리
pip install requests
```

#### 2. **기본 사용법**
```python
import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')  # 또는 'lxml'
    print(soup.prettify())  # HTML 구조를 보기 좋게 출력
else:
    print(f"Error: {response.status_code}")

```

#### 3. **주요 메서드**
**3-1. 태그 이름으로 요소 찾기**
```python
# <title> 태그 전체
soup.title  
# <title> 태그의 텍스트만
soup.title.string  
# 첫 번째 <a> 태그
soup.a 
```

<br>

**3-2. `find()`와 `find_all()`**
```python
# 첫 번째 <a> 태그
soup.find('a')  
# class가 'link'인 첫 번째 <a> 태그
soup.find('a', class_='link')  
# class로 선택시 class_ 라고 명시하지 않고 생략 가능
soup.find('a', 'link')  
# attrs 딕셔너리 이용하여 여러 속성을 동시에 지정하기
soup.find('a', attrs={'id' : 'id_name', class_ : 'link'})
# id값으로 찾기
soup.find(id='id_name')

####################################################################################

# 모든 <a> 태그 리스트 형태로 반환
soup.find_all('a') 

```
**💡크롤링 시 `class`로 많이 선택한다**


<br>

**3-3.CSS 선택자 사용 `select()` & `selet_one()`**
```python
# class가 'classname'인 모든 <div> 태그
soup.select('div.classname')  
  # id가 'id'인 첫 번째 태그
soup.select_one('#id')

```

<br>

**3-4.텍스트 및 속성 추출**
```python
tag = soup.find('a')
# 태그 내부의 텍스트
tag.get_text()
# href 속성 값
tag['href']
# 모든 속성 딕셔너리
tag.attrs  

```

[**💡공식문서**](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [58]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/'
res = requests.get(url)
title_li = list()

if res.status_code == 200 :
    soup = BeautifulSoup(res.content, 'html.parser')
    for text in soup.find_all('strong',class_='cnf_news_title', limit=10) :
        title_li.append(text.get_text())
else:
    print(f"Error: {response.status_code}")

for title in title_li :
    print(f"<{title}>")
    

<"초등교실서 교사가 부적절한 행위" 민원… 당사자는 부인 [이슈네컷]>
<이창수 중앙지검장, 복귀 두 달 만에 사의…"건강상 이유"(종합)>
<[속보] 이창수 서울중앙지검장·조상원 서울중앙지검 4차장 사의>
<스트레스 DSR ‘완전체’ 확정…대출 얼마나 줄어드나?>
<낮 최고 남원 31.9도.. 올 들어 가장 더워>
<5개월간 비상계엄 같은 일 겪은 '시사기획 창' 기자들>
<중국, 기준 대출금리 전격 인하…경기부양에 '통화완화 카드' 꺼내>
<김문수 "방탄유리 쳐놓은 사람이 대통령 되면 되겠나…난 총 맞을 일 있으면 맞겠다">
<[단독] 윤석열, 노타이로 지통실 입장…그날 'CCTV 장면' 입수>
<기독교 543개 단체 연합, 김문수 지지 선언…"다음 세대 지킬 유일한 선택지">


### 🔖 참고(인용)
> [인프런: 파이썬으로 크롤링 시작하기 - 기본편](https://www.inflearn.com/course/python-crawling-basic)