## 🔎크롤링

### **BeautifulSoup4**
- 파이썬에서 HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출할 수 있도록 도와주는 라이브러리
- 웹 크롤링이나 스크래핑 작업에 자주 사용, requests와 함께 사용하면 웹 페이지의 정보를 손쉽게 가져올 수 있다.

#### 1. **설치**
```bash
# beautifulsoup 설치
pip install beautifulsoup4

# requests - 웹 페이지 요청 라이브러리
pip install requests
```

#### 2. **기본 사용법**
```python
import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')  # 또는 'lxml'
    print(soup.prettify())  # HTML 구조를 보기 좋게 출력
else:
    print(f"Error: {response.status_code}")

```

#### 3. **주요 메서드**
**3-1. 태그 이름으로 요소 찾기**
```python
# <title> 태그 전체
soup.title  
# <title> 태그의 텍스트만
soup.title.string  
# 첫 번째 <a> 태그
soup.a 
```

<br>

**3-2. `find()`와 `find_all()`**
```python
# 첫 번째 <a> 태그
soup.find('a')  
# class가 'link'인 첫 번째 <a> 태그
soup.find('a', class_='link')  
# class로 선택시 class_ 라고 명시하지 않고 생략 가능
soup.find('a', 'link')  
# attrs 딕셔너리 이용하여 여러 속성을 동시에 지정하기
soup.find('a', attrs={'id' : 'id_name', class_ : 'link'})
# id값으로 찾기
soup.find(id='id_name')

####################################################################################

# 모든 <a> 태그 리스트 형태로 반환
soup.find_all('a') 

```
**💡크롤링 시 `class`로 많이 선택한다**


<br>

**3-3.CSS 선택자 사용 `select()` & `selet_one()`**
```python
# class가 'classname'인 모든 <div> 태그
soup.select('div.classname')  
  # id가 'id'인 첫 번째 태그
soup.select_one('#id')

```

<br>

**3-4.텍스트 및 속성 추출**
```python
tag = soup.find('a')

# 태그 내부의 텍스트
tag.get_text()

# get() 메서드 -> 속성이 존재하지 않을 경우 `None`을 반환하므로 상대적으로 더 안전하게 속성값 추출 가능
href = tag.get('href')
href = tag.get('title')

# href 속성 값 -> 존재하지 않을 경우 `KeyError`를 발생시킴
tag['href']
tag['title']

# 모든 속성 딕셔너리
tag.attrs  # {'href' : 'https://example.com', 'title' : 'Ex'}

```

**3-5.그 외**
```python
# 특정 속성 존재 확인 : has_attr()
if tag.has_attr('href') :
    print('링크가 존재합니다')
```

[**💡공식문서**](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [58]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/'
res = requests.get(url)
title_li = list()

if res.status_code == 200 :
    soup = BeautifulSoup(res.content, 'html.parser')
    for text in soup.find_all('strong',class_='cnf_news_title', limit=10) :
        title_li.append(text.get_text())
else:
    print(f"Error: {response.status_code}")

for title in title_li :
    print(f"<{title}>")
    

<"초등교실서 교사가 부적절한 행위" 민원… 당사자는 부인 [이슈네컷]>
<이창수 중앙지검장, 복귀 두 달 만에 사의…"건강상 이유"(종합)>
<[속보] 이창수 서울중앙지검장·조상원 서울중앙지검 4차장 사의>
<스트레스 DSR ‘완전체’ 확정…대출 얼마나 줄어드나?>
<낮 최고 남원 31.9도.. 올 들어 가장 더워>
<5개월간 비상계엄 같은 일 겪은 '시사기획 창' 기자들>
<중국, 기준 대출금리 전격 인하…경기부양에 '통화완화 카드' 꺼내>
<김문수 "방탄유리 쳐놓은 사람이 대통령 되면 되겠나…난 총 맞을 일 있으면 맞겠다">
<[단독] 윤석열, 노타이로 지통실 입장…그날 'CCTV 장면' 입수>
<기독교 543개 단체 연합, 김문수 지지 선언…"다음 세대 지킬 유일한 선택지">


In [None]:
######### 연습 #############

In [84]:
url2 = 'https://davelee-fun.github.io/blog/crawl_test'
res2 = requests.get(url2)

if res2.status_code == 200 :
    soup = BeautifulSoup(res2.content, 'html.parser')
    hobby_list = soup.select('ul#hobby_course_list .course a')
    dev_list = soup.select('ul#dev_course_list .course a')

    print(f"[{soup.select('h3')[0].string}]")
    for elem in hobby_list :
        print(f"{elem.string} -> 링크 : {elem.get('href')}")
    
    print("\n")
    
    print(f"[{soup.select('h3')[1].string}]")
    for elem in dev_list :
        print(f"{elem.string} -> 링크 : {elem.get('href')}")
    
        
else:
    print(f"Error: {response.status_code}")



[나만의 엣지있는 블로그 사이트 만들기]
(왕초보) - 클래스 소개 -> 링크 : https://www.fun-coding.org
(왕초보) - 블로그 개발 필요한 준비물 준비하기 -> 링크 : https://www.fun-coding.org
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 초간단 페이지 만들어보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 이쁘게 테마 적용해보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기 -> 링크 : https://www.fun-coding.org
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기 -> 링크 : https://www.fun-coding.org


[당신의 커리어에 파이썬을 입히세요! 자신만의 자동 프로그램까지 가져가는 특별한 강의]
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2] -> 링크 : https://www.fun-coding.org
(초급) - 필요한 프로그램 설치 시연 [5] -> 링크 : https://www.fun-coding.org
(초급) - 데이터를 엑셀 파일로 만들기 [9] -> 링크 : https://www.fun-coding.org
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8] -> 링크 : https://www.fun-coding.org
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7] -> 링크 : https://www.fun-coding.org
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40] -> 링크 : https://www.fun-coding.org
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12] -> 링크 : https://www.f

### 🔖 참고(인용)
> [인프런: 파이썬으로 크롤링 시작하기 - 기본편](https://www.inflearn.com/course/python-crawling-basic)