## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling, find_parents, find_parent 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다. id, class

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.



html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [104]:
from bs4 import BeautifulSoup

html_content = '<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



Task1_0619. 다음 사항을 수행하세요.
- 첫 번째로 매칭되는 'p' 태그 찾기
- 모든 'p' 태그 찾기
- 클래스가 'content'인 첫 번째 'p' 태그 찾기
- 클래스가 'content'인 모든 'p' 태그 찾기
- 특정 'p' 태그의 모든 부모 태그 찾기
- 특정 'p' 태그의 첫 번째 부모 태그 찾기
- 특정 'p' 태그의 다음 형제 태그 찾기
- 특정 'p' 태그의 이전 형제 태그 찾기
- 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
- 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 

In [137]:
#첫 번째로 매칭되는 'p' 태그 찾기
print('1. ',end = '')
target_p = soup.find('p')
print(target_p)

#모든 'p' 태그 찾기
print('2. ',end = '')
target_p = soup.find_all('p')
for i in target_p:
    print(i)

#- 클래스가 'content'인 첫 번째 'p' 태그 찾기
print('3. ',end = '')
target_p = soup.select_one('p',class_='content')
print(target_p)

#- 클래스가 'content'인 모든 'p' 태그 찾기
print('4. ',end = '')
target_p = soup.select('p',class_='content')
for i in target_p:
    print(i)

#- 특정 'p' 태그의 모든 부모 태그 찾기
print('5. ',end = '')
target_p = soup.select('p')
for i in target_p:
    print(i.parent)

#- 특정 'p' 태그의 첫 번째 부모 태그 찾기
print('6. ',end = '')
target_p = soup.select_one('p')
print(target_p.parent)

#- 특정 'p' 태그의 다음 형제 태그 찾기
print('7. ',end = '')
target_p = soup.select_one('p')
print(target_p.next_sibling)

#- 특정 'p' 태그의 이전 형제 태그 찾기
print('8. ',end = '')
target_p = soup.select_one('p')
print(target_p.previous_sibling)

#- 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
print('9. ',end = '')
target_p = soup.select_one('p')
aaa = target_p.next_siblings
for i in aaa:
    print(i)

#- 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 
print('10. ',end = '')
target_p = soup.select_one('p')
aaa = target_p.previous_siblings
for i in aaa:
    print(i)

1. <p class="content">First paragraph.</p>
2. <p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
3. <p class="content">First paragraph.</p>
4. <p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
5. <body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
<body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
6. <body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
7. <p class="content">Second paragraph.</p>
8. <h1>Title</h1>
9. <p class="content">Second paragraph.</p>
10. <h1>Title</h1>


크롤링 시 헤더를 포함하면 성공적으로 데이터를 가능성을 높여준다

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}
```

In [81]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
for i in range(5):
    response = requests.get(url, headers=headers)
    print(response)

<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>


response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [13]:
response.content

b'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\x89\xb4\xec\x8a\xa4</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}

In [15]:
response.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [45]:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [100]:
target = soup.select_one('title')
target.text
target.get_text()
target.string

'네이버 뉴스'

Task2_0619. ID를 이용해서 '네이버 뉴스' 추출하세요.

In [102]:
target = soup.select_one('#browserTitleArea')
target.text
target.get_text()
target.string

'네이버 뉴스'

In [21]:
target = soup.find(id='browserTitleArea')
target.text

'네이버 뉴스'

In [74]:
target = soup.find_all(class_="Nitem_link_menu")

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")

#for i in target:
#    print(i.text)

1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


Task3_0619. soup.find_all(class_='Nitem_link_menu') 대신에 select를 이용하여 동일한 결과를 출력하세요.

In [91]:
target = soup.select('span.Nitem_link_menu')

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")


1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


Task4_0619. select_one을 이용해서 'https://news.naver.com'에서 "뉴스"를 출력하세요

In [94]:
target = soup.select_one('span.Nicon_service')
print(target.text)

뉴스


Task5_0619.'https://news.naver.com'에서 아래 예시와 같이 뉴스 기사 제목을 모두 출력하세요. 

예시: 1: [속보] '훈련병 사망' 얼차려 지시 중대장·부중대장 피의자 신분 첫 소환조사

In [95]:
target = soup.select('div.cjs_t')

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")


1: [속보] 푸틴 "北과 장기관계 새 기본문서 준비"… 김정은 "전략적 협력 강화"
2: '7년 만났는데' 알고 보니 유부남..엽산이라 속여 낙태약 먹이기도
3: “초대박 터졌다”...편의점 주류판 흔드는 CU
4: [단독] '尹 최측근' 주진우, 한동훈 돕는다…'尹-韓' 가교 역할하나
5: "러브버그 너무 징그러워서 소름"…달라붙어도 죽이지 말라고?
6: “조국 아들 인턴” 발언 최강욱 항소심서도 벌금형
7: 낮은 곳에서 고통과 친구로 살다
8: 손흥민 손 꼭 잡고 “왜 이리 말랐어”... 치매 할머니 팬의 감동 만남
9: [티조 Clip] 90도로 허리 굽힌 강민구 "민주당의 아버지는 이재명"
10: [증권사 PF 대해부] 한국투자증권, '경쟁과 보상' 공격적 익스포저 DNA
11: 한은 “지역간 성장 격차, 생산성 격차에 기인…거점도시 집중 투자 필요”
12: 홍준표 아이디어로 대구에 ‘프러포즈 성지’ 만든다…비용만 110억원
13: 살 파고 들어간 구더기 ‘한가득’…처참한 상태로 발견된 레트리버
14: “믿기지 않는다”…유명 女배우, 54세에 자연임신 성공
15: 아무리 급해도, 길거리에서 큰 볼일을..  “몰릴 때 알아봤지만, 어디까지가 상식? 경악 금치 못해”
16: 톱스타 한명 없는데 시청률 터졌다…'우영우' 이은 대박 드라마
17: Putin, Kim likely to discuss military ties as rare summit talks begin
18: 김정은 극도의 스트레스?…얼굴서 포착된 '이상 징후' 부쩍 커졌다
19: "왜 남의 나라 더럽혀"... 제주 길거리서 아이 대변보게 한 중국인 관광객
20: 의료계도 선 그은 의협 회장…"무기한 휴진, 황당"
21: 윤석열 정부 고위 검사 '3분의 2'가 특수활동비 오남용 의혹
22: "민주당의 아버지는 이재명" 당 최고위원 '90도 첫 인사'
23: '월 4억 원' 대전역 성심당 월세 분쟁, '갈등관리기관' 나선다
24: 농가소득 안전망 최대 화두 속 ‘농민수당 법제화’ 첫발
25: 