# 크롤링의 종류



## 1. 정적 크롤링
- 웹에 있는 정적인 데이터를 수집할 때 사용
    - 정적인 데이터란 로그인과 같은 사전 작업 없이 바로 볼 수 있는 데이터
    - 새로고침을 하지 않는 이상 변하지 않는 데이터
    - 주소를 통해 요청받고 결과를 전달해 주고 종료



## 2. 동적 크롤링
- 웹에 있는 동적인 데이터를 수집할 때 사용
    - 동적인 데이터는 입력, 클릭, 로그인과 같이 페이지 이동시 얻을 수 있는 데이터
    - 단계적 접근이 필요하기 때문에 수집 속도가 느리지만 수집 대상에 한계가 거의 없다는 큰 장점
    - 연속적인 접근이 가능, 페이지 이동이 필수적이거나 페이지 안에 정보가 은닉되어 있을 경우 사용


|           | 정적 크롤링            | 동적 크롤링                     |
|-----------|------------------------|---------------------------------|
| 연속성    | 주소를 통한 단발적 접근 || 브라우저를 사용한 연속적 접근 |
| 속도      | 빠름                    | 느림                          |
| 수집 성능 | 수집 대상에 한계가 있음 | 수집 대상에 한계가 거의 없음  |

In [None]:
# client -> server 

# 라이브러리

## 1. time 라이브러리

- time.time() : time.time()은 UTC를 사용해 현재 시간을 실수 형태로 돌려주는 함수이다.
    - 1970년 1월 1일 0시 0분 0초 기준으로 지난 시간을 초 단위로 return 
    
    ```python
    import time
    print(time.time())
    ```
 
- time.localtime() : 현재 시간을 년, 월, 일, 시, 분, 초..의 형태로 출력

    ```python
    import time
    print(time.localtime())
    ```



## 2.정적 클로링 도구
- requests : 간편한 HTTP 요청 처리를 하는 라이브러리, 웹서비스와 연결하기 위해 사용
- beautifulsoup : html 태그를 처리하는 라이브러리, 웹에 있는 데이터 중 필요한 데이터만 추출하기 위해 사용
- pd.read_html : html 내의 table만 추출할수 있는 도구


## 3. 동적 크롤링 도구
- selenium : 웹 드라이버를 사용해 자동화 기능을 실현하는 라이브러리
    - 웹에 접속해 클릭, 이동과 같은 action을 제어
    - driver 를 설치하고 이를통해 제어 가능
- playwright : microsoft 에서 개발한 웹테스팅 도구

## 4. multiprocessing 모듈
- multiprocessing : 프로세스를 병렬로 실행하기 위해 사용하는 도구 

# Web Page가져오기
- urllib.request 패키지

In [2]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

In [3]:
html = urlopen("https://www.naver.com/")

In [4]:
html

<http.client.HTTPResponse at 0x118f362b940>

In [5]:
soup = bs(html, "html.parser") # html 태그를 찾아서 가공하기 위해 "html.parser" 를 사용해 변환

In [6]:
print(soup)

 <!DOCTYPE html>
 <html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 

- requests 패키지 사용의 결과

In [7]:
urlopen("https://www.naver.com/").status
# http 응답 상태 코드 
# - 200 성공
# - 300 리다이렉션 
# - 400 페이지가 없음, 권한이 없는경우 
# - 500 서버 내부의 오류 

200

In [8]:
urlopen("https://www.galoisoft.com/").status

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

# 웹페이지와 HTML
- 웹페이지는 HTML(HyperText Markup Language)을 기반으로 생성
- F12, Ctrl + shift + c, Ctrl + shift + i 를통해 확인 가능 
- 원하는 데이터가 웹페이지의 어느부분에 위치해 있는지 파악이 가능하다. 
## 1. HTML 태그
- 기본형
```html
<태그>내용</태그>
```

- HTML은 마크로 둘러싸인 언어라는 뜻으로 구조에 대한 정보를 기반으로 작성된 언어
- 각각의 구성 요소는 마크 역할을 하는 태그로 감싸져 있다.
    - 웹페이지의 시작과 끝을 의미하는 
    ```html
    <html></html>
    ```
    - 문서의 제목을 의미하는 
    ```html
    <title></title>
    ```
    - 웹에 실제로 표시되는 내용을 의미하는 
    ```html
    <body></body>
    ```

## 2. HTML 태그의 종류
- ul : unordered list. 
- li : list item. 
    - 목록의 내용이 되는 실질적 태그
    - [참고](https://www.w3schools.com/html/html_lists.asp)
- a
    - 하이퍼링크를 나타내는 태그
    - [참고](https://www.w3schools.com/tags/tag_a.asp)
    - <a href="https://www.google.com">google</a>
- p
    - paragraph(단락)의 약자, 긴 글 뭉텅이.
    
- table : 표를 나타내는 태그
    - [참고](https://www.w3schools.com/html/tryit.asp?filename=tryhtml_table3)


    
- html 태그
    - find("태그") - 첫번째 태그만 검색
    - find_all("태그") - 전체 태그 검색후 list로 반환

In [19]:
# bs4 객체에서 사용할 수 있는 METHOD
html = urlopen("https://www.naver.com/")
soup = bs(html, "html.parser")
type(soup)

bs4.BeautifulSoup

In [20]:
find_div = soup.find("div", id="u_skip") # div 태그에서 id가 u_skip 인 태그중에 첫번째 태그만을 검색 
print(find_div)

<div id="u_skip"> <a href="#topAsideButton"><span>상단영역 바로가기</span></a> <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a> <a href="#newsstand"><span>새소식 블록 바로가기</span></a> <a href="#shopping"><span>쇼핑 블록 바로가기</span></a> <a href="#feed"><span>관심사 블록 바로가기</span></a> <a href="#account"><span>MY 영역 바로가기</span></a> <a href="#widgetboard"><span>위젯 보드 바로가기</span></a> <a href="#viewSetting"><span>보기 설정 바로가기</span></a> </div>


In [21]:
# https://www.nate.com 의 soup 객체를 만들고 출력해 보세요
html = urlopen("https://www.nate.com/")
soup = bs(html, "html.parser")
type(soup)
print(soup)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="//www.nate.com/" name="msapplication-starturl"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="nate:title"/>
<meta content="네이트 이슈UP" name="nate:description"/>
<meta content="네이트 홈" name="nate:site_name"/>
<meta content="https://www.nate.com/" name="nate:url"/>
<meta content="" name="nate:image"/>
<meta content="새로워진 네이트에서 당신의 오늘을 만나보세요" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="네이트" property="og:title"/>
<meta content="https://www.nate.com/" property="og:url"/>
<meta content="https://main.nateimg.co.kr/img/v7/OpenGraphTag_nate_240x240.png" property="og:image"/>
<meta content="새로워진 네이트에서 당신의 오늘을 만나보세요" property="og:description"/>
<title>네이트</title>
<link href="/css/common.min.css?v=202404221027_01" rel="stylesheet" type="text/css"/>
<link href="//main.nateimg.co.kr/im

In [17]:
html.status

200

In [18]:
html.

<http.client.HTTPResponse at 0x118f6ad3e80>

In [24]:
# request.get 사용
# https://www.nate.com 의 soup 객체를 만들고 출력해 보세요
import requests
html = requests.get("https://www.nate.com/")
soup = bs(html.text, "html.parser")
type(soup)
print(soup)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="//www.nate.com/" name="msapplication-starturl"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="nate:title"/>
<meta content="네이트 이슈UP" name="nate:description"/>
<meta content="네이트 홈" name="nate:site_name"/>
<meta content="https://www.nate.com/" name="nate:url"/>
<meta content="" name="nate:image"/>
<meta content="새로워진 네이트에서 당신의 오늘을 만나보세요" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="네이트" property="og:title"/>
<meta content="https://www.nate.com/" property="og:url"/>
<meta content="https://main.nateimg.co.kr/img/v7/OpenGraphTag_nate_240x240.png" property="og:image"/>
<meta content="새로워진 네이트에서 당신의 오늘을 만나보세요" property="og:description"/>
<title>네이트</title>
<link href="/css/common.min.css?v=202404221027_01" rel="stylesheet" type="text/css"/>
<link href="//main.nateimg.co.kr/im

In [25]:
find_div = soup.find("div", id = "divGnb")
find_div

<div class="area_gnb" id="divGnb" role="navigation">
<h2>GNB</h2>
<ul>
<li class="mail"><a href="https://mail3.nate.com/#index" onmousedown="nc('NGB01');">메일</a></li>
<li class="news"><a href="//news.nate.com/" onmousedown="nc('NEV31');">뉴스</a></li>
<li class="pann"><a href="https://pann.nate.com/" onmousedown="nc('NGB02');">판</a></li>
<li class="chat1"><a href="https://m.nate.com/aichat.html" onmousedown="nc('NGB51');" target="_blank">AI챗</a><em class="beta">beta</em></li>
<li class="tv"><a href="https://tv.nate.com/" onmousedown="nc('NGB43');">TV</a></li>
<li class="comics"><a href="https://toonnbook.nate.com/" onmousedown="nc('NGB44');">툰앤북</a></li>
<li class="fortune"><a href="https://fortune.nate.com/home/main.nate" onmousedown="nc('NGB05');">운세</a></li>
<li class="game"><a href="http://game.nate.com/" onmousedown="nc('NGB06');">게임</a></li>
<li class="shopping"><a href="//shopping.nate.com/" onmousedown="nc('NGB17');">쇼핑</a></li>
<li class="teamroom"><a href="https://nateonweb.nat

In [26]:
find_div.find("li")

<li class="mail"><a href="https://mail3.nate.com/#index" onmousedown="nc('NGB01');">메일</a></li>

In [29]:
find_div.find_all("li")[0]

<li class="mail"><a href="https://mail3.nate.com/#index" onmousedown="nc('NGB01');">메일</a></li>

In [30]:
find_div.find_all("li")[1]

<li class="news"><a href="//news.nate.com/" onmousedown="nc('NEV31');">뉴스</a></li>

In [32]:
find_div.find_all("li")[2].text

'판'

In [33]:
find_div.find_all("li")[1].text

'뉴스'

In [36]:
# nate.com 에서 DIV 태그로 감싸진 class 가 area_gnb 인 내용들만(TEXT) 리스트로 변경하여 반환해 보세요.
# 1. find_all 에서 class 는 어떻게 사용하지?
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class
# class (x) 
# 출력 메일, 뉴스, 판, AI챗 ...
html = requests.get("https://www.nate.com/")
soup = bs(html.text, "html.parser")
find_div = soup.find("div", class_ = "area_gnb")

In [43]:
for i in find_div.find_all("li"):
    print(i.text)

메일
뉴스
판
AI챗beta
TV
툰앤북
운세
게임
쇼핑
팀룸
네이트뷰

더보기


뉴스
날씨
스포츠
연예
아이돌24
랭킹뉴스


판
톡톡
판포토
팬톡


네이트온
네이트캐쉬
문자메시지
주소록


컬러링
이슈UP추천
썰

서비스 전체보기
더보기 닫기


뉴스
날씨
스포츠
연예
아이돌24
랭킹뉴스
판
톡톡
판포토
팬톡
네이트온
네이트캐쉬
문자메시지
주소록
컬러링
이슈UP추천
썰


In [42]:
find_div.find_all("li")[2].text

'판'


## 3. Selector
### Selector
- 태그 중에는 동일한 태그가 존재할 수있다. 
- 선택자(Selector)는 동일한 태그 여러 개 중에서도 각 태그를 구별할 수 있는 일종의 주소이다.

### Selector의 필요성

```html
<div>	
	<div>
		<span> Python </span>
		<span> Hello world </span>
	</div>
	
	<div>
		<span> Java </span>
		<span> Coffee </span>
	</div>
<div>
```

- <span> 태그는 다양한 내용을 담을 수 있다.
- <span> 태그가 4개나 있어서 컴퓨터가 구분하기 어렵다. 이러한 문제를 해결하기 위해 선택자를 사용함.

```html
<div id = "contents">	
	<div class = "metadata1">
		<span class = "language"> Python </span>
		<span class = "project" > Hello world </span>
	</div>
	
	<div class = "metadata2">
		<span class = "language"> Java </span>
		<span class = "project"> Coffee </span>
	</div>
<div>
```

### id와 class
- 태그의 선택자는 주로 id와 class를 사용
- id는 어떤 요소의 고유한 값
    - html에서도 id는 하나의 고유한 선택자로, __중복__ 되지 않고 하나만 존재한다.
    - [참고](https://www.w3schools.com/html/html_id.asp)
- class 태그는 같은 속성을 지닌 데이터를 묶어주는 값
    - 한 태그가 __여러 개__ 의 class를 가질 수 있다.
    - [참고](https://www.w3schools.com/html/html_classes.asp)

비슷한 속성끼리 묶어줄 때 class 태그를 사용한다.

### Selector 사용법
```html
<div id='123' class='456'>
```
- 선택자에 따라 데이터를 찾는 코드에 차이가 있다.
- id는 '#'를 붙이고, class는 '.'을 붙여준다.

- 태그만 사용해 데이터를 찾을 경우 -> 태그
  - div
- 태그와 id를 사용해 데이터를 찾을 경우 -> 태그#id
  - div#123
- 태그와 class를 사용해 데이터를 찾을 경우 -> 태그.class
  - div.456
- 태그, id, class 모두 사용해 데이터를 찾을 경우 -> 태그#id.class
  - div#123.456

- 참고 : class 이름에 공백이 포함될 경우가 종종 있는데, 이럴 경우 공백을 .으로 대체해서 작성하면 된다.
    - ex)

    ```html
    <div class='hello python'>
    ```

    -> div.hello.python

In [48]:
# css selector 를 이용해 찾는 방법
css_selector = soup.select("#divGnb > ul")

In [51]:
css_selector[0].find_all("a")[0].text

'메일'

In [52]:
for i in css_selector[0].find_all("a"):
    print(i.text)

메일
뉴스
판
AI챗
TV
툰앤북
운세
게임
쇼핑
팀룸
네이트뷰
더보기
뉴스
날씨
스포츠
연예
아이돌24
랭킹뉴스
판
톡톡
판포토
팬톡
네이트온
네이트캐쉬
문자메시지
주소록
컬러링
이슈UP추천
썰
서비스 전체보기


<!-- 과제 -->

# 멜론차트
# 원하는 장르를 입력 하세요 : 발라드 
# 순위 ~ 50위 까지만 하세요 
# 1 가수 제목
# 2 가수
# ...
# 작성후 메일로 제출 (동작 화면 캡쳐 및 코드 캡쳐)
# 그냥 python code로 작성 or gui 로 변경(pyqt 사용)

```python
def get_gens(melon_url=melon_url, header=header):
    pass # return 장르 url 
def get_table(url, header=header):
    pass # return singers, songs()def  3. print_tasingers, songsb:
    pass # 순위 가수 노래 출력     le()

# 4. main() -> get_gens() -> get_table() -> print_table()
``` 제목 