# 크롤링의 종류



## 1. 정적 크롤링
- 웹에 있는 정적인 데이터를 수집할 때 사용
    - 정적인 데이터란 로그인과 같은 사전 작업 없이 바로 볼 수 있는 데이터
    - 새로고침을 하지 않는 이상 변하지 않는 데이터
    - 주소를 통해 요청받고 결과를 전달해 주고 종료



## 2. 동적 크롤링
- 웹에 있는 동적인 데이터를 수집할 때 사용
    - 동적인 데이터는 입력, 클릭, 로그인과 같이 페이지 이동시 얻을 수 있는 데이터
    - 단계적 접근이 필요하기 때문에 수집 속도가 느리지만 수집 대상에 한계가 거의 없다는 큰 장점
    - 연속적인 접근이 가능, 페이지 이동이 필수적이거나 페이지 안에 정보가 은닉되어 있을 경우 사용


|           | 정적 크롤링            | 동적 크롤링                  |
|-----------|------------------------|----------------------------|
| 연속성    | 주소를 통한 단발적 접근  | 브라우저를 사용한 연속적 접근 |
| 속도      | 빠름                    | 느림                       |
| 수집 성능 | 수집 대상에 한계가 있음 | 수집 대상에 한계가 거의 없음  |

In [1]:
import time
print(time.time())
print(time.localtime())

1670547022.4183745
time.struct_time(tm_year=2022, tm_mon=12, tm_mday=9, tm_hour=9, tm_min=50, tm_sec=22, tm_wday=4, tm_yday=343, tm_isdst=0)


# 라이브러리

## 1. time 라이브러리

- time.time() : time.time()은 UTC를 사용해 현재 시간을 실수 형태로 돌려주는 함수이다.
    - 1970년 1월 1일 0시 0분 0초 기준으로 지난 시간을 초 단위로 return 
    
    ```python
    import time
    print(time.time())
    ```
 
- time.localtime() : 현재 시간을 년, 월, 일, 시, 분, 초..의 형태로 출력

    ```python
    import time
    print(time.localtime())
    ```



## 2.정적 클로링 도구
- requests : 간편한 HTTP 요청 처리를 하는 라이브러리, 웹서비스와 연결하기 위해 사용
- beautifulsoup : html 태그를 처리하는 라이브러리, 웹에 있는 데이터 중 필요한 데이터만 추출하기 위해 사용
- pd.read_html : html 내의 table만 추출할수 있는 도구


## 3. 동적 크롤링 도구
- selenium : 웹 드라이버를 사용해 자동화 기능을 실현하는 라이브러리
    - 웹에 접속해 클릭, 이동과 같은 action을 제어
    - driver 를 설치하고 이를통해 제어 가능

# Web Page가져오기
- urllib.request 패키지

In [None]:
python -m venv webcrawling

In [None]:
# python -m venv webcrawling
!pip install requests
!pip install beautifulsoup4

# # conda create ~~~~
# !conda install requests
# !conda install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.11.1-py3-none-any.whl (128 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m128.2/128.2 KB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting soupsieve>1.2
  Downloading soupsieve-2.3.2.post1-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.11.1 soupsieve-2.3.2.post1


In [2]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

In [3]:
html = urlopen("https://www.naver.com/")

In [4]:
html

<http.client.HTTPResponse at 0x7fd7b86aa920>

In [5]:
soup = bs(html, "html.parser")

In [None]:
print(soup)

- requests 패키지 사용의 결과

In [None]:
html = requests.get("https://www.naver.com")
# soup = bs(html, "html.parser")
# print(soup)
soup = bs(html.text, "html.parser")
print(soup)

# 웹페이지와 HTML
- 웹페이지는 HTML(HyperText Markup Language)을 기반으로 생성
- F12, Ctrl + shift + c 를통해 확인 가능 

## 1. HTML 태그
- 기본형
```html
<태그>내용</태그>
```

- HTML은 마크로 둘러싸인 언어라는 뜻으로 구조에 대한 정보를 기반으로 작성된 언어
- 각각의 구성 요소는 마크 역할을 하는 태그로 감싸져 있다.
    - 웹페이지의 시작과 끝을 의미하는 
    ```html
    <html></html>
    ```
    - 문서의 제목을 의미하는 
    ```html
    <title></title>
    ```
    - 웹에 실제로 표시되는 내용을 의미하는 
    ```html
    <body></body>
    ```

## 2. HTML 태그의 종류
- ul : unordered list. 
- li : list item. 
    - 목록의 내용이 되는 실질적 태그
    - [참고](https://www.w3schools.com/html/html_lists.asp)
- a
    - 하이퍼링크를 나타내는 태그
    - <a href="https://www.google.com">google</a>
- p
    - paragraph(단락)의 약자, 긴 글 뭉텅이.
- table : 표를 나타내는 태그
    - [참고](https://www.w3schools.com/html/tryit.asp?filename=tryhtml_table3)
- html 태그 검색 명령어
    - find("태그") - 첫번째 태그만 검색
    - find_all("태그") - 전체 태그 검색후 list로 반환

In [7]:
#실습: 네이버 또는 본인이 자주 들어가는 사이트에서 위에 나열된 태그를 찾아보세요. 
#div 태그를 이용해서 a나 li 등의 태그를 감싸고 있으므로, 당황하지 말고 찾아보세요.
find_div=soup.find("div")
find_div.text

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 '

In [8]:
find_div_class_group_nav= soup.find('div',class_='group_nav')
#find_div_group_nav
find_div_class_group_nav.text

'\n\n\n메일\n\n카페\n블로그\n지식iN\n쇼핑\n쇼핑LIVE\nPay\n\nTV\n\n\n\n사전\n뉴스\n증권\n부동산\n지도\nVIBE\n도서\n웹툰\n\n\n더보기\n\n서비스 전체보기\n메뉴설정\n초기화\n저장\n\n'

In [9]:
find_div_id_group_nav=soup.find('div', id='NM_FAVORITE')
find_div_id_group_nav.text #id로 찾는다. class는 중복될 수 있지만 id는 아니므로
#id에 해당하는 추가적인 정보들이 나타난다.

'\n\n\n\n메일\n\n카페\n블로그\n지식iN\n쇼핑\n쇼핑LIVE\nPay\n\nTV\n\n\n\n사전\n뉴스\n증권\n부동산\n지도\nVIBE\n도서\n웹툰\n\n\n더보기\n\n서비스 전체보기\n메뉴설정\n초기화\n저장\n\n\n\n\n\n\n2.1°흐림\n\n\n0.0°10.0°\n\n서현동\n\n\n\n\n\n미세좋음\n초미세보통\n\n서현동\n\n\n\n'

In [10]:
find_all_div = soup.find_all("div")
type(find_all_div)

bs4.element.ResultSet

In [11]:
find_all_div[3]

<div class="tY_u8r23">
<a class="_3h-N8T9V" data-clk="dropbanner1b" href="https://whale.naver.com/banner/details/darkmode?=main&amp;wpid=RydDy7"></a><i class="_1KncATpM _1yl_Ow6o"><span class="blind">NAVER whale</span></i><img alt="" height="49" src="https://static-whale.pstatic.net/main/img_darkmode_v12@2x.png" style="padding-left: 100px" width="200"/><span class="_1syGnXOL _3di88A4c" data-clk="dropbanner1b" style="padding-right: 20px; color: white; padding-left: 20px"><span>눈부심 없는 편안~함 </span><strong style="color: #22d4ad">내가 다크 모드 쓰는 이유</strong></span><a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #03bc93">다운로드</span></a><button class="_20PYt6lT _3wm5EzmJ" data-clk="dropclose1b" data-ui-cookie-exp-days="3" data-ui-cookie-key="NM_TOP_PROMOTION" data-ui-cookie-value="1" data-ui-hide-target="#NM_TOP_BANNER" type="button">
3일 동안 보지 않기
</but

In [12]:
# find와 find_all 동시에 사용하기
find_div = soup.find("div", class_="group_nav")
find_all_li = find_div.find_all("li") #li 엘리먼트를 가지고 온다. li=리스트 목록의 항목
#반드시 정렬목록 (<ol>) 또는 비정렬 목록 또는 메뉴 (<ul> <menu>) 안에 위치해야 한다.
for item in find_all_li:
    print(item.text)


메일

카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay

TV

사전
뉴스
증권
부동산
지도
VIBE
도서
웹툰


In [13]:
find_all_li[0].get_text() #=find_all_li[0].text

'\n메일\n'

In [None]:
#a태그의 속성을 출력하고 href의 값만 출력하도록 작성해보세요.
메일
https://mail.naver.com/

카페
https://cafe.naver.com/


In [18]:
find_all_li[0].find('a')['href'] 
#태그를 찾을 때는 find로 찾고 속성을 찾을 때는 indexing 을 해주세요.


# find와 find_all 동시에 사용하기
    
find_div = soup.find("div", class_="group_nav")
find_all_li = find_div.find_all("li")
for item in find_all_li:
    print(item.text)
    print(item.find("a")["href"])



메일

https://mail.naver.com/
카페
https://section.cafe.naver.com/
블로그
https://section.blog.naver.com/
지식iN
https://kin.naver.com/
쇼핑
https://shopping.naver.com/
쇼핑LIVE
https://shoppinglive.naver.com/home
Pay
https://order.pay.naver.com/home

TV

https://tv.naver.com/
사전
https://dict.naver.com/
뉴스
https://news.naver.com/
증권
https://finance.naver.com/
부동산
https://land.naver.com/
지도
https://map.naver.com/
VIBE
https://vibe.naver.com/?from=naver_main&utm_source=naver_main&utm_medium=naver_main_pcweb&utm_campaign=naver_main_redirect
도서
https://search.shopping.naver.com/book/home
웹툰
https://comic.naver.com/



## 3. Selector
### Selector
- 태그 중에는 동일한 태그가 존재할 수있다. 
- 선택자(Selector)는 동일한 태그 여러 개 중에서도 각 태그를 구별할 수 있는 일종의 주소이다.

### Selector의 필요성

```html
<div>	
	<div>
		<span> Python </span>
		<span> Hello world </span>
	</div>
	
	<div>
		<span> Java </span>
		<span> Coffee </span>
	</div>
<div>
```

- <span> 태그는 다양한 내용을 담을 수 있다.
- <span> 태그가 4개나 있어서 컴퓨터가 구분하기 어렵다. 이러한 문제를 해결하기 위해 선택자를 사용함.

```html
<div id = "contents">	
	<div class = "metadata1">
		<span class = "language"> Python </span>
		<span class = "project" > Hello world </span>
	</div>
	
	<div class = "metadata2">
		<span class = "language"> Java </span>
		<span class = "project"> Coffee </span>
	</div>
<div>
```

### id와 class
- 태그의 선택자는 주로 id와 class를 사용
- id는 어떤 요소의 고유한 값
    - html에서도 id는 하나의 고유한 선택자로, __중복__ 되지 않고 하나만 존재한다.
    - [참고](https://www.w3schools.com/html/html_id.asp)
- class 태그는 같은 속성을 지닌 데이터를 묶어주는 값
    - 한 태그가 __여러 개__ 의 class를 가질 수 있다.
    - [참고](https://www.w3schools.com/html/html_classes.asp)

비슷한 속성끼리 묶어줄 때 class 태그를 사용한다.

### Selector 사용법
```html
<div id='123' class='456'>
```
- 선택자에 따라 데이터를 찾는 코드에 차이가 있다.
- id는 '#'를 붙이고, class는 '.'을 붙여준다.

- 태그만 사용해 데이터를 찾을 경우 -> 태그
  - div
- 태그와 id를 사용해 데이터를 찾을 경우 -> 태그#id
  - div#123
- 태그와 class를 사용해 데이터를 찾을 경우 -> 태그.class
  - div.456
- 태그, id, class 모두 사용해 데이터를 찾을 경우 -> 태그#id.class
  - div#123.456

- 참고 : class 이름에 공백이 포함될 경우가 종종 있는데, 이럴 경우 공백을 .으로 대체해서 작성하면 된다.
    - ex)

    ```html
    <div class='hello python'>
    ```

    -> div.hello.python

In [19]:
css_soup=soup.select("div#NM_FAVORITE > div.group_nav > ul.list_nav.type_fix") # > 는 선택자 하위를 의미

In [20]:
for item in css_soup[0].find_all('a'):
    print(item.text)

메일
카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay
TV
