### 파이썬 버전 확인 

In [1]:
from platform import python_version

print(python_version())

3.8.8


## 크롤링 준비
- 준비할 것들
    - Chrome 개발자 도구 사용법
    - python 기본문법
    - jupyter notebook 기본 사용법
    - api 사용을 위한 key 발급
    - 크롤링 유의사항
    
#### 1. Chrome 개발자 도구
    - F12 또는 'option + command + i'을 누르면 나타남
    - 개발자 도구를 통해서 네트워크 통신과 html 정보를 알아낼 수 있어야 함
    
#### 2. python 기본 문법
    - 반복문, 조건문 등의 기본적 이해
    - python 자료구조에 대한 기본적인 이해
    - python 라이브러리 사용법
    
#### 3. jupyter notebook 기본 사용법
    - 실행하기, cell 추가하기 등 기본 단축키
    - 라이브러리 설치법
    
#### 4. api 사용을 위한 key 발급
    - api를 사용하기 위해서 회원가입을 하고 인증키를 발급하는 시간이 걸림
    - 따라서 M4를 수강하기 전 미리 api를 사용할 사이트에서 key를 준비해야 함
    
#### 5. 크롤링 유의사항
    - robots.txt 확인하기
    - 서버에 부하 주지 않기
    - 크롤링 데이터 사용 유의
    
       

#### +) robots.txt란?
    - 개발한 웹 페이지에서 로봇들이 크롤링을 할 수 있는 접근 권한을 제한하는 문서
    - 물리적으로 제한하지는 않지만 권고하는 것으로 로봇이 파일을 읽고 접근하는 것을 중지하길 바라는 것에서 설정함
    - 접근하지 못하도록 써놓더라도 다른 사람들이 접근할 수는 있음
    - 위치는 항상 사이트의 루트 디렉토리에 위치한다. ex) www.naver.com/robots.txt
      
     
<br>

> User-agent: * <br>  
> Allow: /

    모든 로봇들이 모든 페이지에 접근이 가능한 것
    
> User-agent: * <br>  
> Disallow: /

    모든 로봇들이 접근하지 못하게 하는 것
    
> User-agent: MaderianBot <br>  
> Disallow: /

    Maderi bot은 접근할 수 없다(특정 로봇만 거부)
    
> User-agent: * <br>  
> Disallow: /board/

    모든 로봇에 대하여 board 디렉토리의 접근을 거부한다

# urllib으로 크롤링하기
- url을 입력하여 작동하는 라이브러리로 통신을 통해 데이터를 주고받는 기능을 한다.
- 데이터를 받아오거나 다운로드할 수 있다.
- urlerror을 통해 웹과 관련된 에러처리를 더욱 상세하게 할 수 있다.
- url parser을 통해 어떤 요소들이 url에 들어가있는지 확인할 수 있다.  

    종류

>urletrieve    
>urlerror    
>urlopen    
>urlparser    


## urllib.request 로 이미지 다운받기
### 1. urletrieve
>url로 표시된 네트워크 정보를 파일로 저장할 수 있는 기능(이미지, html)  
(filename, headers) 튜플로 반환한다.  
ex) file, header = req.urletrieve(url, path)  


#### 이미지 저장

In [1]:
import urllib.request as req

In [2]:
url = "https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMjA2MTVfNzQg%2FMDAxNjU1Mjc0MDk4OTI1.EjdYanSZqHCRlFkqUCgLWYlb3gnrdPKeJVWd-Gb48yAg.SZCgdabeKs9nf9ie1DJrDHGatH_S9TNUP7HkLUoyek8g.JPEG.geiebua6125%2F3.jpg&type=sc960_832"

path = "test1.jpg"

In [3]:
url

'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMjA2MTVfNzQg%2FMDAxNjU1Mjc0MDk4OTI1.EjdYanSZqHCRlFkqUCgLWYlb3gnrdPKeJVWd-Gb48yAg.SZCgdabeKs9nf9ie1DJrDHGatH_S9TNUP7HkLUoyek8g.JPEG.geiebua6125%2F3.jpg&type=sc960_832'

In [4]:
path

'test1.jpg'

#### 현재 위치 조회

In [5]:
import os
os.getcwd()

'/Users/yooseungli/Downloads/Crawling'

In [7]:
file, header = req.urlretrieve(url, path)

In [8]:
print(file)

test1.jpg


In [9]:
print(header)

accept-ranges: bytes
cache-control: max-age=2592000
content-length: 38927
content-type: image/jpeg
expires: Fri, 22 Jul 2022 00:53:25 GMT
last-modified: Wed, 22 Jun 2022 00:53:25 GMT
p3p: CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
date: Wed, 22 Jun 2022 00:53:25 GMT
age: 1953959
server: Testa/6.1.2
strict-transport-security: max-age=31536000
connection: close




#### html 저장

In [12]:
url2 = "https://www.naver.com/"
path2 = "naver.html"

In [13]:
file2, header2 = req.urlretrieve(url2, path2)

#### 이미지와 html 저장 확인하기

In [14]:
print(file2)

naver.html


In [15]:
print(header2)

Server: NWS
Date: Thu, 14 Jul 2022 15:44:21 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: close
Set-Cookie: PM_CK_loc=0ca2b2933029536b80719a694efcd5e696822b610119e9f7fa528837df156f11; Expires=Fri, 15 Jul 2022 15:44:21 GMT; Path=/; HttpOnly
Cache-Control: no-cache, no-store, must-revalidate
Pragma: no-cache
P3P: CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"
X-Frame-Options: DENY
X-XSS-Protection: 1; mode=block
Strict-Transport-Security: max-age=63072000; includeSubdomains
Referrer-Policy: unsafe-url




### 2. urlerror
> 크롤링에서 발생할 수 있는 에러처리를 할 수 있음    
에러처리를 통해서 어떤 에러가 발생하였는지 파악하고 코드를 수정할 수 있음.  
URLError : 요청한 것의 서버가 없거나 네트워크 연결이 없는 상황에서 발생  
HTTPError : HTTP응답에 있는 status에 따라서 상태를 반환시켜줌, status 코드에 따라서 에러 유형이 다름  
주의사항 : URLError가 HTTPError도 잡기 때문에 HTTPError 처리를 먼저 해줘야 함

**1번 예제와 다르게 list에 넣고 for문을 통한 이미지 다운로드 실시**

**(참고)기타에러**
- ValueError
- IndexError
- ImportError
- Exception : 정의할 수 없는 에러


In [16]:
from urllib.error import URLError, HTTPError

In [20]:
url_list = ["https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMjA2MjlfMTkz%2FMDAxNjU2NDM2NzE5NTU1.PTCRhYOGT-qwM_e-sAkfbTYPxiZflJfeTtLeEKsjf4sg.ftrguyBzPFTfOjdaTiRpINZQAYwrfSDsU0ZdMga5-X8g.JPEG.yenny_11%2F9C4FF801-2C30-4396-B789-93BD31252B1D.jpg&type=sc960_832",
           "https://search.pstatic.net/sunny/?src=https%3A%2F%2Fi3.ruliweb.com%2Fimg%2F22%2F06%2F19%2F1817afa430a4870e3.jpeg&type=sc960_832"]

name_list = ["cheese.jpg", "black.jpg"]

In [21]:
for i, url in enumerate(url_list):
    try:
        #웹 수신 정보 읽기
        response = req.urlopen(url)
        contents = response.read()
        
        print(f"file name : {name_list[i]}")
        print(f"{response.info()}")
        
        with open(name_list[i], "wb") as c:
            c.write(contents)
    except HTTPError as e: #HTTPError 먼저 처리
        print("다운로드 실패")
        print(e.code)
    except URLError as e:
        print("다운로드 실패")
        print(e.code)
    else:
        print()
        print(f"{name_list[i]} 이미지 다운 완료")

file name : cheese.jpg
accept-ranges: bytes
cache-control: max-age=2592000
content-length: 86312
content-type: image/jpeg
expires: Sun, 07 Aug 2022 03:57:55 GMT
last-modified: Fri, 08 Jul 2022 03:57:55 GMT
p3p: CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
date: Fri, 08 Jul 2022 03:57:55 GMT
age: 561803
server: Testa/6.1.2
strict-transport-security: max-age=31536000
connection: close



cheese.jpg 이미지 다운 완료
file name : black.jpg
accept-ranges: bytes
cache-control: max-age=2592000
content-length: 32652
content-type: image/jpeg
expires: Sun, 24 Jul 2022 22:48:17 GMT
last-modified: Fri, 24 Jun 2022 22:48:17 GMT
p3p: CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
date: Fri, 24 Jun 2022 22:48:17 GMT
age: 1703581
server: Testa/6.1.2
strict-transport-security: max-age=31536000
connection: close



black.jpg 이미지 다운 완료


#### 3. urlopen / urlparse

In [22]:
import urllib.request as rq
from urllib.parse import urlparse

In [23]:
url = "https://www.smu.ac.kr"

In [24]:
ele = rq.urlopen(url)

In [26]:
print(type(ele))

<class 'http.client.HTTPResponse'>


In [27]:
print(ele.geturl())

https://www.smu.ac.kr/ko/index.do


In [29]:
ele.status

200

In [31]:
ele.getheaders()

[('Content-Language', 'ko'),
 ('Date', 'Thu, 14 Jul 2022 16:03:43 GMT'),
 ('Expires', 'Thu, 01 Jan 1970 00:00:00 GMT'),
 ('Set-Cookie',
  'JSESSIONID=VbISmXHuRMA3lx8SK71ULhQvdzIGY1i1sVVghNN43OEEAJ5877uH8PO1rpI6qZID.d3d3X2RvbWFpbi9jbXM=; Path=/; HttpOnly'),
 ('Set-Cookie', 'ko_visited=Y; Expires=Fri, 15-Jul-2022 14:59:43 GMT; Path=/'),
 ('Set-Cookie',
  'ko_visited=20220715010343662001; Expires=Fri, 15-Jul-2022 14:59:43 GMT; Path=/'),
 ('Set-Cookie', 'locale=ko; Path=/'),
 ('Connection', 'close'),
 ('Content-Type', 'text/html; charset=UTF-8'),
 ('Pragma', 'no-cache'),
 ('Cache-Control', 'no-store'),
 ('Cache-Control', 'no-cache')]

In [36]:
urlparse("https://www.smu.ac.kr/ko/index.do?param=test").query

'param=test'

headers에 데이터 추가하기

In [39]:
!pip install fake-useragent

Collecting fake-useragent
  Downloading fake-useragent-0.1.11.tar.gz (13 kB)
Building wheels for collected packages: fake-useragent
  Building wheel for fake-useragent (setup.py) ... [?25ldone
[?25h  Created wheel for fake-useragent: filename=fake_useragent-0.1.11-py3-none-any.whl size=13486 sha256=c123dd9167d601003da25a4c6072675835f175886c3c89b72791e2fdac59b13a
  Stored in directory: /Users/yooseungli/Library/Caches/pip/wheels/a0/b8/b7/8c942b2c5be5158b874a88195116b05ad124bac795f6665e65
Successfully built fake-useragent
Installing collected packages: fake-useragent
Successfully installed fake-useragent-0.1.11


In [40]:
from fake_useragent import UserAgent

ua = UserAgent()

Error occurred during loading data. Trying to use cache server https://fake-useragent.herokuapp.com/browsers/0.1.11
Traceback (most recent call last):
  File "/Users/yooseungli/opt/anaconda3/lib/python3.8/site-packages/fake_useragent/utils.py", line 154, in load
    for item in get_browsers(verify_ssl=verify_ssl):
  File "/Users/yooseungli/opt/anaconda3/lib/python3.8/site-packages/fake_useragent/utils.py", line 99, in get_browsers
    html = html.split('<table class="w3-table-all notranslate">')[1]
IndexError: list index out of range


In [42]:
ua.ie

'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)'

In [43]:
ua.chrome

'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.14 (KHTML, like Gecko) Chrome/24.0.1292.0 Safari/537.14'

In [44]:
ua.safari

'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; sv-se) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27'

In [49]:
ua.random

'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'

### 야후 파이낸스 데이터 받아오기
ppt슬라이드에서 비동기요청 장표 확인

In [54]:
from IPython.display import Image 