# 웹크롤링 
- 웹스크래핑(Web Scarping)이라고도 하면 컴퓨터 소프트웨어 기술로 각종 웹 사이트들에서 **원하는 정보를 추출**하는 것을 의미
- 웹크롤러: 웹의 정보를 수집하는 목적을 위해 만든 프로그램. 
- 웹페이지에서 눈에보이는 데이터는 다 매칭되는 태그가 있다는 말.
- 각각의 요소가 어떤 태그인지 알고 싶다면 개발자 도구(F12) 열어서 확인

## 1. requests

- HTTP 프로토콜과 관련된 기능 지원
- url을 다루기 위한 모듈 패키지로 import requests로 활용
- http request/response를 위한 모듈

### 1.1. request(get, post)    
- HTTP 요청을 서버에 보내고 응답을 받아오는 기능 지원 
- 형식 : **requests.get("url"), requests.request("GET","url")**
- request()로 서버에 요청을 하면 서버에서는 결과를 반환해줌.
- status_code로 응답결과를 알 수 있다.
| 응답코드 | 설명 |
| :----: | :---- |
|  1xx |  요청을 받았고 작업 진행중 | 
|  2xx |  사용자의 요청이 성공적으로 수행 됨 | 
|  3xx |  요청은 완료 되었으나, 리다이렉션이 필요 |
|  4xx |  사용자의 요청이 잘못됨 | 
|  5xx |  서버에 오류가 발생함 | 


In [1]:
import requests

In [5]:
response = requests.get("https://www.naver.com/")
#response = requests.request("GET","https://www.naver.com/")

print('응답코드 :',response.status_code)

응답코드 : 200


- requests.codes.ok

In [7]:
response = requests.get("https://www.naver.com/sdfsf")
print('응답코드 :',response.status_code)
#print(requests.codes.ok)

if response.status_code == requests.codes.ok :
    print("정상입니다.")
else : 
    print("문제가 생겼습니다.[에러코드",response.status_code,"]")


응답코드 : 404
문제가 생겼습니다.[에러코드 404 ]


### 1.2. res.raise_for_status() 
- 요청이 성공적(200)으로 수행되지 못하면 에러처리

In [14]:
import requests

response = requests.get("https://www.naver.com/")
response.raise_for_status()
#response.text #긁어온 정보 확인하기

### 1.3. 웹사이트 가지고 와서 html로 저장하기

In [16]:
response = requests.get("https://www.naver.com/")
response.raise_for_status()

#print(response.text)
print(len(response.text))

with open("data4/mynaver.html","w",encoding="utf-8")as f:
    f.write(response.text)

153569


### 1.4 검색어 넣어서 정보 가져오기

In [20]:
url = "https://search.naver.com/search.naver"
params = {"query":"python"}
res = requests.get(url, params=params)
#res.raise_for_status()
print(res.status_code)

with open("data4/mynaver.html","w",encoding="utf-8")as f:
    f.write(res.text)

200


In [23]:
url = "https://comic.naver.com/webtoon/detail"
params = {"titleId":21815, "no":786}
res = requests.get(url, params=params)
#res.raise_for_status()
print(res.status_code)

with open("data4/mynaver.html","w",encoding="utf-8")as f:
    f.write(res.text)

200


**연습문제1) 구글에서 python을 검색한 페이지를 html파일로 생성하시오**

In [24]:
url = "https://www.google.com/search"
params = {"q":"python"}
res = requests.get(url, params=params)
#res.raise_for_status()
print(res.status_code)

with open("data4/mygoogle.html","w",encoding="utf-8")as f:
    f.write(res.text)

200


## 2. 정규표현식(Regular Expressions)
- 특정한 규칙을 가진 문자열의 패턴을 표현하는 데 사용하는 표현식(Expression)   
: 이메일주소, 자동차번호판, 주민등록번호.....
- 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용
- 정규식 이라고도 하며 주로 문자열의 검색 및 치환에 활용
- 파이썬은 정규표현식을 지원하기 위해 re모듈을 제공.(Regular Expression)

### 2.1. 메타문자
- 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자


| 패턴 | 설명 | 예제 |
| :----: | :---- | :--- |
|  ^ | 이 패턴으로 시작해야 함 | ^abc : abc로 시작.(abcd, abc12 등)| 
|  . | 모든 문자 |ca.e : care, cafe, case (o), caffe(x) |
|  \$ | 이 패턴으로 종료되어야 함 | se$ : se로 끝 (case, base(o), face(x)|
|  \d | 숫자 0~9 | \d\d\d : 0~9 범위의 숫자 3개를 의미(123, 000) |
|  \w | 문자를 의미 | \w\w\w : 문자3개를 의미(xyz, ABC..)|
|  * | * 바로 앞에 문자가 0번이상 반복 | ca\*t : ct, cat, caaat (o)
|  + | + 바로 앞에 문자가 1번이상 반복 | ca\+t : ct(x), cat, caaat (o)


### 2.2. 정규식을 이용한 문자열검색
- p = re.compile("정규식") : re.compile의 결과로 돌려주는 객체 p를 사용하여 작업 수행
- match() : 문자열의 처음부터 정규식과 일치하는지 확인
- search() : 주어진 문자열 중에서 일치하는게 있는지 확인
- findall() : 정규식과 매치되는 모든 문자열을 리스트 형태로 반환


In [27]:
import re

p = re.compile("^ca")
m = p.match("case")
s = p.search("case")

print(type(m), type(s))

<class 're.Match'> <class 're.Match'>


### 2.3. re.Match 객의 메서드
- group() : 일치하는 문자열 반환
- start() : 일치하는 문자열의 시작 index
- end() : 일치하는 문자열의 끝 index
- span() : 일치하는 문자열의 시작 / 끝 index

In [36]:
import re

p = re.compile("^ca")
m = p.match("case")

print("m.string :",m.string)
print("m.group() :",m.group())
print("m.start() :",m.start())  # 시작 인덱스
print("m.end() :",m.end())     # 끝나는 인덱스
print("m.span() :",m.span())

m.string : case
m.group() : ca
m.start() : 0
m.end() : 2
m.span() : (0, 2)


In [40]:
import re

datas = ["care", "cafe", "case", "cave","cade", "caae","cat", "apple","api", "acafe", "acave","base", "I don't care"]

def print_match(m):
    if m :
        print("m.string :",m.string)
        print("m.group() :",m.group())
        print("m.start() :",m.start())  # 시작 인덱스
        print("m.end() :",m.end())     # 끝나는 인덱스
        print("m.span() :",m.span())
    else :
        print("매칭되지 않음")
        
#p = re.compile("^ca")
#p = re.compile("ca.e")
p = re.compile("care$")

for data in datas :
    m = p.match(data)
    s = p.search(data)
    #print_match(m)
    print_match(s)
    print('*'*50)

m.string : care
m.group() : care
m.start() : 0
m.end() : 4
m.span() : (0, 4)
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
매칭되지 않음
**************************************************
m.string : I don't care
m.group() : care
m.start() : 8
m.end() : 12
m.span() : (8, 12)
**************************************************


## 3. User Agent

- 사이트에서 서버 트래픽을 유발하는 크롤링을 막을 수 있다.
- user agent 정보를 통해 해결 가능
- https://www.whatismybrowser.com/detect/what-is-my-user-agent : 브라우저에서 접속하는 user agent 정보

In [42]:
import requests

url = "https://www.melon.com/chart/"
res = requests.get(url)
print(res.status_code)

406


In [47]:
import requests

url = "https://www.melon.com/chart/"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}
res = requests.get(url,headers= headers)
print(res.status_code)

with open("data4/mymusic.html","w",encoding="utf-8")as f:
    f.write(res.text)


200
