# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
3. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- get(): GET방식 요청
- post(): POST방식 요청

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란?
>     - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
>     - `name=value` 형태이며 여러개일 경우 `&`로 연결해서 전송됨
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://developer.mozilla.org/ko/docs/Web/HTTP/Status 
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

In [6]:
import requests
from bs4 import BeautifulSoup

url = "https://www.naver.com"

# url에 문서를 요청
res = requests.get(url)
print(type(res))

if res.status_code == 200:
    print("ok")
    html = res.text
    print(html[:1000])
else:
    print(res.status_code,"fail...")

<class 'requests.models.Response'>
ok
   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.pn

In [3]:
res.status_code

200

In [14]:
from pprint import pprint
base_url = "https://httpbin.org/{}"
url = base_url.format("get")

# header에 user_agent 등록
## 개발자 도구 : 콘솔 -> navigator.userAgent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
header = {
    "user-agent":user_agent
    ,"my-name":"Lee"
}

#요청 파라미터 전송
## 방법 1. URL 뒤에 값을 붙임. www.test?a=5&b=3
## 방법 2. params 파라미터에 dictionary로 전달.
params = {
    "id":"sfsd3"
    ,"page":30
    ,"key":"test"
}
res=requests.get(url,headers=header,params = params)
print("resp : ",res.status_code)
if res.status_code == 200:
    txt = res.json() # json형식의 응답 -> 딕셔너리로 변환해서 반환
    print(type(txt))
    pprint(txt)
    # print(txt)

resp :  200
<class 'dict'>
{'args': {'id': 'sfsd3', 'key': 'test', 'page': '30'},
 'headers': {'Accept': '*/*',
             'Accept-Encoding': 'gzip, deflate, br',
             'Host': 'httpbin.org',
             'My-Name': 'Lee',
             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                           'AppleWebKit/537.36 (KHTML, like Gecko) '
                           'Chrome/120.0.0.0 Safari/537.36',
             'X-Amzn-Trace-Id': 'Root=1-659cdf37-24f2855855e1d2ac5f39f7e0'},
 'origin': '112.220.17.226',
 'url': 'https://httpbin.org/get?id=sfsd3&page=30&key=test'}


## daum news 리스트(목록)
- https://news.daum.net

In [126]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

url = "https://news.daum.net"
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'


# 1. 요청
resp = requests.get(url,headers = {"user-agent":user_agent})
if resp.status_code == 200:
    soup = BeautifulSoup(resp.text,"lxml")
    # print(soup.prettify())
    tag_list = soup.select("body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a")
    link_list = list()
    title_list = list()
    article_list = list()
    reporter_list = list()
    insert_date_list= list()
    
    for tag in tag_list:
        link = tag.get("href")
        title = tag.get_text().strip()
        
        sub_resp = requests.get(link)
        
        sub_soup = BeautifulSoup(sub_resp.text,"lxml")
        info = sub_soup.select("div.info_view > span.txt_info")
        
        if len(info) < 2:
            reporter = None
            insert_date = re.sub(r"입력","",info[0].get_text().strip())
        else:
            reporter = re.sub(r"[^ 가-힣]","",info[0].get_text().strip())
            insert_date = re.sub(r"입력","",info[1].get_text().strip())
        
        reporter_list.append(reporter)
        insert_date_list.append(insert_date.strip())
        
        article = sub_soup.select("div.article_view p")
        arti = ""
        for a in article:
            arti = arti + a.get_text().strip()
        article_list.append(arti)
        
        link_list.append(tag.get("href"))
        title_list.append(tag.get_text().strip())

    df = pd.DataFrame({'title':title_list
                       ,'url':link_list
                       ,'article':article_list
                       ,'reporter':reporter_list
                       ,'date': insert_date_list
                      })
    display(df.head())    
    df.to_csv(f'daum_news_{datetime.now().strftime("%Y-%m-%d")}.csv',encoding="utf-8",index=False)

Unnamed: 0,title,url,article,reporter,date
0,"""수도권 다자 구도 만들건가"" ""스윙중도 2030 잡아야""",https://v.daum.net/v/20240109163002538,"[박소희, 남소연 기자]김준일 대표는 12월 20일 1차 토론회와 마찬가지로 민주당...",박소희,2024. 1. 9. 16:30
1,"중이염 잦은 아이, 발달에 문제 생길 수도?",https://v.daum.net/v/20240109150033127,어린이들이 흔하게 걸리는 중이염에 자주 걸리면 청각과 언어발달이 느려질 수 있다는 ...,한건필,2024. 1. 9. 15:00
2,"윤세영·윤석민 ""홀딩스·SBS 지분 '필요시' 내놓겠다""",https://v.daum.net/v/20240109164104956,윤세영 태영그룹 창업회장과 윤석민 회장이 9일 지주사인 태영홀딩스와 태영홀딩스가 보...,김미리내,2024. 1. 9. 16:41
3,펫 시장은 컸는데 펫 커머스는 왜 안 될까 [인포로 본 세상],https://v.daum.net/v/20240109154754504,"""유모차보다 개모차가 잘 팔린다""는 우스갯소리가 나돈다. 반려동물과 함께하는 사람들...",이지원 기자,2024. 1. 9. 15:47
4,"엔비디아·인텔·AMD, AI PC 시대 '맞춤형 반도체' 대거 공개 [CES 2024]",https://v.daum.net/v/20240109163758852,인공지능(AI) 생태계의 기틀인 반도체 업체들이 CES 2024에서 신형 그래픽처리...,라스베이거스윤민혁 특파원,2024. 1. 9. 16:37


In [137]:
url = "https://v.daum.net/v/20240109152002015"
res_news = requests.get(url,headers={"user-Agent":user_agent})
if res_news.status_code == 200:
    soup = BeautifulSoup(res_news.text,"lxml")
    title = soup.select_one("#mArticle > div.head_view > h3").get_text()
    print("제목 :",title)
    p_tag_list = soup.select("#mArticle > div.news_view.fs_type1 > div.article_view > section > p")
    # print(len(p_tag_list))
    content_list= []
    for p_tag in p_tag_list:
        # p_tag.get_text()
        content_list.append(p_tag.get_text())
    news = '\n'.join(content_list)

제목 : [단독]"세제 혜택 국가전략기술, 시행령 아닌 국회가 법으로 정한다"
국회가 그간 정부와 공유했던 '국가전략기술' 분야 지정 권한을 사실상 가져왔다. 정부 단독 판단으로 국가전략기술 분야를 지정해 해당 분야 투자 기업의 세금을 깎아주는 것은 문제라는 판단에서다. 한편으론 여야 갈등으로 제때 국가전략기술 분야 지정이 이뤄지지 않을 수 있다는 우려도 나온다.
9일 국회에 따르면 '조세특례제한법(조특법) 시행령'에 따라 이미 국가전략기술 분야로 지정돼 있던 바이오의약품을 '법률(조특법)'상 국가전략기술 분야로 재차 직접 명시하는 내용의 조특법 개정이 지난해 말 이뤄졌다.
국가전략기술은 '국가안보 차원의 전략적 중요성이 인정되고 국민경제 전반에 중대한 영향을 미치는 기술'이다. 정부는 기업이 국가전략기술 분야 시설·R&D(연구개발)에 투자할 경우 세금을 깎아준다.
정부는 지난해 7월 조특법 시행령을 개정해 기존 6개 분야 국가전략기술(△반도체 △이차전지 △백신 △디스플레이 △수소 △미래형이동수단)에 바이오의약품을 추가한 바 있다. 그런데도 국회가 굳이 바이오의약품을 시행령이 아닌 법률에 다시 명시한 것은 국가전략기술 분야 지정 '권한'을 의식했기 때문으로 풀이된다.
실제 국회는 조특법을 개정하면서 "기획재정부는 시행령 개정을 통해 국가전략기술 분야를 추가하려는 경우 사전에 국회 기획재정위원회에 보고한다"는 내용의 '부대의견'을 달았다. 사실상 국회 승인 없인 정부 마음대로 시행령을 고치지 못하도록 한 것이다.
지난해 초까지만 해도 국가전략기술 분야 지정 권한은 정부에게 있었다. 당시 조특법은 국가전략기술을 '대통령령(시행령)으로 정하는 기술'이라고 규정했다.
그러나 지난해 4월 개정 시행된 조특법에 따라 정부와 국회가 모두 국가전략기술 분야 지정 권한을 갖게 됐다. 
당시 개정된 조특법은 국가전략기술을 '반도체, 이차전지, 백신, 디스플레이, 수소, 미래형 이동수단 및 그 밖에 대통령령으로 정하는 분야와 관련된 기술'로 규정했다. 6개 분야 국가전략기술(현재

# 함수

In [145]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'

def get_news_list():
    url = "https://news.daum.net" 
# 1. 요청
    resp = requests.get(url,headers = {"user-agent":user_agent})
    if resp.status_code == 200:
        soup = BeautifulSoup(resp.text,"lxml")
        # print(soup.prettify())
        tag_list = soup.select("body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a")
        link_list = list()
        title_list = list()
        article_list = list()
        reporter_list = list()
        insert_date_list= list()

        for tag in tag_list:
            link = tag.get("href")
            title = tag.get_text().strip()

            sub_resp = requests.get(link)

            sub_soup = BeautifulSoup(sub_resp.text,"lxml")
            info = sub_soup.select("div.info_view > span.txt_info")

            if len(info) < 2:
                reporter = None
                insert_date = re.sub(r"입력","",info[0].get_text().strip())
            else:
                reporter = re.sub(r"[^ 가-힣]","",info[0].get_text().strip())
                insert_date = re.sub(r"입력","",info[1].get_text().strip())

            reporter_list.append(reporter)
            insert_date_list.append(insert_date.strip())

            article = sub_soup.select("div.article_view p")
            arti = ""
            for a in article:
                arti = arti + a.get_text().strip()
            article_list.append(arti)

            link_list.append(tag.get("href"))
            title_list.append(tag.get_text().strip())

        df = pd.DataFrame({'title':title_list
                           ,'url':link_list
                           ,'article':article_list
                           ,'reporter':reporter_list
                           ,'date': insert_date_list
                          })
        return df

In [146]:
get_news_list()

Unnamed: 0,title,url,article,reporter,date
0,"태영건설 주요 채권단, 10일 추가 자구안 논의",https://v.daum.net/v/20240109171659369,[아이뉴스24 이효정 기자] 산업은행이 10일 주요 채권단을 소집해 태영 측의 추가...,이효정,2024. 1. 9. 17:16
1,태백·영월·정선·강원남부 대설주의보,https://v.daum.net/v/20240109171910455,기상청은 9일 오후 5시를 기해 태백·영월·정선군평지·강원남부산지에 대설주의보를 발...,이채윤,2024. 1. 9. 17:19
2,[충북·세종 날씨] 내일 흐리고 눈·비... 예상적설량 최대 15Cm,https://v.daum.net/v/20240109162323297,충북과 세종 오늘은 대체로 흐리고 낮부터 눈 또는 비가 내렸습니다. 낮 최고 기온은...,최병천,2024. 1. 9. 16:23
3,"[인터뷰 전문] 천하람 ""'제3지대' 지역구는 모여서, 비례는 별개로 치르는 것도 ...",https://v.daum.net/v/20240109155143738,,신혜원 기자,2024. 1. 9. 15:51
4,"[단독] 檢, 김만배-신학림 한 자리서 조우형에 ‘尹 커피’ 관련 전화 의심",https://v.daum.net/v/20240109172102543,‘대선 개입 여론조작’ 의혹을 수사하는 검찰이 대장동 자금책 조우형씨로부터 “김만배...,곽진웅,2024. 1. 9. 17:21
5,"우크라, 러 '파상 공습'에 대공미사일 동나",https://v.daum.net/v/20240109171221205,(이스탄불=연합뉴스) 김동호 특파원 = 우크라이나군이 최근 잇따르는 러시아군의 대규...,김동호,2024. 1. 9. 17:12
6,"이재명, '이낙연 탈당' 앞두고 내일 퇴원 결정…""상태 호전""",https://v.daum.net/v/20240109161501902,더불어민주당 이재명 대표가 흉기 피습 8일 만인 오는 10일 퇴원한다.민주당 관계자...,노컷뉴스 김기용 기자,2024. 1. 9. 16:15
7,단양군 응급의학과 의사 채용 불발에 연봉 4억2천만원 '껑충',https://v.daum.net/v/20240109171421267,(단양=연합뉴스) 권정상 기자 = 충북 단양군이 오는 7월 정식 개원을 앞둔 보건의...,권정상,2024. 1. 9. 17:14
8,새해 외국인 관심주는 LGD·KT·KT&G,https://v.daum.net/v/20240109171808422,올 들어 첫 5거래일 동안 외국인투자자가 연속해서 순매수한 종목은 LG디스플레이와 ...,최희석 기자,2024. 1. 9. 17:18
9,日증시 33년만에 최고…거품경제 시절 주가 회복,https://v.daum.net/v/20240109171804413,일본 증시 대표 주가지수인 닛케이225평균주가(닛케이지수)가 33년10개월 만에 최...,이승훈 특파원,2024. 1. 9. 17:18


In [147]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
def get_news_list():
    url = "https://news.daum.net"
    # 1. 요청
    res = requests.get(url, headers={"User-Agent":user_agent})
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, 'lxml')
    #     print(soup.prettify())
        tag_list = soup.select("body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a")
        print(len(tag_list))
        link_list = [] # 링크들 저장할 리스트
        title_list = []# 제목들 저장할 리스트
        for tag in tag_list:
    #         print(tag.get("href"), tag.get_text())
            link_list.append(tag.get("href"))
            title_list.append(tag.get_text().strip())
        df = pd.DataFrame({
            "제목":title_list,
            "URL":link_list
        })
        return df
def get_news(url):
    res_news = requests.get(url, headers={"User-Agent":user_agent})
    if res_news.status_code == 200:
        soup = BeautifulSoup(res_news.text, "lxml")
#         title = soup.select_one("#mArticle > div.head_view > h3").get_text()
#         print("제목:", title)
        p_tag_list = soup.select("#mArticle > div.news_view.fs_type1 > div.article_view > section > p")
        content_list = []
        for p_tag in p_tag_list:
            content_list.append(p_tag.get_text())
    #     [p_tag.get_text() for p_tag in p_tag_list]
        news = "\n".join(content_list)
        return news

In [165]:
df = get_news_list()
# artivle_list = list()
# for news_url in df["URL"]:
#     article_list.append(get_news(news_url))
article_list = [get_news(news_url) for news_url in df["URL"]]
df["내용"] = article_list
df.to_csv(f'daum_news_{datetime.now().strftime("%Y-%m-%d")}.csv',encoding="utf-8",index=False)

20


In [166]:
import os
for file in os.listdir() if file.endswith('ipynb')]
    

['.ipynb_checkpoints',
 '01_데이터수집 개요_BeautifulSoup_.ipynb',
 '02_requests.ipynb',
 '03_Selenium.ipynb',
 'daum_news_2024-01-09.csv',
 'df.csv',
 'example.html',
 'HTML_CSS.pdf',
 'untitled.txt']

## 이미지 다운로드

In [4]:
import requests

img_url = "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTh2ii7B8VWWNk1dPQTbv07e0Q26dUV1oIO-Q&usqp=CAU"
res = requests.get(img_url)
if res.status_code ==200:
    print(type(res.content))
    # 바이너리 파일 -> res.content
    with open("down_image.jpg","wb") as fw:
        fw.write(res.content)
else:
    print(res.status_code)

<class 'bytes'>
