# 9일차 (2024.01.09)

- 개요
    - requests

# requests
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.

In [2]:
import requests

response = requests.get("https://www.daum.net")

In [3]:
response.status_code

200

In [6]:
response.encoding = "utf-8"
print(response.text)

<!doctype html>
<html lang="ko">
 <head>
  <meta charset="utf-8">
  <title>Daum</title>
  <meta http-equiv="x-ua-compatible" content="IE=edge">
  <meta property="og:url" content="https://www.daum.net/">
  <meta property="og:type" content="website">
  <meta property="og:title" content="Daum">
  <meta http-equiv="Pragma" content="no-cache">
  <meta http-equiv="Expires" content="-1">
  <meta name="referrer" content="origin">
  <meta property="og:image" content="https://i1.daumcdn.net/svc/image/U03/common_icon/5587C4E4012FCD0001">
  <meta property="og:description" content="이용자 선택권을 강화한 뉴스, 세상의 모든 정보를 연결하는 검색. Daum에서 나의 관심 콘텐츠를 즐겨보세요.">
  <meta name="description" content="이용자 선택권을 강화한 뉴스, 세상의 모든 정보를 연결하는 검색. Daum에서 나의 관심 콘텐츠를 즐겨보세요.">
  <meta name="msapplication-task" content="name=Daum;action-uri=//www.daum.net/;icon-uri=/favicon.ico">
  <meta name="msapplication-task" content="name=미디어다음;action-uri=//news.daum.net/;icon-uri=/media_favicon.ico">
  <meta name="msapplication-task" content="n

- ## requests 코딩 패턴

1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
2. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장
  
- ## 요청 함수
- get(): GET방식 요청
- post(): POST방식 요청

## requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

## requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
> - dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

- ### HTTP 응답 상태코드
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

In [12]:
import requests
from bs4 import BeautifulSoup

url = "https://www.naver.com"

# url에 문서를 요청해서 받은 응답을 반환
res = requests.get(url)
print(type(res))

<class 'requests.models.Response'>


In [22]:
if res.status_code == 200: # 정상응답
    # 응답 결과 html 코드를 반환
    html = res.text # str
    print(html[:1000])
    soup = BeautifulSoup(html, 'lxml')
    print(soup.prettify()[:1000])

else:
    print(res.status_code, "처리 못함")

   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" c

In [169]:
base_url = "https://httpbin.org/{}"
url = base_url.format("get")
print(url)

# header에 user-agent 등록
## 개발자 도구: 콘솔 -> navigator.userAgent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
header = {
    "user_agent":user_agent,
    "my-name":"Lee"
}

# 요청파라미터 전송
# 1. URL 뒤에 붙인다. (GET) https://sports.news.naver.com/news?oid=003&aid=0012308951
# 2. params 파라미터에 dictionary로 전달

param = {
    "id":"123",
    "page":30,
    "key":"test"
}

# res = requests.get(url, # 요청 url
#                    headers=header, # 요청 header 정보
#                    params=param
#                    )

res = requests.get(url+"?id=123&page=100&key=my_test")

print("응답코드:", res.status_code)
if res.status_code == 200:
    # txt = res.text
    txt = res.json() # json 형식의 응답 -> 딕셔너리로 변환해서 반환
    print(type(txt))
    print(txt)

https://httpbin.org/get
응답코드: 200
<class 'dict'>
{'args': {'id': '123', 'key': 'my_test', 'page': '100'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.31.0', 'X-Amzn-Trace-Id': 'Root=1-659cdf1a-643531593b84f16d682cce20'}, 'origin': '112.220.17.226', 'url': 'https://httpbin.org/get?id=123&page=100&key=my_test'}


In [170]:
txt["url"]

'https://httpbin.org/get?id=123&page=100&key=my_test'

In [172]:
txt['args']['key']

'my_test'

- ## daum news 리스트(목록)
- https://news.daum.net

In [285]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://news.daum.net"
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0"

# 1. 요청
res = requests.get(url, headers={"User-Agent":user_agent})
if res.status_code == 200:
    soup = BeautifulSoup(res.text, "lxml")
    # print(soup.prettify())
    tag_list = soup.select("body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a")
    print(len(tag_list))
    link_list = [] # 링크들 저장할 리스트
    title_list = [] # 제목들 저장할 리스트
    for tag in tag_list:
        # print(tag.get("href"), tag.get_text())
        link_list.append(tag.get("href"))
        title_list.append(tag.get_text().strip())

    df = pd.DataFrame({
        "제목":title_list,
        "URL":link_list
    })

    filename = f"daum_news_list_{datetime.now().strftime('%Y-%m-%d')}.csv"
    df.to_csv(filename, index=False) # 파일로 저장 -> csv 포멧으로 저장

20


In [256]:
df

Unnamed: 0,제목,URL
0,"[단독]""세제 혜택 국가전략기술, 시행령 아닌 국회가 법으로 정한다""",https://v.daum.net/v/20240109152002015
1,"1인가구 청년 만난 통합위…""더 나은 미래로 가는 한 걸음 만들 것""",https://v.daum.net/v/20240109153116651
2,"'사령관 잡는 킬러' 드론…이스라엘, 하마스 이어 헤즈볼라 간부도 사살",https://v.daum.net/v/20240109140403533
3,"경찰, 이재명 살인미수 피의자 당적 이어 신상도 비공개",https://v.daum.net/v/20240109153603954
4,고시생 남편 믿고 결혼했는데…공부는 ‘뒷전’ 게임만 합니다,https://v.daum.net/v/20240109153803066
5,"윤 대통령 칭찬한 '충TV' 뭐길래...김선태 주무관 ""과분한 칭찬 감사""",https://v.daum.net/v/20240109153522919
6,"지속가능경영보고서 공시 기업 24%↑…현대차, 10개사 공시로 1위",https://v.daum.net/v/20240109153143673
7,임시완의 힘... 쿠팡플레이 월 사용자 660만명 돌파,https://v.daum.net/v/20240109124000627
8,"네이버 치지직 vs 아프리카TV, 트위치 이용자 쟁탈전",https://v.daum.net/v/20240109153618975
9,"월급 617만원 이상 직장인, 7월부터 국민연금 1만2150원 더 낸다 [오늘의 정...",https://v.daum.net/v/20240109144607431


In [283]:
from datetime import datetime
d = datetime.now()
d.strftime("%Y-%m-%d")
d.strftime("%Y년 %m월 %d일 %H시 %M분 %S초")

'2024년 01월 09일 15시 52분 07초'

In [650]:
# 개별 뉴스 기사 조회
url = 'https://v.daum.net/v/20240109152002015'

res = requests.get(url, headers={"User-Agent":user_agent})
if res.status_code == 200:
    soup = BeautifulSoup(res.text, "lxml")
    title = soup.select_one("#mArticle > div.head_view > h3").get_text()
    print("제목:",title)
    p_tag_list = soup.select("#mArticle > div.news_view.fs_type1 > div.article_view > section > p")
    content_list = []
    for p_tag in p_tag_list:
        content_list.append(p_tag.get_text())
    # [p_tag.get_text() for p_tag in p_tag_list]
    news = "\n".join(content_list)
    print(news)

제목: [단독]"세제 혜택 국가전략기술, 시행령 아닌 국회가 법으로 정한다"
국회가 그간 정부와 공유했던 '국가전략기술' 분야 지정 권한을 사실상 가져왔다. 정부 단독 판단으로 국가전략기술 분야를 지정해 해당 분야 투자 기업의 세금을 깎아주는 것은 문제라는 판단에서다. 한편으론 여야 갈등으로 제때 국가전략기술 분야 지정이 이뤄지지 않을 수 있다는 우려도 나온다.
9일 국회에 따르면 '조세특례제한법(조특법) 시행령'에 따라 이미 국가전략기술 분야로 지정돼 있던 바이오의약품을 '법률(조특법)'상 국가전략기술 분야로 재차 직접 명시하는 내용의 조특법 개정이 지난해 말 이뤄졌다.
국가전략기술은 '국가안보 차원의 전략적 중요성이 인정되고 국민경제 전반에 중대한 영향을 미치는 기술'이다. 정부는 기업이 국가전략기술 분야 시설·R&D(연구개발)에 투자할 경우 세금을 깎아준다.
정부는 지난해 7월 조특법 시행령을 개정해 기존 6개 분야 국가전략기술(△반도체 △이차전지 △백신 △디스플레이 △수소 △미래형이동수단)에 바이오의약품을 추가한 바 있다. 그런데도 국회가 굳이 바이오의약품을 시행령이 아닌 법률에 다시 명시한 것은 국가전략기술 분야 지정 '권한'을 의식했기 때문으로 풀이된다.
실제 국회는 조특법을 개정하면서 "기획재정부는 시행령 개정을 통해 국가전략기술 분야를 추가하려는 경우 사전에 국회 기획재정위원회에 보고한다"는 내용의 '부대의견'을 달았다. 사실상 국회 승인 없인 정부 마음대로 시행령을 고치지 못하도록 한 것이다.
지난해 초까지만 해도 국가전략기술 분야 지정 권한은 정부에게 있었다. 당시 조특법은 국가전략기술을 '대통령령(시행령)으로 정하는 기술'이라고 규정했다.
그러나 지난해 4월 개정 시행된 조특법에 따라 정부와 국회가 모두 국가전략기술 분야 지정 권한을 갖게 됐다. 
당시 개정된 조특법은 국가전략기술을 '반도체, 이차전지, 백신, 디스플레이, 수소, 미래형 이동수단 및 그 밖에 대통령령으로 정하는 분야와 관련된 기술'로 규정했다. 6개 분야 국가전략기술(현재는

In [651]:
l = ["a","b","c"]
"\n".join(l)

'a\nb\nc'

In [683]:
%%writefile daum_news_crawling.py
# 함수화
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0"

def get_new_list():
    url = "https://news.daum.net"
    # 1. 요청
    res = requests.get(url, headers={"User-Agent":user_agent})
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, "lxml")
        # print(soup.prettify())
        tag_list = soup.select("body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a")
        # print(len(tag_list))
        link_list = [] # 링크들 저장할 리스트
        title_list = [] # 제목들 저장할 리스트
        for tag in tag_list:
            # print(tag.get("href"), tag.get_text())
            link_list.append(tag.get("href"))
            title_list.append(tag.get_text().strip())
    
        df = pd.DataFrame({
            "제목":title_list,
            "URL":link_list
        })
    return df

def get_news(url):
    res = requests.get(url, headers={"User-Agent":user_agent})
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, "lxml")
        title = soup.select_one("#mArticle > div.head_view > h3").get_text()
        # print("제목:",title)
        p_tag_list = soup.select("#mArticle > div.news_view.fs_type1 > div.article_view > section > p")
        content_list = []
        for p_tag in p_tag_list:
            content_list.append(p_tag.get_text())
        # [p_tag.get_text() for p_tag in p_tag_list]
        news = "\n".join(content_list)
        return news

if __name__ == "__main__":
    df = get_new_list()

    article_list = [get_news(news_url) for news_url in df["URL"]]
    # 표에 내용을 추가
    df["내용"] = article_list
    # 파일로 저장
    filename = f"daum_news_list_{datetime.now().strftime('%Y-%m-%d')}.csv"
    df.to_csv(filename, index=False) # 파일로 저장 -> csv 포멧으로 저장

In [678]:
get_new_list()
get_news('https://v.daum.net/v/20240109171659369')

20
제목: 태영건설 주요 채권단, 10일 추가 자구안 논의


'[아이뉴스24 이효정 기자] 산업은행이 10일 주요 채권단을 소집해 태영 측의 추가 자구안을 논의한다. 오는 11일 태영건설 워크아웃 개시를 앞두고 주요 채권단이 태영 측이 제시한 추가 자구안의 신뢰성을 검증하는 자리가 될 전망이다.\n9일 윤세영 태영그룹 창업 회장은 서울 여의도 태영그룹 본사에서 "필요하면 TY홀딩스와 SBS 보유 지분을 담보로 제공하겠다"며 "기존 자구 계획안 외에 다른 계열사 매각이나 담보 제공도 계획도 있다"고 말했다.\n이에 주채권은행인 산업은행은 채권단을 대표해 "태영그룹이 발표한 추가 자구 계획과 계열주의 책임 이행 의지에 대해 긍정적으로 평가한다"며 "시장 신뢰를 회복할 출발점이 될 것"이라며 긍정적으로 평가했다.\n그러면서도 "태영그룹이 약속한 자구 계획 중 하나라도 지켜지지 않으면 워크아웃 절차는 중단될 수 있다"며 "실사 과정에서 대규모 추가 부실이 발견되면 워크아웃 절차가 중단될 것"이라고도 했다.\n태영 측은 지난달 태영건설 워크아웃 신청 당시 △태영인더스트리 매각 대금 1549억원 지원 △에코비트 매각 및 매각 대금 지원 △블루원 지분 담보 제공 및 매각 추진 △평택싸이로 담보 제공을 자구안으로 제출했지만, 대주주의 사재 출연 등이 빠져 비판이 일자 태영 측은 추가 자구안을 내놨다.\n회의는 산업은행 여의도 본점에서 5대 시중은행과 기업은행 등 주요 채권자들이 참석한다.'

In [740]:
df = get_new_list()
article_list = []

# for news_url in df["URL"]:
#     article_list.append(get_news(news_url))

article_list = [get_news(news_url) for news_url in df["URL"]]
df["내용"] = article_list

In [741]:
df

Unnamed: 0,제목,URL,내용
0,2027년부터 식용 목적 사육·도살 금지…보신탕 사라진다,https://v.daum.net/v/20240109171601332,식용을 위한 개 사육과 도살이 2027년부터 법적으로 금지된다. 오랜 시간 한국인의...
1,"의대학장·교수단체 의대증원 찬성한다지만…""350명만 늘려야""",https://v.daum.net/v/20240109173036910,(서울=연합뉴스) 성서호 기자 = 대한의사협회(의협)를 중심으로 의사단체들이 정부의...
2,“돈에 대해 더 알고 싶은데…” 학교서 ‘경제’는 외면,https://v.daum.net/v/20240109171208185,서울 강서구 A고등학교에 다니는 한 학생은 올해 수능에 재도전하기로 했다. 그러나 ...
3,중국군은 ‘당나라 군대’…이번엔 미사일 연료 빼내 훠궈 조리,https://v.daum.net/v/20240109171505305,시진핑 중국 국가주석의 반부패 표적인 중국군이 미사일 연료로 불을 피워 훠궈 요리를...
4,"이태원참사 유가족 ""尹대통령, 특별법 즉시 공포해야""",https://v.daum.net/v/20240109172900827,(서울=연합뉴스) 박형빈 기자 = 10·29 이태원참사 유가족협의회·시민대책회의는 ...
5,"'사면복권' 野전병헌 총선 부적격 판정…田 ""헌법 무력화"" 반발",https://v.daum.net/v/20240109172510687,(서울=연합뉴스) 한혜원 한주홍 기자 = 뇌물을 받은 혐의로 유죄 판결을 받았다가 ...
6,"이재명 내일 퇴원 ""많이 호전""‥병원 나서며 '메시지' 낼 듯",https://v.daum.net/v/20240109172515690,지난 2일 부산에서 흉기로 습격을 당해 치료를 받고 있는 이재명 더불어민주당 대표...
7,"민주당, '이태원 특별법' 단독 처리…국민의힘 불참",https://v.daum.net/v/20240109170300763,국회는 오늘(9일) 오후 본회의를 열어 더불어민주당의 요구로 상정된 '10·29 이...
8,"태영건설 주요 채권단, 10일 추가 자구안 논의",https://v.daum.net/v/20240109171659369,[아이뉴스24 이효정 기자] 산업은행이 10일 주요 채권단을 소집해 태영 측의 추가...
9,태백·영월·정선·강원남부 대설주의보,https://v.daum.net/v/20240109171910455,


In [747]:
df = get_new_list()

article_list = [get_news(news_url) for news_url in df["URL"]]
# 표에 내용을 추가
df["내용"] = article_list
# 파일로 저장
filename = f"daum_news_list_{datetime.now().strftime('%Y-%m-%d')}.csv"
df.to_csv(filename, index=False) # 파일로 저장 -> csv 포멧으로 저장

In [221]:
# 이미지 다운로드
import requests
img_url = 'https://cdn.imweb.me/upload/S201910012ff964777e0e3/62f9a36ea3cea.jpg'

res = requests.get(img_url)
if res.status_code == 200:
    print(type(res.content)) # 바이너리 파일 -> res.content
    with open("down_image.jpg", "wb") as fw:
        fw.write(res.content)
else:
    print(res.status_code)

<class 'bytes'>
