# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
3. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- get(): GET방식 요청
- post(): POST방식 요청

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란?
>     - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
>     - `name=value` 형태이며 여러개일 경우 `&`로 연결해서 전송됨
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

In [10]:
import re
import requests
from bs4 import BeautifulSoup as bs

url = r'https://www.naver.com/'

res = requests.get(url)
print(type(res.text))
soup = bs(res.text, 'html.parser')

<class 'str'>


> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://developer.mozilla.org/ko/docs/Web/HTTP/Status 
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

### Get 방식 요청 예제

In [22]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint

base_url = r'http://httpbin.org/{}'

url = base_url.format('get')
url
response = requests.get(url)
print(response.status_code)
if response.status_code == 200:
    # print(response.text)
    txt = response.json()
    print(type(txt))
    pprint(txt)

200
<class 'dict'>
{'args': {},
 'headers': {'Accept': '*/*',
             'Accept-Encoding': 'gzip, deflate, br',
             'Host': 'httpbin.org',
             'User-Agent': 'python-requests/2.28.1',
             'X-Amzn-Trace-Id': 'Root=1-643ce7d8-439ea8851527a06679999173'},
 'origin': '222.112.208.66',
 'url': 'http://httpbin.org/get'}


In [30]:
# 파라미터 전달
# 전달할 파라미터를 딕셔너리 형태로 만들어서 params 인자에 전달
req_param = {
    'name' : '홍길동',
    'age' : 20,
    'address' : '서울시 강남구'
}

response = requests.get(url, params=req_param)

print(f'상태코드 : {response.status_code}')
if response.status_code == 200:
    # print(response.text)
    txt = response.json()
    print(type(txt))
    pprint(txt)

상태코드 : 200
<class 'dict'>
{'args': {'address': '서울시 강남구', 'age': '20', 'name': '홍길동'},
 'headers': {'Accept': '*/*',
             'Accept-Encoding': 'gzip, deflate, br',
             'Host': 'httpbin.org',
             'User-Agent': 'python-requests/2.28.1',
             'X-Amzn-Trace-Id': 'Root=1-643ce98d-3817e6b42bb57ce2741a1f3b'},
 'origin': '222.112.208.66',
 'url': 'http://httpbin.org/get?name=홍길동&age=20&address=서울시+강남구'}


In [31]:
# 유저 에이전트 설정 -> 웹브라우저 정보를 설정
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

headers = {
    'User-Agent' : user_agent,
    'my_header' : 'my_value'   
}

response = requests.get(url,    # 요청 URL
                        params=req_param, # 요청 파라미터
                        headers=headers)  # 요청 헤더

print(f'상태코드 : {response.status_code}')
if response.status_code == 200:
    # print(response.text)
    txt = response.json()
    print(type(txt))
    pprint(txt)

상태코드 : 200
<class 'dict'>
{'args': {'address': '서울시 강남구', 'age': '20', 'name': '홍길동'},
 'headers': {'Accept': '*/*',
             'Accept-Encoding': 'gzip, deflate, br',
             'Host': 'httpbin.org',
             'My-Header': 'my_value',
             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                           'AppleWebKit/537.36 (KHTML, like Gecko) '
                           'Chrome/114.0.0.0 Safari/537.36',
             'X-Amzn-Trace-Id': 'Root=1-643ce98f-1bb5e28703304ead4cd8c069'},
 'origin': '222.112.208.66',
 'url': 'http://httpbin.org/get?name=홍길동&age=20&address=서울시+강남구'}


### Post 요청 예

In [37]:
# 유저 에이전트 설정 -> 웹브라우저 정보를 설정
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

headers = {
    'User-Agent' : user_agent,
    'my_data' : 'my_value'   
}

url = base_url.format('post')
url

response = requests.post(url,    # 요청 URL
                        data=req_param, # 요청 파라미터
                        headers=headers)  # 요청 헤더

print(f'상태코드 : {response.status_code}')
if response.status_code == 200:
    txt = response.json()
    print(type(txt))
    pprint(txt)

상태코드 : 200
<class 'dict'>
{'args': {},
 'data': '',
 'files': {},
 'form': {'address': '서울시 강남구', 'age': '20', 'name': '홍길동'},
 'headers': {'Accept': '*/*',
             'Accept-Encoding': 'gzip, deflate, br',
             'Content-Length': '103',
             'Content-Type': 'application/x-www-form-urlencoded',
             'Host': 'httpbin.org',
             'My-Data': 'my_value',
             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                           'AppleWebKit/537.36 (KHTML, like Gecko) '
                           'Chrome/114.0.0.0 Safari/537.36',
             'X-Amzn-Trace-Id': 'Root=1-643ce9cb-7639204c3d35c8eb2e4c66ad'},
 'json': None,
 'origin': '222.112.208.66',
 'url': 'http://httpbin.org/post'}


In [43]:
# 유저 에이전트 설정 -> 웹브라우저 정보를 설정
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

headers = {
    'User-Agent' : user_agent,
    'my_data' : 'my_value'   
}
f= open('02_requests.ipynb', 'rb')
files = {
    'notebook' : f
}

url = base_url.format('post')
url

response = requests.post(url,    # 요청 URL
                        data=req_param, # 요청 파라미터
                        headers=headers, # 요청 헤더
                        files=files)  # 요청 파일
f.close()

print(f'상태코드 : {response.status_code}')
if response.status_code == 200:
    txt = response.json()
    print(type(txt))
    pprint(txt)

상태코드 : 200
<class 'dict'>
{'args': {},
 'data': '',
 'files': {'notebook': '{\n'
                       ' "cells": [\n'
                       '  {\n'
                       '   "cell_type": "markdown",\n'
                       '   "metadata": {\n'
                       '    "slideshow": {\n'
                       '     "slide_type": "slide"\n'
                       '    }\n'
                       '   },\n'
                       '   "source": [\n'
                       '    "# requests 모듈을 이용한 웹 요청\\n",\n'
                       '    "- [Requests '
                       '홈페이지](https://requests.kennethreitz.org/en/master/)\\n",\n'
                       '    "- **HTTP 요청을 처리하는 파이썬 패키지**\\n",\n'
                       '    "- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 '
                       '지원한다.\\n",\n'
                       '    "- 설치\\n",\n'
                       '    "    - `pip install requests`\\n",\n'
                       '    "    - `conda install -c conda-for

### 응답결과(Response) 조회

In [47]:
url = 'http://www.pythonscraping.com/pages/warandpeace.html'

In [44]:
# 초록색 글자
# #text > p:nth-child(7) > span.green
# #text > p:nth-child(2) > span:nth-child(3)
# #text > p:nth-child(2) > span:nth-child(5)

# 정리해보면
# #text > p > span.green

In [60]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

headers = {
    'User-Agent' : user_agent
}
# 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
response = requests.get(url, headers=headers)

result_green = []

if response.status_code == 200:
    soup = bs(response.text, 'lxml')

    tag_list = soup.select('span.green')

    pprint(len(tag_list))
    
    for tag in tag_list:
        result_green.append(tag.text.replace('\n', ' '))
else:
    pprint(response.status_code)

pprint(result_green)

41
['Anna Pavlovna Scherer',
 'Empress Marya Fedorovna',
 'Prince Vasili Kuragin',
 'Anna Pavlovna',
 'St. Petersburg',
 'the prince',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'the prince',
 'the prince',
 'Prince Vasili',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'Wintzingerode',
 'King of Prussia',
 'le Vicomte de Mortemart',
 'Montmorencys',
 'Rohans',
 'Abbe Morio',
 'the Emperor',
 'the prince',
 'Prince Vasili',
 'Dowager Empress Marya Fedorovna',
 'the baron',
 'Anna Pavlovna',
 'the Empress',
 'the Empress',
 "Anna Pavlovna's",
 'Her Majesty',
 'Baron Funke',
 'The prince',
 'Anna Pavlovna',
 'the Empress',
 'The prince',
 'Anatole',
 'the prince',
 'The prince',
 'Anna Pavlovna',
 'Anna Pavlovna']


# 다음 뉴스 크롤링

In [44]:
%%writefile .\testfiles\todaynews.py
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime


user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

def get_news_list():
    daum_news_url = r'https://news.daum.net/'

    # 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
    response = requests.get(daum_news_url, headers=headers)

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(7) > div > div > strong > a

    news_list = []

    if response.status_code == 200:
        soup = bs(response.text, 'lxml')
        for i in range(1, 20):
            try: 
                tag = soup.select_one(f'div.box_g.box_news_issue > ul > li:nth-child({i}) > div > div > strong > a')
                t = [tag.text.replace('\n', ' ').strip(), tag['href']]
                news_list.append(t)
            except:
                break
        
    else:
        pprint(response.status_code)
        
    df = pd.DataFrame({
            'title' : [news[0] for news in news_list],
            'url' : [news[1] for news in news_list]
        })
        
        
    return  df

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'news_{}.csv'.format(d)
result = get_news_list()
result.to_csv(file_path, index=False)

Overwriting .\testfiles\todaynews.py


In [None]:
from datetime import datetime
d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'.\testfiles\news_{}.csv'.format(d)


### csv파일로 나오는 버전

In [21]:
%%writefile .\testfiles\todaynews_and_contents.py
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime


user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

def get_news_content(news_list):
    """뉴스의 내용을 가져오는 함수

    Args:
        news_list (list): 정보를 받아올 뉴스의 제목과 url이 담긴 딕셔너리를 담은 리스트

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    for i, news in enumerate(news_list):
        url = news['url']
        # 뉴스의 url로 get() 요청을 보내서 응답을 받아옴
        response = requests.get(url, headers=headers)
        
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(4)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        
        # 요청이 성공했을 경우
        if response.status_code == 200:
            # 요청을 beutifulsoup에 넣어서 파싱
            soup = bs(response.text, 'lxml')
            # 뉴스 내용을 가져오는 css selector
            tags = soup.select('#mArticle > div.news_view section > p')
            # 가져온 내용들을 하나의 문자열로 만들어서 news['content']에 저장
            for tag in tags:
                news['content'] += tag.text.replace('\n', ' ').strip()
        # 요청이 실패했을 경우, 상태코드를 출력
        else:
            pprint(response.status_code)
        
        news_list[i] = news
    
    return news_list

def get_news_list():
    """다음 뉴스의 제목과 url, 내용을 가져오는 함수

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    daum_news_url = r'https://news.daum.net/'

    # 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
    # 다음 뉴스의 메인 페이지로 get() 요청을 보내서 응답을 받아옴
    response = requests.get(daum_news_url, headers=headers)

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(7) > div > div > strong > a

    # 뉴스의 제목과 url을 저장할 리스트
    news_list = []
    # 요청이 성공했을 경우
    if response.status_code == 200:
        # 요청을 beutifulsoup에 넣어서 파싱
        soup = bs(response.text, 'lxml')
        
        # 메인 뉴스를 모두 가져오기 위한 반복문
        i = 0
        while True:
            try: 
                i += 1
                # 메인 뉴스의 제목과 url을 가져오는 css selector
                tag = soup.select_one(f'div.box_g.box_news_issue > ul > li:nth-child({i}) > div > div > strong > a')
                # 가져온 제목과 url을 딕셔너리로 만들어서 news_list에 저장,
                # 뉴스 내용은 아직 가져오지 않음
                t = { 'title' : tag.text.replace('\n', ' ').strip(), 'url' : tag['href'], 'content' : ''}
                news_list.append(t)
            except:
                break
    # 요청이 실패했을 경우, 상태코드를 출력
    else:
        pprint(response.status_code)
    
    # 뉴스의 컨텐츠를 가져오는 함수 호출
    news_list = get_news_content(news_list)
    
    # 가져온 뉴스의 제목, url, 컨텐츠를 데이터프레임으로 만들어서 반환
    df = pd.DataFrame({
            'title' : [news['title'] for news in news_list],
            'url' : [news['url'] for news in news_list],
            'content' : [news['content'] for news in news_list]
        })
        
    return  df

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'news_and_contents_{}.csv'.format(d)
result = get_news_list()
result.to_csv(file_path, index=False)

Overwriting .\testfiles\todaynews_and_contents.py


### 판다스 데이터로 나오는 버전

In [25]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime
import time


user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

def get_news_content(news_list):
    """뉴스의 내용을 가져오는 함수

    Args:
        news_list (list): 정보를 받아올 뉴스의 제목과 url이 담긴 딕셔너리를 담은 리스트

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    for i, news in enumerate(news_list):
        url = news['url']
        # 뉴스의 url로 get() 요청을 보내서 응답을 받아옴
        response = requests.get(url, headers=headers)
        
        # #mArticle > div.news_view.fs_type1 > div.article_view > section
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(4)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        
        # 요청이 성공했을 경우
        if response.status_code == 200:
            # 요청을 beutifulsoup에 넣어서 파싱
            soup = bs(response.text, 'lxml')
            # 뉴스 내용을 가져오는 css selector
            tags = soup.select('div.news_view section p')
            # 가져온 내용들을 하나의 문자열로 만들어서 news['content']에 저장
            for tag in tags:
                news['content'] += tag.text.replace('\n', ' ').strip()
        # 요청이 실패했을 경우, 상태코드를 출력
        else:
            pprint(response.status_code)
        
        news_list[i] = news
    
    return news_list

def get_news_list():
    """다음 뉴스의 제목과 url, 내용을 가져오는 함수

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    daum_news_url = r'https://news.daum.net/'

    # 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
    # 다음 뉴스의 메인 페이지로 get() 요청을 보내서 응답을 받아옴
    response = requests.get(daum_news_url, headers=headers)

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(7) > div > div > strong > a

    # 뉴스의 제목과 url을 저장할 리스트
    news_list = []
    # 요청이 성공했을 경우
    if response.status_code == 200:
        # 요청을 beutifulsoup에 넣어서 파싱
        soup = bs(response.text, 'lxml')
        
        # 메인 뉴스를 가져오기 위한 반복문
        i = 0
        while True:
            try: 
                i += 1
                # 메인 뉴스의 제목과 url을 가져오는 css selector
                tag = soup.select_one(f'div.box_g.box_news_issue > ul > li:nth-child({i}) > div > div > strong > a')
                # 가져온 제목과 url을 딕셔너리로 만들어서 news_list에 저장,
                # 뉴스 내용은 아직 가져오지 않음
                t = { 'title' : tag.text.replace('\n', ' ').strip(), 'url' : tag['href'], 'content' : ''}
                news_list.append(t)
            except:
                break
    # 요청이 실패했을 경우, 상태코드를 출력
    else:
        pprint(response.status_code)
    
    # 뉴스의 컨텐츠를 가져오는 함수 호출
    news_list = get_news_content(news_list)
    
    # 가져온 뉴스의 제목, url, 컨텐츠를 데이터프레임으로 만들어서 반환
    df = pd.DataFrame({
            'title' : [news['title'] for news in news_list],
            'url' : [news['url'] for news in news_list],
            'content' : [news['content'] for news in news_list]
        })
        
    return  df

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'news_and_contents_{}.csv'.format(d)
result = get_news_list()
result

Unnamed: 0,title,url,content
0,[직설] MZ가 주 69시간제 멈췄다?…근로시간 유연화 vs. 주 4.5일제,https://v.daum.net/v/20230418105227385,"■ 용감한 토크쇼 직설 - 조동근 명지대 경제학과 명예교수, 김성희 고려대 노동문제..."
1,"日언론 ""美 전기차 보조금에 日·유럽·韓 업체 제외…반발 거셀 것""",https://v.daum.net/v/20230418105842731,(서울=뉴스1) 김민수 기자 = 미국이 인플레이션 감축법(IRA)에 따라 최대 75...
2,"통일부 ""개성공단에 과거보다 많은 北 근로자 출근…재산권 침해""",https://v.daum.net/v/20230418110121998,(서울=뉴스1) 이설 기자 = 통일부는 18일 북한이 개성공단 내 한국 측 자산을 ...
3,"박홍근 ""송영길, 조기귀국 당 공식 요청에 화답할 것 믿어""",https://v.daum.net/v/20230418110149044,"(서울=뉴스1) 박기호 박종홍 기자 = 박홍근 더불어민주당 원내대표 18일 ""정치인..."
4,"日 기시다 테러범, 선거제도에 불만…범행은 정치적 동기?",https://v.daum.net/v/20230418105119344,(서울=뉴스1) 권진영 기자 = 일본 와카야마현(県) 선거 유세 현장에서 기시다 후...
5,"전기업계 ""생태계 붕괴 위기…미래세대에 떠넘기지 말고 요금 인상해야""",https://v.daum.net/v/20230418110106958,"(세종=뉴스1) 심언기 기자 = 전기관련단체협의회는 18일 ""전기산업계는 생태계 붕..."
6,"이낙연, 열흘 일정 마치고 美로 출국…당 상황에 대해선 '침묵'",https://v.daum.net/v/20230418104743102,(인천공항=뉴스1) 이서영 기자 = 이낙연 전 더불어민주당 대표가 열흘간의 일정을 ...
7,김포골드라인 긴급대책…24일부터 전세버스 투입·7월 DRT 운영,https://v.daum.net/v/20230418110100943,(수원=연합뉴스) 우영식 기자 = 경기도와 김포시가 '지옥철'이라 불릴 정도로 승객...
8,[지구촌 돋보기] 잇단 무력시위…중국-타이완 군사 긴장 고조,https://v.daum.net/v/20230418105632589,[앵커]중국이 타이완 주변에 수시로 군용기와 군함을 보내는 등 타이완에 대한 군사적...
9,"""한전·가스공사, 매일 50억원 이자…요금 인상 골든타임""",https://v.daum.net/v/20230418110005798,(서울=연합뉴스) 이슬기 기자 = 한국전력과 한국가스공사의 적자와 미수금이 지난해 ...


### 개별 뉴스 기사별 파일 생성

In [12]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime
import os
import re
import time


user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

def get_news_content(news_list):
    """뉴스의 내용을 가져오는 함수

    Args:
        news_list (list): 정보를 받아올 뉴스의 제목과 url이 담긴 딕셔너리를 담은 리스트

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    
    for i, news in enumerate(news_list):
        start = time.time()
        url = news['url']
        # 뉴스의 url로 get() 요청을 보내서 응답을 받아옴
        response = requests.get(url, headers=headers)
        
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(4)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        
        # 요청이 성공했을 경우
        if response.status_code == 200:
            # 요청을 beutifulsoup에 넣어서 파싱
            soup = bs(response.text, 'lxml')
            # 뉴스 내용을 가져오는 css selector
            tags = soup.select('#mArticle > div.news_view section > p')
            # 가져온 내용들을 하나의 문자열로 만들어서 news['content']에 저장
            for tag in tags:
                news['content'] += tag.text # .replace('\n', ' ').strip()
        # 요청이 실패했을 경우, 상태코드를 출력
        else:
            pprint(response.status_code)
        
        news_list[i] = news
        end = time.time()
        print(f'개별 뉴스의 내용을 가져오는데 걸린 시간 : {end-start:.2f}초')
    
    return news_list

def get_news_list():
    """다음 뉴스의 제목과 url, 내용을 가져오는 함수

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    daum_news_url = r'https://news.daum.net/'

    # 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
    # 다음 뉴스의 메인 페이지로 get() 요청을 보내서 응답을 받아옴
    response = requests.get(daum_news_url, headers=headers)

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(7) > div > div > strong > a

    # 뉴스의 제목과 url을 저장할 리스트
    news_list = []
    
    start = time.time()
    # 요청이 성공했을 경우
    if response.status_code == 200:
        
        # 요청을 beutifulsoup에 넣어서 파싱
        soup = bs(response.text, 'lxml')
        
        # 메인 뉴스를 모두 가져오기 위한 반복문
        i = 0
        while True:
            try: 
                i += 1
                # 메인 뉴스의 제목과 url을 가져오는 css selector
                tag = soup.select_one(f'div.box_g.box_news_issue > ul > li:nth-child({i}) > div > div > strong > a')
                # 가져온 제목과 url을 딕셔너리로 만들어서 news_list에 저장,
                # 뉴스 내용은 아직 가져오지 않음
                t = { 'title' : tag.text.replace('\n', ' ').strip(), 'url' : tag['href'], 'content' : ''}
                news_list.append(t)
            except:
                break
    # 요청이 실패했을 경우, 상태코드를 출력
    else:
        pprint(response.status_code)
    
    end = time.time()
    print(f'뉴스의 제목과 url을 가져오는데 걸린 시간 : {end-start:.2f}초')
    # 뉴스의 컨텐츠를 가져오는 함수 호출
    news_list = get_news_content(news_list)
    
    # 가져온 뉴스의 제목, url, 컨텐츠를 데이터프레임으로 만들어서 반환
    df = pd.DataFrame({
            'title' : [news['title'] for news in news_list],
            'url' : [news['url'] for news in news_list],
            'content' : [news['content'] for news in news_list]
        })
        
    return  df

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'.\testfiles\news_and_contents_{}.csv'.format(d)
result = get_news_list()
result.to_csv(file_path, index=False)

file_path = r'.\testfiles\news\{}'.format(d)
# 폴더가 없으면 생성
os.makedirs(file_path, exist_ok=True)
for title, news in zip(result['title'], result['content']):
    start = time.time()
    # 파일명에 사용할 수 없는 문자를 제거
    title = re.sub(r'[\W]', '', title)
    with open(file_path + f'\{title}.txt', 'wt', encoding='utf-8') as f:
        f.write(news)
    end = time.time()
    print(f'개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : {end-start:.2f}초')

뉴스의 제목과 url을 가져오는데 걸린 시간 : 0.04초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.09초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.06초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.08초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.15초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.11초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.11초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.07초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.07초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.10초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.12초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.09초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.09초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.09초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.06초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.15초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.10초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.15초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.12초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.09초
개별 뉴스의 내용을 가져오는데 걸린 시간 : 0.10초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.01초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.00초
개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : 0.0

## 네이버 증권 주식 등락률 가져오기

In [54]:
%%writefile .\testfiles\stock_crawling.py

import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime
import os
import re

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환

base_url = r'https://finance.naver.com/sise/sise_market_sum.naver?&page={}'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

stock_d = dict()

def dict_init():
    global stock_d
    stock_d = {
        'title' : [],
        'current price' : [],
        'full day fee' : [],
        'fluctuation rate' : [],
        'face value' : [],
        'market cap' : [],
        'number of listed shares' : [],
        'foreigner ratio' : [],
        'trading volume' : [],
        'PER' : [],
        'ROE' : []
    }

def get_stock_info(stock : bs):
    # global stock_d
    # pprint(stock)
    title = stock.select_one('td > a.tltle')
    # print('이름 : ',title)
    if title == None:
        return
    
    title = title.text
    # td_num_l = stock.select('td.number')
    # pprint(td_num_l)
    current_price = stock.select_one('td.number:nth-child(3)').text.strip()
    full_day_fee = stock.select_one('td.number:nth-child(4) > span').text.strip()
    full_day_fee_ = stock.select_one('td.number:nth-child(4) > img')
    if full_day_fee_ != None:
        full_day_fee = full_day_fee_['alt'] + full_day_fee
    fluctuation_rate = stock.select_one('td.number:nth-child(5) > span').text.strip()
    face_value = stock.select_one('td.number:nth-child(6)').text.strip()
    number_of_listed_shares = stock.select_one('td.number:nth-child(7)').text.strip()
    market_cap = stock.select_one('td.number:nth-child(8)').text.strip()
    foreigner_ratio = stock.select_one('td.number:nth-child(9)').text.strip()
    trading_volume = stock.select_one('td.number:nth-child(10)').text.strip()
    per = stock.select_one('td.number:nth-child(11)').text.strip()
    roe = stock.select_one('td.number:nth-child(12)').text.strip()
    
    stock_d['title'].append(title)
    stock_d['current price'].append(current_price)
    stock_d['full day fee'].append(full_day_fee)
    stock_d['fluctuation rate'].append(fluctuation_rate)
    stock_d['face value'].append(face_value)
    stock_d['number of listed shares'].append(number_of_listed_shares)
    stock_d['market cap'].append(market_cap)
    stock_d['foreigner ratio'].append(foreigner_ratio)
    stock_d['trading volume'].append(trading_volume)
    stock_d['PER'].append(per)
    stock_d['ROE'].append(roe)
    # print(stock_d)
    
def get_naver_stock():
    dict_init()
    for i in range(1,42):
        url = base_url.format(i)
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            # pprint(url)
            soup = bs(response.text, 'lxml')
            try:
                # table.type_2 > tbody > tr
                # #contentarea > div.box_type_l > table.type_2 > tbody > tr:nth-child(2)
                # #contentarea > div.box_type_l > table.type_2 > tbody > tr:nth-child(2)
                stocks = soup.select('div.box_type_l > table.type_2 > tbody > tr')
                for stock in stocks:
                    # print(type(stock))
                    get_stock_info(stock)
                pass
            except Exception as e:
                pprint(e)
                break
    
    df = pd.DataFrame(stock_d)
    
    return df

file_path = r'.\testfiles\stock'
file_name = r'{}\stock_{}.csv'.format(file_path, d)
os.makedirs(file_path, exist_ok=True)
result = get_naver_stock()
result.to_csv(file_name, index=False)

Overwriting .\testfiles\stock_crawling.py


In [1]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime
import os
import re

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환

base_url = r'https://finance.naver.com/sise/sise_market_sum.naver?&page={}'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

stock_d = dict()

def dict_init():
    global stock_d
    stock_d = {
        'title' : [],
        'current price' : [],
        'full day fee' : [],
        'fluctuation rate' : [],
        'face value' : [],
        'market cap' : [],
        'number of listed shares' : [],
        'foreigner ratio' : [],
        'trading volume' : [],
        'PER' : [],
        'ROE' : []
    }

def get_stock_info(stock : bs):
    global stock_d
    # pprint(stock)
    title = stock.select_one('td > a.tltle')
    # print('이름 : ',title)
    if title == None:
        return
    
    title = title.text
    # td_num_l = stock.select('td.number')
    # pprint(td_num_l)
    
    for k, i in zip(stock_d.keys(), range(2,13)):
        if i == 2: 
            stock_d['title'].append(title)
            continue
        if i == 4:
            full_day_fee = stock.select_one('td.number:nth-child(4)').text.strip()
            try:
                alt = stock.select_one('td.number:nth-child(4) > img')['alt']
                if alt == None:
                    alt = '상한' if stock.select_one('td.number:nth-child(4) > img')['src'].endswith('ico_up.jpg') else '하한'
                stock_d[k].append(alt + full_day_fee)
            except:
                stock_d[k].append(full_day_fee)
            continue
        stock_d[k].append(stock.select_one('td.number:nth-child({})'.format(i)).text.strip())
        
        
    # current_price = stock.select_one('td.number:nth-child(3)').text.strip()
    # full_day_fee = stock.select_one('td.number:nth-child(4)').text.strip()
    # try:
    #     alt = stock.select_one('td.number:nth-child(4) > img')['alt']
    #     if alt == None:
    #         alt = '상한' if stock.select_one('td.number:nth-child(4) > img')['src'].endswith('ico_up.jpg') else '하한'
    #     stock_d[k].append(alt + full_day_fee)
    # except:
    #     pass
    # fluctuation_rate = stock.select_one('td.number:nth-child(5)').text.strip()
    # face_value = stock.select_one('td.number:nth-child(6)').text.strip()
    # number_of_listed_shares = stock.select_one('td.number:nth-child(7)').text.strip()
    # market_cap = stock.select_one('td.number:nth-child(8)').text.strip()
    # foreigner_ratio = stock.select_one('td.number:nth-child(9)').text.strip()
    # trading_volume = stock.select_one('td.number:nth-child(10)').text.strip()
    # per = stock.select_one('td.number:nth-child(11)').text.strip()
    # roe = stock.select_one('td.number:nth-child(12)').text.strip()
    
    # stock_d['title'].append(title)
    # stock_d['current price'].append(current_price)
    # stock_d['full day fee'].append(full_day_fee)
    # stock_d['fluctuation rate'].append(fluctuation_rate)
    # stock_d['face value'].append(face_value)
    # stock_d['number of listed shares'].append(number_of_listed_shares)
    # stock_d['market cap'].append(market_cap)
    # stock_d['foreigner ratio'].append(foreigner_ratio)
    # stock_d['trading volume'].append(trading_volume)
    # stock_d['PER'].append(per)
    # stock_d['ROE'].append(roe)
    # print(stock_d)
    
def get_naver_stock():
    dict_init()
    for i in range(1,42):
        url = base_url.format(i)
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            # pprint(url)
            soup = bs(response.text, 'lxml')
            try:
                # table.type_2 > tbody > tr
                # #contentarea > div.box_type_l > table.type_2 > tbody > tr:nth-child(2)
                # #contentarea > div.box_type_l > table.type_2 > tbody > tr:nth-child(2)
                stocks = soup.select('div.box_type_l > table.type_2 > tbody > tr')
                for stock in stocks:
                    # print(type(stock))
                    get_stock_info(stock)
                pass
            except Exception as e:
                pprint(e)
                break
            
    for k, l in stock_d.items():
        print(f'{k} : {len(l)}')
    
    df = pd.DataFrame(stock_d)
    
    return df


In [83]:
dict_init()
for i, k in zip(stock_d.keys(), range(2,13)):
    print(f'{i} : {k}')

title : 2
current price : 3
full day fee : 4
fluctuation rate : 5
face value : 6
market cap : 7
number of listed shares : 8
foreigner ratio : 9
trading volume : 10
PER : 11
ROE : 12


In [2]:
file_path = r'.\testfiles\stock'
file_name = r'{}\stock_{}.csv'.format(file_path, d)
os.makedirs(file_path, exist_ok=True)
result = get_naver_stock()
result.to_csv(file_name, index=False)

title : 2008
current price : 2008
full day fee : 2008
fluctuation rate : 2008
face value : 2008
market cap : 2008
number of listed shares : 2008
foreigner ratio : 2008
trading volume : 2008
PER : 2008
ROE : 2008


In [85]:
result = get_naver_stock()

title : 18
current price : 2007
full day fee : 3660
fluctuation rate : 2007
face value : 2007
market cap : 2007
number of listed shares : 2007
foreigner ratio : 2007
trading volume : 2007
PER : 2007
ROE : 2007


ValueError: All arrays must be of the same length

In [57]:
result

Unnamed: 0,title,current price,full day fee,fluctuation rate,face value,market cap,number of listed shares,foreigner ratio,trading volume,PER,ROE
0,삼성전자,65600,상승300,+0.46%,100,5969783,3916177,51.52,14763057,8.14,17.07
1,LG에너지솔루션,592000,"상승1,000",+0.17%,500,234000,1385280,5.40,245221,179.12,5.75
2,SK하이닉스,87600,하락900,-1.02%,5000,728002,637730,49.54,1755311,28.60,3.56
3,LG화학,825000,"상승20,000",+2.48%,5000,70592,582387,48.44,357812,35.00,6.95
4,삼성바이오로직스,793000,"하락19,000",-2.34%,2500,71174,564410,10.71,82991,69.49,11.42
...,...,...,...,...,...,...,...,...,...,...,...
2002,KBSTAR 모멘텀로우볼,14075,0,0.00%,0,150,21,0.00,6,,
2003,QV 블룸버그 2X 천연가스 선물 ETN(H),1400,상승65,+4.87%,0,1500,21,0.00,25101,,
2004,ARIRANG TDF2030액티브,10410,상승10,+0.10%,0,200,21,0.00,2101,,
2005,KBSTAR 모멘텀밸류,13730,상승35,+0.26%,0,150,21,0.00,24,,


In [4]:
# 이미지 다운로드
import requests

url = r'https://ko.wikipedia.org/static/images/icons/wikipedia.png'
response = requests.get(url)

if response.status_code == 200:
    # 리스폰스에서 받아온 이미지(binary)를 조회
    result = response.content
    print(result)

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00d\x00\x00\x00d\x08\x06\x00\x00\x00p\xe2\x95T\x00\x00\x00\x04gAMA\x00\x00\xb1\x8f\x0b\xfca\x05\x00\x004;IDATx\x01\xec\x99\x05T[]\xf6\xc5\xdf_\xc6\xdd\xdd\xdd\xdd\xdd\xdd\xa7SwW\xbe\xba\xbb{\x8b;E#D J\x88\x12\xac\xb8C\x02\x94\xc6\xea\xf6\xb9\xc3\x99}n\xe0M\x16\xf5\x96q\xdeZ\xbf&\x8d\xbd\xf7\xee\xbe\xfb\xecs/\xd2\xf81~\x8c\x1f\xe3\xc7\xf81~\x8c\x1f\xe3\xc7m\x8f\xc6\xc6\xc6\x97x\xbd\xd5\x7fr\xb9\xaa>\x05\xa4\x86\x86\x86_\x9a\xcd\xe6/\x03\xe9\xdf\x8d\xa4\xa4\xa4\x0fgg\xe7/\xcb\xcbW\xa4\xe5\x17*\x9bU\x1a\xcd/\x81\xf4\xf7b\xcc\x7f\xd0\xef\x1f\xf8N[[\xfb9\xb7\xdbC\xadm\xedg|~\xbf\xdfj+\'U\xb1\xe6\x1a\x90\xfe\x95\xc9\xc9q\xbf<)3\xf3\xc3999\xaf\x07\x12xyNnA 7\xbf\x90\xb4z\x03\x15kKp\x1f\xbaA\xa5Z\xb3\r\xf3\xee\x7f\xfe\xe5\x9d\x81\xb1\x7fWoo\xff\x13uu\r\xe4\xf7\xf7Q_\xff\x19jhl\xa2\xbc\x82BRku\x17\x81\xf4\xaf\x86BQ\xfc\x1d}\xa9\xf1\x84\xd1hi1[l/Z\xcb\xecd\xb5\xd9\x07\x0b\x15\xaa]Je\xf1\xaf\x0b\x8a\x8a(\'7\x9f2\xb3s\x85(\x1a\x88\xa2\xd6\xe8I\xa5\xd6

In [5]:
# 이미지 다운로드
import requests

url = r'https://ko.wikipedia.org/static/images/icons/wikipedia.png'
response = requests.get(url)

if response.status_code == 200:
    # 리스폰스에서 받아온 이미지(binary)를 파일에 저장
    with open(r'./testfiles/wikipedia.png', 'wb') as f:
        f.write(response.content)

In [7]:
# 위키피디아 강아지 페이지에서 이미지 다운로드
import requests
from bs4 import BeautifulSoup as bs
import os
import re

url = r'https://ko.wikipedia.org/wiki/%EA%B0%95%EC%95%84%EC%A7%80'
response = requests.get(url)
img_urls = []
if response.status_code == 200:
    soup = bs(response.text, 'lxml')
    try:
        # #mw-content-text > div.mw-parser-output > div:nth-child(2) > div > a > img.thumbimage
        imgs = soup.select('img.thumbimage')
        for img in imgs:
            img_urls.append(r'https:'+img['src'])
    except Exception as e:
        print(e)
        
imgs = []
for img_url in img_urls:
    response = requests.get(img_url)
    if response.status_code == 200:
        imgs.append(response.content)

file_path = r'.\testfiles\dogs'
os.makedirs(file_path, exist_ok=True)

for i in range(len(imgs)):
    with open(r'{}\dog_{:002d}.png'.format(file_path, i), 'wb') as f:
        f.write(imgs[i])

In [13]:
import requests
from bs4 import BeautifulSoup as bs
from pprint import pprint
import pandas as pd
from datetime import datetime
import os
import re
import time


user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
headers = { 'User-Agent' : user_agent }

def get_news_content(news_list):
    """뉴스의 내용을 가져오는 함수

    Args:
        news_list (list): 정보를 받아올 뉴스의 제목과 url이 담긴 딕셔너리를 담은 리스트

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    
    for i, news in enumerate(news_list):
        start = time.time()
        url = news['url']
        # 뉴스의 url로 get() 요청을 보내서 응답을 받아옴
        response = requests.get(url, headers=headers)
        
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(4)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        # #mArticle > div.news_view.fs_type1 > div.article_view > section > p:nth-child(7)
        
        # 요청이 성공했을 경우
        if response.status_code == 200:
            # 요청을 beutifulsoup에 넣어서 파싱
            soup = bs(response.text, 'lxml')
            # 뉴스 내용을 가져오는 css selector
            tags = soup.select('#mArticle > div.news_view section > p')
            # 가져온 내용들을 하나의 문자열로 만들어서 news['content']에 저장
            for tag in tags:
                news['content'] += tag.text # .replace('\n', ' ').strip()
        # 요청이 실패했을 경우, 상태코드를 출력
        else:
            pprint(response.status_code)
        
        news_list[i] = news
        end = time.time()
        print(f'개별 뉴스의 내용을 가져오는데 걸린 시간 : {end-start:.2f}초')
    
    return news_list

def get_news_list():
    """다음 뉴스의 제목과 url, 내용을 가져오는 함수

    Returns:
        list: 뉴스의 제목, url, 내용이 담긴 딕셔너리를 담은 리스트
    """
    daum_news_url = r'https://news.daum.net/'

    # 유저에이전트가 웹 크롤러일 경우 서버에서 차단할 수 있음
    # 다음 뉴스의 메인 페이지로 get() 요청을 보내서 응답을 받아옴
    response = requests.get(daum_news_url, headers=headers)

    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a
    # body > div.container-doc > main > section > div > div.content-article
    # > div.box_g.box_news_issue > ul > li:nth-child(7) > div > div > strong > a

    # 뉴스의 제목과 url을 저장할 리스트
    news_list = []
    
    start = time.time()
    # 요청이 성공했을 경우
    if response.status_code == 200:
        
        # 요청을 beutifulsoup에 넣어서 파싱
        soup = bs(response.text, 'lxml')
        
        # 메인 뉴스를 모두 가져오기 위한 반복문
        i = 0
        while True:
            try: 
                i += 1
                # 메인 뉴스의 제목과 url을 가져오는 css selector
                tag = soup.select_one(f'div.box_g.box_news_issue > ul > li:nth-child({i}) > div > div > strong > a')
                # 가져온 제목과 url을 딕셔너리로 만들어서 news_list에 저장,
                # 뉴스 내용은 아직 가져오지 않음
                t = { 'title' : tag.text.replace('\n', ' ').strip(), 'url' : tag['href'], 'content' : ''}
                news_list.append(t)
            except:
                break
    # 요청이 실패했을 경우, 상태코드를 출력
    else:
        pprint(response.status_code)
    
    # end = time.time()
    # print(f'뉴스의 제목과 url을 가져오는데 걸린 시간 : {end-start:.2f}초')
    # # 뉴스의 컨텐츠를 가져오는 함수 호출
    # news_list = get_news_content(news_list)
    
    # 가져온 뉴스의 제목, url, 컨텐츠를 데이터프레임으로 만들어서 반환
    df = pd.DataFrame({
            'title' : [news['title'] for news in news_list],
            'url' : [news['url'] for news in news_list]
            #'content' : [news['content'] for news in news_list]
        })
        
    return  df

d = datetime.now().strftime('%Y-%m-%d') # strftime : 문자열로 변환
file_path = r'.\testfiles\news_and_contents_{}.csv'.format(d)
result = get_news_list()
result.to_csv(file_path, index=False)

# file_path = r'.\testfiles\news\{}'.format(d)
# # 폴더가 없으면 생성
# os.makedirs(file_path, exist_ok=True)
# for title, news in zip(result['title'], result['content']):
#     start = time.time()
#     # 파일명에 사용할 수 없는 문자를 제거
#     title = re.sub(r'[\W]', '', title)
#     with open(file_path + f'\{title}.txt', 'wt', encoding='utf-8') as f:
#         f.write(news)
#     end = time.time()
#     print(f'개별 뉴스의 내용을 파일로 저장하는데 걸린 시간 : {end-start:.2f}초')