## 모듈 임포트

In [1]:
import requests
from bs4 import BeautifulSoup

import pandas as pd
import numpy as np

from datetime import datetime

## 다음 경제 뉴스 스크래핑

In [2]:
url = "https://news.daum.net/economic#1"
economic_page = requests.get(url)

soup = BeautifulSoup(economic_page.text, 'html.parser')

# 현재시각
now = datetime.now()
now = now.strftime('%Y-%m-%d %H:%M:%S')

In [3]:
total_row = []
# 이미지 포함 뉴스
for i in range(6):
    div_tag = soup.select('div.item_column')[i]
    img_url = div_tag.select_one('img')['src']  # 뉴스 이미지 주소
    a_tag = div_tag.select_one('div.cont_thumb a')
    span_tag = div_tag.select_one('span span')
    title = a_tag.get_text()  # 뉴스 제목
    link = a_tag['href']  # 뉴스 주소
    company = span_tag.get_text()  # 언론사

    total_row.append([now, title, company, link, img_url])

# 이미지 미포함 뉴스
ul_tag = soup.select_one('ul.list_newsmajor')
li_tags = ul_tag.select('li')
for li_tag in li_tags:
    company = li_tag.select_one('span')
    title = li_tag.select_one('a').get_text()
    link = li_tag.select_one('a')['href']

    total_row.append([now, title, company, link, np.nan])

total_row

[['2024-08-12 09:18:15',
  '코스피, 美 경기 침체 불안 진정에 2600선 안착 시도',
  '한국경제',
  'https://v.daum.net/v/20240812091501680',
  'https://img1.daumcdn.net/thumb/S224x140ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F12%2Fked%2F20240812091503968svkv.jpg&scode=media2'],
 ['2024-08-12 09:18:15',
  "[자막뉴스] 청주시, 고물가 잡는 '착한가격업소' 2배 늘린다",
  'CJB청주방송',
  'https://v.daum.net/v/20240812091355642',
  'https://img1.daumcdn.net/thumb/S224x140ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F12%2FCJB%2F20240812091408337zblr.jpg&scode=media2'],
 ['2024-08-12 09:18:15',
  "'2025 올해의 차' 전반기 심사, 10개 브랜드 18대 통과",
  '머니투데이',
  'https://v.daum.net/v/20240812091353641',
  'https://img1.daumcdn.net/thumb/S224x140ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F12%2Fmoneytoday%2F20240812091354721pnqm.jpg&scode=media2'],
 ['2024-08-12 09:18:15',
  '코스피, 외인 매수세에 0.76% 오른 2600선',
  '조선비즈',
  'https://v.daum.net/v/20240812091303616',
  'https://img1.daumcdn.net/thumb/S224x140ht.u/?fname=https%

## 이미지 저장

In [4]:
img_urls = []
for i in range(len(total_row[:6])):
    img_urls.append(total_row[i][4])

In [5]:
# 이미지 다운로드
for i in range(len(img_urls)):
    image_url = img_urls[i]
    response = requests.get(image_url)
    filename = 'NewsImages/image{}.jpg'.format(i)
    
    with open(filename, 'wb+') as f:
        f.write(response.content)

## 데이터 프레임 만들기

In [6]:
news_df = pd.DataFrame(total_row, columns=["time", "title", "company", "news_url", "img_url"])
news_df.head()

Unnamed: 0,time,title,company,news_url,img_url
0,2024-08-12 09:18:15,"코스피, 美 경기 침체 불안 진정에 2600선 안착 시도",한국경제,https://v.daum.net/v/20240812091501680,https://img1.daumcdn.net/thumb/S224x140ht.u/?f...
1,2024-08-12 09:18:15,"[자막뉴스] 청주시, 고물가 잡는 '착한가격업소' 2배 늘린다",CJB청주방송,https://v.daum.net/v/20240812091355642,https://img1.daumcdn.net/thumb/S224x140ht.u/?f...
2,2024-08-12 09:18:15,"'2025 올해의 차' 전반기 심사, 10개 브랜드 18대 통과",머니투데이,https://v.daum.net/v/20240812091353641,https://img1.daumcdn.net/thumb/S224x140ht.u/?f...
3,2024-08-12 09:18:15,"코스피, 외인 매수세에 0.76% 오른 2600선",조선비즈,https://v.daum.net/v/20240812091303616,https://img1.daumcdn.net/thumb/S224x140ht.u/?f...
4,2024-08-12 09:18:15,"'티메프' 피해 업체 유치 나섰다…토종 이커머스, '착한기업' 알리고, 수수료 면제까지",MBN,https://v.daum.net/v/20240812091217587,https://img1.daumcdn.net/thumb/S224x140ht.u/?f...
