# 일자별 뉴스기사 크롤링하기
* 기사에 대한 일자는 pdate라는 변수가
* 기사의 각 페이지는 pgi라는 변수에 의해 제어됨
* requests의 get 함수 호출시 params 매개변수에 의해
* 질의문자열의 매개변수를 설정할 수 있음

In [22]:
import requests
from lxml import html

### JTBC 뉴스 속보 사이트에서 일자별로 기사 크롤링하기

In [23]:
url = 'https://news.jtbc.co.kr/section/list.aspx?scode='
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'}

In [25]:
# 검색할 기사의 날짜를 입력받음
pdate = input('검색할 기사의 날짜(예:20230814)는? ')
params = {'pdate':pdate}

검색할 기사의 날짜(예:20230814)는?  20230803


### 크롤링 시작

In [26]:
res = requests.get(url, headers=headers, params=params)
text = html.fromstring(res.text)

### 추출한 요소들을 리스트에 저장 

In [27]:
titles, previews, categorys, reporters, pdates = [], [], [], [], []

# 제목 추출  
for title in text.cssselect('dt.title_cr a'):
    # print(title.text_content())
    titles.append(title.text_content())
# 미리보기 추출  
for preview in text.cssselect('dd.read_cr a'):
    previews.append(preview.text_content())

In [28]:
# 카테고리 추출  
for category in text.cssselect('span.location'):
    cate = category.text_content().strip()
    cate = cate.replace('\r','').replace('\n','')
    cate = cate.replace('\t','').replace(' ','')
    cate = cate.replace('[JTBC>','').replace(']','')
    categorys.append(cate)

In [29]:
# 기자명 추출  
for reporter in text.cssselect('span.writer'):
    # print(reporter.text_content().strip())
    reporters.append(reporter.text_content().strip())

In [30]:
# 송고날짜 추출  
for pdate in text.cssselect('span.date'):
    # print(pdate.text_content())
    pdates.append(pdate.text_content().strip())

In [31]:
print(len(titles),len(previews),len(categorys),len(reporters),len(pdates))

15 15 15 15 15


### 리스트에 저장한 내용을 파일에 저장

In [32]:
import json
from collections import OrderedDict

In [33]:
jtbcnews = OrderedDict()
items = OrderedDict()
body = OrderedDict()
news = []

for i in range(len(titles)):
    item = OrderedDict()
    item['title'] = titles[i]
    item['preview'] = previews[i]
    item['category'] = categorys[i]
    item['reporter'] = reporters[i]
    item['pdate'] = pdates[i]
    news.append(item)

items['items'] = news
body['body'] = items
jtbcnews['response'] = body

In [34]:
with open('./data/jtbcnews.json', 'w', encoding='utf-8') as f:
       json.dump(jtbcnews, f, ensure_ascii=False)

### 리스트에 저장한 내용을 디비에 저장

In [35]:
# jtbcnews 테이블 구조 : 제목, 기사미리보기, 카테고리, 기자명, 송고날짜
# create table jtbcnews (
#     jtbcno     int            auto_increment,
#     title      varchar(100)   not null,
#     preview    varchar(350)   not null,
#     category   varchar(50)    not null,
#     reporter    varchar(50)    not null,
#     pdate      char(25)       not null,
#     primary key (jtbcno)
# );

In [36]:
import mariadb

In [37]:
# mariadb 접속 정보
url = 'bigdata.cto1qluvf6xh.ap-northeast-2.rds.amazonaws.com'
uid = 'admin'
pwd = 'Bigdata_2023'
db = 'bigdata'

In [16]:
sql = 'insert into jtbcnews (title, preview, category, reporter, pdate) values (?,?,?,?,?)'
conn = None
cur = None

try:
    conn = mariadb.connect(host=url, user=uid, password=pwd, database=db)
    cur = conn.cursor()

    for i in range(len(titles)):
        params = (titles[i], previews[i], categorys[i], reporters[i], pdates[i])
        cur.execute(sql, params)
        conn.commit()
        print(f'{i+1}번째 데이터 입력됨!')

except mariadb.Error as e:
    print('오류발생!!', e)
finally:
    cur.close()
    conn.close()

1번째 데이터 입력됨!
2번째 데이터 입력됨!
3번째 데이터 입력됨!
4번째 데이터 입력됨!
5번째 데이터 입력됨!
6번째 데이터 입력됨!
7번째 데이터 입력됨!
8번째 데이터 입력됨!
9번째 데이터 입력됨!
10번째 데이터 입력됨!
11번째 데이터 입력됨!
12번째 데이터 입력됨!
13번째 데이터 입력됨!
14번째 데이터 입력됨!
15번째 데이터 입력됨!
