# 네이버 뉴스 캐스트

## requests 모듈

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = "https://www.naver.com"

In [4]:
# get 방식으로 해당 url 에 request 하고 response 받아 리턴
response = requests.get(url) 
response   # out 값 200 이 나오면 정상적인 response code

# request 결과코드
# 200 성공
# 404 url 존재하지 않음
# 500 서버 내부 
# 400 Bad Request : request 문법상의 오류
# 401 권한에러 : 권한 관련 적절한 header 정보가 없는 경우 많이 발생
# 402 권한에러 : 자원에 대한 접근 권한 에러
# 403  권한에러 Forbidden : 파일권한, 읽기권한, SSL, IP, 등...  <--- 웹 크롤링 하다가 은근히 자주 마주치게 되는 에러

<Response [200]>

In [8]:
response.status_code  # 반드시 response code 값 확인!~

200

In [11]:
# response text 
response.text[:100]

'\n<!doctype html>             <html lang="ko"> <head> <meta charset="utf-8"> <title>NAVER</title> <me'

In [13]:
dom = BeautifulSoup(response.text, "html.parser")

In [15]:
# dom

In [16]:
elements = dom.select("#yna_rolling .issue")
len(elements)  # 개수 확인!

10

In [17]:
elements[0]

<a class="issue" data-clk="quickarticle" href="http://news.naver.com/main/list.nhn?mode=LPOD&amp;mid=sec&amp;sid1=001&amp;sid2=140&amp;oid=001&amp;isYeonhapFlash=Y&amp;aid=0011616861">정부 "재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"</a>

In [18]:
for element in elements:
    print(element.text.strip())

정부 "재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"
재난지원금 풀리자 편의점 장보기 늘었다…생필품 매출 급증
서울 고3 20일부터 매일 등교…"위기시 다시 원격교육"
문대통령 "전세계에 백신 공평하게 보급돼야"
안성시 "위안부 할머니 '쉼터' 불법 증·개축 조사"
'디지털성착취' 처벌기준 강화 결정 연기…12월 시행될듯
광주 5·18에 사과?…항쟁 40주년에도 이어진 막말
화요일 전국에 비…늦은 오후부터 차차 그쳐
코로나 뚫고 중국 간 이재용 "시간이 없다"…글로벌 행보 재개
정준영 이어 최종훈도 상고…'집단성폭행' 대법 판단 받는다


In [19]:
[
    element.text.strip()
    for element in elements
]

['정부 "재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"',
 '재난지원금 풀리자 편의점 장보기 늘었다…생필품 매출 급증',
 '서울 고3 20일부터 매일 등교…"위기시 다시 원격교육"',
 '문대통령 "전세계에 백신 공평하게 보급돼야"',
 '안성시 "위안부 할머니 \'쉼터\' 불법 증·개축 조사"',
 "'디지털성착취' 처벌기준 강화 결정 연기…12월 시행될듯",
 '광주 5·18에 사과?…항쟁 40주년에도 이어진 막말',
 '화요일 전국에 비…늦은 오후부터 차차 그쳐',
 '코로나 뚫고 중국 간 이재용 "시간이 없다"…글로벌 행보 재개',
 "정준영 이어 최종훈도 상고…'집단성폭행' 대법 판단 받는다"]

## 완성코드

In [20]:
import requests
from bs4 import BeautifulSoup
url = "https://www.naver.com"
response = requests.get(url)
dom = BeautifulSoup(response.text, "html.parser")
elements = dom.select("#yna_rolling .issue")
result = [
   element.text.strip()
    for element in elements
]
print(result)

['정부 "재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"', '재난지원금 풀리자 편의점 장보기 늘었다…생필품 매출 급증', '서울 고3 20일부터 매일 등교…"위기시 다시 원격교육"', '문대통령 "전세계에 백신 공평하게 보급돼야"', '마포·안성 \'쉼터\' 중복운영 논란…정의연 "모금회가 의견낸 것"', "'디지털성착취' 처벌기준 강화 결정 연기…12월 시행될듯", '광주 5·18에 사과?…항쟁 40주년에도 이어진 막말', '화요일 전국에 비…늦은 오후부터 차차 그쳐', '코로나 뚫고 중국 간 이재용 "시간이 없다"…글로벌 행보 재개', "정준영 이어 최종훈도 상고…'집단성폭행' 대법 판단 받는다"]


### 결과 파일 저장 하기 --> txt
실행시간으로 파일명 저장

In [21]:
import time
import os

In [23]:
now = time.strftime('%Y%m%d%H%M%S')
now

'20200518211310'

In [24]:
filename = f'네이버뉴스이슈{now}.txt'
filename

'네이버뉴스이슈20200518211310.txt'

In [25]:
os.getcwd() # 현재 경로

'D:\\ds2005'

In [27]:
filepath = os.path.join(os.getcwd(), 'out', filename)
filepath

'D:\\ds2005\\out\\네이버뉴스이슈20200518211310.txt'

In [28]:
with open(filepath, "wt", encoding='utf-8') as f:
    for data in result:
        f.write(data + "\n")

## 결과 -> 엑셀 파일로 저장
pandas DataFrame -> 엑셀

In [29]:
import pandas as pd

In [30]:
df = pd.DataFrame([], columns=['뉴스'])
df

Unnamed: 0,뉴스


In [31]:
len(df)

0

In [33]:
df.loc[0] = 100

In [34]:
df

Unnamed: 0,뉴스
0,100


In [35]:
len(df)

1

In [36]:
df.loc[1] = 200
df

Unnamed: 0,뉴스
0,100
1,200


In [37]:
len(df)

2

In [46]:
df.loc[len(df)] = len(df) * 100
df

Unnamed: 0,뉴스
0,100
1,200
2,200
3,300
4,400
5,500
6,600
7,700
8,800
9,900


In [47]:
df = pd.DataFrame([], columns=['뉴스'])
df

Unnamed: 0,뉴스


In [48]:
for data in result:
    df.loc[len(df)] = data
    
df

Unnamed: 0,뉴스
0,"정부 ""재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"""
1,재난지원금 풀리자 편의점 장보기 늘었다…생필품 매출 급증
2,"서울 고3 20일부터 매일 등교…""위기시 다시 원격교육"""
3,"문대통령 ""전세계에 백신 공평하게 보급돼야"""
4,"마포·안성 '쉼터' 중복운영 논란…정의연 ""모금회가 의견낸 것"""
5,'디지털성착취' 처벌기준 강화 결정 연기…12월 시행될듯
6,광주 5·18에 사과?…항쟁 40주년에도 이어진 막말
7,화요일 전국에 비…늦은 오후부터 차차 그쳐
8,"코로나 뚫고 중국 간 이재용 ""시간이 없다""…글로벌 행보 재개"
9,정준영 이어 최종훈도 상고…'집단성폭행' 대법 판단 받는다


In [49]:
filepath = os.path.join(os.getcwd(), 'out', '네이버뉴스이슈%s.xlsx' % (time.strftime('%Y%m%d%H%M%S')))
filepath

'D:\\ds2005\\out\\네이버뉴스이슈20200518212626.xlsx'

In [50]:
df.to_excel(filepath, encoding='euc-kr')

#### 엑셀 -> 다시 읽어오기 -> DataFrame

In [51]:
del(df)

In [53]:
df = pd.read_excel(filepath, encoding='euc-kr', index_col = 0)
df

Unnamed: 0,뉴스
0,"정부 ""재양성자,타인 감염시킬 위험 없어…2주 추가격리 않기로"""
1,재난지원금 풀리자 편의점 장보기 늘었다…생필품 매출 급증
2,"서울 고3 20일부터 매일 등교…""위기시 다시 원격교육"""
3,"문대통령 ""전세계에 백신 공평하게 보급돼야"""
4,"마포·안성 '쉼터' 중복운영 논란…정의연 ""모금회가 의견낸 것"""
5,'디지털성착취' 처벌기준 강화 결정 연기…12월 시행될듯
6,광주 5·18에 사과?…항쟁 40주년에도 이어진 막말
7,화요일 전국에 비…늦은 오후부터 차차 그쳐
8,"코로나 뚫고 중국 간 이재용 ""시간이 없다""…글로벌 행보 재개"
9,정준영 이어 최종훈도 상고…'집단성폭행' 대법 판단 받는다
