# 단일파일로 통합

In [3]:
import os
import pandas as pd
import json

def MergeNews(date=None):
    write_data = []
    data = {}
    for file in os.listdir("data/"+date): 
        with open("data/"+ date + "/" + file, encoding="utf-8") as json_file:
            json_data = json.load(json_file)
            data["id"] = file[0:-5]
            data["mainCat"] = json_data["mainCat"]
            data["subCatCode"] = json_data["subCatCode"]
            data["date"] = json_data["date"]
            data["title"] = json_data["title"]
            data["body"] = json_data["body"]
            data["source"] = json_data["source"]
            write_data.append(data.copy())

    with open("data/" + date + ".json", "w", encoding="utf-8") as outfile:
        json.dump(write_data, outfile, ensure_ascii=False)

# MergeNews("20210413")

# 기사별 Crawling

In [5]:
from bs4 import BeautifulSoup
import urllib.request
import ssl
import requests 
import re
import datetime
import os
import json
import pandas as pd

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

# 네이버 뉴스
# 정치(100) - 청와대(264), 국회/정당(265), 북한(268), 행정(266), 국방/외교(267), 정치일반(269)
# 경제(101) - 금융(259), 증권(258), 산업/재계(261), 중기/벤처(771), 부동산(260), 글로벌 경제(262), 생활경제(310), 경제 일반(263)
# 사회(102) - 사건사고(249), 교육(250), 노동(251), 언론(254), 환경(252), 인권/복지(59b), 식품/의료(255), 지역(256), 인물(276), 사회 일반(257)
# 카테고리 Dict
mainCategory = {"100" : "정치",
                "101" : "경제",
                "102" : "사회",
                "103" : "생활/문화",
                "104" : "세계",
                "105" : "IT/과학"}
subCategory = {"100" : {"264" : "청와대",
                        "265" : "국회/정당",
                        "268" : "북한",
                        "266" : "행정",
                        "267" : "국방/외교",
                        "269" : "정치일반"},
               "101" : {"259" : "금융",
                        "258" : "증권",
                        "261" : "산업/재계",
                        "771" : "중기/벤처", 
                        "260" : "부동산", 
                        "262" : "글로벌 경제", 
                        "310" : "생활경제", 
                        "263" : "경제 일반"},
               "102" : {"249" : "사건사고",
                        "250" : "교육",
                        "251" : "노동",
                        "254" : "언론",
                        "252" : "환경",
                        "59b" : "인권/복지",
                        "255" : "식품/의료",
                        "256" : "지역",
                        "276" : "인물",
                        "257" : "사회 일반"},
               "103" : {"241" : "건강정보",
                        "239" : "자동차/시승기",
                        "240" : "도로/교통",
                        "237" : "여행/레저",
                        "238" : "음식/맛집",
                        "376" : "패션/뷰티",
                        "242" : "공연/전시",
                        "243" : "책",
                        "244" : "종교",
                        "248" : "날씨",
                        "245" : "생활문화 일반"},
               "104" : {"231" : "아시아/호주",
                        "232" : "미국/중남미",
                        "233" : "유럽",
                        "234" : "중동/아프리카",
                        "322" : "세계 일반"},
               "105" : {"731" : "모바일",
                        "226" : "인터넷/SNS",
                        "227" : "통신/뉴미디어",
                        "230" : "IT 일반",
                        "732" : "보안/해킹",
                        "283" : "컴퓨터",
                        "229" : "게임/리뷰",
                        "228" : "과학 일반"}
              }


def CrawlingNews(mainCat=None, date=datetime.datetime.today().strftime("%Y%m%d")):
    print("###", mainCategory.get(mainCat), "###")
    if not os.path.exists("data"):
        os.makedirs("data")
        
    if not os.path.exists("data/" + date):
        os.makedirs("data/" + date)
        
    for subCatCode, subCatName in subCategory.get(mainCat).items():        
        print("**", subCatName, "**")
        pageNum = 1 
        maxPage = 1
        while True:            
            target_url = "https://news.naver.com/main/list.nhn?mode=LS2D&sid2={0}&sid1={1}&mid=shm&date={2}&page={3}".format(subCatCode, mainCat, date, str(pageNum))             
            context = ssl._create_unverified_context()
            source_code = requests.get(target_url, headers = headers)
            soup = BeautifulSoup(source_code.text, "html.parser")                                  
            
            # 리스트내 기사 추출
            url_set = set()
            for item in soup.find(id='main_content').find_all("a"):
                if item.has_attr("href"):
                    if str(item.get("href")).startswith("http"):
                        url_set.add(str(item.get("href")))

            for url in url_set:

                if os.path.exists("data/" + date + "/" + url[url.find("sid1"):] + '.json'):
                    continue
                source_code = requests.get(url, headers = headers)
                html_text = BeautifulSoup(source_code.text, "html.parser")

                data = {}
                if html_text.find(id="articleTitle") is None:
                    continue
                data['mainCat'] = mainCat
                data['subCatCode'] = subCatCode
                data['title'] = html_text.find(id="articleTitle").text
                data['body'] = re.sub('<.+?>', '', html_text.find(id="articleBodyContents").text, 0).strip()
                data['date'] = html_text.find("span", class_ = "t11").text
                for item in html_text.find_all("img"):
                    if item.has_attr("title"):
                        data['source'] = item.get("title")
                with open("data/" + date + "/" + url[url.find("sid1"):] + '.json', 'w', encoding='utf-8') as outfile:
                    json.dump(data, outfile, ensure_ascii=False)

            if pageNum == 1:
                for item in soup.find_all("div", class_="paging"):                      
                    maxPage = max(maxPage, len(item.text.strip().split("\n")))
                    
            pageNum += 1
            if pageNum > maxPage:
                break                    

# CrawlingNews("101")

for date in pd.date_range(start='20210414', end=datetime.datetime.today()+datetime.timedelta(days=-1)).sort_values(ascending=False).strftime("%Y%m%d"):    
    print(date)
    for mCat in mainCategory:
        CrawlingNews(mCat, date=date)   
    
    MergeNews(date)
print("종료")

20210421
### 정치 ###
** 청와대 **
** 국회/정당 **
** 북한 **
** 행정 **
** 국방/외교 **
** 정치일반 **
### 경제 ###
** 금융 **
** 증권 **
** 산업/재계 **


KeyboardInterrupt: 

In [15]:
from bs4 import BeautifulSoup
import urllib.request
import ssl
import requests 
import re
import datetime
import os

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}


url = "https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=448&aid=0000324663"
source_code = requests.get(url, headers = headers)
html_text = BeautifulSoup(source_code.text, "html.parser")
print(html_text.find(id="articleTitle").text)
# print(html_text.find(id="articleBodyContents").text)
print(re.sub('<.+?>', '', html_text.find(id="articleBodyContents").text, 0).strip())
print(html_text.find("span", class_ = "t11").text)
for item in html_text.find_all("img"):
    if item.has_attr("title"):
        print(item.get("title"))

결국 국내 주식 더 담는 국민연금…출렁이는 주가에 단비 될까
// flash 오류를 우회하기 위한 함수 추가
function _flash_removeCallback() {}

[앵커]올초 국내 증시가 가파르게 상승하면서, 국민연금은 주식 비중을 맞추기 위해 14조 5천억원 어치 주식을 매도했습니다. 최장 기간 내다 팔면서 개인 투자자들은 증시 상승을 가로 막는 요인이라며 원성을 높였는데요 결국 국내 주식을 더 담을 수 있도록  규정을 바꿨습니다. 그럼, 증시가 상승세를 타게 될까요? 류주현 기자가 보도합니다.[리포트]국민연금을 비롯한 연기금은  지난해 말부터 지난달 12일까지  국내주식 14조 5000억원 어치를 팔아치우며, 출렁이는 주가에 한몫을 했습니다.정의정 / 한국주식투자자연합회 대표 (지난달 4일) "국민연금이 무차별 '매도 폭탄'을 쏟는 바람에 지수 상승을 억제하고 있습니다." 국민이 낸 돈으로 국민의 재산을 갉아먹는 국민연금 기금운용위원회가 고심 끝에 국내 주식의  전략적 보유 범위 상한선을  18.8%에서 19.8%로 1% 포인트 높인 데에는,  이런 분위기에 대한 고려가 깔려 있다는 분석입니다.권덕철 / 보건복지부 장관 "넉달 연속 허용 범위 이탈이 계속되고 있다는 것은  시장에 대한 규정 대응도 같이 논의돼야 (한다는 걸 말해…)" 이번 결정으로  주식을 담을 국민연금의 그릇이 7조원 이상 커지면서,  기록적인 매도 행진에는 일단 제동이 걸릴 전망입니다.  특히 시가총액 상위의 대형주가  영향권에 놓일 것으로 보입니다.  국민연금은 1분기에만 삼성전자를 3조5000억원 팔았는데, 시총 10위 내 기업 중 기아를 빼고 모두 비중을 줄였습니다.하지만  곧바로 순매수로 이어지지는 않을 것이란 분석입니다. 주원 / 현대경제연구원 실장 "당장 국민연금이 국내시장에서 주식을 많이 사지는 않겠지만,  향후 주식시장이 올라갈 수 있는 여력을 많이 높였다" 전문가들은 또  개인과 외국인 투자자를 시장으로 더 끌어들이는 효과도  기대된다고 내다봤습니다. TV조

In [6]:
import datetime


print((datetime.datetime.today() + datetime.timedelta(days=1)).strftime("%Y%m%d"))

20210412


In [12]:
import pandas
pandas.date_range(start='20200101', end=datetime.datetime.today()).sort_values(ascending=False).strftime("%Y%m%d")

Index(['20210411', '20210410', '20210409', '20210408', '20210407', '20210406',
       '20210405', '20210404', '20210403', '20210402',
       ...
       '20200110', '20200109', '20200108', '20200107', '20200106', '20200105',
       '20200104', '20200103', '20200102', '20200101'],
      dtype='object', length=467)

In [60]:
import os
import pandas as pd
import json

write_data = []
data = {}
date = "20210408"
for file in os.listdir("data/"+date): 
    with open("data/"+ date + "/"+file, encoding="utf-8") as json_file:
        json_data = json.load(json_file)
        data["id"] = file[0:-5]
        data["date"] = json_data["date"]
        data["title"] = json_data["title"]
        data["body"] = json_data["body"]
        data["source"] = json_data["source"]
        write_data.append(data.copy())


with open("data/"+date + ".json", "w", encoding="utf-8") as outfile:
    json.dump(write_data, outfile, ensure_ascii=False)

In [14]:
with open("data/20210410/"+file, encoding="utf-8") as json_file:
    json_data = json.load(json_file)
    if "sid1=102&sid2=257&oid=003&aid=0010440624" in json_data.get("id"):
        print("exists")
    else:
        print("none")

TypeError: argument of type 'NoneType' is not iterable

In [31]:
with open("data/20210410.json", encoding="utf-8") as json_file:
    json_data = json.load(json_file)
    print("sid1=102&sid2=250&oid=003&aid=0010440355"in list(map(lambda x:x["id"], json_data)))

False


In [63]:
with open("data/20210408.json", encoding="utf-8") as json_file:
    json_data = json.load(json_file)
    print(len(json_data))

222
