In [13]:
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import re
import warnings
from datetime import *
warnings.simplefilter(action='ignore', category=FutureWarning)

In [227]:
#원하는 기간의 날짜를 리스트로 반환하는 함수
def date_range(start, end):
    start = datetime.strptime(start, "%Y%m%d")
    end = datetime.strptime(end, "%Y%m%d")
    dates = [date.strftime("%Y.%m.%d") for date in pd.date_range(start, periods=(end-start).days+1)]
    return dates

def make_soup(url):
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    return soup

def last_botton_number(startdate,enddate,url,search_keyword,max_count_per_day):
    #시작일 마감일 사이의 날짜들을 담은 리스트를 dates에 넣고 일 단위로 크롤링
    dates = date_range(startdate,enddate)
    
    date_lastpage_step = []
    
    for date in dates:    
        url_ = url.format(search_keyword = search_keyword,
                          date = date,
                          date_ = date.replace('.',''),
                          page=4000)
        
        soup = make_soup(url_).select('a.btn')
        
        
        try:    #검색 결과가 없는 경우 에러발생, 예외처리
            if max_count_per_day == -1:
                botton_count = int(re.findall('[0-9]+',str(soup[-1]).split(' ')[-1])[0]) * 10 - 9
            else:
                botton_count = max_count_per_day
                
                
            #페이지가 2이상 존재하지 않는 경우 step을 1로 설정
            step = 10 if botton_count > 10 else 1
            date_lastpage_step.append((date,botton_count,step))
        except:
            continue
            

    
        
    return date_lastpage_step



#start enddate default로 today()수정예정
def naver_news_url_crawling(search_keyword,max_count_per_day=-1,startdate='20220101',enddate='20220101'):
    '''
    startdate, enddate는 %Y%m%d 포맷으로 'YYYYMMDD' 형식
    max_count_per_day 하루 당 크롤링 할 최대 뉴스의 수 dafult시 (400,총 뉴스의 수) 중 작은값
    
    네이버 뉴스 웹은 page를 넘길 때 마다  (1, 11, 21, 31)순서로 바뀌고
    최대 page=4000 까지 지원한다. 페이지가 400이하일 때 page=4000을 넣으면 마지막 페이지가 나온다.
    매일 page=4000 url을 크롤링해서 마지막 페이지의 페이지버튼의 숫자를 통해 마지막 페이지를 크롤링하고
    for i in range(1, 총페이지수*10 -9, 10)으로 각 페이지마다 제목과 url 크롤링해서
    데이터프레임에 담아서 리턴 할 계획
    '''
    
    #검색하는 키워드의 띄어쓰기를 url상에 +으로 연결
    search_keyword = search_keyword.replace(' ','+')
    
    #네이버 뉴스 탭 url
    url = 'https://search.naver.com/search.naver?where=news&sm=tab_pge&query={search_keyword}&sort=0&photo=0&field=0&pd=3&ds={date}&de={date}&cluster_rank=28&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:from{date_}to{date_},a:all&start={page}'
    
    
    #빈 데이터프레임을 만들고 크롤링한 데이터를 1일 단위로 concat해서 반환 할 계획
    result = pd.DataFrame(columns=['date','title','url'])
    
    

                                #last_botton_number 파라미터는 클래스 선언하면서 추후에 수정
                                #max_count_per_day -1일 경우 최대치로 크롤링 해야하는데 수정해야함
    for date, botton_count, step in last_botton_number(startdate,enddate,url,search_keyword,max_count_per_day):
        for page in range(1,botton_count+1,step): 
            url_ = url.format(search_keyword = search_keyword,
                              date = date,
                              date_= date.replace('.',''),
                              page = page)

            soup = make_soup(url_).select('a.news_tit')

            a_page_ulr = [html['href'] for html in soup[:min(10,max_count_per_day)]]
            a_page_title = [html['title'] for html in soup[:min(10,max_count_per_day)]]
            a_page_date = [date] * len(a_page_title)

            result= pd.concat([result , pd.DataFrame({'date':a_page_date, 'title':a_page_title, 'url':a_page_ulr})])
    
    # url에서 신문사의 정보를 유추할 수 있는 부분을 추출
    result['news_agency'] = result['url'].apply(lambda x : x.split('/')[2])
    
    return result




def main_text_crawling():
    
    
    '''
    각 신문사의 구조가 달라서 본문을 크롤링하는데에 제한이된다.
    발행수 상위 10개의 신문사의 데이터만 사용해서 본문을 크롤링하겠다.
    '''
    return None

In [None]:
df = naver_news_url_crawling(search_keyword='사회적 거리두기',max_count_per_day=1,
                             startdate='20200101',enddate='20220420')
df

In [155]:
news_agency_list=['www.news1.kr',
 'www.newsis.com',
 'yna.kr',
 'news.kbs.co.kr',
 'www.edaily.co.kr',
 'www.shinailbo.co.kr',
 'www.fnnews.com',
 'news.mt.co.kr',
 'view.asiae.co.kr',
 'www.viva100.com']

df_ = df[df.news_agency.isin(news_agency_list)]
df_

Unnamed: 0,date,title,url,news_agency
1,2022.01.01,"전남도, 사회적 거리두기 16일까지 연장",http://www.fnnews.com/news/202201011138320972,www.fnnews.com
3,2022.01.01,[사회in]거리두기 2주 '연장'…연초에도 자영업 한숨 계속,http://www.edaily.co.kr/news/newspath.asp?news...,www.edaily.co.kr
5,2022.01.01,사회적 거리두기 지켜주세요,https://www.news1.kr/photos/view/?5148313,www.news1.kr
7,2022.01.01,참배객을 위한 사회적 거리두기 안내 표시,http://www.newsis.com/view/?id=NISI20220101_00...,www.newsis.com
9,2022.01.01,거리두기 2주 연장…청소년 방역패스 3월부터 시행,https://news.kbs.co.kr/news/view.do?ncd=536235...,news.kbs.co.kr
...,...,...,...,...
7,2022.01.04,"""진정성 있는 현장행정 펼칠 것""···방경돈 일산동구청장 취임",https://www.viva100.com/main/view.php?key=2022...,www.viva100.com
9,2022.01.04,[신년사] 김상균 일화 회장 “바이오 산업 선두주자 발돋움… 신사업 지속 투자”,https://www.viva100.com/main/view.php?key=2022...,www.viva100.com
0,2022.01.04,[신년사] 김상균 일화 회장 “바이오 산업 선두주자 발돋움… 신사업 지속 투자”,https://www.viva100.com/main/view.php?key=2022...,www.viva100.com
3,2022.01.04,[브릿지경제 신간(新刊) 베껴읽기] 〈K방역은 없다〉이형기 외 15명,https://www.viva100.com/main/view.php?key=2021...,www.viva100.com


In [145]:
a = df.groupby('news_agency').count()['date'].sort_values(ascending=False)[:10]
a.index.tolist()

['www.news1.kr',
 'www.newsis.com',
 'yna.kr',
 'news.kbs.co.kr',
 'www.edaily.co.kr',
 'www.shinailbo.co.kr',
 'www.fnnews.com',
 'news.mt.co.kr',
 'view.asiae.co.kr',
 'www.viva100.com']

In [268]:
a = 'http://moneys.mt.co.kr/news/mwView.php?no=2022010110548022148'
response = requests.get(a)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
b = str(soup.select('#_article div'))
def main_text_crawling(df):
    return None

"[<>핫한 SNS 치킨맛집 '이유치킨'이 최근 서울 방이점을 새롭게 오픈했다. 이유치킨의 가장 큰 장점은 독특한 메뉴 가성비다. 치킨을 신선한 기름에 튀기고 오븐에 굽는 두 번의 조리 과정으로 치킨의 풍미를 살렸다.\xa0</>, <></></>, <>육즙을 살린 베이크 치킨과 바삭한 식감의 크리스피 치킨으로 나눠 소비자 선택의 폭을 넓혔다. 가성비는 물론 인테리어와 패키지 디자인도 더욱 고급스럽게 신경썼다. 공격적인 오픈 이벤트와 맛과 가격을 모두 잡은 ‘갓성비’ 메뉴로 소비자 만족도를 더욱 높이고 있다.</>, <></></>, <>이유치킨의 대표적인 시그니처 메뉴인 ‘파스타치요’는 ‘파스타와 치킨이 만난 요리’라는 뜻의 파스타치요는 치킨과 치즈오븐 파스타를 합리적인 가격에 제공하고 있다. 이외에도 블랙갈릭, 메이플허니, 홍차오, 청양마요, 김치킹 등 다채로운 치킨과 사이드를 구비하고 있다.</>, <></></>, <>한편, 치킨 프랜차이즈 이유치킨은 브랜드변경(업종변경)시 창업자금을 지원해주고 있다.</>]"

In [371]:
df.news_agency == 'moneys.mt.co.kr'

0    True 
1    False
2    False
3    False
4    False
     ...  
5    False
6    False
7    False
8    False
9    False
Name: news_agency, Length: 204, dtype: bool