# 다음 뉴스의 성별 많이 본 뉴스 크롤링 


- 다음 뉴스에서는 연령대 별 많이 본 뉴스를 보여주는 서비스를 제공한다. [Link](http://media.daum.net/ranking/age/)
  여기서, 연령대 마다 성별을 나누어 제공해준다. 
  
- 크롤링 함수를 재사용 가능하게 만들어 볼까 했지만, 이 문제에서만 사용할 수 있도록 만들었다. 

- 크롤링은 
    오늘을 기준 **2018년 7월 28일** 으로 하여, 일 년 전까지 **2017년 7월 28일** 의 데이터를 수집 하겠다. 

In [2]:
import requests 
from bs4 import BeautifulSoup 
import re 
import datetime


def clawler(date):
    """
    only for this case, withdrawing title and body 
    
    :argument:
    date : string format ; ex) 20180726
    
    :return:
    "male_array", "female_array" 
    , which have four types of information as below 
    "date, title, label, body"
        label(0: man, 1: woman)

    """
    res = requests.get("http://media.daum.net/ranking/age/?regDate={}".format(date))
    soup = BeautifulSoup(res.content, "html.parser")
    
    male_title_list = []
    female_title_list = []
    
    male_body_list = []
    female_body_list = []
    
    
    age_range = list(range(10, 51, 10))
    
    for age in age_range:
        ## title 
        age_block = soup.select_one("div.item_age.item_{}s".format(age))
        
        male_a = age_block.select("div.rank_male a")
        female_a = age_block.select("div.rank_female a")
        
        male_title = [t.get_text() for t in male_a]
        female_title = [t.get_text() for t in female_a]
        
        male_title_list += male_title
        female_title_list += female_title
        
        ## Body 
        male_links = [li["href"] for li in male_a]
        female_links = [li["href"] for li in female_a]
        
        male_bodies = [alticle_parser_by_link(link) for link in male_links]
        female_bodies = [alticle_parser_by_link(link) for link in female_links]
        
        male_body_list += male_bodies
        female_body_list += female_bodies 
        
    male_date = [date] * len(male_title_list)
    female_date = [date] * len(female_title_list)
        
    male_array = np.stack([np.array(male_date), np.array(male_title_list), 
                           np.zeros(len(male_title_list)), np.array(male_body_list)], axis=-1)
    
    female_array = np.stack([np.array(female_date), np.array(female_title_list), 
                             np.ones(len(female_title_list)), np.array(female_body_list)], axis=-1)
    
    return male_array, female_array

def alticle_parser_by_link(link):
    """
    take alticles` body from link
    
    """
    
    res = requests.get(link)
    soup = BeautifulSoup(res.content, "html.parser")
    
    body = soup.select_one("section").get_text()
    
    # body contents processing 
    body = body.strip().replace("\n", "")
    body = re.sub(r"\w+@.+", "", body)
    body = re.sub(r"[가-하]+ 기자", "", body)
    body = body.strip()
    return body 
    
    

## Executing crawler

In [2]:
article = pd.DataFrame(columns=["date", "Title", "sex", "Body"])
today = datetime.datetime.now() - datetime.timedelta(days=i)

In [3]:
# 1년 치 데이터 
for i in range(365): 
    
    date = today - datetime.timedelta(days=i)
    date = date.strftime('%Y%m%d')
    
    print("date : {} started".format(date))
    male_array, female_array = clawler(date)
    article = article.append(pd.DataFrame(np.concatenate([male_array, female_array]), columns=["date", "Title", "sex", "Body"]))
    print("date : {} done \n".format(date))
    

date : 20180728 started
date : 20180728 done 

date : 20180727 started
date : 20180727 done 

date : 20180726 started
date : 20180726 done 

date : 20180725 started
date : 20180725 done 

date : 20180724 started
date : 20180724 done 

date : 20180723 started
date : 20180723 done 

date : 20180722 started
date : 20180722 done 

date : 20180721 started
date : 20180721 done 

date : 20180720 started
date : 20180720 done 

date : 20180719 started
date : 20180719 done 

date : 20180718 started
date : 20180718 done 

date : 20180717 started
date : 20180717 done 

date : 20180716 started
date : 20180716 done 

date : 20180715 started
date : 20180715 done 

date : 20180714 started
date : 20180714 done 

date : 20180713 started
date : 20180713 done 

date : 20180712 started
date : 20180712 done 

date : 20180711 started
date : 20180711 done 

date : 20180710 started
date : 20180710 done 

date : 20180709 started
date : 20180709 done 

date : 20180708 started
date : 20180708 done 

date : 201807

date : 20180204 done 

date : 20180203 started
date : 20180203 done 

date : 20180202 started
date : 20180202 done 

date : 20180201 started
date : 20180201 done 

date : 20180131 started
date : 20180131 done 

date : 20180130 started
date : 20180130 done 

date : 20180129 started
date : 20180129 done 

date : 20180128 started
date : 20180128 done 

date : 20180127 started
date : 20180127 done 

date : 20180126 started
date : 20180126 done 

date : 20180125 started
date : 20180125 done 

date : 20180124 started
date : 20180124 done 

date : 20180123 started
date : 20180123 done 

date : 20180122 started
date : 20180122 done 

date : 20180121 started
date : 20180121 done 

date : 20180120 started
date : 20180120 done 

date : 20180119 started
date : 20180119 done 

date : 20180118 started
date : 20180118 done 

date : 20180117 started
date : 20180117 done 

date : 20180116 started
date : 20180116 done 

date : 20180115 started
date : 20180115 done 

date : 20180114 started
date : 201801

date : 20170813 done 

date : 20170812 started
date : 20170812 done 

date : 20170811 started
date : 20170811 done 

date : 20170810 started
date : 20170810 done 

date : 20170809 started
date : 20170809 done 

date : 20170808 started
date : 20170808 done 

date : 20170807 started
date : 20170807 done 

date : 20170806 started
date : 20170806 done 

date : 20170805 started
date : 20170805 done 

date : 20170804 started
date : 20170804 done 

date : 20170803 started
date : 20170803 done 

date : 20170802 started
date : 20170802 done 

date : 20170801 started
date : 20170801 done 

date : 20170731 started
date : 20170731 done 

date : 20170730 started
date : 20170730 done 

date : 20170729 started
date : 20170729 done 



In [7]:
article.reset_index(drop=True, inplace=True)
article.tail()

Unnamed: 0,date,Title,sex,Body
18167,20170729,"""하부지 하부지"" 황혼 육아 10년, 내 삶이 바뀌었다",1.0,"[오마이뉴스 글:문운주, 편집:김지현]【오마이뉴스는 개인의 일상을 소재로 한 생활글..."
18168,20170729,'놀러 안가고 외식도 안해'..숙박·음식점생산 최장기 마이너스,1.0,음식점[연합뉴스DB] (세종=연합뉴스) 김수현 기자 = 가계의 주머...
18169,20170729,[토요정담] 유쾌한 장하성 vs 섬세한 변양균 .. 경제팀 장악한 '변·장 라인',1.0,문재인 정부의 경제 라인에 ‘변양균-장하성’ 양강구도가 형성되는 기류가 나타나고 있...
18170,20170729,"[일상톡톡 플러스] ""형제, 자매도 결혼하면 남남이라고?""",1.0,"A(40)씨는 ""형제, 자매는 사이가 좋지 않으면 되레 남보다도 못하다""며 ""특히 ..."
18171,20170729,[단독] 최순실 은닉 재산의 핵심 '임선이 일가' 최초 공개,1.0,국정농단 사건의 주범인 최순실씨 일가의 은닉 재산을 국가로 환수하기 위한 ‘박근혜 ...


In [8]:
import pickle 

with open("article.bin", "wb") as f :
    
    pickle.dump(article, f)
    

In [10]:
with open("article.bin", "rb") as f :
    ar = pickle.load(f)
    
ar.tail()

Unnamed: 0,date,Title,sex,Body
18167,20170729,"""하부지 하부지"" 황혼 육아 10년, 내 삶이 바뀌었다",1.0,"[오마이뉴스 글:문운주, 편집:김지현]【오마이뉴스는 개인의 일상을 소재로 한 생활글..."
18168,20170729,'놀러 안가고 외식도 안해'..숙박·음식점생산 최장기 마이너스,1.0,음식점[연합뉴스DB] (세종=연합뉴스) 김수현 기자 = 가계의 주머...
18169,20170729,[토요정담] 유쾌한 장하성 vs 섬세한 변양균 .. 경제팀 장악한 '변·장 라인',1.0,문재인 정부의 경제 라인에 ‘변양균-장하성’ 양강구도가 형성되는 기류가 나타나고 있...
18170,20170729,"[일상톡톡 플러스] ""형제, 자매도 결혼하면 남남이라고?""",1.0,"A(40)씨는 ""형제, 자매는 사이가 좋지 않으면 되레 남보다도 못하다""며 ""특히 ..."
18171,20170729,[단독] 최순실 은닉 재산의 핵심 '임선이 일가' 최초 공개,1.0,국정농단 사건의 주범인 최순실씨 일가의 은닉 재산을 국가로 환수하기 위한 ‘박근혜 ...


In [11]:
ar.loc[18167].Body

'[오마이뉴스 글:문운주, 편집:김지현]【오마이뉴스는 개인의 일상을 소재로 한 생활글도 뉴스로 채택하고 있습니다. 개인의 경험을 통해 뉴스를 좀더 생생하고 구체적으로 파악할 수 있습니다. 당신의 이야기가 오마이뉴스에 오면 뉴스가 됩니다. 당신의 이야기를 들려주세요.】"애들 크면 당신 곁에는 누가 있을까?"아침, 집을 나서는데 아내의 걱정이 들려온다.\xa010년 전 다니던 직장을 퇴직하고 손녀를 봐주고 있다. \'하부지의 육아일기\'를 쓰면서 성장 과정을 영상과 글로 남기고 있다. 손녀 콩이와 콩콩이 이야기다. 백일 때부터 기록한 성장 일지를 다시 보는 게 크나큰 즐거움이다. \'은퇴\' 하면 떠오르는 건 \'백수\'다.\xa0즉, 일이 없다는 것이다. 하는 일도 없이 밥 먹고, 잠자고...\xa0매일 반복되는 생활을 하게 된다.\xa0주변 친구들을 보면 최소한의 노후 생활자금조차\xa0 준비하지 못한 경우가 많다.\xa0일이 없어 아파트 경비를 서기도 한다.막상 퇴직을 앞두고 걱정이 앞섰다. 무엇을 해야 하나. 당시만 해도 은퇴라는 말이 실감이 나지 않을 때였다. 많든 적든 일시금으로 받는 퇴직금이라면 은행에 맡겨놓고 이자로 생활할 수 있었다.\xa0그때는 자식이 부모를 모시는 게 당연한 것처럼 여겨지는 시대였다.하지만 저금리 정책으로 인한\xa0이자 수익 하락으로 노후생활자금에 대한 문제가 대두됐다. 인구 노령화는 사회적인 문제로 인식되기 시작했다. 이자 수익은 꿈도 못 꾸고, 자식들의 부양도 기대할 수 없게 됐다.\xa0일도 없고 가진 돈도 걱정해야 하는 시대로 급전환됐다. 일도 돈도 모두 걱정인 시대, \'육아\'를 택했다 ▲ 콩이, 루피 콩콩이\xa0설날 세 자매가 또 만났다. 할아버지와 한 컷, 자식 키울 때 보다 더 행복하다는 말이 거짓은 아닌 것 같다. ⓒ 문운주          고향 텃밭에 상추 등 채소를 심었다. 물 주고 잡초 매는 일이 무척 즐거웠다. 전원생활의 간 보기였다. 욕심이 생겨 유실수도 심고 조경수도 심었다. 조그만 수목원을 만들

### Test data

In [None]:
article = pd.DataFrame(columns=["date", "Title", "sex", "Body"])
today = datetime.datetime.now()

# 1년 치 데이터 
for i in range(1): 
    
    date = today - datetime.timedelta(days=i)
    date = date.strftime('%Y%m%d')
    
    print("date : {} started".format(date))
    male_array, female_array = clawler(date)
    article = article.append(pd.DataFrame(np.concatenate([male_array, female_array]), columns=["date", "Title", "sex", "Body"]))
    print("date : {} done \n".format(date))

import pickle 

with open("article.bin", "wb") as f :
    
    pickle.dump(article, f)
    

date : 20180729 started
