<a href="https://colab.research.google.com/github/Adrian-Park/Python_ML/blob/main/prj01_news_category_classification_01_1_crawling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 네이버 뉴스 크롤링

## 페이지 헤드라인 크롤링해오기

In [None]:
# 모듈 임포트
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

In [None]:
# 카테고리 설정
category = ['Politics', 'Economic', 'Social', 'Culture', 'World', 'IT']

In [None]:
# 크롤링할 주소
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

In [None]:
# 리스폰해오기
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36"}
resp = requests.get(url, headers=headers)

In [None]:
# resp list 형식으로 출력
print(list(resp))

[b'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge"', b'>\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1', b'106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n                \r\n                    \r\n                    \r\n                   ', b' \r\n                    \r\n                        \r\n\t                        \r\n\t\t                        \r\n\t\t                    ', b'    \r\n\t\t                        \r\n\t\t                    \r\n\t\t                    \r\n\t\t                    \r\n\t\t                    ', b'\r\n\t\t                    \r\n\t\t                    \r\n\t\t                    \r\n\t\t                \r\n                    \r\n            ', b'        \r\n                \r\n            \r\n            \r\n            \r\n            \r\n        

In [None]:
# resp 타입 확인
print(type(resp))

<class 'requests.models.Response'>


In [None]:
# BeautifulSoup으로 resp을 text로 변환
soup = BeautifulSoup(resp.text, 'html.parser') # html_parser로 파싱
print(soup)


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="http://news.naver.com/main/main.nhn?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="twitter:im

In [None]:
# 제목 html 가져오기
title_tags = soup.select('.cluster_text_headline') # class일 경우 앞에 .
print(title_tags)

[<a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=008&amp;aid=0004602453">윤석열측 "정치 선언 장소 호남 등 고려…공수처, 과도하게 무리"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=079&amp;aid=0003516592">"윤석열, 보수+중도+탈진보 묶는 압도적 정권교체 추구"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=003&amp;aid=0010555129">'간보기' 끝낸 윤석열, 국민의힘 입당은 '오리무중'…왜?</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=025&amp;aid=0003110263">윤석열 측 "6말 7초 정치 선언…김종인, 함께하리라 믿는다"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=011&amp;aid=0003924630">김남국 "이준석, 실패

In [None]:
# html에서 제목(헤드라인) 가져오기
titles = []
for title_tag in title_tags:
    # re를 이용하여 comile(세팅)함
    # 정규표현식 사용
    titles.append(re.compile('[^가-힣 | a-z | A-Z | 0-9]+').sub(' ', title_tag.text)) # 한글, 알파벳, 숫자을 제외하고 나머지 자리에는 공백

# 뽑아낸 데이터 및 갯수 확인
print(titles)
print(len(titles))

['윤석열측  정치 선언 장소 호남 등 고려 공수처  과도하게 무리 ', ' 윤석열  보수 중도 탈진보 묶는 압도적 정권교체 추구 ', ' 간보기  끝낸 윤석열  국민의힘 입당은  오리무중 왜 ', '윤석열 측  6말 7초 정치 선언 김종인  함께하리라 믿는다 ', '김남국  이준석  실패 사례 될 수도  지적에 김용태  조국 수호가 성공한 청년정치냐 ', '김용태  김남국 향해  정부 옹호가 성공적인 청년 정치냐 ', '김용태  조국 수호대 김남국  성공적인 청년 정치인이냐 ', '김용태   이준석 비판  김남국에  내로남불 독선 옹호가 성공적인 청년 정치 ', ' 단독 당직자 폭행  송언석  두 달 만에 국민의힘  복당  신청', ' 당직자 폭행  송언석  국민의힘 복당 신청', ' 당직자 폭행  송언석  두달만에 슬그머니 복당 신청', ' 당직자 폭행  탈당 송언석  국민의힘 복당 신청', '문 대통령  조선왕국전도  독도 한국 영토라는 소중한 자료 ', ' 대통령  스페인서  조선왕국전도 독도가 한국영토임 보여줘 ', '스페인 방문  대통령  300년전 한반도 지도 보며  독도는 한국 영토 ', '조선왕국전도 본 문 대통령  독도가  한국 영토라는 소중한 사료 ', '황희  한국 스페인 트래블버블 검토 단체관광 재개도 희망 ', '문체장관  스페인과 트래블버블 검토 7월부터 단체관광 희망 ', '정세균  경제대통령  내걸고 오늘 출마선언 지도자 도덕성  강조', '정세균  오늘 대권 출사표 경제대통령 비전 제시', '송영길  청년 재난시대  청년특임장관 신설 제안', '송영길  청년특임장관 신설  대통령에 제안 ', '문대통령  한 스페인 놀랄 정도로 닮아 공동번영 미래 열 것 ', '바르셀로나 도착한 문대통령  경제포럼에서 한 스페인 협력 강조', '이준석  차별금지법 원칙론 공감하지만 시기상조 사회적 논의 부족 ', '이준석  차별금지법 제정  서두를 필요 없다 ', '윤건영  G7  외신 주목도 높아 국내 언론은 무관심 ', '윤건영  스가  약속

In [None]:
# 데이터프레임 병합

# 빈 DF 생성
df_b = pd.DataFrame()
df_page2 = pd.DataFrame(titles, columns=['title'])
df_b = pd.concat([df_b, df_page2], axis='rows', ignore_index=True)
print(df_b.head())
print(df_b.info())

                                              title
0              윤석열측  정치 선언 장소 호남 등 고려 공수처  과도하게 무리 
1                    윤석열  보수 중도 탈진보 묶는 압도적 정권교체 추구 
2                    간보기  끝낸 윤석열  국민의힘 입당은  오리무중 왜 
3                윤석열 측  6말 7초 정치 선언 김종인  함께하리라 믿는다 
4  김남국  이준석  실패 사례 될 수도  지적에 김용태  조국 수호가 성공한 청년정치냐 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   44 non-null     object
dtypes: object(1)
memory usage: 480.0+ bytes
None


## 페이지 크롤링

In [None]:
# 정치 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=1
# 2 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=2
# 3 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=3
# 4 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=4

# 경제 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=1

# 사회 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=1

# 문화 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=1

# 세계 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=1

# IT 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=1

In [None]:
# section_body > ul.type06_headline > li:nth-child(1) > dl > dt:nth-child(2) > a

# //*[@id="section_body"]/ul[1]/li[1]/dl/dt[2]/a

# /html/body/div[1]/table/tbody/tr/td[2]/div/div/div[5]/ul[1]/li[1]/dl/dt[2]/a

In [None]:
for j in range(0, 6):
    df_section_titles = pd.DataFrame()
    for i in range(1, 3):
        print('https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=10{0}#&date=%2000:00:00&page={1}'.format(j,i))

https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=1
https://news.naver.com/main/main

In [None]:
# 정치 뉴스 페이지 모두 가져오기

# 각 뉴스마다 마지막 페이지가 다른 것을 처리
page_num = [334, 423, 400, 87, 128, 74]
df_title = pd.DataFrame()

for j in range(1,2):
    df_section_titles = pd.DataFrame()
    for i in range(1, page_num[j]): # page_num을 j로 인덱싱
        resp = requests.get('https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=10{0}#&date=%2000:00:00&page={1}'.format(j,i), headers=headers)
        # resp = requests.get(url+str(i), headers=headers)

        soup = BeautifulSoup(resp.text, 'html.parser')
        title_tags = soup.select('.cluster_text_headline')
        titles = []

        for title_tag in title_tags:
            titles.append(re.compile('[^가-힣 | a-z | A-Z | 0-9]+').sub(' ', title_tag.text))
        df = pd.DataFrame(titles, columns=['title'])
        print('.', end='') # 진행상황 확인 위해 for문 실행 시 . 출력, 줄바꿈 없애기 위해 end=''

        if i % 50 == 0:
            print('\n')
        # DF 병합
        df_section_titles = pd.concat([df_section_titles, df], 
                                    axis='rows', # deafult는 row라 생략 가능
                                    ignore_index=True)
        # 카테고리 추가
        df_section_titles['category'] = category[j] # j가 인덱스에 맞춰 category 리스트와 매칭
    df_title = pd.concat([df_title, df_section_titles], axis = 'rows', ignore_index=True)

print(df_title.head())
print(df_title.info())

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

......................                                 title  category
0  공인회계사회장  감사부담 늘었다고 회계개혁 중단 어불성설 종합   Economic
1     감사위원회포럼  7월15일 내부회계관리제도 관련 정기 포럼  Economic
2   김영식 공인회계사회장  회계개혁 피로호소 불구 정도감사 원칙   Economic
3   감사위원회포럼  2021년 제2회 정기포럼  내달 15일 열어  Economic
4             건설업체  주 성정  이스타항공 인수하기로   Economic
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14348 entries, 0 to 14347
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     14348 non-null  object
 1   category  14348 non-null  object
dtypes: 

In [None]:
df_title.to_csv('/content/naver_news_titles_210617_headline.csv')

## 접어두기

In [None]:
df_title.iloc[150:160]

In [None]:
# 카테고리 추가
df_section_titles['category'] = 'Politics'
print(df_section_titles.head(20))
print(df_section_titles.info())

In [None]:
df_section_titles.head(50)