# 네이버 뉴스 크롤링

## 페이지 헤드라인 크롤링해오기

In [None]:
# 모듈 임포트
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

In [None]:
# 카테고리 설정
category = ['Politics', 'Economic', 'Social', 'Culture', 'World', 'IT']

In [None]:
# 크롤링할 주소
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

In [None]:
# 리스폰해오기
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36"}
resp = requests.get(url, headers=headers)

In [None]:
# resp list 형식으로 출력
print(list(resp))

[b'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge"', b'>\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1', b'106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n                \r\n                    \r\n                    \r\n                   ', b' \r\n                    \r\n                        \r\n\t                        \r\n\t\t                        \r\n\t\t                    ', b'    \r\n\t\t                        \r\n\t\t                    \r\n\t\t                    \r\n\t\t                    \r\n\t\t                    ', b'\r\n\t\t                    \r\n\t\t                    \r\n\t\t                    \r\n\t\t                \r\n                    \r\n            ', b'        \r\n                \r\n            \r\n            \r\n            \r\n            \r\n        

In [None]:
# resp 타입 확인
print(type(resp))

<class 'requests.models.Response'>


In [None]:
# BeautifulSoup으로 resp을 text로 변환
soup = BeautifulSoup(resp.text, 'html.parser') # html_parser로 파싱
print(soup)


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="http://news.naver.com/main/main.nhn?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="twitter:im

In [None]:
# 제목 html 가져오기
title_tags = soup.select('.cluster_text_headline') # class일 경우 앞에 .
print(title_tags)

[<a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=008&amp;aid=0004601832">윤석열 측 "이준석과 尹의 시간표가 상충되진 않을 것"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=001&amp;aid=0012459904">尹 대변인 "윤석열과 이준석의 시간표 상충안할 것"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=025&amp;aid=0003109904">尹대변인 "윤석열·이준석 시간표 상충안해, 대척점 놓지마라"</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=011&amp;aid=0003923453">尹 대변인“이준석의 시간표와 윤석열의 시간표 다르지 않아”</a>, <a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://news.naver.com/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=100&amp;oid=020&amp;aid=0003363874">韓 “日, 독도훈련 트집 약식회담 일방 

In [None]:
# html에서 제목(헤드라인) 가져오기
titles = []
for title_tag in title_tags:
    # re를 이용하여 comile(세팅)함
    # 정규표현식 사용
    titles.append(re.compile('[^가-힣 | a-z | A-Z | 0-9]+').sub(' ', title_tag.text)) # 한글, 알파벳, 숫자을 제외하고 나머지 자리에는 공백

# 뽑아낸 데이터 및 갯수 확인
print(titles)
print(len(titles))

['윤석열 측  이준석과  의 시간표가 상충되진 않을 것 ', '  대변인  윤석열과 이준석의 시간표 상충안할 것 ', ' 대변인  윤석열 이준석 시간표 상충안해  대척점 놓지마라 ', '  대변인 이준석의 시간표와 윤석열의 시간표 다르지 않아 ', '    독도훈련 트집 약식회담 일방 취소     사실 아니다 ', '정상회담 불발 네탓 한 일 대놓고 비난전', 'G7서 약식 정상회담 합의한     일방적 취소 ', '한 일 약식회담 거부   외교 문외한  스가 총리에게 부메랑 되나', '김총리  G7 참석  코로나 기후변화 대응 성과 의미 ', '김 총리  G7 국가들과 어깨 나란히 할 정도로 국격 높아져 ', '김 총리  G7 참석  코로나   기후변화 대응 성과 의미 ', '김부겸  2030년 부산세계박람회 유치 추진 ', '국방부  군검찰 부대원 등 10명 소환 조사 2차 가해 부실수사 의혹 규명', '국방부   부실수사  의혹 군검찰 소속 3명 소환 조사', ' 속보 국방부  성추행 피해 부사관 사망사건 부실수사 의혹 군검찰 관련자 3명 소환조사', '군검찰 등 10명 소환조사 실시 유족 참고인 조사', ' 4년 연임제로 2032년 대선 총선 동시에   여권서 제기된 개헌론 이재명 견제용 ', '이낙연 정세균 이어 친문의 개헌론 띄우기 타깃은 이재명 ', '김근식  민경욱  이준석 인기 배 아프냐 꼰대 심보로 이준석 글씨 시비 ', '민경욱  이준석에  이 젊은이  자신이 대통령 된 줄 아는 듯 ', ' 페라가모 유명세  이준석  결국  여자친구 있다 ', '이준석   페라가모 루머  즉각 반박 여자친구 있다 ', ' 민방위  이준석  오늘 얀센 맞는다 접종 뒤  백신 휴가 ', ' 85년생 민방위  이준석  오늘 얀센 백신 맞고 휴식', '박완주  2차 추경  지방에 40  다 줄지 국채 상환할지 논의할 것 ', '박완주  부동산 정책 다음 정책의총서 확정 추경은 아직 ', '   모든 공휴일에 대체공휴일 추진 광복절부터 적용 ', '대체공휴일 확대

In [None]:
# 데이터프레임 병합

# 빈 DF 생성
# df_b = pd.DataFrame()
df_page2 = pd.DataFrame(titles, columns=['title'])
df_b = pd.concat([df_b, df_page2], axis='rows', ignore_index=True)
print(df_b.head())
print(df_b.info())

                                title
0          수교 맺은 후 129년 만에 오스트리아 국빈방문
1               문 대통령  오스트리아 하원 의장 접견
2     문 대통령  오스트리아 한반도 평화 일관된 지지에 감사 
3           코로나통제 세계 챔피언 대통령이 밝힌 비법은 
4   속보     북한이 동의하면 백신공급 협력 적극 추진할 것 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132 entries, 0 to 131
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   132 non-null    object
dtypes: object(1)
memory usage: 1.2+ KB
None


## 페이지 크롤링

In [None]:
# 정치 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=1
# 2 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=2
# 3 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=3
# 4 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=4

# 경제 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=1

# 사회 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=1

# 문화 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=1

# 세계 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=1

# IT 뉴스 페이지 url 확인
# 1 페이지 https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=1

In [None]:
# section_body > ul.type06_headline > li:nth-child(1) > dl > dt:nth-child(2) > a

# //*[@id="section_body"]/ul[1]/li[1]/dl/dt[2]/a

# /html/body/div[1]/table/tbody/tr/td[2]/div/div/div[5]/ul[1]/li[1]/dl/dt[2]/a

In [None]:
for j in range(0, 6):
    df_section_titles = pd.DataFrame()
    for i in range(1, 3):
        print('https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=10{0}#&date=%2000:00:00&page={1}'.format(j,i))

https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=102#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=103#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=1
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=104#&date=%2000:00:00&page=2
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=1
https://news.naver.com/main/main

In [None]:
# 정치 뉴스 페이지 모두 가져오기

# 각 뉴스마다 마지막 페이지가 다른 것을 처리
page_num = [334, 423, 400, 87, 128, 74]
df_title = pd.DataFrame()

for j in range(1,2):
    df_section_titles = pd.DataFrame()
    for i in range(1, page_num[j]): # apge_num을 j로 인덱싱
        resp = requests.get('https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=10{0}#&date=%2000:00:00&page={1}'.format(j,i), headers=headers)
        # resp = requests.get(url+str(i), headers=headers)

        soup = BeautifulSoup(resp.text, 'html.parser')
        title_tags = soup.select('.cluster_text_headline')
        titles = []

        for title_tag in title_tags:
            titles.append(re.compile('[^가-힣 | a-z | A-Z | 0-9]+').sub(' ', title_tag.text))
        df = pd.DataFrame(titles, columns=['title'])
        print('.', end='') # 진행상황 확인 위해 for문 실행 시 . 출력, 줄바꿈 없애기 위해 end=''

        if i % 50 == 0:
            print('\n')
        # DF 병합
        df_section_titles = pd.concat([df_section_titles, df], 
                                    axis='rows', # deafult는 row라 생략 가능
                                    ignore_index=True)
        # 카테고리 추가
        df_section_titles['category'] = category[j] # j가 인덱스에 맞춰 category 리스트와 매칭
    df_title = pd.concat([df_title, df_section_titles], axis = 'rows', ignore_index=True)

print(df_title.head())
print(df_title.info())

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

..................................................

......................                                   title  category
0  금감원  코인 거래소에 상폐 유의 리스트 요청 시장 정리 빨라질까   Economic
1     잡코인  대규모 퇴출 이제 시작 금융위 신고 앞두고 나비효과   Economic
2       업비트 거래대금 급감 코인 제거 유의 종목 대거 지정 영향  Economic
3                 상폐 이유 밝혀라 코인 솎아내기 시작됐나  Economic
4         쌍방울그룹  이스타항공 인수 단독 입찰 하림 인수 포기  Economic
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14348 entries, 0 to 14347
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     14348 non-null  object
 1   category  14348 non-null  obj

In [None]:
df_title.iloc[150:160]

Unnamed: 0,title,category
150,LG전자 글로벌 6G 이동통신 기술 개발 주도한다,Economic
151,LG전자 ATIS 주관 넥스트 G 언라이언스 의장사 선정 6G 핵심 역할 담당,Economic
152,반퇴시대 재산리모델링 시세 5억 군포 아파트 팔고 안양 단독주택 증여를,Economic
153,반퇴시대 재산리모델링 임의계속가입 하면 직장가입자 보험료 3년 유지,Economic
154,반퇴시대 재산리모델링 강남 아파트 8년 임대 후 5년내 팔면 비과세,Economic
155,반퇴시대 재산리모델링 아들에게 부담부 증여하고 여행ETF 투자를,Economic
156,인천 초등생 형제 화재 친모 집행유예 인천 주요 뉴스,Social
157,인천 형제 화재 엄마에 집행유예 이틀에 한 번씩 장시간 외출,Social
158,이틀에 하루꼴로 장시간 외출 인천 형제 화재 친모 집행유예,Social
159,아이들 방임이 화재 원인 인천 화재 형제 친모 집유,Social


In [None]:
# 카테고리 추가
df_section_titles['category'] = 'Politics'
print(df_section_titles.head(20))
print(df_section_titles.info())

                                      title  category
0        김정숙 여사  오스트리아 영부인과 박물관  양국관계 돈독하길   Politics
1           오스트리아 대통령 만나  4차 산업혁명 파트너  격상키로  Politics
2              내조 외교의 무대 여사의 순방 필수템 미술관 박물관  Politics
3         빈 대학 식물원 찾은 김정숙 여사  명품농기구  호미  선물  Politics
4               국민의힘  입법 바리케이트 수술실 CCTV법 압박  Politics
5         이준석  수술실 CCTV법 입장 밝혀라  정책으로 반격 시작  Politics
6     수술실 CCTV 추가논의  이준석 언급에 박주민  아직도 이슈시개   Politics
7         민주당  국민의힘에  수술실 CCTV 법 입장이 뭐냐  압박  Politics
8           G7 한일회담     일방 취소     독도훈련 에 반발  Politics
9           일본  G7에서  한일 약식 정상회담 합의  일방적 취소  Politics
10    멀고도 먼 한 일 대화 국면 기회마저 위기로 바꾸는  네 탓 공방   Politics
11        정부   측이 회담 일방적 취소 에  그런 사실 없다  부인  Politics
12              모든 선택은 열려있다   첫 메시지 내놓은 윤석열  Politics
13         줄다리기  돌입한 이준석 윤석열   모든 선택은 열려있다   Politics
14   8월까지 결단해야  이준석에  결정된 거 없어  윤석열  신경전 돌입  Politics
15               대변인  윤석열과 이준석의 시간표 상충안할 것   Politics
16             윤석열  국민의힘 입당 굳혔나 호남민심 노크도 주목  Politics
17   윤석열  6 15 21주년 맞아  DJ 성

In [None]:
df_section_titles.head(50)

Unnamed: 0,title
0,유승민 G7도 북한 정조준 정부 한반도 비핵화 집착 말아야
1,G7 불가역적 포기 대북 압박 세졌다
2,비핵화 제재 인권 다 언급한 G7 공동성명
3,G7보다 강경한 나토 CVID 협상 나서라
4,일본 G7에서 한일 약식 정상회담 합의 일방적 취소
5,일본 한일 만남 일방 취소 독도수호훈련 핑계
6,스가 문 대통령과 약식회담 막판에 취소했다
7,한 일 정상회담 이 일방취소했다 사실 아냐 종합
8,개성공단기업협회 근로자에게 마스크 나눠야 남북대화 촉구
9,개성공단기업협회 복원 절실 마스크 110만장 북측 전달 추진
