### requests VS urllib.request
- 데이터를 보낼때 requests는 딕셔너리 형태, urllib는 인코딩하여 바이너리 형태로 전송
- requests는 요청 메소드(get, post)를 명시하지만 urllib는 데이터의 여부에 따라 get과 post 요청을 구분
- 없는 페이지 요청시 requests는 에러를 띄우지 않지만 urllib는 에러를 띄웁

In [1]:
import requests
from urllib.request import urlopen
from urllib.parse import quote
from bs4 import BeautifulSoup as bs
import re      # 데이터에 대한 정규형 표현
import pandas as pd
import sys

In [2]:
def url_parser(keyword, spage=1):
    url="https://news.joins.com/Search/JoongangNews?page="+str(spage)
    url=url+"&Keyword="+quote(keyword)    # 바이러리 코드 변경
    url=url+"&SortType=New&SearchCategoryType=JoongangNews"
    
    news_html=requests.get(url)
    
    if news_html.status_code!=200:
        sys.exit("데이터 못 받아왔습니다.ㅠ.ㅠ")
        
    news_soup=bs(news_html.text, "html.parser")
    
    #li_text_tag=news_soup.select("div.bd > ul.list_default > li")
    ul_text_tag=news_soup.find("ul", class_="list_default")
    li_text_tag=ul_text_tag.find_all('li')
    
    news_list=[]
    for li in li_text_tag:
        title=li.find('h2').text
        a_url=li.find('a')['href']
        body=li.find('span', class_="lead").text
        day=li.select("span.byline > em")[1].text
        news_list.append([title, body, day, a_url])
        
    df1=pd.DataFrame(news_list, columns=['제목', '내용', '날짜', '상세_url'])
    
    return df1

In [3]:
df1=url_parser("일보 도쿄 올림픽", 1)
df1

Unnamed: 0,제목,내용,날짜,상세_url
0,[알림] 도쿄올림픽 핫 이슈! 특집 섹션서 만나세요,2020 도쿄올림픽 2020 도쿄 올림픽이 23일 개막한다. 중앙일보는 모바일 특...,2021.07.21 00:09,https://news.joins.com/article/24110119
1,"이낙연, '박정희 찬양' 의혹에 “그랬으면 DJ 공천 받았겠나”",... 있다. 박정희를 찬양하던 분도 계시지 않느냐”며 이 전 대표를 직격했다. 이...,2021.07.20 10:25,https://news.joins.com/article/24109370
2,[남정호의 시시각각]문 대통령 방일 무산 유감,... 방한한 아베 신조 일본 총리는 정상회담을 가졌다. [청와대 사진기자단] 문...,2021.07.20 00:36,https://news.joins.com/article/24109201
3,"모두가 말렸지만 해냈다, 김지연의 마지막 올림픽",...)은 청천벽력같은 소리를 들었다. 훈련 중 다쳐 병원을 찾았더니 “아킬레스건이...,2021.07.20 00:04,https://news.joins.com/article/24109134
4,자열이 형도 윤이 형도 '묻고 더블로 가!',"... 대한자전거연맹 회장(왼쪽), 최윤 대한럭비협회 회장(오른쪽). '묻고 더블...",2021.07.20 00:03,https://news.joins.com/article/24109125
5,"文, 결국 도쿄올림픽 안간다…국무총리 '대리 참석'도 배제",... 스가 요시히데 총리(右) 박수현 청와대 국민소통수석은 19일 오후 브리핑에...,2021.07.19 19:06,https://news.joins.com/article/24109022
6,외교부 '재판개입' 노이로제…한일관계 추락 '1000일 동안' [뉴스원샷],... 피해자들에게 1억원씩 배상하라”고 판결(2018년 10월 30일)한 지 꼭 ...,2021.07.18 05:00,https://news.joins.com/article/24107847
7,"[이번 주 리뷰] 재건축 2년 실거주 백지화, 코로나 K방역도 도루묵? (12~15일)",... 해 4개 메이저 대회를 석권하는 '캘린더 그랜드 슬램'을 이룬다. 여기에 2...,2021.07.17 05:00,https://news.joins.com/article/24107466
8,"일본 벚꽃 대신 'OOOO' 내걸고 ""독도는 일본땅""…7문제 맞추면 국제뉴스 퀴즈왕",... 미셸 오바마-런던 올림픽(2012) ( 힐러리 여사는 릴레함메르(1994...,2021.07.16 17:00,https://news.joins.com/article/24107196
9,"올림픽 1주일 전인데 文 '도쿄행' 미정…""日 변화 없이 어렵다""",도쿄올림픽 개막을 7일 앞둔 16일까지 문재인 대통령의 방일 여부는 미정이다. 문...,2021.07.16 15:22,https://news.joins.com/article/24107108


In [4]:
html=urlopen(df1['상세_url'][1])
print(df1['상세_url'][0])

soup=bs(html, 'html.parser')
title=soup.find('h1', {"class":"headline mg"}).text
print(title, "\n\n")

body=soup.find('div', {"id":"article_body"}).text
print(body)

https://news.joins.com/article/24110119
이낙연, ‘박정희 찬양’ 의혹에 “그랬으면 DJ 공천 받았겠나” 



     더불어민주당 대권주자인 이낙연 후보가 17일 오후 전북 군산시 청소년자치배움터 '자몽'을 찾아 청소년들과 간담회를 하고 있다. 연합뉴스         더불어민주당 대선주자인 이낙연 전 대표가 20일 기자 시절 박정희 전 대통령을 찬양하는 칼럼을 썼다는 일각의 주장에 “만약 제가 그랬으면 김대중 전 대통령의 공천을 받았겠냐”며 의혹을 일축했다.           이재명 경기지사는 지난 17일 MBC 라디오에 출연해 “5·18 학살을 옹호하던 사람도 있다. 박정희를 찬양하던 분도 계시지 않느냐”며 이 전 대표를 직격했다. 이 전 대표가 동아일보 기자 시절 전두환 옹호 칼럼을 쓰고, 전남지사 때 박정희 기념사업추진위원회 부위원장을 맡았다는 의혹을 제기했다.           이에 이 전 대표는 20일 오전 MBC 라디오 ‘김종배의 시선집중’ 인터뷰에서 “제가 국회 진출하기 10년 전부터 (김 전 대통령이) 권유를 했었는데, 그럴리가 없고 전남에서 국회의원 4번에 도지사를 했는데 한번도 쟁점이 된 적 없는데 이제 나온 것이 어이없는 일”이라고 밝혔다.           그는 해당 의혹을 처음 제기한 이 지사를 겨냥해 “조급했거나 불안하니까 그런 말을 하는 것으로 받아들인다”고 응수했다.           옵티머스측의 종로 사무실 복합기 요금 대납 의혹에 대해서도 “검찰이 한 사람의 목숨을 버릴 만큼 과잉수사를 했었지 않나. 그 결과가 이미 나왔고 수사는 종결된 것으로 안다”며 “얼마든지 더 엄정한 수사가 있었으면 좋겠다. 검찰이 설마 저를 봐줬겠나”고 반문했다.           ‘이재명 SNS 봉사팀’ 단체채팅방을 만들어 이 전 대표 비방글을 올린 경기도 유관기관 교통연수원 임원과 이 지사와의 연관성을 묻는 질문엔 “제가 충분한 정보를 갖고 있지 않다. 이미 많은 사람들이 알고 있을 것이다. 제가 거기에 대해 말을 

In [5]:
### 정규식 표현(https://wikidocs.net/4308)

txt='''
안녕하세요.~~~~~
반갑습니다.ㅋㅋㅋㅋㅋ
body, html, H1, 1234
ㅠ.ㅠ, :)
'''

print(re.sub("[a-zㄱ-ㅣ]","",txt))  ## 제거
print(re.sub("[^가-힣]","",txt)) ## 남김


안녕하세요.~~~~~
반갑습니다.
, , H1, 1234
., :)

안녕하세요반갑습니다


In [6]:
### 하위 url을 이용해 상세 내용 가져오기

title_list=[]
body_list=[]

for df_url in df1['상세_url']:
    ### 하위 url 파씽하기
    html=urlopen(df_url)
    soup=bs(html, 'html.parser')
    
    ### 원하는 데이터 가져오기
    title=soup.find('h1', class_="headline mg").text
    try:
        body=soup.find('div', id="article_body").text
    except:
        body=""   
        
    ### 데이터 정규화
    #title_list.append(re.sub("[0-9ㄱ-ㅣ가-힣a-zA-Z]","", title))  # 숫자/한글/영문을 모두 ""로 변경
    title_list.append(re.sub("[^0-9ㄱ-ㅣ가-힣]","", title))
    body_list.append(re.sub("[^0-9ㄱ-ㅣ가-힣]","", body))
    
df2=pd.DataFrame({'제목':title_list, '상세내용':body_list})
df2  
    

Unnamed: 0,제목,상세내용
0,알림도쿄올림픽핫이슈특집섹션서만나세요,2020도쿄올림픽2020도쿄올림픽이23일개막한다중앙일보는모바일특집2020도쿄올림픽을...
1,이낙연박정희찬양의혹에그랬으면공천받았겠나,더불어민주당대권주자인이낙연후보가17일오후전북군산시청소년자치배움터자몽을찾아청소년들과간...
2,남정호의시시각각문대통령방일무산유감,지난2018년2월평창동계올림픽이시작된당일오후문재인대통령과개막식참가차방한한아베신조일본...
3,모두가말렸지만해냈다김지연의마지막올림픽,여자펜싱사브르국가대표김지연이런던올림픽결승에오르고환호하고있다중앙포토지난해2월19일펜싱...
4,자열이형도윤이형도묻고더블로가,구자열대한자전거연맹회장왼쪽최윤대한럭비협회회장오른쪽묻고더블로가종목협회장들의포상금전쟁최...
5,결국도쿄올림픽안간다국무총리대리참석도배제,문재인대통령의방일과스가요시히데일본총리와의한일정상회담이결국무산됐다문재인대통령스가요시히...
6,외교부재판개입노이로제한일관계추락1000일동안,유지혜외교안보팀장의픽한일관계추락의시작2018년10월30일1주일뒤인오는25일이면대법원...
7,재건축2년실거주백지화코로나방역도도루묵1215일,짧은장마는끝이보이고더위가이어지고있지만시원한뉴스는없다방탄소년단이없었다면지난6일부터발생...
8,일본벚꽃대신내걸고독도는일본땅7문제맞추면국제뉴스퀴즈왕,2021년판일본방위백서말을타고달린는무사의그림을표지그림으로사용했다이영희기자7월셋째주7...
9,올림픽1주일전인데도쿄행미정변화없이어렵다,도쿄올림픽개막을7일앞둔16일까지문재인대통령의방일여부는미정이다문재인대통령과스가요시히데...


In [7]:
def news_parser(keyword, spage=1, epage=2):
    news_list=[]
    ### 페이지 변경하면서 url 생성
    for page in range(int(spage), int(epage)+1):
        url="https://news.joins.com/Search/JoongangNews?page="+str(page)
        url=url+"&Keyword="+quote(keyword)    # 바이러리 코드 변경
        url=url+"&SortType=New&SearchCategoryType=JoongangNews"
    
        news_html=requests.get(url)
        if news_html.status_code!=200:
            sys.exit("데이터 못 받아왔습니다.ㅠ.ㅠ")
        news_soup=bs(news_html.text, "html.parser")
        li_text_tag=news_soup.select("div.bd > ul.list_default > li")
        
        for li in li_text_tag:
            title=li.find('h2').text
            day=li.select("span.byline > em")[1].text
            new_url=li.find('a')['href']
            body=body_text(new_url)
            news_list.append([title, day, body])
        
    df1=pd.DataFrame(news_list, columns=['제목', '날짜', '상세내용'])
    
    return df1

In [8]:
def body_text(url):
    html=urlopen(url)
    soup=bs(html, 'html.parser')

    try:
        body=soup.find('div', id="article_body").text
    except:
        body=""   
        
    ### 데이터 정규화
    body=re.sub("[^0-9ㄱ-ㅣ가-힣 ]","", body)
    
    return body

In [10]:
import requests
from urllib.request import urlopen
from urllib.parse import quote
from bs4 import BeautifulSoup as bs
import re      
import pandas as pd
import sys

keyword=input('조회 키워드 입력: ')
spage=input('시작 페이지 번호: ')
epage=input('종료 페이지 번호: ')

df1=news_parser(keyword, spage, epage)
df1

조회 키워드 입력: 일본 올림픽
시작 페이지 번호: 1
종료 페이지 번호: 10


Unnamed: 0,제목,날짜,상세내용
0,"아버지가 가지 못한 올림픽 길, '바람의 손자'가 뚫는다",2021.07.21 13:41,도쿄올림픽야구대표팀이정후연합뉴스바람의아들이종범51현2군타격코치은한국프로야구가낳은불세...
1,'문 대통령 방일취소' 잘했다는 中 매체 “방일 포기 여론 부합”,2021.07.21 13:30,문재인대통령조바이든미국대통령스가요시히데일본총리중앙포토문재인대통령이도쿄올림픽기간에일본...
2,범 말고 곰 내려왔다…日올림픽 첫경기장 인근 출몰 '발칵',2021.07.21 12:11,일본공원에출몰한곰사진은기사와직접적관련이없습니다연합뉴스도쿄올림픽소프트볼경기장인일본후쿠...
3,올림픽 후원 삼성전자 '속앓이'…개막식엔 현지 실무진만 참석,2021.07.21 11:58,지난17일도쿄하루미지역올림픽선수촌입구에서보안요원들이검문검색을하고있다도쿄올림픽조직위원...
4,도쿄올림픽 개막 뒤 취소?…초유의 사태 가능성 커졌다,2021.07.21 11:33,도쿄올림픽이대회를치르는도중에중단되는초유의사태가벌어질수도있다도쿄올림픽개막을나흘앞둔19...
...,...,...,...
95,6분 사이 두 골 허용… 김학범호 프랑스에 1-2 역전패,2021.07.16 21:56,실수로역전골을내주고고개를들지못하는올림픽축구대표팀송범근오른쪽김민규기자올림픽축구대표팀이...
96,"일본 벚꽃 대신 'OOOO' 내걸고 ""독도는 일본땅""…7문제 맞추면 국제뉴스 퀴즈왕",2021.07.16 17:00,2021년판일본방위백서말을타고달린는무사의그림을표지그림으로사용했다이영희기자7월셋째주7...
97,"올림픽 1주일 전인데 文 '도쿄행' 미정…""日 변화 없이 어렵다""",2021.07.16 15:22,도쿄올림픽개막을7일앞둔16일까지문재인대통령의방일여부는미정이다문재인대통령과스가요시히데...
98,"""신에게는 아직 5천만 응원 있다"" 이순신 패러디도 트집잡는 日",2021.07.16 11:43,2020도쿄올림픽개막을8일앞둔15일일본도쿄하루미지역에위치한올림픽선수촌에태극기가걸려있...
