### request Vs urlib.request

- 데이터를 보낼때 requests는 딕셔너리 형태, urlib는 인코딩하여 바이너리 형태로 전송
- requests는 요청 메소드 (get,post)를 명시하지만 urlib는 데이터 여부에 따라 get과 post요청을 구분
- 없는 페이지 요청시 requests는 에러는 띄우지 않지만 urllib는 에러를 띄움

In [1]:
import requests
from urllib.request import urlopen
from urllib.parse import quote
from bs4 import BeautifulSoup as bs
import re   # 데이터에 대한 정규형 표현
import pandas as pd

In [6]:
def news_parser(keyword,spage = 1, epage = 2):
    
    
    news_list=[]
    for page in range(int(spage), int(epage)+1):
        url = 'https://news.joins.com/Search/JoongangNews?page='+str(page)
        url = url +"&Keyword="+quote(keyword) #바이너리 코드 변경
        url = url + '&SortType=New&SearchCategoryType=JoongangNews'
    
        news_html = requests.get(url)
        if news_html.status_code != 200:
            print('url을 받아오지 못했습니다')
        news_soup = bs(news_html.text, 'html.parser')
    
    #방법 1 : select는 find_all과 같음
        li_text_tag = news_soup.select('div.bd>ul.list_default>li')
    
    #방법 2
#     ul_text_tag = news_soup.find('ul', class_="list_default")
#     li_text_tag = ul_text_tag.find_all('li')
    #print(li_text_tag)
    
        for li in li_text_tag:
            title = li.find('h2').get_text()
            new_url = li.find('a')['href']
            day = li.select('span.byline>em')[-1].get_text()

            news_list.append([title, day, new_url])

    df1 = pd.DataFrame(news_list, columns = ['제목', '날짜', '상세_url'])
    return df1




In [7]:
def body_text(url):
    html = urlopen(url)
    soup = bs(html,'html.parser')
    
    try: 
        body = soup.find('div', id='article_body').text
    except:
        body=""
        
    #숫자/영문/한글 모두 ""로 변환
    body = re.sub("[^0-9ㄱ-ㅣ가-힣a-zA-z]","",body)
    return body
    

In [9]:
keyword = input('조회 키워드 입력:')
spage = input('시작 페이지 번호:')
epage = input('종료 페이지 번호:')

df1 = news_parser(keyword, spage, epage)

조회 키워드 입력:올림픽
시작 페이지 번호:1
종료 페이지 번호:2


In [10]:
df1

Unnamed: 0,제목,날짜,상세_url
0,'문 대통령 방일취소' 잘했다는 中 매체 “방일 포기 여론 부합”,2021.07.21 13:30,https://news.joins.com/article/24110545
1,"조진웅 감독 데뷔작 북미영화제 초청 ""누구든 영웅 될 수 있죠""",2021.07.21 12:52,https://news.joins.com/article/24110515
2,범 말고 곰 내려왔다…日올림픽 첫경기장 인근 출몰 '발칵',2021.07.21 12:11,https://news.joins.com/article/24110473
3,올림픽 후원 삼성전자 '속앓이'…개막식엔 현지 실무진만 참석,2021.07.21 11:58,https://news.joins.com/article/24110450
4,도쿄올림픽에서 42번째 우승에 도전하는 다니 알베스,2021.07.21 11:43,https://news.joins.com/article/24110443
5,도쿄올림픽 개막 뒤 취소?…초유의 사태 가능성 커졌다,2021.07.21 11:33,https://news.joins.com/article/24110434
6,"오사카 나오미 수영복 차림 화보 논란…""인터뷰는 안 하면서""",2021.07.21 11:31,https://news.joins.com/article/24110427
7,"'범 내려온다' 현수막에…윤서인 ""척추 나간 빙시 호랑이""",2021.07.21 10:53,https://news.joins.com/article/24110361
8,미국이 제일 기다리는 '시몬 바일스'를 사수하라,2021.07.21 10:49,https://news.joins.com/article/24110356
9,[단독] 유도 81㎏급 이성호 개막 이틀 전 극적 올림픽행,2021.07.21 10:36,https://news.joins.com/article/24110344


In [None]:
for df_url in df1['상세_url']:
                  
    html = urlopen(df_url)
    soup = bs(html, 'html.parser')

    title = soup.find('h1', class_='headline mg').text
    #print(title,"\n\n")
    body = soup.find('div', id='article_body').text
    #print(body)

In [None]:
title_list=[]
body_list=[]

for df_url in df1['상세_url']:
                  
    html = urlopen(df_url)
    soup = bs(html, 'html.parser')

    title = soup.find('h1', class_='headline mg').text
    #print(title,"\n\n")
    try: 
        body = soup.find('div', id='article_body').text
    except:
        body=""
        
    #숫자/영문/한글 모두 ""로 변환
    #title_list.append(re.sub("[0-9ㄱ-ㅣ가-힣a-zA-z]","",title))
    title_list.append(re.sub("[^0-9ㄱ-ㅣ가-힣a-zA-z]","",title))
    #print(body)

In [None]:
txt = '''
안녕하세요~~
반갑습니다ㅋㅋㅋㅋ
body, html, H1, 1234'''

In [None]:
print(re.sub('[a-zㄱ-ㅣ]',"",txt)) #제거
print(re.sub('[^a-z가-힣]',"",txt)) #남김