# CSS Selector 활용하기
- CSS(Cascading Style Sheet): 웹분서의 디자인 요소를 담당
- CSS Selector에서 자손 태그는 공백(white space) / 자식태그는 '>'
    - 예) tr > id > a > img
    
## find_all 대신 select 사용해보기
- find_all보다 활용이 간편함
- [참고](https://m.blog.naver.com/kiddwannabe/221177292446)

In [1]:
import requests
from bs4 import BeautifulSoup #자체 다운로드 기능X HTML과 XML을 분석해주는 라이브러리

In [37]:
## 똑같은 코드 - BeautifulSoup 객체 만들기 ##
url = "https://en.wikipedia.org/wiki/Seoul_Metropolitan_Subway"
resp = requests.get(url)
html_src = resp.text
#print(html_src) # 페이지 소스 보기의 html 소스

soup = BeautifulSoup(html_src,'html.parser') # 파싱

### 이미지 가져오기

In [15]:
# 크롬 개발자도구의 copy element를 통해 가져와야함
subway_image = soup.select('#mw-content-text > div.mw-parser-output > table:nth-child(3) > tbody > tr:nth-child(2) > td > a > img')
print(subway_image)

[<img alt="Seoul-Metro-2004-20070722.jpg" data-file-height="2100" data-file-width="2800" decoding="async" height="225" src="//upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/300px-Seoul-Metro-2004-20070722.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/450px-Seoul-Metro-2004-20070722.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/600px-Seoul-Metro-2004-20070722.jpg 2x" width="300"/>]


In [16]:
# 450*450 logo image 가져오기
subway_image2 = soup.select('tr > td > a > img')
print(subway_image2)

[<img alt="South Korea subway logo.svg" data-file-height="450" data-file-width="450" decoding="async" height="75" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/12/South_Korea_subway_logo.svg/75px-South_Korea_subway_logo.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/12/South_Korea_subway_logo.svg/113px-South_Korea_subway_logo.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/12/South_Korea_subway_logo.svg/150px-South_Korea_subway_logo.svg.png 2x" width="75"/>, <img alt="Seoul-Metro-2004-20070722.jpg" data-file-height="2100" data-file-width="2800" decoding="async" height="225" src="//upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/300px-Seoul-Metro-2004-20070722.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/450px-Seoul-Metro-2004-20070722.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/2/29/Seoul-Metro-2004-20070722.jpg/600px-Seoul-Metro-2004-20070722.jpg 2x"

### 웹 문서에 포함된 모든 하이퍼링크 추출하기

In [38]:
links = soup.select('a') # 태그 a를 모두 검사

print('하이퍼링크의 개수: ',len(links))
print(type(links)) #리스트와 흡사한 개체
print('첫 3개의 원소: ',links[:3])

하이퍼링크의 개수:  963
<class 'bs4.element.ResultSet'>
첫 3개의 원소:  [<a id="top"></a>, <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>, <a class="mw-jump-link" href="#searchInput">Jump to search</a>]


#### 클래스 속성으로 추출한 하이퍼링크

In [39]:
external_links = soup.select('a[class="external text"]')
print(external_links[:3])

[<a class="external text" href="http://www.seoulmetro.co.kr/kr/board.do?menuIdx=548" rel="nofollow">"자료실 : 알림마당&gt;자료실&gt;자료실"</a>, <a class="external text" href="http://www.korail.com/file/statistics/2012/2012-04.pdf" rel="nofollow">2012 Korail Statistics</a>, <a class="external text" href="https://web.archive.org/web/20140227072212/http://www.korail.com/file/statistics/2012/2012-04.pdf" rel="nofollow">Archived</a>]


### 소스코드에서 주성분 추출
- 주성분
    - `<div id="siteNotice" class="mw-body-content"><!-- CentralNotice --></div>`

#### id로 주성분 추출

In [41]:
id_selector = soup.select('#siteNotice')  # '#id이름'으로 선택
print(id_selector)
print("\n")

id_selector2 = soup.select('div#siteNotice') # '#id이름'의 tag 'div'를 선택, 위 코드와 동일한 결과
print(id_selector2)
print("\n")

id_selector3 = soup.select('p#siteNotice')  #  '#id이름'의 tag 'p'를 선택 --> 결과 없음
print(id_selector3)

[<div class="mw-body-content" id="siteNotice"><!-- CentralNotice --></div>]


[<div class="mw-body-content" id="siteNotice"><!-- CentralNotice --></div>]


[]


#### class로 주성분 추출

In [42]:
class_selector = soup.select('.mw-headline') #  '.클래스이름' : 클래스 이름으로 선택
print(class_selector)
print("\n")

class_selector2 = soup.select('span.mw-headline') # '.클래스이름'으로 tag 'span' 선택, 위 코드와 동일한 결과
print(class_selector2)

[<span class="mw-headline" id="Overview">Overview</span>, <span class="mw-headline" id="History">History</span>, <span class="mw-headline" id="Lines_and_branches">Lines and branches</span>, <span class="mw-headline" id="Rolling_stock">Rolling stock</span>, <span class="mw-headline" id="Fares_and_ticketing">Fares and ticketing</span>, <span class="mw-headline" id="Current_construction">Current construction</span>, <span class="mw-headline" id="Opening_2020">Opening 2020</span>, <span class="mw-headline" id="Opening_2021">Opening 2021</span>, <span class="mw-headline" id="Opening_2022">Opening 2022</span>, <span class="mw-headline" id="Opening_2023">Opening 2023</span>, <span class="mw-headline" id="Tentative">Tentative</span>, <span class="mw-headline" id="Under_planning">Under planning</span>, <span class="mw-headline" id="Seoul_City">Seoul City</span>, <span class="mw-headline" id="Incheon_City">Incheon City</span>, <span class="mw-headline" id="Network_map">Network map</span>, <span 

# 구글 뉴스 클리핑하기
- 구글 뉴스에서 키워드 검색 결과 클리핑하기

## 키워드 검색 결과 수집

### url 가져오기

In [43]:
## 똑같은 코드 - BeautifulSoup 객체 만들기 ##
import requests
from bs4 import BeautifulSoup #자체 다운로드 기능X HTML과 XML을 분석해주는 라이브러리

base_url = "https://news.google.com/"

# 구글 뉴스 사이트에서 검색할 키워드 '2020년 삼성SDS 영업이익'을 입력하고 url을 받아온다
# https://news.google.com/search?q=2020%EB%85%84%20%EC%82%BC%EC%84%B1SDS%20%EC%98%81%EC%97%85%EC%9D%B4%EC%9D%B5&hl=ko&gl=KR&ceid=KR%3Ako
search_url = base_url + 'search?q=2020%EB%85%84%20%EC%82%BC%EC%84%B1SDS%20%EC%98%81%EC%97%85%EC%9D%B4%EC%9D%B5&hl=ko&gl=KR&ceid=KR%3Ako'

resp = requests.get(search_url)
html_src = resp.text
soup = BeautifulSoup(html_src,'html.parser') # 파싱

### 키워드를 url변환
- 인코딩과 디코딩

In [61]:
# 인코딩과 디코딩
# encoding  : str --> bytes(웹에서 사용하는 코드)
mystr = '2020년 삼성SDS 영업이익'
encoded = mystr.encode('utf-8')
print(encoded,type(encoded))

# decoding : bytes --> str
decoded = encoded.decode('utf-8')
print(decoded,type(decoded))

b'2020\xeb\x85\x84 \xec\x82\xbc\xec\x84\xb1SDS \xec\x98\x81\xec\x97\x85\xec\x9d\xb4\xec\x9d\xb5' <class 'bytes'>
2020년 삼성SDS 영업이익 <class 'str'>


### 클래스로 내용 수집하기

In [83]:
news_items = soup.select('div[class="xrnccd"]')
print(len(news_items))
print(news_items) #뉴스 1개 소스 전체를 가져옴 #이같은 뉴스 소스가 100개 있는 것

100
[<div class="xrnccd"><article class="MQsxIb xTewfe R7GTQ keNKEd j7vNaf Cc0Z5d EjqUne" data-kind="13" data-n-cvid="i5" data-n-et="107" data-n-ham="true" data-n-vlb="0" jsaction=";rcuQ6b:npT2md; click:KjsqPd;EXlHgb:HQ4Dqd" jscontroller="mhFxVb" jsdata="oM6qxc;CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA;4" jslog="85008" jsmodel="QWGJif hT8rr"><a aria-hidden="true" class="VDXfz" href="./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&amp;gl=KR&amp;ceid=KR%3Ako" jslog="95014; 5:W251bGwsbnVsbCxudWxsLG51bGwsbnVsbCxudWxsLG51bGwsbnVsbCwiaHR0cDovL3d3dy5hc2VhbmV4cHJlc3MuY28ua3IvbmV3cy9hcnRpY2xlLmh0bWw_bm9cdTAwM2Q0NzExIl0=; track:click" jsname="hXwDdf" tabindex="-1" target="_blank"></a><h3 class="ipQwMb ekueJc RD0gLb"><a class="DY5T1d" href="./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&amp;gl=KR&amp;ceid=KR%3Ako">삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매

- 100개의 구글 뉴스 수집

### 뉴스 url 링크 수집
- select는 깊이있게 키워드의 순위, 위치 등을 찾기 좋고
- find는 간편하게 찾고 싶은 항목만 찾기에 좋다

**url 링크 수집에 필요한 소스코드**
- `<a class="VDXfz" jsname="hXwDdf" jslog="95014;...`

In [45]:
for item in news_items[:3]: # 3회 반복
    # find의 attrs에서 class로 부여할 인자 찾기
    #링크를 한개만 잧으므로 find_all이 아닌 find
    # 검색 결과창의 페이지소스를 보고 <a class='---'을 찾는다 # 해당 링크에서는 VDXfz
    link = item.find('a',attrs={'class':'VDXfz'}).get('href') # href에 대한 내용 찾기
    
    news_link = base_url+link
    print(news_link)

https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&gl=KR&ceid=KR%3Ako
https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuY2Vvc2NvcmVkYWlseS5jb20vbmV3cy9hcnRpY2xlLmh0bWw_bm89NzI3MDPSAQA?hl=ko&gl=KR&ceid=KR%3Ako
https://news.google.com/./articles/CBMiO2h0dHA6Ly9uZXdzLmJpendhdGNoLmNvLmtyL2FydGljbGUvaW5kdXN0cnkvMjAyMC8wOC8xOS8wMDA10gEA?hl=ko&gl=KR&ceid=KR%3Ako


In [46]:
### select 사용할 경우
for item in news_items[:3]:
    link = item.select('a.VDXfz')
    link = link[0].get('href')
    news_link = base_url + link
    print(news_link)

https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&gl=KR&ceid=KR%3Ako
https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuY2Vvc2NvcmVkYWlseS5jb20vbmV3cy9hcnRpY2xlLmh0bWw_bm89NzI3MDPSAQA?hl=ko&gl=KR&ceid=KR%3Ako
https://news.google.com/./articles/CBMiO2h0dHA6Ly9uZXdzLmJpendhdGNoLmNvLmtyL2FydGljbGUvaW5kdXN0cnkvMjAyMC8wOC8xOS8wMDA10gEA?hl=ko&gl=KR&ceid=KR%3Ako


### 뉴스 제목 수집

In [47]:
# title
# 태그 h3
# class DY5T1d
# <h3 class="ipQwMb ekueJc RD0gLb"><a href="./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&amp;gl=KR&amp;ceid=KR%3Ako" class="DY5T1d">삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매출 견인'</a></h3>

for item in news_items[:3]:
    # 제목 수집
    news_title = item.find('a',attrs={'class':'DY5T1d'}).getText()
    print(news_title)

삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매출 견인'
CEO스코어데일리
[워치전망대]코로나에도 삼성은 햇볕 '쨍'


In [48]:
## 제목과 링크 함께 ##
for item in news_items[:3]:
    # 링크 수집
    link = item.find('a',attrs={'class':'VDXfz'}).get('href') # href에 대한 내용 찾기
    news_link = base_url+link
    print(news_link)
    
    # 제목 수집
    news_title = item.find('a',attrs={'class':'DY5T1d'}).getText()
    print(news_title)

https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&gl=KR&ceid=KR%3Ako
삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매출 견인'
https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuY2Vvc2NvcmVkYWlseS5jb20vbmV3cy9hcnRpY2xlLmh0bWw_bm89NzI3MDPSAQA?hl=ko&gl=KR&ceid=KR%3Ako
CEO스코어데일리
https://news.google.com/./articles/CBMiO2h0dHA6Ly9uZXdzLmJpendhdGNoLmNvLmtyL2FydGljbGUvaW5kdXN0cnkvMjAyMC8wOC8xOS8wMDA10gEA?hl=ko&gl=KR&ceid=KR%3Ako
[워치전망대]코로나에도 삼성은 햇볕 '쨍'


### 뉴스 내용 content 찾기

In [49]:
# title 밑에 span 아래
# <span class="xBbh9">
#삼성SDS가 2분기 매출액이 2조 5666억...</span>

for item in news_items[:3]:
    news_content = item.find('span',attrs={'class':'xBbh9'}).text
    print(news_content) # 요약된 뉴스

삼성SDS가 2분기 매출액이 2조 5666억 원, 영업이익 1967억 원을 달성했다고 잠정실적 공시를 통해 밝혔다. 전 세계가 신종 코로나바이러스 감염증(코로나19)으로 ...
삼성SDS 자회사 시큐아이(대표 최환진)의 영업이익률이 1%대 아래로 떨어지며 수익성이 악화하고 있다. 동시에 유·무형 자산 취득액도 지난해보다 줄어든 것으로 ...
지난 2분기 삼성그룹 계열사들은 극과 극의 날씨를 보였습니다. '반도체'를 방패로 둔 삼성전자는 비온 뒤에 땅이 굳는 듯 코로나19(신종 코로나바이러스 감염증)라는 ...


In [50]:
## 제목과 링크 , 요약된 내용 ##
for item in news_items[:3]:
    # 링크 수집
    link = item.find('a',attrs={'class':'VDXfz'}).get('href') # href에 대한 내용 찾기
    news_link = base_url+link
    print(news_link)
    
    # 제목 수집
    news_title = item.find('a',attrs={'class':'DY5T1d'}).getText()
    print(news_title)
    
    # 내용 수집
    news_content = item.find('span',attrs={'class':'xBbh9'}).text
    print(news_content) # 요약된 뉴스

https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&gl=KR&ceid=KR%3Ako
삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매출 견인'
삼성SDS가 2분기 매출액이 2조 5666억 원, 영업이익 1967억 원을 달성했다고 잠정실적 공시를 통해 밝혔다. 전 세계가 신종 코로나바이러스 감염증(코로나19)으로 ...
https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuY2Vvc2NvcmVkYWlseS5jb20vbmV3cy9hcnRpY2xlLmh0bWw_bm89NzI3MDPSAQA?hl=ko&gl=KR&ceid=KR%3Ako
CEO스코어데일리
삼성SDS 자회사 시큐아이(대표 최환진)의 영업이익률이 1%대 아래로 떨어지며 수익성이 악화하고 있다. 동시에 유·무형 자산 취득액도 지난해보다 줄어든 것으로 ...
https://news.google.com/./articles/CBMiO2h0dHA6Ly9uZXdzLmJpendhdGNoLmNvLmtyL2FydGljbGUvaW5kdXN0cnkvMjAyMC8wOC8xOS8wMDA10gEA?hl=ko&gl=KR&ceid=KR%3Ako
[워치전망대]코로나에도 삼성은 햇볕 '쨍'
지난 2분기 삼성그룹 계열사들은 극과 극의 날씨를 보였습니다. '반도체'를 방패로 둔 삼성전자는 비온 뒤에 땅이 굳는 듯 코로나19(신종 코로나바이러스 감염증)라는 ...


### 뉴스 출처 agency 찾기

`<a class="wEwyrc AVN2gc uQIVzc Sksgp">아세안익스프레스</a>`

In [52]:
for item in news_items[:3]:
    news_agency = item.find('a',attrs={'class':'wEwyrc AVN2gc uQIVzc Sksgp'}).getText()
    print(news_agency)

아세안익스프레스
ceo스코어데일리
비즈니스워치


### 뉴스 업로드 시간 찾기

`<time class="WW6dff uQIVzc Sksgp" datetime="2020-08-07T07:00:00Z">8월 7일</time>`

In [57]:
for item in news_items[:3]:
    news_reporting = item.find('time',attrs={'class':'WW6dff uQIVzc Sksgp'})
    news_reporting_datetime = news_reporting.get('datetime').split('T')
    news_reporting_date = news_reporting_datetime[0]      #날짜
    news_reporting_time = news_reporting_datetime[1][:-1] #시간
    print(f'날짜:{news_reporting_date}|시간:{news_reporting_time}')

날짜:2020-08-07|시간:07:00:00
날짜:2020-08-31|시간:22:00:09
날짜:2020-08-20|시간:07:00:00


## 구글 뉴스 클리핑 모듈 만들기

In [80]:
import requests
from bs4 import BeautifulSoup
import urllib


def google_news_cliping(n): #keyword 검색 키워드, n 추출할 기사 개수
    keyword = input('검색할 키워드를 입력해주세요: ')
    
    # Base url 생성
    base_url = "https://news.google.com/"

    # search_url 생성
    search_url = base_url + 'search?q='+ urllib.parse.quote(keyword) +'&hl=ko&gl=KR&ceid=KR%3Ako'
    print(search_url)
    
    # resp. 객체 생성->html 파싱
    resp = requests.get(search_url)
    html_src = resp.text
    soup = BeautifulSoup(html_src,'html.parser') # 파싱
    
    # 기사 items 생성
    news_items = soup.select('div[class="xrnccd"]')
    
    # 제목, 링크, 요약 내용, 출처, 업로드 날짜 및 시간
    titles = []; links = []; contents = []; agencys = []; dates = []; times = []
    
    # n개까지 
    for item in news_items[:n]:
        # 링크 수집
        link = item.find('a',attrs={'class':'VDXfz'}).get('href')
        news_link = base_url+link
        links.append(news_link)
    
        # 제목 수집
        news_title = item.find('a',attrs={'class':'DY5T1d'}).getText()
        titles.append(news_title)
    
        # 내용 수집
        news_content = item.find('span',attrs={'class':'xBbh9'}).text
        contents.append(news_content)
        
        # 출처 수집
        news_agency = item.find('a',attrs={'class':'wEwyrc AVN2gc uQIVzc Sksgp'}).getText()
        agencys.append(news_agency)
        
        # 날짜 및 시간 수집
        news_reporting = item.find('time',attrs={'class':'WW6dff uQIVzc Sksgp'})
        news_reporting_datetime = news_reporting.get('datetime').split('T')
    
        news_reporting_date = news_reporting_datetime[0]      #날짜
        news_reporting_time = news_reporting_datetime[1][:-1] #시간
        dates.append(news_reporting_date)
        times.append(news_reporting_time)
        
    return {'title':titles,'link':links,'content':contents,'agency':agencys,'date':dates,'time':times}

In [81]:
google_news_cliping(3)

검색할 키워드를 입력해주세요: 2020년 삼성SDS 영업이익
https://news.google.com/search?q=2020%EB%85%84%20%EC%82%BC%EC%84%B1SDS%20%EC%98%81%EC%97%85%EC%9D%B4%EC%9D%B5&hl=ko&gl=KR&ceid=KR%3Ako


{'title': ["삼성SDS 2분기 매출액 2조 5666억원, 'IT 전략사업이 매출 견인'",
  'CEO스코어데일리',
  "[워치전망대]코로나에도 삼성은 햇볕 '쨍'"],
 'link': ['https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuYXNlYW5leHByZXNzLmNvLmtyL25ld3MvYXJ0aWNsZS5odG1sP25vPTQ3MTHSAQA?hl=ko&gl=KR&ceid=KR%3Ako',
  'https://news.google.com/./articles/CBMiN2h0dHA6Ly93d3cuY2Vvc2NvcmVkYWlseS5jb20vbmV3cy9hcnRpY2xlLmh0bWw_bm89NzI3MDPSAQA?hl=ko&gl=KR&ceid=KR%3Ako',
  'https://news.google.com/./articles/CBMiO2h0dHA6Ly9uZXdzLmJpendhdGNoLmNvLmtyL2FydGljbGUvaW5kdXN0cnkvMjAyMC8wOC8xOS8wMDA10gEA?hl=ko&gl=KR&ceid=KR%3Ako'],
 'content': ['삼성SDS가 2분기 매출액이 2조 5666억 원, 영업이익 1967억 원을 달성했다고 잠정실적 공시를 통해 밝혔다. 전 세계가 신종 코로나바이러스 감염증(코로나19)으로 ...',
  '삼성SDS 자회사 시큐아이(대표 최환진)의 영업이익률이 1%대 아래로 떨어지며 수익성이 악화하고 있다. 동시에 유·무형 자산 취득액도 지난해보다 줄어든 것으로 ...',
  "지난 2분기 삼성그룹 계열사들은 극과 극의 날씨를 보였습니다. '반도체'를 방패로 둔 삼성전자는 비온 뒤에 땅이 굳는 듯 코로나19(신종 코로나바이러스 감염증)라는 ..."],
 'agency': ['아세안익스프레스', 'ceo스코어데일리', '비즈니스워치'],
 'date': ['2020-08-07', '2020-08-31', '2020-08-20'],
 'time': ['07:00:00', 