## 웹 스크래핑?
- **특정 웹페이지**에서 필요한 정보를 추출하는 프로세스
> ex.웹 페이지에서 제품의 가격, 리뷰, 이미지 등의 정보를 수집하는 것

### Requests Library
- HTTP 요청을 보낼 때 사용되는 라이브러리

In [172]:
import requests as req

In [173]:
import pandas as pd

pd.__version__

'2.2.2'

### 스크래핑 단계
1. 요청
2. 파싱 > 요소를 지정하기 위해 분할하는 작업
3. 지정 및 추출
4. 저장

In [175]:
#1. 요청
url = "https://news.naver.com/"

res = req.get(url)
res
# 200번대: 통신에 성공! > 요청을 하였고, 응답을 받았다.
# 400번대: Bad Requests, 사용자(CT)가 잘못했거나 만료된 페이지(없는 페이지)
# 500번대: 일반적으로 서버 축의 오류(ex.서버가 다운됨)

<Response [200]>

In [176]:
# 일부러 틀려보기!
req.get("https://news.naver.com/ddd")

<Response [404]>

In [177]:
#2. 파싱 : 지정이 가능토록, 비정형화 되어있는 문자열을 html 코드(객체)로 인식될 수 있게 쪼개주는 과정
from bs4 import BeautifulSoup as bs # 파싱하는 도구(문서 자체를 트리구조로 만들어서 특정태그를 쉽게 찾을 수 있도록 하는 도구)

# bs("문자열", "파싱방법") > 파싱방법: "Lxml"
soup = bs(res.text, 'lxml')

In [178]:
type(soup)

bs4.BeautifulSoup

In [179]:
#3. 지정, 추출
top_titles = soup.select("ul > li > a > span")
# soup.select(".Nitem_link_menu") # html 지정방식 편한걸로
top_titles

# 1) select("선택자 경로") : 다중요소 지정
# 2) select_one("선택자 경로") : 단일 요소 지정

[<span class="Nitem_link_menu">언론사별</span>,
 <span class="Nitem_link_menu">정치</span>,
 <span class="Nitem_link_menu">경제</span>,
 <span class="Nitem_link_menu">사회</span>,
 <span class="Nitem_link_menu">생활/문화</span>,
 <span class="Nitem_link_menu">IT/과학</span>,
 <span class="Nitem_link_menu">세계</span>,
 <span class="Nitem_link_menu">랭킹</span>,
 <span class="Nitem_link_menu">신문보기</span>,
 <span class="Nitem_link_menu">오피니언</span>,
 <span class="Nitem_link_menu">TV</span>,
 <span class="Nitem_link_menu">팩트체크</span>,
 <span class="Nitem_link_menu">알고리즘 안내</span>,
 <span class="Nitem_link_menu">정정보도 모음</span>]

- 선택자 지정법

| 종류 | 설명 | 예시 |
|---|---|---|
| 요소 선택자 | HTML 요소를 직접 선택 | `h1 { color: red; }` |
| 클래스 선택자 | HTML에서 클래스를 통해 선택 | `.classname { color: blue; }` |
| 아이디 선택자 | HTML에서 아이디를 통해 선택 | `#idname { color: green; }` |
| 전체 선택자 | 페이지의 모든 요소를 선택 | `* { margin: 0; padding: 0; }` |
| 자손 선택자 | 특정 요소의 자손을 선택 | `div p { color: orange; }` |
| 자식 선택자 | 특정 요소의 직접적인 자식만 선택 | `div > p { color: pink; }` |
| 인접 형제 선택자 | 특정 요소의 바로 다음 형제만 선택 | `h1 + h2 { color: purple; }` |
| 일반 형제 선택자 | 특정 요소의 모든 다음 형제들을 선택 | `h1 ~ h2 { color: brown; }` |
| 속성 선택자 | 특정 속성을 가진 요소를 선택 | `input[type="text"] { color: gray; }` |
| 의사 클래스 선택자 | 특정 상태에 있는 요소를 선택 (ex. hover, active 등) | `a:hover { color: teal; }` |
| 의사 요소 선택자 | 요소의 특정 부분을 선택 (ex. ::before, ::after) | `p::first-letter { font-size: 2em; }` |

In [181]:
# 추출
top_titles[0].text

'언론사별'

```Python
news_cate = []
for title in top_titles:
    news_cate.append(title.text)   

In [183]:
# 리스트 컴프리헨션 (리스트 내포, Coprehension) 위의 반복문과 같음
news_cate = [title.text for title in top_titles]
news_cate

['언론사별',
 '정치',
 '경제',
 '사회',
 '생활/문화',
 'IT/과학',
 '세계',
 '랭킹',
 '신문보기',
 '오피니언',
 'TV',
 '팩트체크',
 '알고리즘 안내',
 '정정보도 모음']

In [184]:
#4. 저장 (생략)

### 실습! 뉴스 타이틀 수집!
- Naver에서 query(사용자 입력값) 검색 후, 나오는 뉴스 제목 수집

In [186]:
serch = input("검색 : ")
url2 = f"https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={serch}"
res2 = req.get(url2)
soup2 = bs(res2.text, 'lxml')
top_titles1 = soup2.select(".news_tit")
news_cate2 = [title.text for title in top_titles1]
news_cate2

검색 :  지드래곤


["지드래곤·영탁·스키즈...KM차트, '2024 시즌베스트 윈터' 후보 공개",
 '김태균, 복권 당첨기회 놓쳤다 "지드래곤 꿈에 나왔는데…" (\'컬투쇼\')',
 '[디시트렌드] 지드래곤, 독보적 1위 지켜…지코와 비오의 추격은 계속된...',
 '[뮤지션100데일리] 임영웅 종합 1위·이예은 급등 1위…지드래곤 멜론 등...',
 '방탄소년단·블랙핑크·지드래곤, ‘레전드판’ 열린다[신년기획]',
 '명세빈, 지드래곤 픽 잠옷 입고 온몸이 삐그덕 “정신차려”',
 '지드래곤, 무안공항 참사 희생자 애도…흑백 데이지꽃',
 '트와이스-지드래곤-지민, 12월 4주차 벅스 페이버릿 투표 1위 [Favorite]',
 '[디시트렌드] 지드래곤, 랩·힙합 인기투표 1위… 지코·비오 선두 다툼...',
 "임영웅 '묵념'·지드래곤 '국화꽃'·김장훈 '공연취소'…제주항공 참사..."]

In [230]:
# 1. 요청
search_k = input("검색어를 입력해주세요 >> ")

url3 = f"https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={search_k}"

res3 = req.get(url3)

# 2. 파싱
soup3 = bs(res3.text,'lxml')

# 3. 지정, 추출
news_titles3 = soup3.select("a.news_tit")

content = [title.text for title in news_titles3]

content

검색어를 입력해주세요 >>  기아타이거즈


['창사 이래 최대 실적… 기아, 2024년 308만대 팔았다',
 '기아 타이거즈 선수단, 제주항공 합동분향소 찾아…80여명 단체 조문',
 '김병현 "더 잘해주지 못해 미안"...KIA 타이거즈 지인 가족 추모',
 "기아타이거즈, '명가의 품격'으로 우승 왕조 새 역사 쓴다",
 'KIA 타이거즈 이범호 감독·양현종 등 합동분향소 조문',
 '최연소 3살 희생자 아빠, KIA타이거즈 직원이었다…“기적 바랐지만”',
 '김병현, 여객기 참사에 희생된 기아타이거즈 소속 지인 애도',
 '"3세 아들 여권에 첫 도장 쾅"…\'기아 우승\' 축하 여행 일가족 참변',
 '[제주항공 무안참사] “아들 첫 여권에 첫 도장” 기아 우승 기념 일가...',
 '"첫 해외여행 3세 아들…잘 놀아줘 행복" 故기아타이거즈 팀장 SNS에 애...']