# 네이버증권 뉴스 제목과 URL 수집하기

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
PATH = 'https://finance.naver.com/'
resp = requests.get(PATH)

In [None]:
resp # requests 응답 정보 객체

In [None]:
resp?

In [None]:
# resp.text

In [None]:
src = resp.text

In [None]:
soup = BeautifulSoup(src, 'lxml')
print(soup)

In [None]:
# 뉴스 목록 찾기

In [None]:
srclist = soup.select('.section_strategy a')
srclist

In [None]:
srclist = soup.select('.news_area a')
print(type(srclist))

In [None]:
print(len(srclist)) # '주요뉴스 더보기'가 포함되어있음
print(srclist)

In [None]:
srclist = soup.select('.section_strategy ul a')
print(len(srclist))
print(srclist)

In [None]:
sample = srclist[0]
sample?

In [None]:
print(sample)

In [None]:
sample.text

In [None]:
sample['href']

## 상대 URL을 절대 URL로 변환하기

In [None]:
href = sample['href']
PATH + href # //가 중복되는 문제처럼 생각보다 합치는게 번거로울 때가 있음

In [None]:
from urllib.parse import urljoin

In [None]:
urljoin(PATH, href)

In [None]:
news_title = []
news_url = []

for src in srclist:
    title = src.text
    url = src['href']
    url_ = urljoin(PATH, href)
    news_title.append(title)
    news_url.append(url_)
    
print(news_title)
print(news_url)

## 데이터프레임 변환 - pandas

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame({'제목': news_title, '주소':news_url})
df

In [None]:
print(df)

### 엑셀로 파일 저장

In [None]:
df.to_excel('naver.xlsx', index=False) # 왼쪽에 자동으로 붙는 인덱스 삭제

### 파일명에 저장날짜 추가

In [None]:
import time
today = time.localtime()
today

In [None]:
df.to_excel(f"{today.tm_year}{today.tm_mon}{today.tm_mday}_naver.xlsx", index=False)

In [None]:
df.to_excel(f"{today.tm_year}-{today.tm_mon}-{today.tm_mday}_naver.xlsx", index=False)

# 요청정보 header 수정
사이트에따라 헤더 정보를 요구하는 경우도 있음

## 멜론 차트, 노래제목과 가수 수집하기

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
PATH = 'https://www.melon.com/chart/index.htm'
resp = requests.get(PATH)
resp

In [None]:
html_src = resp.text
html_src

In [None]:
# header 정보 알려주기. user-agent 확인하기
info = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}
info

In [None]:
resp = requests.get(PATH, headers = info)
resp

In [None]:
html_src = resp.text
soup = BeautifulSoup(html_src, 'lxml')
soup

In [None]:
len(soup.select('.ellipsis.rank01 a'))

In [None]:
song = [item.text for item in soup.select('.ellipsis.rank01 a')]
song

In [None]:
len(soup.select('.ellipsis.rank02 a'))
# 왜 100개가 아닌 218개가 나올까? 중복되는 것들이 있음!
artist = []
for item in soup.select('.ellipsis.rank02 a'):
    artist.append(item.text)
print(artist)

In [None]:
name = [item.text for item in soup.select('.ellipsis.rank02>a')]
len(name)

In [None]:
artist = []
for item in soup.select('.checkEllipsis'):
    artist.append(item.text)
print(len(artist))
print(artist)

In [None]:
rank_list = list(range(1, 101))

In [None]:
songDF = pd.DataFrame({
    '순위': rank_list,
    '노래제목': song,
    '가수명': artist
})
songDF

In [None]:
songDF.to_excel('melonchart100.xlsx', index=False)

# parameter 처리하기
https://resttesttest.com//

In [None]:
import requests
param = {'name':'Amy', 'age':20, 'address':'Seould'}

## GET 방식

In [None]:
# 요청 정보(파라미터)가 인자에 포함되어 있다.
resp1 = requests.get('http://httpbin.org/get', params=param)
print(resp1)
print(resp1.text)

## POST 방식

In [None]:
# 요청 정보(파라미터)가 인자에 없고, form에 숨겨져있다.(예시라서 보이는 것)
resp2 = requests.post('http://httpbin.org/post', data=param)
print(resp2.text)

## [GET]네이버 검색결과 수집하기

In [None]:
PATH = 'https://search.naver.com/search.naver'

In [None]:
keyword = input('검색어 입력: ')

In [None]:
resp = requests.get(PATH, params = {'query': keyword})
resp

In [None]:
html_src = resp.text
html_src

In [None]:
soup = BeautifulSoup(html_src, 'lxml')
soup

In [None]:
# 뉴스 타이틀 가져오기
result = soup.select('.news_tit')
result

In [None]:
title = [item.text for item in result]
title

# requests의 한계
요소 클릭해서 검색하는 등의 동적 페이지에는 작동하지 않는다

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
response = requests.get('https://korean.visitkorea.or.kr/')
html_src = response.text

In [None]:
soup = BeautifulSoup(html_src, 'html.parser')

In [None]:
soup.select('#inp_search') # 동적페이지에서 불가, 반드시 액션(click등)이 있어야함
