# 웹 크롤링(Web Crawling)

## 1. melon 사이트 정보 요청
- 다른 사이트와 달리 보안이 높아  headers에 User-Agent를 사용해야 하는 구조

In [None]:
import requests as req

## Requets 라이브러리 (정적 크롤링)
- python으로 접근할 웹 페이지의 HTML 요소들을 요청할 때 사용되는 라이브러리
- 요청하고 응답 받으면 역할이 끝나며, 브라우저의 역할을 대신해줌 
- **get()** : 웹 상에서 가져올 정보를 요청
- 표준화된 통신규약 활용
- <p style="color:red;">header</p> : 일부 보안 수준이 높은 것은 브라우저 접속만 허용함. 근데 requests로 접근할 때는 불분명한 사람으로 접속되기 때문에, 브라우저로 접속할 수 있도록 header설정을 걸어줌
- User-Agent: 클라이언트의 소프트웨어 환경에 대한 정보




### 반환 결과
- Response [200] : 데이터 통신이 가능, 단 내용물 포함 여부는 모름
- Response [400] : 클라이언트의 잘못된 요청
- Response [500] : 서버 응답 문제

### HTML코드를 텍스트로 불러오기
- .text

In [None]:
#headers가 없을 때 : 잘못된 요청
req.get('https://www.melon.com')

In [None]:
# User-Agent: 클라이언트의 소프트웨어 환경에 대한 정보
U_A = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/142.0.0.0 Safari/537.36"}

In [None]:
melon_res = req.get('https://www.melon.com',headers=U_A)
melon_res

In [None]:
#Requests 반환 결과 : HTML 코드를 문자열로 받아옴
melon_res.text

## BeautifulSoup : 파싱
- HTML코드 내 데이터에 접근할 수 있게 기능들을 제공해주는 라이브러리(정적 크롤링에 사용)
- beautifulsoup(requests 텍스트 데이터, 파서('lxml' 등))

### 파싱 후 원하는 요소와 요소 내 텍스트 뽑아오기 : select, text
- select, 혹은 select_one을 바탕으로 가져옴.
- select : 필요한 요소를 다수 검색해서 수집하며, 리스트로 반환
- select_one : 조건을 만족하는 데이터 중 첫번째 데이터만 가져옴

In [None]:
from bs4 import BeautifulSoup as bs

In [None]:
#문자열을 HTML 언어로 변환시키기
soup = bs(melon_res.text, 'lxml')
soup

In [None]:
#상단 탭 요소 가져오기
melon_tab = soup.select("span.menu_bg")
melon_tab

In [None]:
#요소 내 텍스트 추출
for i in melon_tab:
    print(i.text)

## 2. melon 상단 탭 데이터 추출하기

In [30]:
#1. 라이브러리 임포트
from bs4 import BeautifulSoup as bs
import requests as req

#2. HTML 코드 요청
melon_res = req.get("https://www.melon.com/", headers=U_A)

#3. 파싱
melon_soup = bs(melon_res.text, 'lxml')

#4. 원하는 요소 추출
melon_data = melon_soup.select("#util_menu span")

#5. 텍스트 추출
melon_data = [i.text for i in melon_data]
melon_data

['멜론티켓', '이용권구매', '멜론혜택', '이벤트', '공지사항']