# **데이터 크롤링**

## **1. 크롤링이란?**
    크롤러(crawler)는 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램

    '웹 크롤링'(web crawling)??
    
    '데이터 크롤링'(data crawling)!!

    우리는 매일 크롤러도 사용하고 있습니다.

## **2. 웹 크롤링**
    웹 서비스 내 정보를 수집하는 일
    
    필요한 정보가 있다면?
    API 확인 -> 없으면 직접 크롤링
    
    다만 서비스 제공자의 입장에서는??

### 웹 서핑을 하는 의식의 흐름
    브라우저 오픈
    원하는 인터넷페이지 주소 입력
    화면이 열리면 찾고자 하는 정보를 스크롤 하면서 찾기
    문자, 그림, 동영상 조회

### 웹 크롤링 하는 의식의 흐름
    정보를 가져오고자 하는 url 정의
    url 정보로 requests로 정보 요청
    text 정보를 html로 변환
    html에서 우리가 필요한 정보만 선별

### 웹 크롤링을 위해 BeautifulSoup 사용
    requests는 요청을 받기는 하지만 text로만 받음
    API는 통신을 위해 정형화 된 데이터 형태의 text
    우리가 원하는 데이터로 가공하기 위해 편의상 html로 변환
    text를 html로 변환하는 모듈이 beautifulSoup

In [1]:
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup

### 간단한 데이터 크롤링으로 기본 개념잡기

In [5]:
import requests
from bs4 import BeautifulSoup

url = 'https://naver.com'

response = requests.get(url)    

html = BeautifulSoup(response.text, "html.parser")

html.select('span')[0:10]

[<span>뉴스스탠드 바로가기</span>,
 <span>주제별캐스트 바로가기</span>,
 <span>타임스퀘어 바로가기</span>,
 <span>쇼핑캐스트 바로가기</span>,
 <span>로그인 바로가기</span>,
 <span class="blind">NAVER whale</span>,
 <span class="_1syGnXOL _18YOHi7v _3jtl_dKE _3di88A4c" data-clk="dropbanner1b" style="padding-right: 10px; padding-left: 12px;">
 <span>여러분의 눈은 소중하니까, </span><strong>웹 페이지까지 다크하게!</strong></span>,
 <span>여러분의 눈은 소중하니까, </span>,
 <span style="background-color: #875af1;">다운로드</span>,
 <span class="blind">쥬니어네이버</span>]

### 실제 개발자가 작성한 코드로 확인된다
    정제되지 않은 데이터로 가독성이 좋지 않음
    우리는 이 중에서 우리가 원하는 정보를 선별해서 가져오는 작업을 진행합니다.
    그러기에 html의 기본 구성을 살펴보도록 하겠습니다.

#### 웹 페이지의 구성
    HTML(Hyper Text Markup Language)
    www 를 구성하는데 사용하는 국제표준 언어로서 컨텐츠와 레이아웃을 담고 있다

    <태그>내용</태그>
    <tag이름 class="class이름1 class이름2" id="주민번호" href="주소"></tag이름>

    형태나 속성을 묘사하기 위한 구조적 언어 : HTML, CSS (계층이 있음)
    웹의 작동 및 제어를 위한 프로그래밍 언어 :  Js

#### 셀렉터
    용도 : html에서 내가 원하는 내용을 찾아내기 위해서
    <span class="news" id="1234">비비고 왕교자</span>

    단일 셀렉터
    
    html.select('span')
    tag : span
    class(별명, 그룹명) : .news
    id(고유값) : #1234

#### 복합 셀렉터
    1. 조합 셀렉터
    <span>1</span>
    <span class="txt">2</span>
    <em class="txt">3</em>
    
    태그 이름이 span이고 클래스 이름은 txt인 라인을 찾고 싶다. : span.txt 
    li 태그 중에서 id가 name 인 라인을 찾고\ 싶다. : li#name

    2. 경로 셀렉터
    <ul>
        <li><span>이걸 찾으려면?</span></li>
    </ul>
    <span>이건 아님</span>

    ul 태그안 li 태그 안 span 라인을 찾는다
    ul > li > span 혹은 ul li span

In [17]:
import requests
from bs4 import BeautifulSoup
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%A1%9C%EB%98%90'
response = requests.get(url).text
html = BeautifulSoup(response, 'html.parser')
for num in html.select('span.num')[:6]:
    print(num.text)

13
18
30
31
38
41


In [39]:
import requests
from bs4 import BeautifulSoup
lotto_list = []
for i in range(1, 50):
    lotto=[]
    url = f'https://search.daum.net/search?w=tot&DA=LOT&rtmaxcoll=LOT&&q={i}회차%로또'
    response = requests.get(url).text
#     if response.status_code == requests.codes.ok:
    html = BeautifulSoup(response, 'html.parser')
    for num in html.select('span.ball')[:6]:
        lotto.append(num.text)
    print(lotto)

['10', '23', '29', '33', '37', '40']
['9', '13', '21', '25', '32', '42']
['11', '16', '19', '21', '27', '31']
['14', '27', '30', '31', '40', '42']
['16', '24', '29', '40', '41', '42']
['14', '15', '26', '27', '40', '42']
['2', '9', '16', '25', '26', '40']
['8', '19', '25', '34', '37', '39']
['2', '4', '16', '17', '36', '39']
['9', '25', '30', '33', '41', '44']
['1', '7', '36', '37', '41', '42']
['2', '11', '21', '25', '39', '45']
['22', '23', '25', '37', '38', '42']
['2', '6', '12', '31', '33', '40']
['3', '4', '16', '30', '31', '37']
['6', '7', '24', '37', '38', '40']
['3', '4', '9', '17', '32', '37']
['3', '12', '13', '19', '32', '35']
['6', '30', '38', '39', '40', '43']
['10', '14', '18', '20', '23', '30']
['6', '12', '17', '18', '31', '32']
['4', '5', '6', '8', '17', '39']
['5', '13', '17', '18', '33', '42']
['7', '8', '27', '29', '36', '43']
['2', '4', '21', '26', '43', '44']
['4', '5', '7', '18', '20', '25']
['1', '20', '26', '28', '37', '43']
['9', '18', '23', '25', '35', '37']


In [41]:
#response.status_code

#200 정상
#300 이동
#400 오류
#500 서버문제

In [None]:
# 네이버 검색어를 입력하고 나오는 결과값의 view 페이지에 접근해서 블로그 제목가져오기

import requests
from bs4 import BeautifulSoup

input_data = input()
url = f'https://search.naver.com/search.naver?where=view&sm=top_hty&fbm=1&ie=utf8&query={input_data}'
response = requests.get(url).text
html = BeautifulSoup(response, 'html.parser')
titles = html.select('a.api_txt_lines')
# for i in html.select('total_tit'):
#     print(i.text)


In [None]:
import requests
from bs4 import BeautifulSoup

input_data = input()
url = f'https://search.naver.com/search.naver?where=view&sm=top_hty&fbm=1&ie=utf8&query={input_data}'
response = requests.get(url).text
html = BeautifulSoup(response, 'html.parser')
titles = html.select('a.api_txt_lines')

In [None]:
for title in titles:
    print(title.text, title.attrs['href'])

    가져온 데이터에 접근을 하는 방식 자체는 판다스 색인처럼 결과값을 확인하며 진행하는 것이 가장 좋습니다.

## **3. 네이버 키워드로 검색한 결과를 크롤링**

In [6]:
import requests
from bs4 import BeautifulSoup

keyword = ''
url = ''

response = requests.get(url)
    
html = BeautifulSoup(response.text, "html.parser")
blog_titles = html.select('')

MissingSchema: Invalid URL '': No schema supplied. Perhaps you meant http://?

## **4. 동적페이지 크롤링**
    최근에는 Js로 변경이 되며 일반적인 크롤링이 되지 않는 경우가 많음
    동적페이지와 숨겨진 url을 가져오는 방법을 알아봅니다

### 네이버 데이터랩 인기검색어 크롤링

In [None]:
# 카테고리 데이터 가져오기
url = ''
data = requests.get(url)
html = BeautifulSoup(data.text, 'html.parser')
items = html.select('')
menu_item = []
for item in items[:11]:
    a = item.select_one('a')
    menu_item.append([a.attrs['data-cid'], a.text])

In [None]:
import requests
import urllib
# 동적페이지 크롤링
url = ''
info = {
    'Referer':'https://datalab.naver.com',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}
data = requests.get(url, headers=info)
json_data = json.loads(data.text)

for daily_ranks in json_data:
    daily_data = []
    daily_data.append(daily_ranks['date'])
    for rank in daily_ranks['ranks']:
        daily_data.append(rank['keyword'])
        
    print(daily_data)

In [None]:
import json

### 네이버 주식 시세데이터 크롤링