# **데이터 크롤링**

## **크롤링이란?**
> 크롤러(crawler)는 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램  
'웹 크롤링'(web crawling)??  
'데이터 크롤링'(data crawling)!!  

우리는 매일 크롤러도 사용하고 있습니다.

## **웹 크롤링**
> 웹 서비스 내 정보를 수집하는 일

>> 필요한 정보가 있다면?  
API 확인 -> 없으면 직접 크롤링  
    
> 다만 서비스 제공자의 입장에서는??

### 웹 서핑을 하는 의식의 흐름
> - 브라우저 오픈  
- 원하는 인터넷페이지 주소 입력  
- 화면이 열리면 찾고자 하는 정보를 스크롤 하면서 찾기  
- 문자, 그림, 동영상 조회  

### 웹 크롤링 하는 의식의 흐름
> - 정보를 가져오고자 하는 url 정의
- url 정보로 requests로 정보 요청
- text 정보를 html로 변환
- html에서 우리가 필요한 정보만 선별

### 웹 크롤링을 위해 BeautifulSoup 사용
> - requests는 요청을 받기는 하지만 text로만 받음  
- API는 통신을 위해 정형화 된 데이터 형태의 text  
- 우리가 원하는 데이터로 가공하기 위해 편의상 html로 변환  
- text를 html로 변환하는 모듈이 beautifulSoup

### 간단한 데이터 크롤링으로 기본 개념잡기

In [1]:
# 필요패키지 import
import numpy as np
import pandas as pd
import requests # 크롤링에 사용하는 패키지
from bs4 import BeautifulSoup # html 변환에 사용함

# url정의
url = 'https://www.naver.com/'

# requsts로 url에 정보요청
response = requests.get(url).text

# 정보를 html 변환 (보기 쉽게)
html = BeautifulSoup(response, 'html.parser')

# html 내에서 우리가 보고 싶은 정보만 선별
# html.select('img')

### 실제 개발자가 작성한 코드로 확인된다
> 정제되지 않은 데이터로 가독성이 좋지 않음  
우리는 이 중에서 우리가 원하는 정보를 선별해서 가져오는 작업을 진행합니다.  
그러기에 html의 기본 구성을 살펴보도록 하겠습니다.  

#### 웹 페이지의 구성
> **HTML(Hyper Text Markup Language)**  
www 를 구성하는데 사용하는 국제표준 언어로서 컨텐츠와 레이아웃을 담고 있다

> **<태그>** 내용 **</태그>**  
<tag이름 class="class이름1 class이름2" id="주민번호" href="주소"></tag이름>

> 형태나 속성을 묘사하기 위한 구조적 언어 : HTML, CSS (계층이 있음)  
웹의 작동 및 제어를 위한 프로그래밍 언어 :  Js

#### 셀렉터
> 용도 : html에서 내가 원하는 내용을 찾아내기 위해서  
<span class="news" id="1234">비비고 왕교자</span>

>> 단일 셀렉터  
html.select('span')  
tag : span  
class(별명, 그룹명) : .news  
id(고유값) : #1234

#### 복합 셀렉터
    1. 조합 셀렉터
    <span>1</span>
    <span class="txt">2</span>
    <em class="txt">3</em>
    
    태그 이름이 span이고 클래스 이름은 txt인 라인을 찾고 싶다. : span.txt 
    li 태그 중에서 id가 name 인 라인을 찾고\ 싶다. : li#name

    2. 경로 셀렉터
    <ul>
        <li><span>이걸 찾으려면?</span></li>
    </ul>
    <span>이건 아님</span>

    ul 태그안 li 태그 안 span 라인을 찾는다
    ul > li > span 혹은 ul li span

In [3]:
# url 설정
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=로또'

In [4]:
# requests로 데이터 요청하기
response = requests.get(url).text

In [5]:
# html로 변환
html = BeautifulSoup(response, 'html.parser')

In [6]:
lotto_list = []
for num in html.select('span.num')[:6]:
    lotto_list.append(num.text)

In [7]:
lotto_list

['1', '21', '25', '29', '34', '37']

# 다음에서 로또번호 가져와 볼께요 몽땅 다 가져옵니다

In [8]:
import time

In [9]:
total_lotto_list = []
for i in range(1, 10):
    
    seed = np.random.randint(100)
    np.random.seed(seed)
    a = np.random.randint(5) # 난수가 생성 생성된 난수에 따라서 요청하는 시간 딜레이
    time.sleep(a)
    
    lotto = []
    url = f'https://search.daum.net/search?w=tot&DA=LOT&rtmaxcoll=LOT&&q={i}회차%20로또'
    response = requests.get(url)
    
    if response.status_code == requests.codes.ok:
        print('접속성공')
        
        html = BeautifulSoup(response.text, 'html.parser')
        numbers = html.select('span.ball')[:6]
        for num in numbers:
            lotto.append(num.text)
        total_lotto_list.append(lotto)
        
    else:
        break

접속성공
접속성공
접속성공
접속성공
접속성공
접속성공
접속성공
접속성공
접속성공


In [50]:
requests.codes.ok
# 100 우리 이런정보 내주는거야
# 200 성공
# 300 우리 이 사이트 이리루 이사했어 일루가
# 400 유저가 요청을 잘못한경우
# 500 서버 문제

200

In [None]:
# 차단막는 코드
seed = np.random.randint(100)
np.random.seed(seed)
a = np.random.randint(5)

## **네이버 키워드로 검색한 결과를 크롤링**

In [11]:
key_word = input('키워드를 입력하세요 :')
url = f'https://search.naver.com/search.naver?where=view&sm=tab_jum&query={key_word}'

response = requests.get(url)

if response.status_code == requests.codes.ok:
    print('접속성공')

html = BeautifulSoup(response.text, 'html.parser')

titles = html.select('a.api_txt_lines')
for title in titles:
    print(title.text, title.attrs['href'])

키워드를 입력하세요 :코로나
접속성공
코로나 확진자 장례식 문의요 https://cafe.naver.com/msbabys/4071356
코로나 19 폐렴 완치 이후에도 장기적인 후유증은 남는다 https://blog.naver.com/jjy0501/222370035633
코로나 백신 맞기는 맞아야 하는데....... https://blog.naver.com/yimin3181/222363474471
코로나 백신 부작용, 사망 등 피해보상 Q&A https://blog.naver.com/nemjun/222375264353
코로나19 예방접종 후 이상반응 피해보상 알고가세요! https://blog.naver.com/dodreamgj/222346563503
[약사엄마의 건강이야기] 코로나19 백신 접종 후, 해열진통제로 꼭 아세트아미노펜만 먹어야 할까?... https://blog.naver.com/happymedicalwriter/222380055494
수술전 코로나검사요~(보호자) https://cafe.naver.com/thyroidcancers/254894
코로나 백신 맞기 전에 꼭 확인하기, 아나필락시스 쇼크란? https://blog.naver.com/dkdkpad/222369959982
이제는 셀프 시대! 코로나19 자가진단 키트 사용방법과 주의사항 https://blog.naver.com/kescomiri/222360253995
코로나19 예방접종 절차 주의사항 노쇼 잔여백신예약 https://blog.naver.com/mdkmd/222372068057
코로나 백신과 피부과 약물처방 https://blog.naver.com/divadance/222385755319
코로나19 백신 : 얀센 백신의 효능과 부작용과 주의사항 https://blog.naver.com/jinguy1981/222379066207
[서울라헬여성의원] 임산부 코로나19 백신 접종 권고안 https://blog.naver.com/ferticare/222381109969
실비보험 약값

    가져온 데이터에 접근을 하는 방식 자체는 판다스 색인처럼 결과값을 확인하며 진행하는 것이 가장 좋습니다.

## **동적페이지 크롤링**
> 최근에는 Js로 변경이 되며 일반적인 크롤링이 되지 않는 경우가 많음  
동적페이지와 숨겨진 url을 가져오는 방법을 알아봅니다

### 네이버 데이터랩 인기검색어 크롤링

In [12]:
import json

# 카테고리 데이터 가져오기
url = 'https://datalab.naver.com/shoppingInsight/getKeywordRank.naver?timeUnit=date&cid=50000000'

# 헤더정보 필요
header = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36',
    'referer': 'https://datalab.naver.com/'
}

response = requests.post(url, headers=header)
data = json.loads(response.text)
data[0]

{'message': None,
 'statusCode': 200,
 'returnCode': 0,
 'date': '2021/05/25',
 'datetime': '2021.05.25.(화)',
 'range': '',
 'ranks': [{'rank': 1, 'keyword': '원피스', 'linkId': '원피스'},
  {'rank': 2, 'keyword': '남자반팔티', 'linkId': '남자반팔티'},
  {'rank': 3, 'keyword': '반바지', 'linkId': '반바지'},
  {'rank': 4, 'keyword': '롱원피스', 'linkId': '롱원피스'},
  {'rank': 5, 'keyword': '블라우스', 'linkId': '블라우스'},
  {'rank': 6, 'keyword': '써스데이아일랜드원피스', 'linkId': '써스데이아일랜드원피스'},
  {'rank': 7, 'keyword': '여성점프수트', 'linkId': '여성점프수트'},
  {'rank': 8, 'keyword': '나이키바람막이', 'linkId': '나이키바람막이'},
  {'rank': 9, 'keyword': '여성린넨자켓', 'linkId': '여성린넨자켓'},
  {'rank': 10, 'keyword': '바람막이', 'linkId': '바람막이'}]}

### 다음 주식 일자별 주가 데이터 크롤링

In [13]:
url = 'https://finance.daum.net/api/quote/A285130/days?symbolCode=A285130&page=2&perPage=10&pagination=true'

header = {
    'Referer':'https://finance.daum.net/quotes/A285130?period=day',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

response = requests.get(url, headers=header)
data = json.loads(response.text)
data

{'data': [{'symbolCode': 'A285130',
   'date': '2021-05-21 15:30:09',
   'tradePrice': 251500.0,
   'tradeTime': '15:30:09',
   'change': 'RISE',
   'changePrice': 500.0,
   'changeRate': 0.0019920319,
   'prevClosingPrice': 251000.0,
   'exchangeCountry': 'KOREA',
   'openingPrice': 252000.0,
   'highPrice': 255000.0,
   'lowPrice': 251000.0,
   'accTradePrice': 10629898500,
   'accTradeVolume': 42159,
   'periodTradePrice': 10629898500,
   'periodTradeVolume': 42159,
   'listedSharesCount': None},
  {'symbolCode': 'A285130',
   'date': '2021-05-20 15:30:06',
   'tradePrice': 251000.0,
   'tradeTime': '15:30:06',
   'change': 'FALL',
   'changePrice': 5000.0,
   'changeRate': -0.01953125,
   'prevClosingPrice': 256000.0,
   'exchangeCountry': 'KOREA',
   'openingPrice': 256500.0,
   'highPrice': 256500.0,
   'lowPrice': 249000.0,
   'accTradePrice': 23324885500,
   'accTradeVolume': 93200,
   'periodTradePrice': 23324885500,
   'periodTradeVolume': 93200,
   'listedSharesCount': None}

In [14]:
from pandas.io.json import json_normalize

In [15]:
df = pd.DataFrame(data['data'])

In [16]:
df

Unnamed: 0,symbolCode,date,tradePrice,tradeTime,change,changePrice,changeRate,prevClosingPrice,exchangeCountry,openingPrice,highPrice,lowPrice,accTradePrice,accTradeVolume,periodTradePrice,periodTradeVolume,listedSharesCount
0,A285130,2021-05-21 15:30:09,251500.0,15:30:09,RISE,500.0,0.001992,251000.0,KOREA,252000.0,255000.0,251000.0,10629898500,42159,10629898500,42159,
1,A285130,2021-05-20 15:30:06,251000.0,15:30:06,FALL,5000.0,-0.019531,256000.0,KOREA,256500.0,256500.0,249000.0,23324885500,93200,23324885500,93200,
2,A285130,2021-05-18 15:30:10,256000.0,15:30:10,FALL,1000.0,-0.003891,257000.0,KOREA,256500.0,263000.0,256000.0,16626606500,63960,16626606500,63960,
3,A285130,2021-05-17 15:30:24,257000.0,15:30:24,RISE,2500.0,0.009823,254500.0,KOREA,256000.0,262500.0,256000.0,17154847000,66368,17154847000,66368,
4,A285130,2021-05-14 15:30:08,254500.0,15:30:08,RISE,4500.0,0.018,250000.0,KOREA,251500.0,255500.0,251500.0,15662438000,61726,15662438000,61726,
5,A285130,2021-05-13 15:30:05,250000.0,15:30:05,FALL,2000.0,-0.007937,252000.0,KOREA,245500.0,254500.0,245000.0,24305030000,97315,24305030000,97315,
6,A285130,2021-05-12 15:30:13,252000.0,15:30:13,FALL,9000.0,-0.034483,261000.0,KOREA,261500.0,262000.0,250500.0,43693298500,172527,43693298500,172527,
7,A285130,2021-05-11 15:30:29,261000.0,15:30:29,FALL,12500.0,-0.045704,273500.0,KOREA,274000.0,278000.0,260500.0,47497091000,179179,47497091000,179179,
8,A285130,2021-05-10 15:30:12,273500.0,15:30:12,RISE,18000.0,0.07045,255500.0,KOREA,266000.0,277500.0,263500.0,63970408000,235802,63970408000,235802,
9,A285130,2021-05-07 15:30:12,255500.0,15:30:12,FALL,500.0,-0.001953,256000.0,KOREA,253500.0,258000.0,253500.0,17852127500,69478,17852127500,69478,


### 네이버 주식 삼성전자 일자별 주가 데이터 크롤링 1페이지 부터 10페이지 까지

In [2]:
url = 'https://finance.naver.com/item/sise_day.nhn?code=005930&page=1'

header = {
    'referer' : 'https://finance.naver.com/item/sise_day.nhn?code=005930&page=2',
    'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

In [3]:
response = requests.get(url, headers=header)

In [4]:
html = BeautifulSoup(response.text, 'html.parser')

In [5]:
html


<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>네이버 금융</title>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/common.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/layout.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/main.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock2.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock3.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/world.css" rel="stylesheet" type="text/css"/>
</head>
<body>
<script language=

In [6]:
stock_list = []
for i in html.select('span.tah'):
    stock_list.append(i.text.replace('\t', '').replace('\n', ''))

In [7]:
stock_list[0:7]

['2021.06.30', '80,900', '100', '81,100', '81,400', '80,800', '6,475,705']

In [8]:
for i in range(10):
    print(stock_list[(i*7):(i*7)+7])

['2021.06.30', '80,900', '100', '81,100', '81,400', '80,800', '6,475,705']
['2021.06.29', '81,000', '900', '81,900', '82,100', '80,800', '15,744,317']
['2021.06.28', '81,900', '300', '81,700', '82,000', '81,600', '11,578,529']
['2021.06.25', '81,600', '400', '81,500', '81,900', '81,200', '13,481,405']
['2021.06.24', '81,200', '1,100', '80,400', '81,400', '80,100', '18,771,080']
['2021.06.23', '80,100', '100', '80,500', '80,600', '79,900', '13,856,548']
['2021.06.22', '80,000', '100', '80,200', '80,300', '79,900', '11,773,365']
['2021.06.21', '79,900', '600', '79,700', '80,000', '79,600', '16,063,340']
['2021.06.18', '80,500', '400', '81,100', '81,100', '80,500', '14,916,721']
['2021.06.17', '80,900', '900', '81,100', '81,300', '80,700', '14,007,385']
