## Web Crawling
- 웹 페이지에서 데이터를 수집하는 방법에 대해서 학습

### 웹크롤링 방법

#### 웹페이지의 종류
- 정적인 페이지 : 웹 브라우져에 화면이 한번 뜨면 이벤트에 의한 화면의 변경이 없는 페이지
- 동적인 페이지 : 웹 브라우져에 화면이 뜨고 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경하는 페이지

#### requests 이용
- 받아오는 문자열에 따라 두가지 방법으로 구분
    - json 문자열로 받아서 파싱하는 방법 : 주로 동적 페이지 크롤링할때 사용
    - html 문자열로 받아서 파싱하는 방법 : 주로 정적 페이지 크롤링할때 사용
        
#### selenium 이용
- 브라우져를 직접 열어서 데이터를 받는 방법

#### 크롤링 방법에 따른 속도
- requests json > requests html > selenium

### Crawling Naver Stock Data
- 네이버 증권 사이트에서 주가 데이터 수집
- 수집할 데이터 : 일별 kospi, kosdaq 주가, 일별 환율(exchange rate) 데이터
- 데이터 수집 절차
    - 웹서비스 분석 : url
    - 서버에 데이터 요청 : request(url) > response : json(str)
    - 서버에서 받은 데이터 파싱(데이터 형태를 변경) : json(str) > list, dict > DataFrame

In [2]:
import warnings
warnings.filterwarnings('ignore') # 경고 문구 안뜨게 해주는 설정
import requests
import pandas as pd

#### 1. 웹서비스 분석 : url
- pc 웹페이지가 복잡하면 mobile 웹페이지에서 수집

In [4]:
page_size, page = 30, 1
url = f'https://m.stock.naver.com/api/index/KOSPI/price?pageSize={page_size}&page={page}'
url

'https://m.stock.naver.com/api/index/KOSPI/price?pageSize=30&page=1'

#### 2. 서버에 데이터 요청 : request(url) > response : json(str)
- response의 status code가 200이 나오는지 확인
- 403이나 500이 나오면 request가 잘못되거나 web server에서 수집이 안되도록 설정이 된것임
    - header 설정 또는 selenium 사용
- 200이 나오더라도 response 안에 있는 내용을 확인 > 확인하는 방법 : response.text

In [5]:
response =requests.get(url)
response

<Response [200]>

In [6]:
response.text[:500]

'[{"localTradedAt":"2024-03-18","closePrice":"2,685.84","compareToPreviousClosePrice":"19.00","compareToPreviousPrice":{"code":"2","text":"상승","name":"RISING"},"fluctuationsRatio":"0.71","openPrice":"2,678.52","highPrice":"2,688.07","lowPrice":"2,665.28"},{"localTradedAt":"2024-03-15","closePrice":"2,666.84","compareToPreviousClosePrice":"-51.92","compareToPreviousPrice":{"code":"5","text":"하락","name":"FALLING"},"fluctuationsRatio":"-1.91","openPrice":"2,701.91","highPrice":"2,705.59","lowPrice":'

#### 3. 서버에서 받은 데이터 파싱(데이터 형태를 변경) : json(str) > list, dict > DataFrame

In [9]:
data = response.json() #리스트로 바꿔줌
type(data)

list

In [13]:
cols = ['localTradedAt', 'closePrice']
df = pd.DataFrame(data)[cols]
df.head()

Unnamed: 0,localTradedAt,closePrice
0,2024-03-18,2685.84
1,2024-03-15,2666.84
2,2024-03-14,2718.76
3,2024-03-13,2693.57
4,2024-03-12,2681.81


#### 4. 함수로 만들기

In [41]:
def stock_price(code='KOSPI', page_size=60, page=1):
    # 1. URL
    url = f'https://m.stock.naver.com/api/index/{code}/price?pageSize={page_size}&page={page}'
    # 2. request(url)
    response = requests.get(url)
    # 3. parsing json
    data = response.json()
    # 4. 데이터프레임 
    cols = ['localTradedAt', 'closePrice']
    df = pd.DataFrame(data)[cols]
    #pd.DataFrame(response.json())[['localTradedAt', 'closePrice']] # 한줄로 줄일 수 있다
    
    return df

In [42]:
stock_price().head()

Unnamed: 0,localTradedAt,closePrice
0,2024-03-18,2685.84
1,2024-03-15,2666.84
2,2024-03-14,2718.76
3,2024-03-13,2693.57
4,2024-03-12,2681.81


In [43]:
dfs = []
for page in range(1, 10):
    df = stock_price(page=page)
    dfs.append(df)

df = pd.concat(dfs, ignore_index=True)
df

Unnamed: 0,localTradedAt,closePrice
0,2024-03-18,2685.84
1,2024-03-15,2666.84
2,2024-03-14,2718.76
3,2024-03-13,2693.57
4,2024-03-12,2681.81
...,...,...
535,2022-01-12,2972.48
536,2022-01-11,2927.38
537,2022-01-10,2926.72
538,2022-01-07,2954.89


In [44]:
df = stock_price(code='KOSDAQ')
df

Unnamed: 0,localTradedAt,closePrice
0,2024-03-18,894.48
1,2024-03-15,880.46
2,2024-03-14,887.52
3,2024-03-13,889.93
4,2024-03-12,889.71
5,2024-03-11,875.93
6,2024-03-08,873.18
7,2024-03-07,863.37
8,2024-03-06,870.67
9,2024-03-05,866.37


#### 5. 원달러 환율 데이터 수집 : 실습

#### 6. 시각화

In [None]:
%matplotlib inline
%config InlineBackend.figure_formats = {'png', 'retina'}

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

#### 7. 데이터 스케일링
- min max scaling


- $z = \frac{x_i - min(x)}{max(x) - min(x)} (0 \leqq z \leqq 1)$


- latex syntax : `https://jjycjnmath.tistory.com/117`

In [None]:
from sklearn.preprocessing import minmax_scale

#### 8. 상관관계 분석
- 피어슨 상관계수(Pearson Correlation Coefficient)
- 두 데이터 집합의 상관도를 분석할때 사용되는 지표
- 상관계수의 해석
    - -1에 가까울수록 서로 반대방향으로 움직임
    - 1에 가까울수록 서로 같은방향으로 움직임
    - 0에 가까울수록 두 데이터는 관계가 없음