### WebCrawling
# - 웹크롤링의 종류
#     - 정적 페이지 : 페이지의 데이터가 변경될 때 URL이 변경 O
#     - 동적 페이지 : 페이지의 데이터가 변경될 때 URL이 변경 X
#  - Requests Package
#     - 브라우저의 URL을 입력하면 서버에서 데이터를 다운받아 화면에 출력 : URL > DATA
#     - requests 패키지 : URL > DATA

### Naver Stock Data
#  - Kospi 지수
#  - Kosdaq 지수
#  - USD :원달러 환율

In [44]:
import requests
import pandas as pd

SyntaxError: invalid syntax (<ipython-input-44-a0eaacf3a44c>, line 3)

In [None]:
# 1. 웹서비스를 분석 : 크롬 개발자 도구 : URL

In [19]:
url = "https://m.stock.naver.com/api/index/KOSPI/price?pageSize=10&page=4"

In [None]:
# 2. Request > response(json) : JSON(str)

In [20]:
response = requests.get(url)
response

<Response [200]>

In [21]:
response.text[:200]

'[{"localTradedAt":"2022-06-22","closePrice":"2,342.81","compareToPreviousClosePrice":"-66.12","compareToPreviousPrice":{"code":"5","text":"하락","name":"FALLING"},"fluctuationsRatio":"-2.74","openPrice"'

In [None]:
# 3. JSON(str) > list, dict > DataFrame

In [22]:
data = response.json()
type(data), data[:2]

(list,
 [{'localTradedAt': '2022-06-22',
   'closePrice': '2,342.81',
   'compareToPreviousClosePrice': '-66.12',
   'compareToPreviousPrice': {'code': '5', 'text': '하락', 'name': 'FALLING'},
   'fluctuationsRatio': '-2.74',
   'openPrice': '2,417.11',
   'highPrice': '2,418.05',
   'lowPrice': '2,342.81'},
  {'localTradedAt': '2022-06-21',
   'closePrice': '2,408.93',
   'compareToPreviousClosePrice': '17.90',
   'compareToPreviousPrice': {'code': '2', 'text': '상승', 'name': 'RISING'},
   'fluctuationsRatio': '0.75',
   'openPrice': '2,402.99',
   'highPrice': '2,423.48',
   'lowPrice': '2,385.60'}])

In [24]:
df = pd.DataFrame(data)[["localTradedAt", "closePrice"]]
df

Unnamed: 0,localTradedAt,closePrice
0,2022-06-22,2342.81
1,2022-06-21,2408.93
2,2022-06-20,2391.03
3,2022-06-17,2440.93
4,2022-06-16,2451.41
5,2022-06-15,2447.38
6,2022-06-14,2492.97
7,2022-06-13,2504.51
8,2022-06-10,2595.87
9,2022-06-09,2625.44


In [None]:
# 4. 함수 만들기
# params : pagesize, page

In [27]:
def stock_price(pagesize, page) :
    url = f"https://m.stock.naver.com/api/index/KOSPI/price?pageSize={pagesize}&page={page}"
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[["localTradedAt","closePrice"]]

In [28]:
df = stock_price(30, 2)
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
28,2022-05-11,2592.27
29,2022-05-10,2596.56


In [None]:
# KOSDAQ 데이터 수집 코드 작성

In [None]:
# 1. 웹서비스 분석 : URL

In [None]:
url = "https://m.stock.naver.com/api/index/KOSDAQ/price?pageSize=10&page=2"

In [None]:
# 2. request(url) > response(json) > JSON(str)

In [30]:
response = requests.get(url)
response

<Response [200]>

In [31]:
response.text[:200]

'[{"localTradedAt":"2022-06-22","closePrice":"2,342.81","compareToPreviousClosePrice":"-66.12","compareToPreviousPrice":{"code":"5","text":"하락","name":"FALLING"},"fluctuationsRatio":"-2.74","openPrice"'

In [None]:
# 3. JSON(str) > list, dict > DataFrame

In [34]:
data = response.json()
type(data), data[:2]

(list,
 [{'localTradedAt': '2022-06-22',
   'closePrice': '2,342.81',
   'compareToPreviousClosePrice': '-66.12',
   'compareToPreviousPrice': {'code': '5', 'text': '하락', 'name': 'FALLING'},
   'fluctuationsRatio': '-2.74',
   'openPrice': '2,417.11',
   'highPrice': '2,418.05',
   'lowPrice': '2,342.81'},
  {'localTradedAt': '2022-06-21',
   'closePrice': '2,408.93',
   'compareToPreviousClosePrice': '17.90',
   'compareToPreviousPrice': {'code': '2', 'text': '상승', 'name': 'RISING'},
   'fluctuationsRatio': '0.75',
   'openPrice': '2,402.99',
   'highPrice': '2,423.48',
   'lowPrice': '2,385.60'}])

In [36]:
df = pd.DataFrame(data)[["localTradedAt","closePrice"]]
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
8,2022-06-10,2595.87
9,2022-06-09,2625.44


In [46]:
def stock_price(pagesize, page, code="KOSPI") :
    """
    This function is crawling stock price from naver sebpage.
    Parameters
    -------
    pagesize : int : one page size
    page : int : page number
    code : str : KOSPI or KOSDAQ
    
    Return
    -------
    type : DataFrame : display date, price columns
    """
    url = f"https://m.stock.naver.com/api/index/{code}/price?pageSize={pagesize}&page={page}"
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[["localTradedAt","closePrice"]]

In [41]:
df = stock_price(30, 2, "KOSDAQ")
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
28,2022-05-11,866.34
29,2022-05-10,856.14


In [None]:
# stock_price(10,1,"KOSDQA")

In [42]:
kospi = stock_price(60, 1, "KOSPI")
kosdaq = stock_price(60, 1, "KOSDAQ")

In [47]:
# docstring : 함수를 사용하는 방법을 문자열로 작성
# help(), shift + tab
help(stock_price)

Help on function stock_price in module __main__:

stock_price(pagesize, page, code='KOSPI')
    This function is crawling stock price from naver sebpage.
    Parameters
    -------
    pagesize : int : one page size
    page : int : page number
    code : str : KOSPI or KOSDAQ
    
    Return
    -------
    type : DataFrame : display date, price columns



In [None]:
### 원달러 환율 수집
 - https://m.stock.naver.com > 시장지표 > 미국 USD > 일별시세(더보기)

In [None]:
# 최근 60일 치 원달러 환율 데이터 수집

In [70]:
# 1. 웹서비스 분석 : URL
page, pageSize = 1, 60
URL = f"https://api.stock.naver.com/marketindex/exchange/FX_USDKRW/prices?page={page}&pageSize={pageSize}"

In [None]:
# 2. request(url) > response(json) : JSON(str)

In [71]:
response = requests.get(URL)
response

<Response [200]>

In [72]:
response.text[:200]

'[{"localTradedAt":"2022-08-03","closePrice":"1,309.20","fluctuations":"-2.80","fluctuationsRatio":"-0.21","fluctuationsType":{"code":"5","text":"하락","name":"FALLING"},"cashBuyValue":"1,332.11","cashSe'

In [None]:
# 3. JSON(str) > list, dict > DataFrame

In [73]:
data = response.json()
type(data), data[:2]
usd = pd.DataFrame(data)[["localTradedAt", "closePrice"]]
usd.tail(2)

Unnamed: 0,localTradedAt,closePrice
58,2022-05-11,1274.5
59,2022-05-10,1276.0


In [None]:
# 데이터 분석
# 상관관계분석 : 두 데이터 집합 사이에 어떤 관계가 있는지 확인하는 분석방법
# 원달러 환율이 높으면 코스피, 코스닥 지수가 낮다. > 음의 상관관계를 갖는다

In [None]:
# 피어슨 상관계수 : df.corr()
# 1과 가까울수록 강한 양의 상관관계를 갖는다.
# -1과 가까울수록 강한 음의 상관관계를 갖는다.
# 0과 가까울수록 관계가 없다.

In [76]:
# 데이터 전처리
df = kospi.copy()
df["kosdaq"] = kosdaq["closePrice"]
df["usd"] = usd["closePrice"]
df = df.rename(columns={"closePrice" : "kospi"})
df.tail(2)

Unnamed: 0,localTradedAt,kospi,kosdaq,usd
58,2022-05-11,2592.27,866.34,1274.5
59,2022-05-10,2596.56,856.14,1276.0


In [82]:
# 컬럼의 데이터 타입 변경 : str > float
# df[column].apply() : 모든 데이터를 함수에 대입한 결과를 출력
df["kospi"] = df["kospi"].apply(lambda data : float(data.replace(",", "")))
df["kosdaq"] = df["kosdaq"].apply(lambda data : float(data.replace(",", "")))
df["usd"] = df["usd"].apply(lambda data : float(data.replace(",", "")))
df.dtypes

localTradedAt     object
kospi            float64
kosdaq           float64
usd              float64
dtype: object

In [83]:
# corr 를 확인하기 위해서는 자료형이 숫자 데이터여야 한다
df[["kospi","kosdaq",'usd']].corr()

Unnamed: 0,kospi,kosdaq,usd
kospi,1.0,0.984067,-0.878465
kosdaq,0.984067,1.0,-0.821585
usd,-0.878465,-0.821585,1.0


In [None]:
# kospi - kosdaq : 0.984 : 1과 가까우면 양의 상관관계
# kospi - usd : -0.878 : -1과 가까우면 강한 음의 상관관계

In [None]:
# copy, apply, lambda

In [86]:
# copy()
data1 = [1, 2, 3]
data2 = data1 # shallow copy
data3 = data1.copy() # deep copy
print(data1, data2, data3)
data1[1] = 4
print(data1, data2, data3)

[1, 2, 3] [1, 2, 3] [1, 2, 3]
[1, 4, 3] [1, 4, 3] [1, 2, 3]


In [87]:
# apply(func) : 모든 데이터를 func을 적용시킨 결과 출력
df = pd.DataFrame([{"age":23}, {"age" : 36}, {"age" : 27}])
df

Unnamed: 0,age
0,23
1,36
2,27


In [88]:
# 연령대 컬럼을 추가
def change_ages(age) :
    return age // 10 * 10

In [90]:
df["age"]

0    23
1    36
2    27
Name: age, dtype: int64

In [91]:
df["age"].apply(change_ages)

0    20
1    30
2    20
Name: age, dtype: int64

In [92]:
# lambda : 일회성 함수
# 사용이유 : 간단한 함수를 메모리를 절약하여 사용

In [93]:
def plus(n1, n2):
    return n1 + n2

def minus(n1, n2):
    return n1 - n2

def calc(func, n1, n2):
    return func(n1, n2)


In [94]:
calc(plus, 1, 2), calc(minus, 1, 2)

(3, -1)

In [95]:
plus_lambda = lambda n1, n2 : n1 + n2
plus(2, 3), plus_lambda(2, 3)

(5, 5)

In [96]:
# 함수 1개 사용, 메모리 1칸 사용
calc(lambda n1, n2 : n1 + n2, 1, 2), calc(lambda n1, n2 : n1 - n2, 1, 2)

(3, -1)

In [None]:
# summary
# 웹페이지의 종류
# - 정적페이지 : 데이터가 변경될 때 URL 변경 O : HTML
# - 동적페이지 : 데이터가 변경될 때 URL 변경 X : JSON

# 웹크롤링 절차
# 1. 웹서비스 분석 : 크롬 개발자 도구 : URL
# 2. Request > response(json) : JSON(str)
# 3. JSON(str) > list, dict > DataFrame