### WebCrawling
- 웹페이지의 종류
    - 정적페이지 : 페이지의 데이터가 변경될때 URL이 변경
    - 동적페이지 : 페이지의 데이터가 변경될때 URL이 변경 X
- requests package
    - 브라우져의 URL을 입력하면 서버에서 데이터를 다운받아 화면에 출력 : URL > DATA
    - requests 패키지 : URL > DATA

### Naver Stock Data
- Kospi 지수
- Kosdaq 지수
- USD : 원달러 환율

In [1]:
import requests
import pandas as pd

In [2]:
# 1. 웹서비스를 분석 : 크롬 개발자 도구 : URL
# https://m.stock.naver.com

In [4]:
url = 'https://m.stock.naver.com/api/index/KOSPI/price?pageSize=10&page=4'

In [5]:
# 2. request(url) > response(json) : JSON(str)

In [7]:
response = requests.get(url)
response

<Response [200]>

In [9]:
response.text[:200]

'[{"localTradedAt":"2022-06-22","closePrice":"2,342.81","compareToPreviousClosePrice":"-66.12","compareToPreviousPrice":{"code":"5","text":"하락","name":"FALLING"},"fluctuationsRatio":"-2.74","openPrice"'

In [10]:
# 3. JSON(str) > list,dict > DataFrame

In [13]:
data = response.json()
type(data), data[:2]

(list,
 [{'localTradedAt': '2022-06-22',
   'closePrice': '2,342.81',
   'compareToPreviousClosePrice': '-66.12',
   'compareToPreviousPrice': {'code': '5', 'text': '하락', 'name': 'FALLING'},
   'fluctuationsRatio': '-2.74',
   'openPrice': '2,417.11',
   'highPrice': '2,418.05',
   'lowPrice': '2,342.81'},
  {'localTradedAt': '2022-06-21',
   'closePrice': '2,408.93',
   'compareToPreviousClosePrice': '17.90',
   'compareToPreviousPrice': {'code': '2', 'text': '상승', 'name': 'RISING'},
   'fluctuationsRatio': '0.75',
   'openPrice': '2,402.99',
   'highPrice': '2,423.48',
   'lowPrice': '2,385.60'}])

In [16]:
df= pd.DataFrame(data)[['localTradedAt','closePrice']]
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
8,2022-06-10,2595.87
9,2022-06-09,2625.44


In [None]:
# 4. 함수 만들기
# params : pagesize, page

In [29]:
def stock_price(pagesize,page):
    url = f'https://m.stock.naver.com/api/index/KOSPI/price?pageSize={pagesize}&page={page}'
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[["localTradedAt","closePrice"]]

In [32]:
df = stock_price(30,2)
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
28,2022-05-11,2592.27
29,2022-05-10,2596.56


In [33]:
#KOSDAQ 데이터 수집 코드 작성

In [34]:
# 1. 웹서비스 분석 : URL

In [38]:
url2 = 'https://m.stock.naver.com/api/index/KOSDAQ/price?pageSize=10&page=2'

In [40]:
# 2. request(url) > response(json) : JSON(str)
response = requests.get(url2)
response

<Response [200]>

In [42]:
response.text[:200]

'[{"localTradedAt":"2022-07-20","closePrice":"790.72","compareToPreviousClosePrice":"8.39","compareToPreviousPrice":{"code":"2","text":"상승","name":"RISING"},"fluctuationsRatio":"1.07","openPrice":"792.'

In [36]:
# 3.JSON(str) > list,dict > DataFrame

In [43]:
data = response.json()
type(data), data[:2]

(list,
 [{'localTradedAt': '2022-07-20',
   'closePrice': '790.72',
   'compareToPreviousClosePrice': '8.39',
   'compareToPreviousPrice': {'code': '2', 'text': '상승', 'name': 'RISING'},
   'fluctuationsRatio': '1.07',
   'openPrice': '792.94',
   'highPrice': '795.92',
   'lowPrice': '788.02'},
  {'localTradedAt': '2022-07-19',
   'closePrice': '782.33',
   'compareToPreviousClosePrice': '5.61',
   'compareToPreviousPrice': {'code': '2', 'text': '상승', 'name': 'RISING'},
   'fluctuationsRatio': '0.72',
   'openPrice': '773.73',
   'highPrice': '782.33',
   'lowPrice': '771.69'}])

In [44]:
df= pd.DataFrame(data)[['localTradedAt','closePrice']]
df.tail(2)

Unnamed: 0,localTradedAt,closePrice
8,2022-07-08,766.48
9,2022-07-07,757.97


In [49]:
def stock_price(pagesize,page,code="KOSPI"):
    '''
    This function is crawling stock price from naver webpage
    Params 
    ------
    pagesize : int : one page size
    page : int : page number
    code : str : KOSPI or KOSDAQ
    Return
    -------
    type : DataFrame : display date,price columns
    '''
    url = f'https://m.stock.naver.com/api/index/{code}/price?pageSize={pagesize}&page={page}'
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[["localTradedAt","closePrice"]]

pageSize=30 page=2라면 2페이지에서부터 자료 30개를 요청하는 것

In [46]:
kospi = stock_price(60,1)
kosdaq = stock_price(60,1,"KOSDAQ")

In [50]:
#docstring : 함수를 사용하는 방법을 문자열로 작성
#help(),shif + tab
help(stock_price)

Help on function stock_price in module __main__:

stock_price(pagesize, page, code='KOSPI')
    This function is crawling stock price from naver webpage
    Params 
    ------
    pagesize : int : one page size
    page : int : page number
    code : str : KOSPI or KOSDAQ
    Return
    -------
    type : DataFrame : display date,price columns



In [51]:
d1 = "python"

In [52]:
d1.upper()

'PYTHON'

### 원달러 환율 데이터 수집
    - https://m.stock.naver.com/ > 시장지표 > 미국 USD > 일별시세(더보기)

In [54]:
#최근 60일치 원달러 환율 데이터 수집

In [55]:
# 1. 웹서비스 분석 : URL

In [73]:
page,pagesize = 1,60
url3 = f'https://api.stock.naver.com/marketindex/exchange/FX_USDKRW/prices?page={page}&pageSize={pagesize}'

In [56]:
# 2. request(url) > response(json) : JSON(str)

In [74]:
response = requests.get(url3)
response

<Response [200]>

In [57]:
# 3. JSON(str) > list,dict > DataFrame

In [None]:
data = response.json()
usd = pd.DataFrame(data)[["localTradedAt","closePrice"]]
usd.tail(2)

In [68]:
def usd_ans(pagesize,page):
    url3 = f'https://api.stock.naver.com/marketindex/exchange/FX_USDKRW/prices?page={page}&pageSize={pagesize}'
    response = requests.get(url3)
    data = response.json()
    return pd.DataFrame(data)[["localTradedAt","closePrice"]]

In [69]:
usd = usd_ans(60,1)

In [70]:
usd.tail(2)

Unnamed: 0,localTradedAt,closePrice
58,2022-05-11,1274.5
59,2022-05-10,1276.0


In [75]:
page,pagesize = 1,60
url4 = f'https://api.stock.naver.com/marketindex/exchange/FX_JPYKRW/prices?page={page}&pageSize={pagesize}'
response = requests.get(url4)
response

<Response [200]>

In [76]:
# 데이터분석
# 상관관계분석 : 두 데이터 집합 사이에 어떤 관계가 있는지 확인하는 분석방법
# 원달러 환율이 높으면 코스피, 코스닥 지수가 낮다.

In [77]:
# 피어슨 상관계수 : df.corr()
# 1과 가까울수록 강한 양의 상관관계를 갖는다.
# -1과 가까울수록 강한 음의 상관관계를 갖는다.
# 0과 가까울수록 관계가 없다.

In [112]:
# 데이터 전처리
df = kospi.copy()
df['kosdaq']= kosdaq["closePrice"]
df['usd']= kosdaq["closePrice"]
df = df.rename(columns={"closePrice":"kospi"})
df

Unnamed: 0,localTradedAt,kospi,kosdaq,usd
0,2022-08-03,2456.12,813.72,813.72
1,2022-08-02,2439.62,804.34,804.34
2,2022-08-01,2452.25,807.61,807.61
3,2022-07-29,2451.5,803.62,803.62
4,2022-07-28,2435.27,798.32,798.32
5,2022-07-27,2415.53,795.7,795.7
6,2022-07-26,2412.96,789.93,789.93
7,2022-07-25,2403.69,789.69,789.69
8,2022-07-22,2393.14,789.75,789.75
9,2022-07-21,2409.16,795.15,795.15


In [91]:
#컬럼의 데이터 타입 변경 : str > float
# df[column].apply() : 모든 데이터를 함수에 대입한 결과를 출력
df['kospi'] = df["kospi"].apply(lambda data: float(data.replace(",","")))
df['kosdaq'] = df["kosdaq"].apply(lambda data: float(data.replace(",","")))
df['usd'] = df["usd"].apply(lambda data: float(data.replace(",","")))

In [92]:
df.dtypes

localTradedAt     object
kospi            float64
kosdaq           float64
usd              float64
dtype: object

In [93]:
df[['kospi','kosdaq','usd']].corr()

Unnamed: 0,kospi,kosdaq,usd
kospi,1.0,0.984042,0.984042
kosdaq,0.984042,1.0,1.0
usd,0.984042,1.0,1.0


In [None]:
# kospi - kosdaq : 0.984 : 1과 가까우면 강한 양의 상관관계
# kospi - usd : -0.878 : -1과 가까우면 강한 음의 상관관계

In [94]:
# copy(), apply, lambda

In [None]:
# copy()

In [97]:
data1 = [1,2,3]
data2 = data1 #주소값 복사 : 얕은 복사(call by reference)
data3 = data1.copy() # 값 복사 : 깊은복사(call by value)
print(data1,data2,data3) # [1,2,3], [1,2,3]
data1[1] = 4
print(data1,data2,data3) # [1,4,3], [1,2,3](???)

[1, 2, 3] [1, 2, 3] [1, 2, 3]
[1, 4, 3] [1, 4, 3] [1, 2, 3]


In [98]:
df = pd.DataFrame([{"age":23},{'age':36},{'age':27}])
df

Unnamed: 0,age
0,23
1,36
2,27


In [99]:
# 연령대 컬럼을 추가
def change_ages(age):
    return age // 10 * 10

In [101]:
age = 39
age // 10 * 10

30

In [102]:
df['age']

0    23
1    36
2    27
Name: age, dtype: int64

In [105]:
df['ages'] =  df['age'].apply(change_ages)

In [106]:
df

Unnamed: 0,age,ages
0,23,20
1,36,30
2,27,20


In [107]:
# lambda : 일회성 함수
# 사용이유 : 간단한 함수를 메모리를 절약하여 사용

In [108]:
# 함수 3개 사용, 메모리 3칸 사용
def plus(n1,n2):
    return n1 + n2
def minus(n1,n2):
    return n1 - n2
def calc(func,n1,n2):
    return func(n1,n2)

In [109]:
calc(plus,1,2),calc(minus,1,2)

(3, -1)

In [110]:
plus_lambda = lambda n1,n2: n1+n2
plus(2,3),plus_lambda(2,3)

(5, 5)

In [111]:
# 함수 1개 사용, 메모리 1칸 사용
def calc(func,n1,n2):
    return func(n1,n2)

calc(lambda n1,n2: n1+ n2,1,2), calc(lambda n1,n2:n1-n2,1,2)

(3, -1)

# lambda 사용 관련 질문 답변

- 람다는 임시함수로 메모리를 점유하고 있지 않습니다. def 함수명 으로 정의된 함수는 프로그램 종료 때 소멸되기 때문에 일명 글로벌 함수라고도 합니다. 람다는 함수사용후 즉각 메모리에서 소멸됩니다.
- 람다는 지속적으로 사용되지 않는 임시목적의 함수

# 상관관계 질문 답변
- 상관관계 0.7 굉장히 높음 0.4~0.5도 관계있다 생각하는 편
- 기준이 절대적인건 아님 업계 도메인마다 다름
- standard 는 아래와 같습니다.r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계, r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계, r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계, r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계, r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계, r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계, r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

In [113]:
# summary
# 웹페이지의 종류
# - 정적페이지 : 데이터가 변경될 때 URL 변경 O : HTML
# - 동적페이지 : 데이터가 변경될 때 URL 변경 X : JSON

# 웹크롤링 절차
# 1. 웹서비스 분석 : 크롬 개발자 도구 : URL
# 2. request(url) > response(json) : JSON(str)
# 3. JSON(str) > list,dict > DataFrame