# WebCrawling

In [89]:
# 라이브러리 불러오기
import requests
import pandas as pd

In [90]:
# 코스피 데이터 웹크롤링
def stock_kospi(pageSize, page):
    """This function is ~~~~~~
    Params
    ------
    pageSize : int : one page size
    page : int : page number
    
    Return
    ------
    type : DataFrame : [['display date', 'price']]
    """
    url = f"https://m.stock.naver.com/api/index/KOSPI/price?pageSize={pageSize}&page={page}"
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[['localTradedAt', 'closePrice']]

kospi_data = stock_kospi(60, 1)
kospi_data.head()

Unnamed: 0,localTradedAt,closePrice
0,2022-08-03,2461.45
1,2022-08-02,2439.62
2,2022-08-01,2452.25
3,2022-07-29,2451.5
4,2022-07-28,2435.27


In [91]:
# 코스닥 데이터 웹크롤링
def stock_kosdaq(pageSize, page):
    """This function is ~~~~~~
    Params
    ------
    pageSize : int : one page size
    page : int : page number
    
    Return
    ------
    type : DataFrame : [['display date', 'price']]
    """
    url = f"https://m.stock.naver.com/api/index/KOSDAQ/price?pageSize={pageSize}&page={page}"
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[['localTradedAt', 'closePrice']]

kosdaq_data = stock_kosdaq(60, 1)
kosdaq_data.head()

Unnamed: 0,localTradedAt,closePrice
0,2022-08-03,815.36
1,2022-08-02,804.34
2,2022-08-01,807.61
3,2022-07-29,803.62
4,2022-07-28,798.32


In [92]:
# 원달러 환율 데이터 웹크롤링
def closed_usd(pageSize, page):
    """This function is ~~~~~~
    Params
    ------
    pageSize : int : one page size
    page : int : page number
    
    Return
    ------
    type : DataFrame : [['display date', 'price']]
    """
    url = f"https://api.stock.naver.com/marketindex/exchange/FX_USDKRW/prices?page={page}&pageSize={pageSize}"
    response = requests.get(url)
    data = response.json()
    return pd.DataFrame(data)[['localTradedAt', 'closePrice']]

usd_data = closed_usd(60, 1)
usd_data.head()

Unnamed: 0,localTradedAt,closePrice
0,2022-08-03,1313.0
1,2022-08-02,1312.0
2,2022-08-01,1305.0
3,2022-07-29,1304.5
4,2022-07-28,1302.0


In [93]:
# 상관관계 분석하기
# 데이터 전처리

# 데이터프레임 열 추가
df = kospi_data.copy()
df['kosdaq_data'] = kosdaq_data['closePrice']
df['usd_data'] = usd_data['closePrice']

# 데이터프레임 열 이름 변경
df = df.rename(columns = {'localTradedAt' : 'Date',
                           'closePrice' : 'Kospi',
                           'kosdaq_data' : 'Kosdaq',
                           'usd_data' : 'USD'})
df.head()

Unnamed: 0,Date,Kospi,Kosdaq,USD
0,2022-08-03,2461.45,815.36,1313.0
1,2022-08-02,2439.62,804.34,1312.0
2,2022-08-01,2452.25,807.61,1305.0
3,2022-07-29,2451.5,803.62,1304.5
4,2022-07-28,2435.27,798.32,1302.0


In [94]:
# 데이터 타입 확인
df.dtypes

Date      object
Kospi     object
Kosdaq    object
USD       object
dtype: object

In [95]:
# 데이터 타입이 object 이므로 float로 변경
df['Kospi'] = df['Kospi'].apply(lambda data : float(data.replace(",", "")))
df['Kosdaq'] = df['Kosdaq'].apply(lambda data : float(data.replace(",", "")))
df['USD'] = df['USD'].apply(lambda data : float(data.replace(",", "")))

In [96]:
# 데이터 상관관계 확인 .corr()
# 1과 가까우면 강한 양의 상관관계
# -1과 가까우면 강한 음의 상관관계
df[['Kospi', 'Kosdaq', 'USD']].corr()

Unnamed: 0,Kospi,Kosdaq,USD
Kospi,1.0,0.984076,-0.87563
Kosdaq,0.984076,1.0,-0.818343
USD,-0.87563,-0.818343,1.0


# API

In [97]:
# 라이브러리 실행
import pandas as pd
import requests, json

In [98]:
# Naver Papago App_key 발급 받기
CLIENT_ID, CLIENT_SECRET = 'fR1zInZGoRrZCRHSQwPc', 'K_B9IV2njf'

In [99]:
# Naver API
txt = "웹크롤링 수업 복습중입니다."
url = "https://openapi.naver.com/v1/papago/n2mt"
params = {"source": "ko", "target": "en", "text": txt}
headers = {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret": CLIENT_SECRET,
}

In [100]:
# 데이터 번호 확인
response = requests.post(url, json.dumps(params), headers = headers)
response

<Response [200]>

In [101]:
# requests,json 활용하여 JSON(str) >> list, dict 로 변경 >> DataFrame 화
txt_en = response.json()["message"]["result"]["translatedText"]
txt_en

"I'm reviewing the web crawl class."

In [102]:
def translate(txt):
    CLIENT_ID, CLIENT_SECRET = "fR1zInZGoRrZCRHSQwPc", "K_B9IV2njf"
    url = "https://openapi.naver.com/v1/papago/n2mt"
    params = {"source": "ko", "target": "en", "text": txt}
    headers = {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret": CLIENT_SECRET,
}
    response = requests.post(url, json.dumps(params), headers = headers)
    txt_en = response.json()["message"]["result"]["translatedText"]    
    return txt_en

In [103]:
# path에 존재하는 파일 이름 보여주는 명령어
# 주피터 노트북에서만 가능!
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Python practice 디렉터리

2022-08-03  오후 11:53    <DIR>          .
2022-08-03  오후 11:53    <DIR>          ..
2022-08-03  오후 10:59    <DIR>          .ipynb_checkpoints
2022-07-29  오후 08:14            23,999 220728_pythonpractice.ipynb
2022-08-01  오전 10:12            23,096 220729_pythonpractice.ipynb
2022-08-02  오후 08:51             6,123 220801_pythonpractice_review.ipynb
2022-08-02  오후 11:44           123,961 220802_pythonpractice_matplotlib.ipynb
2022-08-02  오후 10:06            12,721 220802_pythonpractice_numpy.ipynb
2022-08-02  오후 11:37           153,014 220802_pythonpractice_pandas.ipynb
2022-08-03  오후 11:52            21,637 220803_pythonpractice_webcrawling.ipynb
2022-08-03  오후 10:54            10,060 covid.xlsx
2022-08-03  오후 11:53             6,132 covid_en.xlsx
               9개 파일             380,743 바이트
               3개 디렉터리  135,097,561,088 바이트 남음


In [104]:
# 파일 번역하기
covid = pd.read_excel("covid.xlsx")[['category', 'title']]
covid.tail(2)

Unnamed: 0,category,title
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가"
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑


In [105]:
covid_en = covid['title'].apply(translate)

In [106]:
covid["title_en"] = covid_en
covid

Unnamed: 0,category,title,title_en
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출",SK Bioscience Submits Phase III Clinical Trial...
1,102,고양시 노래연습장 코로나19 누적확진 41명,41 cumulative COVID-19 confirmed patients at G...
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명","New COVID-19 infections, 542 people by 9 p.m. ..."
3,103,프로야구 수도권 구단서 코로나19 확진자 발생,Covid-19 confirmed cases in professional baseb...
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""The day when there are zero confirmed cases o..."
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,"As the Olympics are approaching, the spread of..."


In [107]:
covid.to_excel("covid_en.xlsx", index = False, encoding = "utf-8-sig")

In [108]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Python practice 디렉터리

2022-08-03  오후 11:53    <DIR>          .
2022-08-03  오후 11:53    <DIR>          ..
2022-08-03  오후 10:59    <DIR>          .ipynb_checkpoints
2022-07-29  오후 08:14            23,999 220728_pythonpractice.ipynb
2022-08-01  오전 10:12            23,096 220729_pythonpractice.ipynb
2022-08-02  오후 08:51             6,123 220801_pythonpractice_review.ipynb
2022-08-02  오후 11:44           123,961 220802_pythonpractice_matplotlib.ipynb
2022-08-02  오후 10:06            12,721 220802_pythonpractice_numpy.ipynb
2022-08-02  오후 11:37           153,014 220802_pythonpractice_pandas.ipynb
2022-08-03  오후 11:52            21,637 220803_pythonpractice_webcrawling.ipynb
2022-08-03  오후 10:54            10,060 covid.xlsx
2022-08-03  오후 11:54             6,132 covid_en.xlsx
               9개 파일             380,743 바이트
               3개 디렉터리  135,097,495,552 바이트 남음
