# csv와 xlsx 저장하기

* 다음 금융에서 kospi 데이터를 가져오기 위해서 requests 라이브러리를 사용합니다.

In [1]:
import requests

In [2]:
url = 'http://finance.daum.net/api/market_index/days?page=1&perPage=100&market=KOSPI&pagination=true'
# 헤더 정보 설정 수정
header = {'Accept' : 'application/json, text/javascript, */*; q=0.01',
            'Referer' :'http://finance.daum.net/domestic/kospi',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
            'X-Requested-With' : 'XMLHttpRequest'}
r = requests.get(url, headers = header)

* json 라이브러리의 loads 함수는 문자열로 된 json 형태의 데이터를 dict객체로 변환시켜 줍니다.

In [3]:
import json

json_r = json.loads(r.text)

* dict 객체이므로 keys() 메소드를 사용하여 key값을 확인합니다.

In [4]:
json_r.keys()

dict_keys(['data', 'totalPages', 'currentPage', 'pageSize'])

* data 키만 출력합니다.

In [5]:
json_r['data']

[{'date': '2019-07-03 00:00:00',
  'tradePrice': 2113.28,
  'change': 'FALL',
  'changePrice': 8.74,
  'accTradeVolume': 180753,
  'accTradePrice': 1415097,
  'individualStraightPurchasePrice': 25435352963,
  'foreignStraightPurchasePrice': -51579856319,
  'institutionStraightPurchasePrice': 28986343951},
 {'date': '2019-07-02 00:00:00',
  'tradePrice': 2122.02,
  'change': 'FALL',
  'changePrice': 7.72,
  'accTradeVolume': 460830,
  'accTradePrice': 4107541,
  'individualStraightPurchasePrice': 24006908061,
  'foreignStraightPurchasePrice': 34321459071,
  'institutionStraightPurchasePrice': -51500525649},
 {'date': '2019-07-01 00:00:00',
  'tradePrice': 2129.74,
  'change': 'FALL',
  'changePrice': 0.88,
  'accTradeVolume': 412291,
  'accTradePrice': 4730192,
  'individualStraightPurchasePrice': -19121687014,
  'foreignStraightPurchasePrice': 154486503785,
  'institutionStraightPurchasePrice': 6138187770},
 {'date': '2019-06-28 00:00:00',
  'tradePrice': 2130.62,
  'change': 'FALL',
 

* 문자열 메소드인 join을 사용하여 콤마를 붙여서 출력해봅시다

In [6]:
for content in json_r['data']:
    print (",".join([str(x) for x in list(content.values())]))

2019-07-03 00:00:00,2113.28,FALL,8.74,180753,1415097,25435352963,-51579856319,28986343951
2019-07-02 00:00:00,2122.02,FALL,7.72,460830,4107541,24006908061,34321459071,-51500525649
2019-07-01 00:00:00,2129.74,FALL,0.88,412291,4730192,-19121687014,154486503785,6138187770
2019-06-28 00:00:00,2130.62,FALL,3.7,537274,4282404,-199483658718,312263760802,-109684798220
2019-06-27 00:00:00,2134.32,RISE,12.47,644900,5122462,-405768338937,155887532000,267089212849
2019-06-26 00:00:00,2121.85,RISE,0.21,736851,4455865,-73635556218,16452829619,60969038311
2019-06-25 00:00:00,2121.64,FALL,4.69,642999,4249731,-21135872689,27387982,8844220728
2019-06-24 00:00:00,2126.33,RISE,0.71,669639,4054920,-72774648738,-99250349566,163711527766
2019-06-21 00:00:00,2125.62,FALL,5.67,692027,5226303,118735540006,13280881909,-130936554570
2019-06-20 00:00:00,2131.29,RISE,6.51,1007158,3994784,-148542907457,-18322575414,164450625338
2019-06-19 00:00:00,2124.78,RISE,26.07,862980,4984533,-460489624085,300430954174,16927681

* 콤마를 구분자로 하여 파일에 저장합니다.
* utf-8-sig는 윈도우 엑셀에서 글자깨짐을 방지하기 위해서 sig형태로 저장합니다.
    > utf-8-sig 형태로 저장하여 BOM(Byte Order Mark) 정보를 제거합니다. 

In [7]:
with open("./daum_kospi.csv", 'w', encoding='utf-8-sig') as f:
    f.write(",".join(list(content.keys())) + "\n")
    for content in json_r['data']:
        f.write(",".join([str(x) for x in list(content.values())]) + "\n")

## pandas의 DataFrame를 사용하여 쉽게 저장하기

In [8]:
import pandas as pd

In [9]:
pd.DataFrame(json_r['data'])

Unnamed: 0,accTradePrice,accTradeVolume,change,changePrice,date,foreignStraightPurchasePrice,individualStraightPurchasePrice,institutionStraightPurchasePrice,tradePrice
0,1415097,180753,FALL,8.74,2019-07-03 00:00:00,-51579856319,25435352963,28986343951,2113.28
1,4107541,460830,FALL,7.72,2019-07-02 00:00:00,34321459071,24006908061,-51500525649,2122.02
2,4730192,412291,FALL,0.88,2019-07-01 00:00:00,154486503785,-19121687014,6138187770,2129.74
3,4282404,537274,FALL,3.70,2019-06-28 00:00:00,312263760802,-199483658718,-109684798220,2130.62
4,5122462,644900,RISE,12.47,2019-06-27 00:00:00,155887532000,-405768338937,267089212849,2134.32
5,4455865,736851,RISE,0.21,2019-06-26 00:00:00,16452829619,-73635556218,60969038311,2121.85
6,4249731,642999,FALL,4.69,2019-06-25 00:00:00,27387982,-21135872689,8844220728,2121.64
7,4054920,669639,RISE,0.71,2019-06-24 00:00:00,-99250349566,-72774648738,163711527766,2126.33
8,5226303,692027,FALL,5.67,2019-06-21 00:00:00,13280881909,118735540006,-130936554570,2125.62
9,3994784,1007158,RISE,6.51,2019-06-20 00:00:00,-18322575414,-148542907457,164450625338,2131.29


* to_csv() 메소드를 사용하면 csv 형태로 쉽게 저장할 수 있습니다.

In [10]:
pd.DataFrame(json_r['data']).to_csv("./df_daum_kospi.csv", index=False)

## 수집한 금액 데이터에 콤마가 포함되어 있을 경우

In [11]:
from bs4 import BeautifulSoup

In [12]:
url = "https://finance.naver.com/marketindex/exchangeList.nhn"

r = requests.get(url)
bs = BeautifulSoup(r.text, 'html.parser')

with open("./exchange_rate.csv", "w", encoding='utf-8-sig') as f:    
    for idx, cont in enumerate(bs.findAll("tr")):
        if(idx>1):
            bs2 = cont.findAll("td")
            for cont2 in bs2:
                f.write(cont2.text.strip() +",")
            f.write("\n")

* 해당 파일을 열어 보면 원하는 모양이 아닌 것을 확인할 수 있습니다.
* 쉽게 저장하기 위해서 아래 csv 라이브러리를 사용합니다.

### csv 모듈 사용하기

In [13]:
import csv

* csv.writer()는 파일을 쓰는 기능을 합니다. 

In [14]:
with open("exchange_rate_csv_module.csv", "w", encoding='utf-8-sig', newline='') as f:    
    filewrite = csv.writer(f, delimiter=",")
    for idx, cont in enumerate(bs.findAll("tr")):
        if(idx>1):
            bs2 = cont.findAll("td")
            total_txt = list()
            for cont2 in bs2:
                total_txt.append(cont2.text.strip())
            filewrite.writerow(total_txt)
            

#### 읽어오기

* csv.reader() 파일에서 데이터를 읽어옵니다.

In [15]:
with open("./exchange_rate_csv_module.csv", "r", encoding='utf-8-sig') as f : 
    filereader = csv.reader(f, delimiter=',')
    for content in filereader:
        print (content)

['미국 USD', '1,170.20', '1,190.67', '1,149.73', '1,181.60', '1,158.80', '1.000']
['유럽연합 EUR', '1,321.51', '1,347.80', '1,295.22', '1,334.72', '1,308.30', '1.129']
['일본 JPY (100엔)', '1,087.60', '1,106.63', '1,068.57', '1,098.25', '1,076.95', '0.929']
['중국 CNY', '169.91', '178.40', '161.42', '171.60', '168.22', '0.145']
['홍콩 HKD', '150.06', '153.01', '147.11', '151.56', '148.56', '0.128']
['대만 TWD', '37.65', '42.58', '35.02', '0.00', '0.00', '0.032']
['영국 GBP', '1,474.04', '1,503.07', '1,445.01', '1,488.78', '1,459.30', '1.260']
['오만 OMR', '3,039.56', '3,310.08', '2,857.19', '0.00', '0.00', '2.598']
['캐나다 CAD', '893.49', '911.09', '875.89', '902.42', '884.56', '0.764']
['스위스 CHF', '1,189.59', '1,213.02', '1,166.16', '1,201.48', '1,177.70', '1.017']
['스웨덴 SEK', '125.42', '128.49', '122.35', '126.67', '124.17', '0.107']
['호주 AUD', '817.79', '833.90', '801.68', '825.96', '809.62', '0.699']
['뉴질랜드 NZD', '781.23', '796.62', '765.84', '789.04', '773.42', '0.668']
['체코 CZK', '51.93', '56.34', '4

## excel

* 엑셀에 저장하기 위해서 total에 데이터를 저장합니다.

In [16]:
total = []
with open("./exchange_rate_csv_module.csv", "r", encoding='utf-8-sig') as f : 
    filereader = csv.reader(f, delimiter=',')
    for content in filereader:
        total.append(content)

In [17]:
# 라이브러리를 import 한다. 단 Thrid Party이기 때문에 설치되어 있지 않으면 
# 매직 명령어를 사용하여 설치한다.
# !pip install xlsxwriter        
import xlsxwriter

# 파일을 생성한다. 
workbook = xlsxwriter.Workbook("xlsx_exchange_rate.xlsx")

# Sheet 이름을 정한다. 
worksheet = workbook.add_worksheet('환율정보')

# 컬럼의 넓이를 정할수 있다. 
worksheet.set_column('A:F', 20)

# Cell의 스타일을 지정할 수 있다. 
bold = workbook.add_format({'bold' : True})

for idx1, x1 in enumerate(total):
    for idx2, x2 in enumerate(x1):
        # write() 메소드는 실제 엑셀 파일에 기록하는 메소드이며, 
        # idx2, idx2 번째 위치에 x2의 값을 bold형태로 저장한다. 
        worksheet.write(idx1, idx2, x2, bold)
    
# 파일을 닫는다 
workbook.close()
