# pandas의 핵심 자료구조
## https://pandas.pydata.org/docs/user_guide/10min.html

In [1]:
# 테이블 형태(행과 열로 이루어진 데이터 객체)의 데이터 구조와 객체를 편리하게 다루기 위한 패키지
# Pandas 자료구조
# Series: 1차원 벡터 형식
# DataFrame: 2차원 행렬 형식
# Panel: 3차원 배열 형식

# # 데이터 입출력
# Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 다음처럼 여러가지 포맷을 지원한다.

# CSV : CSV(Comma Separated Value) 포맷 , CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일
# Excel
# HTML
# JSON
# HDF5
# SAS
# STATA
# SQL

## Series와 DataFrame

In [2]:
# Pandas 자료구조

# Series: 1차원 벡터 형식 , 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
# DataFrame: 2차원 행렬 형식
# Panel: 3차원 배열 형식

## 1) Series
### (1) 시리즈 이해

In [3]:
# Series :  1차원 형태의 자료구조
# 파이썬의 리스트와 비슷하고 , 딕셔너리와 유사한 자료구조
# Series모든 데이터 유형(정수, 문자열, 부동 소수점 숫자, Python 객체 등)을 보유할 수 있는 1차원 레이블 배열
# Series형태의 자료구조는 기본적으로 index와 value 가 존재하기 때문에 일반적으로 생각하는 시계열 형태와 일치

### (2) 시리즈 생성하기

In [4]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd

# 판다스로 시리즈 만들기
# 시리즈 인덱스를 따로 지정하지 않으면 0부터 시작한다
# 인덱스를 따로 지정하려면 index 인자에 리스트를 전달하면 된다
# columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다

stock_list = pd.Series([55000, 80000, 20000],
                       index=["삼성전자","하이닉스","카카오뱅크"])
stock_list

삼성전자     55000
하이닉스     80000
카카오뱅크    20000
dtype: int64

In [5]:
print(stock_list)

삼성전자     55000
하이닉스     80000
카카오뱅크    20000
dtype: int64


### (3) 시리즈 구성 확인하기

In [6]:
# 판다스 패키지의 시리즈 클래스는 dictionary와 비슷한 구조로 index와 values로 구성

In [7]:
# index 확인
print(stock_list.index)

Index(['삼성전자', '하이닉스', '카카오뱅크'], dtype='object')


In [8]:
# value 확인
print(stock_list.values)

[55000 80000 20000]


### (4) 시리즈 이름 지정

In [9]:
# 인덱스 이름 지정
# pd.series()함수의 옵션으로 index명ㅇㄹ 지정

stock_list.index.name = "기업명", "주가"
stock_list

(기업명, 주가)
삼성전자     55000
하이닉스     80000
카카오뱅크    20000
dtype: int64

### (5) Series를 DataFrame으로 변환 가능

In [10]:
stock_list.to_frame()

Unnamed: 0_level_0,0
"(기업명, 주가)",Unnamed: 1_level_1
삼성전자,55000
하이닉스,80000
카카오뱅크,20000


In [11]:
df = pd.DataFrame([stock_list])
print(df)

('기업명', '주가')   삼성전자   하이닉스  카카오뱅크
0              55000  80000  20000


In [12]:
## 시리즈 만들기
from pandas import Series, DataFrame
## series
fruit = Series([2500,3800,1200,6000],index=['apple','banana','peer','cherry'])
print(fruit)

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64


In [14]:
from pandas import Series, DataFrame

abc = Series([600,590,570,550,570])
print(abc)

0    600
1    590
2    570
3    550
4    570
dtype: int64


In [15]:
# Series 객체를 생성할 때 인자로 넘겨준 리스트 내의 데이터 순서 기준으로 인덱싱
print(abc[1])
print(abc[4])

590
570


In [16]:
# index에 인덱싱할 값을 넘겨주면 해당 값으로 인덱싱

In [18]:
abc1 = Series([600, 590, 570, 550, 570], index=['2020-02-19',
                                               '2020-02-18',
                                               '2020-02-17',
                                               '2020-02-16',
                                               '2020-02-15'])
print(abc1)

2020-02-19    600
2020-02-18    590
2020-02-17    570
2020-02-16    550
2020-02-15    570
dtype: int64


In [19]:
print(abc1['2020-02-16'])

550


In [20]:
for date in abc1.index:
    print(date)
    
for ending_price in abc1.values:
    print(ending_price)

2020-02-19
2020-02-18
2020-02-17
2020-02-16
2020-02-15
600
590
570
550
570


### (7) 시리즈의 기초 통계 메서드 사용하기

In [21]:
# describe                요약 통계량 계산
# min                     최솟값 반환
# max                     최댓값 반환
# mean                    산술 평균 반환
# median                  중간값 반환
# std                     표준편차

In [22]:
print(stock_list.describe())

count        3.000000
mean     51666.666667
std      30138.568867
min      20000.000000
25%      37500.000000
50%      55000.000000
75%      67500.000000
max      80000.000000
dtype: float64


In [23]:
print(stock_list.mean())

51666.666666666664


In [24]:
print(stock_list.std())

30138.56886670854


In [25]:
print(abc.describe())

count      5.000000
mean     576.000000
std       19.493589
min      550.000000
25%      570.000000
50%      570.000000
75%      590.000000
max      600.000000
dtype: float64


In [26]:
df2 = pd.DataFrame([abc])
print(df2)

     0    1    2    3    4
0  600  590  570  550  570


In [27]:
## 유용한 메소드

# append                  2개 이상의 시리즈 연결
# drop_duplicates         중복값이 없는 시리즈 반환
# equals                  시리즈에 해당 값을 가진 요소가 있는지 확인
# get_values              시리즈 값 구하기(values 속성과 동일)
# isin                    시리즈에 포함된 값이 있는지 확인

# replace                 특정 값을 가진 시리즈 값을 교체
# sample                  시리즈에서 임이의 값을 반환
# sort_values             값을 정렬
# to_frame                시리즈를 데이터프레임으로 변환

## 2) Pandas DataFrame

In [28]:
# DataFrame : 여러 개의 로우(row), 칼럼(colum)으로 구성된 2차원 형태의 자료구조

In [29]:
# 딕셔너리를 통해 각 칼럼에 대한 데이터를 저장한 후
# 딕셔너리를 DataFrame 클래스의 생성자 인자로 넘겨주면 DataFrame 객체 생성

In [30]:
from pandas import Series, DataFrame

raw_data = {'col0': [1,2,3,4,5],
           'col1': [10,20,30,40,50],
           'col2': [100,200,300,400,500]}

data = DataFrame(raw_data)
print(data)

   col0  col1  col2
0     1    10   100
1     2    20   200
2     3    30   300
3     4    40   400
4     5    50   500


In [31]:
from pandas import Series, DataFrame

abcd = {'open': [11650, 11100, 11200, 11100, 11000],
       'high': [12100, 11800, 11200, 11100, 11150],
       'low': [11600, 11050, 10900, 10950, 10900],
       'close': [11900, 11600, 11000, 11100, 11050]}

abcd_day = DataFrame(abcd)
print(abcd_day)

    open   high    low  close
0  11650  12100  11600  11900
1  11100  11800  11050  11600
2  11200  11200  10900  11000
3  11100  11100  10950  11100
4  11000  11150  10900  11050


In [32]:
date = ['2020.02.09', '2020.02.06', '2020.02.25', '2020.02.24', '2020.02.23']
abcd_day = DataFrame(abcd, columns=['open', 'high', 'low', 'close'], index=date)

In [33]:
print(abcd_day)

             open   high    low  close
2020.02.09  11650  12100  11600  11900
2020.02.06  11100  11800  11050  11600
2020.02.25  11200  11200  10900  11000
2020.02.24  11100  11100  10950  11100
2020.02.23  11000  11150  10900  11050


## DataFrame 로우(인덱스), 칼럼 선택

In [34]:
# 'close' 칼럼에 대한 데이터만 DataFrame 객체로부터 얻는 경우
close = abcd_day['close']
print(close)

2020.02.09    11900
2020.02.06    11600
2020.02.25    11000
2020.02.24    11100
2020.02.23    11050
Name: close, dtype: int64


In [36]:
# DataFrame 객체의 로우에 접근하려면 loc 메서드를 사용해 인덱스 값을 넘겨주어야 함
day_data = abcd_day.loc['2020.02.06']
print(day_data)
print(type(day_data))

open     11100
high     11800
low      11050
close    11600
Name: 2020.02.06, dtype: int64
<class 'pandas.core.series.Series'>


In [37]:
# DataFrame 객체의 칼럼 이름과 인덱스 값을 확인하려면 각각 columns와 index 속성을 사용
print(abcd_day.columns)
print(abcd_day.index)

Index(['open', 'high', 'low', 'close'], dtype='object')
Index(['2020.02.09', '2020.02.06', '2020.02.25', '2020.02.24', '2020.02.23'], dtype='object')


### 텍스트 파일 만들기

In [38]:
#  CSV(Comma Separated Value) 포맷 입출력
#  --> CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일이다.

# CSV 파일 입력
# CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 pandas.read_csv 함수를 사용한다. 
# 함수의 입력값으로 파일 이름을 넣는다

### 1) %%writefile

In [39]:
# 판다스 불러오기
import pandas as pd

In [40]:
# %%writefile: 셀에 기입한 내용대로 텍스트 파일을 만드는 명령

In [41]:
%%writefile stock_list.csv
삼성, 현대차, 네이버
1, 100, 200, 150
2, 110, 210, 220
3, 120, 220, 200

Writing stock_list.csv


### 2) csv 파일 불러오기

In [50]:
# csv 파일 불러오기
pd.read_csv('stock_list.csv')

Unnamed: 0,삼성,현대차,네이버
1,100,200,150
2,110,210,220
3,120,220,200


### 3) csv 파일을 df로

In [47]:
# csv 파일을 df로
df = pd.read_csv('stock_list.csv')
df

Unnamed: 0,삼성,현대차,네이버
1,100,200,150
2,110,210,220
3,120,220,200


### 4) csv파일 저장하기

In [48]:
df.to_csv('stock_list')

### 5) 저장 파일 확인하기

In [49]:
# csv파일 내용 확인하기
!type stock_list.csv

stock_list.csv not found


### 6) 웹 상의 CSV 파일 입력

In [51]:
# url을 이용하여 csv파일을 다운하여 입력
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 주식 데이터 받기 : 별도 자료 참고

# FinanceDataReader을 이용한 분석
## https://pandas-datareader.readthedocs.io/en/latest/readers/index.html%C2%B6

In [52]:
# 한국 주식 가격, 미국주식 가격, 지수, 환율, 암호화폐 가격, 종목 리스팅 등 금융 데이터 수집 라이브러리
# FinanceData/FinanceDataReader: Financial data reader

# FinanceDataReader 사용자 안내서 적극 활용

In [53]:
# pandas-datareader 라는 이름의 독립 패키지 활용
# pandas_datareader 패키지의 DataReader라는 함수 : 웹 상의 데이터를 DataFrame 객체로 만드는 기능 제공

In [54]:
# finance-datareader 설치
!pip install finance-datareader



In [55]:
# 라이브러리 불러오기
# 데이터프레임을 활용한 다양한 활용을 위한 pandas 불러오기

import pandas as pd
import numpy as np

## 한국거래소 상장종목 전체 가져오기

In [56]:
# FinanceDataReader 를 fdr 별칭으로 불러오는 방법으로
import FinanceDataReader as fdr
fdr.__version__

'0.9.50'

In [57]:
# 데이터를 갖고 오는 시장 지정하기
# KRX : KRX 종목 전체¶
# KOSPI : KOSPI 종목
# KOSDAQ : KOSDAQ 종목
# KONEX : KONEX 종목
# NASDAQ : 나스닥 종목
# NYSE : 뉴욕증권거래소 종목
# SP500 : S&P500 종목

In [59]:
# 한국 거래소 상장종목 가져오기
data_krx = fdr.StockListing('KRX')
data_nasdaq = fdr.StockListing('NASDAQ')

100%|██████████████████████████████████████| 4357/4357 [00:14<00:00, 299.09it/s]


In [61]:
data_krx.shape

(2708, 17)

In [62]:
# data_krx의 전체적인 데이터의 기술통계값을 확인할 수 있다
data_krx.describe()

Unnamed: 0,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks
count,2708.0,2708.0,2708.0,2708.0,2708.0,2708.0,2708.0,2708.0,2708.0
mean,50.211965,1.085639,20944.587518,21286.561669,20519.891064,651412.1,8510769000.0,848699600000.0,42139490.0
std,1196.90736,3.605661,55195.952554,55605.567482,53935.595633,4040905.0,46862880000.0,8250472000000.0,136572000.0
min,-27000.0,-35.96,0.0,0.0,0.0,0.0,0.0,821118100.0,109852.0
25%,-20.0,-0.35,2665.0,2708.75,2608.75,18555.0,112702200.0,59008630000.0,9959370.0
50%,19.5,0.47,6610.0,6750.0,6500.0,80471.0,471850700.0,121317600000.0,19431400.0
75%,125.0,2.0,16450.0,16707.5,16085.0,304647.2,2703252000.0,289010800000.0,40320690.0
max,18000.0,30.0,795000.0,805000.0,792000.0,177631100.0,1147805000000.0,376096300000000.0,5969783000.0


In [63]:
data_krx.columns

Index(['Code', 'ISU_CD', 'Name', 'Market', 'Dept', 'Close', 'ChangeCode',
       'Changes', 'ChagesRatio', 'Open', 'High', 'Low', 'Volume', 'Amount',
       'Marcap', 'Stocks', 'MarketId'],
      dtype='object')

In [64]:
# 파일로 저장하고 불러오기
data_krx

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,005930,KR7005930003,삼성전자,KOSPI,,63000,1,700,1.12,62700,63300,62300,18278602,1147804584500,376096300650000,5969782550,STK
1,373220,KR7373220003,LG에너지솔루션,KOSPI,,569000,2,-6000,-1.04,577000,578000,556000,317648,179941076000,133146000000000,234000000,STK
2,000660,KR7000660001,SK하이닉스,KOSPI,,87300,2,-1200,-1.36,89100,90700,86700,4670908,412119310916,63554606464500,728002365,STK
3,207940,KR7207940008,삼성바이오로직스,KOSPI,,797000,2,-1000,-0.13,795000,805000,792000,28390,22648893000,56725678000000,71174000,STK
4,006400,KR7006400006,삼성SDI,KOSPI,,719000,2,-27000,-3.62,741000,741000,712000,266419,192270585000,49441697070000,68764530,STK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2703,056000,KR7056000003,코원플레이,KOSDAQ,투자주의환기종목(소속부없음),90,2,-27,-23.08,100,120,90,13801204,1336311876,1774820250,19720225,KSQ
2704,267060,KR7267060002,명진홀딩스,KONEX,일반기업부,181,0,0,0.00,0,0,0,0,0,1654666524,9141804,KNX
2705,308700,KR7308700004,테크엔,KONEX,일반기업부,320,2,-26,-7.51,319,320,310,1102,342540,1280000000,4000000,KNX
2706,267810,KR7267810000,앙츠,KONEX,일반기업부,700,2,-393,-35.96,301,700,200,27023,13252193,1250900000,1787000,KNX


In [65]:
data_krx.to_csv('krx_data.csv')
pd.read_csv('krx_data.csv')

Unnamed: 0.1,Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,0,005930,KR7005930003,삼성전자,KOSPI,,63000,1,700,1.12,62700,63300,62300,18278602,1147804584500,376096300650000,5969782550,STK
1,1,373220,KR7373220003,LG에너지솔루션,KOSPI,,569000,2,-6000,-1.04,577000,578000,556000,317648,179941076000,133146000000000,234000000,STK
2,2,000660,KR7000660001,SK하이닉스,KOSPI,,87300,2,-1200,-1.36,89100,90700,86700,4670908,412119310916,63554606464500,728002365,STK
3,3,207940,KR7207940008,삼성바이오로직스,KOSPI,,797000,2,-1000,-0.13,795000,805000,792000,28390,22648893000,56725678000000,71174000,STK
4,4,006400,KR7006400006,삼성SDI,KOSPI,,719000,2,-27000,-3.62,741000,741000,712000,266419,192270585000,49441697070000,68764530,STK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2703,2703,056000,KR7056000003,코원플레이,KOSDAQ,투자주의환기종목(소속부없음),90,2,-27,-23.08,100,120,90,13801204,1336311876,1774820250,19720225,KSQ
2704,2704,267060,KR7267060002,명진홀딩스,KONEX,일반기업부,181,0,0,0.00,0,0,0,0,0,1654666524,9141804,KNX
2705,2705,308700,KR7308700004,테크엔,KONEX,일반기업부,320,2,-26,-7.51,319,320,310,1102,342540,1280000000,4000000,KNX
2706,2706,267810,KR7267810000,앙츠,KONEX,일반기업부,700,2,-393,-35.96,301,700,200,27023,13252193,1250900000,1787000,KNX


In [66]:
data_krx.to_csv('krx_data.csv', encoding="utf-8-sig")
pd.read_csv('krx_data.csv')

Unnamed: 0.1,Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,0,005930,KR7005930003,삼성전자,KOSPI,,63000,1,700,1.12,62700,63300,62300,18278602,1147804584500,376096300650000,5969782550,STK
1,1,373220,KR7373220003,LG에너지솔루션,KOSPI,,569000,2,-6000,-1.04,577000,578000,556000,317648,179941076000,133146000000000,234000000,STK
2,2,000660,KR7000660001,SK하이닉스,KOSPI,,87300,2,-1200,-1.36,89100,90700,86700,4670908,412119310916,63554606464500,728002365,STK
3,3,207940,KR7207940008,삼성바이오로직스,KOSPI,,797000,2,-1000,-0.13,795000,805000,792000,28390,22648893000,56725678000000,71174000,STK
4,4,006400,KR7006400006,삼성SDI,KOSPI,,719000,2,-27000,-3.62,741000,741000,712000,266419,192270585000,49441697070000,68764530,STK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2703,2703,056000,KR7056000003,코원플레이,KOSDAQ,투자주의환기종목(소속부없음),90,2,-27,-23.08,100,120,90,13801204,1336311876,1774820250,19720225,KSQ
2704,2704,267060,KR7267060002,명진홀딩스,KONEX,일반기업부,181,0,0,0.00,0,0,0,0,0,1654666524,9141804,KNX
2705,2705,308700,KR7308700004,테크엔,KONEX,일반기업부,320,2,-26,-7.51,319,320,310,1102,342540,1280000000,4000000,KNX
2706,2706,267810,KR7267810000,앙츠,KONEX,일반기업부,700,2,-393,-35.96,301,700,200,27023,13252193,1250900000,1787000,KNX


In [68]:
data_krx.to_csv('krx_data.csv', encoding="utf-8-sig", index=False)
pd.read_csv('krx_data.csv')

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,005930,KR7005930003,삼성전자,KOSPI,,63000,1,700,1.12,62700,63300,62300,18278602,1147804584500,376096300650000,5969782550,STK
1,373220,KR7373220003,LG에너지솔루션,KOSPI,,569000,2,-6000,-1.04,577000,578000,556000,317648,179941076000,133146000000000,234000000,STK
2,000660,KR7000660001,SK하이닉스,KOSPI,,87300,2,-1200,-1.36,89100,90700,86700,4670908,412119310916,63554606464500,728002365,STK
3,207940,KR7207940008,삼성바이오로직스,KOSPI,,797000,2,-1000,-0.13,795000,805000,792000,28390,22648893000,56725678000000,71174000,STK
4,006400,KR7006400006,삼성SDI,KOSPI,,719000,2,-27000,-3.62,741000,741000,712000,266419,192270585000,49441697070000,68764530,STK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2703,056000,KR7056000003,코원플레이,KOSDAQ,투자주의환기종목(소속부없음),90,2,-27,-23.08,100,120,90,13801204,1336311876,1774820250,19720225,KSQ
2704,267060,KR7267060002,명진홀딩스,KONEX,일반기업부,181,0,0,0.00,0,0,0,0,0,1654666524,9141804,KNX
2705,308700,KR7308700004,테크엔,KONEX,일반기업부,320,2,-26,-7.51,319,320,310,1102,342540,1280000000,4000000,KNX
2706,267810,KR7267810000,앙츠,KONEX,일반기업부,700,2,-393,-35.96,301,700,200,27023,13252193,1250900000,1787000,KNX


In [69]:
# Name 컬럼 중 특정한 하나만 가져오는 경우
data_krx['Name']

0           삼성전자
1       LG에너지솔루션
2         SK하이닉스
3       삼성바이오로직스
4          삼성SDI
          ...   
2703       코원플레이
2704       명진홀딩스
2705         테크엔
2706          앙츠
2707          베른
Name: Name, Length: 2708, dtype: object

In [70]:
# 0번째 행만 가져오는 경우
# 행인덱스를 가져올때는 .loc를 사용
# loc는 위치(locate)를 의미
data_krx.loc[0]

Code                    005930
ISU_CD            KR7005930003
Name                      삼성전자
Market                   KOSPI
Dept                          
Close                    63000
ChangeCode                   1
Changes                    700
ChagesRatio               1.12
Open                     62700
High                     63300
Low                      62300
Volume                18278602
Amount           1147804584500
Marcap         376096300650000
Stocks              5969782550
MarketId                   STK
Name: 0, dtype: object

In [71]:
# df.loc[0] 의 type을 보는 경우
type(data_krx.loc[0])

pandas.core.series.Series

In [74]:
# 여러 컬럼을 지정할 때는 리스트 형태로 묶어주어야 함.
# 2차원 행렬은 대괄호가 [] 2개가 있다.
data_krx[['Name']]
#Industry가 안 불러와짐!

Unnamed: 0,Name
0,삼성전자
1,LG에너지솔루션
2,SK하이닉스
3,삼성바이오로직스
4,삼성SDI
...,...
2703,코원플레이
2704,명진홀딩스
2705,테크엔
2706,앙츠


In [75]:
# 여러 개의 행을 가져오는 경우
# [] 대괄호를 통해 리스트 형태로 묶어준다.
data_krx.loc[[0,3,5,7]]

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId
0,5930,KR7005930003,삼성전자,KOSPI,,63000,1,700,1.12,62700,63300,62300,18278602,1147804584500,376096300650000,5969782550,STK
3,207940,KR7207940008,삼성바이오로직스,KOSPI,,797000,2,-1000,-0.13,795000,805000,792000,28390,22648893000,56725678000000,71174000,STK
5,51910,KR7051910008,LG화학,KOSPI,,690000,2,-22000,-3.09,711000,714000,683000,243174,168008595000,48708716670000,70592343,STK
7,5380,KR7005380001,현대차,KOSPI,,177700,2,-2800,-1.55,180600,180600,175300,649952,115087925500,37589148616200,211531506,STK


In [1]:
# pandas_datareader 패키지의 data 모듈을 임포트한 후 
# 추가로 datetime이라는 모듈을 임포트 : datetime은 파이썬에서 날짜를 쉽게 표현하는 데 사용하는 모듈

In [2]:
# 2월과 3월을 입력할 때 02, 03이 아니라 2, 3으로 입력
import pandas_datareader.data as web
import datetime
start = datetime.datetime(2022, 1, 3)
end = datetime.datetime(2022, 9, 1)

## 데이터를 시각적으로 표현

In [10]:
# 그래픽 종류
# line	line graph
# pie	pie chart
# scatter	scatter plot
# bar, barh	vertical, horizontal bar charts
# area	area plots
# box	box plot
# hexbin	hexbin plot
# hist	histogram
# kde, density	kernel density charts

# PyKrx
## https://github.com/sharebook-kr/pykrx

In [17]:
# 다양한 웹 사이트 (Naver / KRX)에서 주가 정보를 스크래핑(scraping)

### 백테스팅(별도자료 참고)

In [18]:
# Zipline은 알고리즘 트레이딩 라이브러리로서 백테스팅 기능을 제공
# Zipline은 Quantopian사에 의해 깃허브(https://github.com/quantopian/zipline)를 통해 

### Pandas 모듈을 이용한 그래프 그리기

In [19]:
# Python 그래픽 라이브러리
# Pandas 그래픽 모듈
# matplotlib: 저수준의 그래프
# Seaborn 패키지 : matplotlib기반으로 만들어진 고수준의 그래프를 그려주는 라이브러리

In [20]:
# methods	그래픽 종류
# line	line graph
# pie	pie chart
# scatter	scatter plot
# bar, barh	vertical, horizontal bar charts
# area	area plots
# box	box plot
# hexbin	hexbin plot
# hist	histogram
# kde, density	kernel density charts

# FRED

In [21]:
import datetime
dt_start = datetime.datetime(2020, 1, 1)
dt_end = "2022, 6, 30"

In [24]:
# 미국 GDP (국가총생산)
import pandas_datareader as pdr
gdp = pdr.get_data_fred('GDP',dt_start, dt_end)
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2020-01-01,21538.032
2020-04-01,19636.731
2020-07-01,21362.428
2020-10-01,21704.706
2021-01-01,22313.85
2021-04-01,23046.934
2021-07-01,23550.42
2021-10-01,24349.121
2022-01-01,24740.48
2022-04-01,25248.476


In [26]:
# CPIAUCSL : 모든 항목을 포함한 소비자 가격 지수
# CPILFESL : 식료품 및 연료를 제외한 소비자 가격 지수
inflation = pdr.get_data_fred(["CPIAUCSL","CPILFESL"], dt_start, dt_end)
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,259.037,266.626
2020-02-01,259.248,267.283
2020-03-01,258.124,267.09
2020-04-01,256.092,265.771
2020-05-01,255.868,265.574
2020-06-01,256.986,265.952
2020-07-01,258.278,267.352
2020-08-01,259.411,268.469
2020-09-01,260.029,268.938
2020-10-01,260.286,269.236
