# ENV

In [1]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:78% !important; }</style>"))

* package load

In [167]:
import pandas as pd
import numpy as np
from datetime import datetime, date

import json

# DataFrame handling in Pandas

## Series

### 개요

* 엑셀의 컬럼 하나와 같다고 할 수 있습니다.
* 1차원 배열의 자료 구조를 갖고 있습니다.
* numpy 자료형의 저장이 가능합니다.
* index를 가지고 있다는 것이 중요합니다.

### 생성

* 먼저 list 자료 구조를 만들어 봅니다. 

In [3]:
[10,20,30,40,50]

[10, 20, 30, 40, 50]

* list 자료 구조를 Series 자료 구조로 만들어 봅니다.

In [4]:
pd.Series([10,20,30,40,50])

0    10
1    20
2    30
3    40
4    50
dtype: int64

* list와 비교할 때, 값과 함께 index가 있는 것을 확인할 수 있습니다. 

* 숫자 뿐만 아니라, 문자형 list로 series를 만들 수 있습니다. 

In [16]:
['NRF','KISTI','KISTEP','NIA','KDI','STEPI','KIET','KISDI','NIPA']

['NRF', 'KISTI', 'KISTEP', 'NIA', 'KDI', 'STEPI', 'KIET', 'KISDI', 'NIPA']

In [32]:
d = ['NRF','KISTI','KISTEP','NIA','KDI','STEPI','KIET','KISDI','NIPA']

In [33]:
s = pd.Series(d)

In [34]:
s

0       NRF
1     KISTI
2    KISTEP
3       NIA
4       KDI
5     STEPI
6      KIET
7     KISDI
8      NIPA
dtype: object

### 크기 확인

* size: 몇 개의 데이터로 구성되어 있는지 확인

In [22]:
s.size

9

In [23]:
len(s)

9

* shape: 행과 열의 크기를 모두 확인

In [24]:
s.shape

(9,)

### 값 확인

* values: 데이터 값 전체를 배열로 표시해줍니다.

In [25]:
s.values

array(['NRF', 'KISTI', 'KISTEP', 'NIA', 'KDI', 'STEPI', 'KIET', 'KISDI',
       'NIPA'], dtype=object)

* head(갯수) : 데이터가 많을 때, 앞에서 부터 갯수만큼만 볼 수 있습니다.
* tail(갯수) : 데이터가 많을 때, 뒤에서 부터 갯수만크만 볼 수 있습니다.

In [27]:
s.head(5)

0       NRF
1     KISTI
2    KISTEP
3       NIA
4       KDI
dtype: object

In [28]:
s.tail(5)

4      KDI
5    STEPI
6     KIET
7    KISDI
8     NIPA
dtype: object

### 인덱스 다루기

* 인덱스 확인

In [29]:
s.index

RangeIndex(start=0, stop=9, step=1)

* index를 따로 지정하지 않으면 위와 같이 일련의 숫자가 지정되지만, 사용자가 인덱스를 만들 수도 있습니다.

In [36]:
data = ['NRF','KISTI','KISTEP','NIA','KDI','STEPI','KIET','KISDI','NIPA']

In [37]:
label = ['a','b','c','d','e','f','g','h','i']

In [39]:
s2 = pd.Series(data, index = label)

In [40]:
s2

a       NRF
b     KISTI
c    KISTEP
d       NIA
e       KDI
f     STEPI
g      KIET
h     KISDI
i      NIPA
dtype: object

In [41]:
s2.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'], dtype='object')

In [42]:
s.index

RangeIndex(start=0, stop=9, step=1)

* index를 기준으로 값을 확인할 수 있습니다.

In [46]:
s2['a']

'NRF'

* 여러 개의 인덱스의 값을 확인하려고 할 때에는 아래와 같이 list 형식으로 전달해야 합니다.
* 그래서, [  ]가 2중으로 되어 있는 것을 주의해야 합니다.

In [45]:
s2[['a','b']]

a      NRF
b    KISTI
dtype: object

### 일부 값 추출

* 인덱스의 위치로 값을 확인할 수 있습니다.

In [51]:
s2[0]

'NRF'

In [50]:
s2[[1,2]]

b     KISTI
c    KISTEP
dtype: object

In [53]:
s2[2:6]

c    KISTEP
d       NIA
e       KDI
f     STEPI
dtype: object

* 앞에서 살펴본 것처럼 인덱스의 이름으로 값을 확인할 수 있습니다.

In [55]:
s2[['a','b','c']]

a       NRF
b     KISTI
c    KISTEP
dtype: object

## DataFrame

### 개요

* 동일한 index를 공유하는 Series의 집합입니다.
* 엑셀에서 하나의 Sheet가 하나의 표로 구성될 때와 같은 모양입니다.
* 행과 열로 구성되어 있고, 각 열의 행을 나타내는 index를 가지고 있습니다. 

### 생성

* 아래와 같은 list 형식의 데이터가 있습니다. 

In [77]:
org = ['NRF','KISTI','KISTEP','NIA','KDI','STEPI','KIET','KISDI','NIPA']

* 이것을 아래와 같이 Series로 만들 수 있습니다. 
* 하나의 컬럼 데이터가 만들어집니다.

In [80]:
s_org = pd.Series(org)

* 데이터의 형식과 값을 살펴보겠습니다.

In [102]:
type(s_org)

pandas.core.series.Series

In [97]:
s_org

0       NRF
1     KISTI
2    KISTEP
3       NIA
4       KDI
5     STEPI
6      KIET
7     KISDI
8      NIPA
dtype: object

* 이번에는 동일한 방식으로 amt 컬럼 데이터를 만들어 보겠습니다. 

In [66]:
amt = [1000,2000,3000,4000,5000,6000,7000,8000,9000]

In [82]:
s_amt=pd.Series(amt)

In [83]:
s_amt

0    1000
1    2000
2    3000
3    4000
4    5000
5    6000
6    7000
7    8000
8    9000
dtype: int64

* 두 개의 컬럼 데이터가 만들어졌습니다.
* 아래와 같이 dictionary 형식의 데이터를 구성합니다.
* 각각의 컬럼 데이터에 컬럼 이름을 부여하고 있습니다. 

In [111]:
dict = {'org': s_org, 'amt': s_amt}

* 2개의 컬럼으로 구성된 dict 데이터를 DataFrame으로 만듭니다.

In [112]:
df = pd.DataFrame(dict)

* 데이터의 형식과 값을 살펴봅니다. 

In [113]:
type(df)

pandas.core.frame.DataFrame

In [114]:
df.head(5)

Unnamed: 0,org,amt
0,NRF,1000
1,KISTI,2000
2,KISTEP,3000
3,NIA,4000
4,KDI,5000


### 크기 확인

* Series에서 사용했던 size와 shape를 이용합니다. 

In [108]:
df.size

18

In [109]:
df.shape

(9, 2)

### 값 확인

* 특정 컬럼을 선택하여 확인
    * Series 자료형으로 확인
    * DataFrame 자료형으로 확인

* 하나의 컬럼만을 선택하여 Series 자료형으로 확인

In [118]:
df['org']

0       NRF
1     KISTI
2    KISTEP
3       NIA
4       KDI
5     STEPI
6      KIET
7     KISDI
8      NIPA
Name: org, dtype: object

* 하나의 컬럼만을 선택하여 DataFrame 자료형으로 확인

In [119]:
df[['org']]

Unnamed: 0,org
0,NRF
1,KISTI
2,KISTEP
3,NIA
4,KDI
5,STEPI
6,KIET
7,KISDI
8,NIPA


## column names

### 컬럼 이름 확인

In [120]:
df.columns

Index(['org', 'amt'], dtype='object')

### 컬럼 이름 변경

In [121]:
df.columns = ['기관','금액']

In [122]:
df

Unnamed: 0,기관,금액
0,NRF,1000
1,KISTI,2000
2,KISTEP,3000
3,NIA,4000
4,KDI,5000
5,STEPI,6000
6,KIET,7000
7,KISDI,8000
8,NIPA,9000


### 컬럼 순서 변경

In [124]:
df[['금액','기관']]

Unnamed: 0,금액,기관
0,1000,NRF
1,2000,KISTI
2,3000,KISTEP
3,4000,NIA
4,5000,KDI
5,6000,STEPI
6,7000,KIET
7,8000,KISDI
8,9000,NIPA


## missing data

### 예제 데이터 가져오기

* 네이버 주식의 특정 종목 주가 데이터
    * 삼성전자: https://finance.naver.com/item/sise_day.nhn?code=005930&page=1

In [134]:
url = 'https://finance.naver.com/item/sise_day.nhn?code=005930&page=2'

In [135]:
pd.read_html(url)

[            날짜       종가     전일비       시가       고가       저가         거래량
 0          NaN      NaN     NaN      NaN      NaN      NaN         NaN
 1   2020.05.14  48000.0   550.0  47750.0  48100.0  47650.0  19305974.0
 2   2020.05.13  48550.0   650.0  47250.0  48550.0  47200.0  20223277.0
 3   2020.05.12  47900.0   500.0  48400.0  48500.0  47550.0  23433590.0
 4   2020.05.11  48400.0   400.0  48900.0  49250.0  48300.0  16357743.0
 5   2020.05.08  48800.0     0.0  49100.0  49350.0  48800.0  15319700.0
 6          NaN      NaN     NaN      NaN      NaN      NaN         NaN
 7          NaN      NaN     NaN      NaN      NaN      NaN         NaN
 8          NaN      NaN     NaN      NaN      NaN      NaN         NaN
 9   2020.05.07  48800.0   400.0  49200.0  49300.0  48700.0  13884411.0
 10  2020.05.06  49200.0   700.0  49000.0  49200.0  48500.0  18070225.0
 11  2020.05.04  48500.0  1500.0  48900.0  49100.0  48500.0  26083749.0
 12  2020.04.29  50000.0   100.0  49900.0  50500.0  49600.0  156

In [136]:
pd.read_html(url)[0]

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2020.05.14,48000.0,550.0,47750.0,48100.0,47650.0,19305974.0
2,2020.05.13,48550.0,650.0,47250.0,48550.0,47200.0,20223277.0
3,2020.05.12,47900.0,500.0,48400.0,48500.0,47550.0,23433590.0
4,2020.05.11,48400.0,400.0,48900.0,49250.0,48300.0,16357743.0
5,2020.05.08,48800.0,0.0,49100.0,49350.0,48800.0,15319700.0
6,,,,,,,
7,,,,,,,
8,,,,,,,
9,2020.05.07,48800.0,400.0,49200.0,49300.0,48700.0,13884411.0


In [137]:
pd.read_html(url)[0].dropna()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2020.05.14,48000.0,550.0,47750.0,48100.0,47650.0,19305974.0
2,2020.05.13,48550.0,650.0,47250.0,48550.0,47200.0,20223277.0
3,2020.05.12,47900.0,500.0,48400.0,48500.0,47550.0,23433590.0
4,2020.05.11,48400.0,400.0,48900.0,49250.0,48300.0,16357743.0
5,2020.05.08,48800.0,0.0,49100.0,49350.0,48800.0,15319700.0
9,2020.05.07,48800.0,400.0,49200.0,49300.0,48700.0,13884411.0
10,2020.05.06,49200.0,700.0,49000.0,49200.0,48500.0,18070225.0
11,2020.05.04,48500.0,1500.0,48900.0,49100.0,48500.0,26083749.0
12,2020.04.29,50000.0,100.0,49900.0,50500.0,49600.0,15604533.0
13,2020.04.28,50100.0,250.0,49850.0,50100.0,49300.0,16095399.0


In [141]:
ss_stock = pd.DataFrame()
for x in range(1,10):
    ticker = pd.read_html('https://finance.naver.com/item/sise_day.nhn?code=005930&page={}'.format(x))[0]
#     ticker = ticker.dropna()
    ss_stock = ss_stock.append(ticker)

In [144]:
ss_stock.head(20)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2020.05.28,50000.0,100.0,51100.0,51200.0,49900.0,22379675.0
2,2020.05.27,49900.0,650.0,48950.0,50000.0,48800.0,19548479.0
3,2020.05.26,49250.0,400.0,48700.0,49450.0,48600.0,15127490.0
4,2020.05.25,48850.0,100.0,48750.0,48900.0,48450.0,14337913.0
5,2020.05.22,48750.0,1200.0,49600.0,49800.0,48600.0,19706284.0
6,,,,,,,
7,,,,,,,
8,,,,,,,
9,2020.05.21,49950.0,50.0,50300.0,50400.0,49850.0,14949266.0


### 결측치 확인

In [148]:
ss_stock.head(20).isnull().sum()

날짜     6
종가     6
전일비    6
시가     6
고가     6
저가     6
거래량    6
dtype: int64

### 결측치 처리

In [160]:
ss_stock.head(20).dropna()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2020.05.28,50000.0,100.0,51100.0,51200.0,49900.0,22379675.0
2,2020.05.27,49900.0,650.0,48950.0,50000.0,48800.0,19548479.0
3,2020.05.26,49250.0,400.0,48700.0,49450.0,48600.0,15127490.0
4,2020.05.25,48850.0,100.0,48750.0,48900.0,48450.0,14337913.0
5,2020.05.22,48750.0,1200.0,49600.0,49800.0,48600.0,19706284.0
9,2020.05.21,49950.0,50.0,50300.0,50400.0,49850.0,14949266.0
10,2020.05.20,50000.0,300.0,50000.0,50200.0,49800.0,14896899.0
11,2020.05.19,50300.0,1500.0,50100.0,50500.0,49700.0,25168295.0
12,2020.05.18,48800.0,950.0,47950.0,49100.0,47600.0,20481981.0
13,2020.05.15,47850.0,150.0,48400.0,48450.0,47700.0,18463118.0


In [161]:
ss_stock = ss_stock.dropna()

In [163]:
ss_stock.head(20)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2020.05.28,50000.0,100.0,51100.0,51200.0,49900.0,22379675.0
2,2020.05.27,49900.0,650.0,48950.0,50000.0,48800.0,19548479.0
3,2020.05.26,49250.0,400.0,48700.0,49450.0,48600.0,15127490.0
4,2020.05.25,48850.0,100.0,48750.0,48900.0,48450.0,14337913.0
5,2020.05.22,48750.0,1200.0,49600.0,49800.0,48600.0,19706284.0
9,2020.05.21,49950.0,50.0,50300.0,50400.0,49850.0,14949266.0
10,2020.05.20,50000.0,300.0,50000.0,50200.0,49800.0,14896899.0
11,2020.05.19,50300.0,1500.0,50100.0,50500.0,49700.0,25168295.0
12,2020.05.18,48800.0,950.0,47950.0,49100.0,47600.0,20481981.0
13,2020.05.15,47850.0,150.0,48400.0,48450.0,47700.0,18463118.0
