# Pandas
---
* 1 차원 데이터 Series
* 2 차원 데이터 DataFrame
---
## python 자료구조 quick review
* 파이썬 리스트는 수정가능, 튜플은 수정불가, 하지만 리스트보다 빠름

## Series 자료구조
---
* List 와 유사 - 1 차원 벡터 데이터, 인덱싱 지원
* List 와 다른 점 - 인덱스를 따로 설정할 수 있다. dictionary 와 유사

In [49]:
from pandas import Series, DataFrame
import numpy as np

In [48]:
value = Series([92600, 92400, 92100, 94300, 92300]) # Series 는 사실 클래스, 인자는 생성자가 참조, 1 차원 데이터
print(value)
idx = 2
print('{0} 번째 데이터 :'.format(idx), value[idx], '\n') # 인덱싱 지원

# 인덱스 임의로 지정
value2 = Series([92600, 92400, 92100, 94300, 92300], index=['2016-02-19',
                                                            '2016-02-18',
                                                            '2016-02-17',
                                                            '2016-02-16',
                                                            '2016-02-15'])
print(value2, '\n')

# iteration 지원
for idx in value2.index:
    print(idx)
for dat in value2.values:
    print(dat)

0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64
2 번째 데이터 : 92100 

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64 

2016-02-19
2016-02-18
2016-02-17
2016-02-16
2016-02-15
92600
92400
92100
94300
92300


In [78]:
# numpy 와 연동가능
with_np = Series(np.arange(10))
print(with_np, '\n')

# 자료구조 간 연산 - 같은 인덱스 찾아서 합쳐줌, 단, 같은 인덱스 없으면 계산 안됨
mine = Series([10, 20, 30], index=['naver', 'sk', 'kt'])
your = Series([10, 30, 20], index=['kt', 'sk', 'naver'])
print('두 Series 합 : \n', mine + your, '\n')

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32 

두 Series 합 : 
 kt       40
naver    30
sk       50
dtype: int64 



## DataFrame
---
* 2 차원 매트릭스 형태 데이터
* 딕셔너리 (value 가 벡터인) 를 이용해 dataFrame 생성가능
* 여러개의 Series 로 이뤄진 자료구조로 이해할 수 있음

In [92]:
# 딕셔너리의 key 는 DF 의 인덱스, column
# row 는 1 차원 value
dic = {'col_1' : [1,2,3,4],
       'col_2' : [10,20,30,40],
       'col_3' : [5,3,1,3]}
df = DataFrame(dic)
print(df,'\n') # print 버전
df # 기본 출력 버전

   col_1  col_2  col_3
0      1     10      5
1      2     20      3
2      3     30      1
3      4     40      3 



Unnamed: 0,col_1,col_2,col_3
0,1,10,5
1,2,20,3
2,3,30,1
3,4,40,3


In [99]:
# column, key 로 인덱싱
print(df['col_2'], '\n')

# DF 의 각 row 는 Series 이다 - 즉 Series 의 Series
print(type(df['col_1']))

0    10
1    20
2    30
3    40
Name: col_2, dtype: int64 

<class 'pandas.core.series.Series'>


In [105]:
# OHLC
daeshin = {'open':  [11650, 11100, 11200, 11100, 11000],
           'high':  [12100, 11800, 11200, 11100, 11150],
           'low' :  [11600, 11050, 10900, 10950, 10900],
           'close': [11900, 11600, 11000, 11100, 11050]}

# column(인덱스) 순서 지정가능, row 인덱스 지정가능
date = ['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23']
daeshin_day = DataFrame(daeshin, columns=['high','low','open','close'], index=date)
print(daeshin_day)
daeshin_day

           high    low   open  close
16.02.29  12100  11600  11650  11900
16.02.26  11800  11050  11100  11600
16.02.25  11200  10900  11200  11000
16.02.24  11100  10950  11100  11100
16.02.23  11150  10900  11000  11050


Unnamed: 0,high,low,open,close
16.02.29,12100,11600,11650,11900
16.02.26,11800,11050,11100,11600
16.02.25,11200,10900,11200,11000
16.02.24,11100,10950,11100,11100
16.02.23,11150,10900,11000,11050


In [121]:
# column 으로 접근 - 인덱스는 key 로 인식
daeshin_day['open']

# row 로 접근 - 인덱스는 key 로 인식되지만 row 인덱스는 loc 메서드를 이용 - ix 메서드는 deprecated
print(daeshin_day.loc['16.02.29'], '\n') # key 인덱싱
print(daeshin_day.iloc[0], '\n') # 숫자 인덱싱
print(type(daeshin_day.iloc[0]), '\n') # row 데이터도 Series
print(daeshin_day.index) # row 구하기. index 는 row 로 뽑아줌
print(daeshin_day.columns) # column 구하기

high     12100
low      11600
open     11650
close    11900
Name: 16.02.29, dtype: int64 

high     12100
low      11600
open     11650
close    11900
Name: 16.02.29, dtype: int64 

<class 'pandas.core.series.Series'> 

Index(['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23'], dtype='object')
Index(['high', 'low', 'open', 'close'], dtype='object')
