# 1) DataFrame 생성
DataFrame 객체를 생성하는 가장 쉬운 방법은 파이썬의 딕셔너리를 사용하는 것 입니다. 딕셔너리를 통해 각 칼럼에 대한 데이터를 저장한 후 딕셔너리를 DataFrame 클래스의 생성자 인자로 넘겨주면 DataFrame 객체가 생성됩니다.

예제 13.1 을 참조하면 raw_data 딕셔너리는 'clo0', 'col1', 'col2'라는 키 값을 가지며 각 키는 리스트 타입의 값을 가집니다. 이를 DataFrame의 생성자로 넘겨주면 DataFrame 객체가 생성되는데 생성된 객체를 data라는 변수가 바인딩합니다.

In [1]:
from pandas import Series, DataFrame

raw_data = {'col0' : [1, 2, 3, 4],
            'col1' : [10, 20, 30, 40],
            'col2' : [100, 200, 300, 400]}
data = DataFrame(raw_data)
print(data)

   col0  col1  col2
0     1    10   100
1     2    20   200
2     3    30   300
3     4    40   400


예제 13.1 딕셔너리를 이용한 DataFrame 객체 생성(소스코드: book/ch13/08.py)

예제 13.1을 실행한 결과는 다음과 같습니다. 주의해서 살펴볼 부분은 col0, col1, col2라는 세 개의 칼럼이 존재한다는 점입니다. 여기서 'col0', 'col1', 'col2' 라는 문자열은 DataFrame의 각 칼럼을 인덱싱하는데 사용됩니다. 로우 방향으로는 Series와 유사하게 정숫값으로 자동으로 인덱싱된 것을 확인할 수 있습니다.

그림 13.8을 참조해서 예제13.1의 코드를 Python Console에서 실행해보기 바랍니다. 먼저 'col0', 'col1', 'col2'를 사용해 각 칼럼을 선택해 봅시다. 파이썬 딕셔너리에서 키를 통해 값에 접근했던 것과 같이 DataFrame 객체의 각 칼럼에 접근할 수 있습니다.

In [4]:
data['col0']

0    1
1    2
2    3
3    4
Name: col0, dtype: int64

In [5]:
data['col1']

0    10
1    20
2    30
3    40
Name: col1, dtype: int64

In [6]:
data['col2']

0    100
1    200
2    300
3    400
Name: col2, dtype: int64

type 함수를 사용해 DataFrame에 있는 각 칼럼의 타입을 확인해 봅시다. type의 리턴 값을 살펴보면 DataFrame에 있는 각 칼럼은 Series 객체임을 알 수 있습니다. 즉, DataFrame을 인덱스가 같은 여러개의 Series 객체로 구성된 자료구조로 생각해도 좋습니다.

In [7]:
type(data['col0'])

pandas.core.series.Series

그림 13.10은 data라는 변수가 바인딩하고 있는 DataFrame 객체의 내부 구조를 그림으로 나타낸 것 입니다. DataFrame 객체는 'col0', 'col1', 'col2'라는 세 개의 Series 객체로 구성되는데, Series 객체의 인덱스는 서로 동일합니다.

data라는 변수가 바인딩하는 DataFrame 객체를 그림 13.11과 같이 표현해 볼 수도 있습니다. DataFrame에는 3개의 Series 객체가 있습니다.이는 'col0', 'col1', 'col2'라는 키에 각각 대응되는 값이고 이것들을 하나의 파이썬 딕셔너리 객체로 생각하는 것입니다. 따라서 'col0', 'col1', 'col2'라는 키를 통해 값에 해당하는 Series 객체에 접근할 수 있는 것입니다.

입력 데이터와의 구조적 유사성(2차원) 관점에서 바라보면 DataFrame이 그림 13.10과 같이 구성된다고 생각하는 것이 편하지만 DataFrame의 각 칼럼에 대한 접근 방식 관점에서 바라보면 DataFrame이 그림 13.11과 같이 구성된다고 생각하는 것이 더 편리합니다. 두 그림을 모두 기억해 둔다면 DataFrame이라는 자료 구조를 더욱 쉽게 이해할 수 있을 것입니다.

이번에는 그림 13.9의 데이터에서 16.02.23 ~ 16.02.29일 사이의 일자별 주가 중 시가, 고가, 저가, 종가를 DataFrame으로 저장해 봅시다. 참고로 시가, 고가, 종가는 영어로 open, high, low, close라고 부르며 약어로 OHLC라고 하기도 합니다. 
DataFrame 객체를 생성하기 위해 예제 13.2의 코드와 같이 파이썬 딕셔너리 형태로 칼럼에 대응하는 데이터를 표현한 후 이를 DataFrame 클래스의 생성자로 넘겨줍니다.

In [8]:
from pandas import Series, DataFrame

daeshin = {'open':  [11650, 11100, 11200, 11100, 11000],
           'high':  [12100, 11800, 11200, 11100, 11150],
           'low' :  [11600, 11050, 10900, 10950, 10900],
           'close': [11900, 11600, 11000, 11100, 11050]}

daeshin_day = DataFrame(daeshin)
print(daeshin_day)

    open   high    low  close
0  11650  12100  11600  11900
1  11100  11800  11050  11600
2  11200  11200  10900  11000
3  11100  11100  10950  11100
4  11000  11150  10900  11050


예제 13.2 딕셔너리를 이용한 DataFrame 객체 생성(2)(소스코드: book/ch13/09.py)

예제 13.2를 실행해 생성한 DataFrame 객체 값을 확인해 봅시다. 출력 값을 살펴보면 시가, 고가, 저가, 종가 데이터가 일단 2차원 형태로 잘 저장된 것을 확인 할 수 있습니다. 다만 그림13.9와 비교해보면 칼럼의 순서가 그림과 다른 것을 알 수 있습니다. 그리고 Series 객체의 인덱스가 날짜 대신 정숫값으로 돼 있습니다.

DataFrame 객체에서 칼럼의 순서는 DataFrame 객체를 생성할 때 columns라는 키워드를 지정할 수 있습니다.

In [11]:
daeshin_day = DataFrame(daeshin, columns=['open', 'high', 'low', 'close'])
daeshin_day

Unnamed: 0,open,high,low,close
0,11650,12100,11600,11900
1,11100,11800,11050,11600
2,11200,11200,10900,11000
3,11100,11100,10950,11100
4,11000,11150,10900,11050


새롭게 생성된 DataFrame 객체를 출력해보면 그림 13.9와 동일한 순서로 칼럼이 구성된 것을 확인할 수 있습니다.
DataFrame에서 인덱스 역시 DataFrame 객체를 생성하는 시점에 index를 통해 지정할 수 있습니다. 먼저 인덱싱에 사용할 값을 만든 후 이를 DataFrame 객체 생성 시점에 지정하면 됩니다.

In [14]:
date=['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23']
daeshin_day = DataFrame(daeshin, columns=['open', 'high', 'low', 'close'], index=date)
daeshin_day

Unnamed: 0,open,high,low,close
16.02.29,11650,12100,11600,11900
16.02.26,11100,11800,11050,11600
16.02.25,11200,11200,10900,11000
16.02.24,11100,11100,10950,11100
16.02.23,11000,11150,10900,11050
