In [1]:
import pandas as pd

In [2]:
dates = pd.date_range('20190301', periods=6)
dates

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

위 코드는 pandas의 날짜형 변수를 사용하는 것으로 2019년 3월 1일부터 6일간을 dates라는 변수에 저장한 것이다. 날짜 등을 다루는 시계열 관련 함수를 지원한다는 것은 꽤 중요하다. 어떤 달은 31일, 어떤 달은 28일, 게다가 몇 년에 한번 29일. 이런 생각을 하지 않아도 된다는 것 하나만 봐도 중요한 일이다. pandas의 date_range 함수를 이용해서 날짜를 생성할 수 있다.

In [3]:
import numpy as np
df=pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2019-03-01,0.46249,0.959111,-1.921671,0.567598
2019-03-02,-0.291081,-1.120116,1.335347,-0.561756
2019-03-03,0.327963,-0.06206,1.077805,-0.700923
2019-03-04,0.829118,-0.212455,-0.535469,0.6759
2019-03-05,-1.573969,0.481816,0.596456,-1.160958
2019-03-06,0.244991,0.652616,-1.378914,-0.003947


DataFrame은 pandas의 기본이 되는 중요한 구조이자 그 구조를 이용해서 데이터를 만드는 명령이다.  
먼저 랜덤 변수를 6행, 4열로 만들기 위해 numpy라는 수치 연산 관련 모듈을 np라는 이름으로 import했다.

<img src="./ch2/img/img2-1.png"/>

그림 2-1.pandas DataFrame의 구조

DataFrame은 그림 2-1에 있듯이 세로 방향의 축 제목을 의미하는 칼럼(column)과 각 행의 이름을 의미하는 인덱스(index) 그리고 내용인 밸류(value)로 되어 있다.  
바로 위의 코드 3은 numpy가 제공하는 랜덤 변수로 밸류를 채웠다. 그리고, 코드2에서 만든 날짜로 인덱스를 지정하고, 칼럼 이름은 직접 'A','B','C','D'라고 입력한 것이다.  
이렇게 해서 DataFrame을 만들 수 있다.

In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [6]:
df.index

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df.values

array([[ 0.46248955,  0.95911111, -1.92167093,  0.56759763],
       [-0.29108125, -1.1201159 ,  1.335347  , -0.56175611],
       [ 0.32796318, -0.06206022,  1.0778049 , -0.70092291],
       [ 0.82911785, -0.21245469, -0.5354688 ,  0.67590021],
       [-1.57396899,  0.48181581,  0.59645621, -1.16095801],
       [ 0.24499149,  0.65261639, -1.37891449, -0.00394655]])

방금 DataFrame을 저장하는 변수 df에서 칼럼과 인덱스, 밸류를 조회할 수 있다.  
먼저 type 함수는 해당 변수 혹은 함수의 형(type)을 알려준다. 당연한 이야기지만, df변수는 pandas의 DataFrame클래스이다.  
그리고, df 변수에서 columns, index, values 속성을 모두 조회할 수 있다.

In [8]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-8.1e-05,0.116485,-0.137741,-0.197348
std,0.852176,0.748356,1.346677,0.734851
min,-1.573969,-1.120116,-1.921671,-1.160958
25%,-0.157063,-0.174856,-1.168053,-0.666131
50%,0.286477,0.209878,0.030494,-0.282851
75%,0.428858,0.609916,0.957468,0.424712
max,0.829118,0.959111,1.335347,0.6759


랜덤 변수를 사용했기 때문에 의미는 없지만, 통계적 개요를 보여주는 describe 함수가 있다.  
개수, 평균, 표준편차, 최댓값/최솟값 등을 한눈에 알려준다.

In [10]:
df.sort_values(by='A')

Unnamed: 0,A,B,C,D
2019-03-05,-1.573969,0.481816,0.596456,-1.160958
2019-03-02,-0.291081,-1.120116,1.335347,-0.561756
2019-03-06,0.244991,0.652616,-1.378914,-0.003947
2019-03-03,0.327963,-0.06206,1.077805,-0.700923
2019-03-01,0.46249,0.959111,-1.921671,0.567598
2019-03-04,0.829118,-0.212455,-0.535469,0.6759


In [9]:
df.sort_values(by='A', ascending=False)

Unnamed: 0,A,B,C,D
2019-03-04,0.829118,-0.212455,-0.535469,0.6759
2019-03-01,0.46249,0.959111,-1.921671,0.567598
2019-03-03,0.327963,-0.06206,1.077805,-0.700923
2019-03-06,0.244991,0.652616,-1.378914,-0.003947
2019-03-02,-0.291081,-1.120116,1.335347,-0.561756
2019-03-05,-1.573969,0.481816,0.596456,-1.160958


정렬 기능은 sort_values라는 명령으로 수행 가능하다. by 옵션으로 정렬 기준이 되는 칼럼을 지정하고, ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션을 지정하지 않으면 기본 상태는 오름차순으로 정렬하는 것이고, False라고 지정하면 내림차순을 지정하는 것이다
파이썬에서는 True/False를 지정할 때는 알파벳 첫 글자가 꼭 대문자여야 한다.