In [1]:
import pandas as pd

In [2]:
dates = pd.date_range('20190301', periods=6)
dates

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

위 코드는 pandas의 날짜형 변수를 사용하는 것으로 2019년 3월 1일부터 6일간을 dates라는 변수에 저장한 것이다. 날짜 등을 다루는 시계열 관련 함수를 지원한다는 것은 꽤 중요하다. 어떤 달은 31일, 어떤 달은 28일, 게다가 몇 년에 한번 29일. 이런 생각을 하지 않아도 된다는 것 하나만 봐도 중요한 일이다. pandas의 date_range 함수를 이용해서 날짜를 생성할 수 있다.

In [3]:
import numpy as np
df=pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2019-03-01,-0.646545,1.23625,-0.44569,1.038379
2019-03-02,-1.467046,-0.461063,-0.832978,-1.823713
2019-03-03,-0.675976,0.177212,1.323,-1.93159
2019-03-04,0.682435,0.1057,-0.947581,0.733748
2019-03-05,-0.54969,-0.261367,0.014273,-0.112162
2019-03-06,0.093262,0.023726,0.136748,-0.763329


DataFrame은 pandas의 기본이 되는 중요한 구조이자 그 구조를 이용해서 데이터를 만드는 명령이다.  
먼저 랜덤 변수를 6행, 4열로 만들기 위해 numpy라는 수치 연산 관련 모듈을 np라는 이름으로 import했다.

<img src="./ch2/img/img2-1.png"/>

그림 2-1.pandas DataFrame의 구조

DataFrame은 그림 2-1에 있듯이 세로 방향의 축 제목을 의미하는 칼럼(column)과 각 행의 이름을 의미하는 인덱스(index) 그리고 내용인 밸류(value)로 되어 있다.  
바로 위의 코드 3은 numpy가 제공하는 랜덤 변수로 밸류를 채웠다. 그리고, 코드2에서 만든 날짜로 인덱스를 지정하고, 칼럼 이름은 직접 'A','B','C','D'라고 입력한 것이다.  
이렇게 해서 DataFrame을 만들 수 있다.

In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [6]:
df.index

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df.values

array([[-0.64654458,  1.23624979, -0.44569009,  1.03837902],
       [-1.46704644, -0.46106334, -0.83297815, -1.82371275],
       [-0.67597636,  0.17721244,  1.32300048, -1.93159046],
       [ 0.68243513,  0.10570009, -0.94758084,  0.73374785],
       [-0.54969026, -0.26136739,  0.01427281, -0.11216154],
       [ 0.09326215,  0.02372572,  0.13674826, -0.76332878]])

방금 DataFrame을 저장하는 변수 df에서 칼럼과 인덱스, 밸류를 조회할 수 있다.  
먼저 type 함수는 해당 변수 혹은 함수의 형(type)을 알려준다. 당연한 이야기지만, df변수는 pandas의 DataFrame클래스이다.  
그리고, df 변수에서 columns, index, values 속성을 모두 조회할 수 있다.

In [8]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.42726,0.136743,-0.125371,-0.476444
std,0.735997,0.589941,0.832506,1.257525
min,-1.467046,-0.461063,-0.947581,-1.93159
25%,-0.668618,-0.190094,-0.736156,-1.558617
50%,-0.598117,0.064713,-0.215709,-0.437745
75%,-0.067476,0.159334,0.106129,0.522271
max,0.682435,1.23625,1.323,1.038379


랜덤 변수를 사용했기 때문에 의미는 없지만, 통계적 개요를 보여주는 describe 함수가 있다.  
개수, 평균, 표준편차, 최댓값/최솟값 등을 한눈에 알려준다.

In [9]:
df.sort_values(by='A')

Unnamed: 0,A,B,C,D
2019-03-02,-1.467046,-0.461063,-0.832978,-1.823713
2019-03-03,-0.675976,0.177212,1.323,-1.93159
2019-03-01,-0.646545,1.23625,-0.44569,1.038379
2019-03-05,-0.54969,-0.261367,0.014273,-0.112162
2019-03-06,0.093262,0.023726,0.136748,-0.763329
2019-03-04,0.682435,0.1057,-0.947581,0.733748


In [10]:
df.sort_values(by='A', ascending=False)

Unnamed: 0,A,B,C,D
2019-03-04,0.682435,0.1057,-0.947581,0.733748
2019-03-06,0.093262,0.023726,0.136748,-0.763329
2019-03-05,-0.54969,-0.261367,0.014273,-0.112162
2019-03-01,-0.646545,1.23625,-0.44569,1.038379
2019-03-03,-0.675976,0.177212,1.323,-1.93159
2019-03-02,-1.467046,-0.461063,-0.832978,-1.823713


정렬 기능은 sort_values라는 명령으로 수행 가능하다. by 옵션으로 정렬 기준이 되는 칼럼을 지정하고, ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션을 지정하지 않으면 기본 상태는 오름차순으로 정렬하는 것이고, False라고 지정하면 내림차순을 지정하는 것이다
파이썬에서는 True/False를 지정할 때는 알파벳 첫 글자가 꼭 대문자여야 한다.

Pandas든 엑셀이든 데이터를 잘 사용하려면 원하는 것만 선택할 수 있어야 한다. 하나의 요소만 선택할 수도 있지만, 범위로 선택할 수도 있다. 이번에는 slice라는 데이터를 범위를 지정해서 선택하는 방법을 학습하려고 한다.

In [11]:
df['A']

2019-03-01   -0.646545
2019-03-02   -1.467046
2019-03-03   -0.675976
2019-03-04    0.682435
2019-03-05   -0.549690
2019-03-06    0.093262
Freq: D, Name: A, dtype: float64

먼저 간단하게 칼럼 이름만 입력하면 해당 칼럼의 내용이 나타난다.

In [12]:
type(df['A'])

pandas.core.series.Series

이때, 결과는 한 줄짜리 DataFrame 즉, Series로 나타난다. 사실 pandas에서 가장 작은 데이터형은 Series이고 그다음이 DataFrame이다. 실행된 결과 혹은 사용하는 입력으로만 보면 DataFrame이 훨씬 많다. 우리는 그냥 한 줄 짜리는 Series라고 이해하고 지나가자.

In [13]:
df[0:3]

Unnamed: 0,A,B,C,D
2019-03-01,-0.646545,1.23625,-0.44569,1.038379
2019-03-02,-1.467046,-0.461063,-0.832978,-1.823713
2019-03-03,-0.675976,0.177212,1.323,-1.93159


이 코드 13번은 행 기준으로 선택한 것이다. 여기서 파이썬을 처음 만나는 분들은 조심해야 하는 것이 0:3의 의미이다.  
0:3 = 0, 1, 2  
를 의미한다. 즉, 0부터 3 앞까지이다. 그래서 코드 3의 결과에서 0번, 1번, 2번 줄만 선택한 것이다.

In [14]:
df.loc['2019-03-01']

A   -0.646545
B    1.236250
C   -0.445690
D    1.038379
Name: 2019-03-01 00:00:00, dtype: float64

한가지, 코드 11은 열을 선택한 것이고 코드 13번은 열을 선택했다. 그러나, 직관적으로 어떨 때는 행이고, 어떨 때는 열인지 혼동이 오기도 한다. 그래서 명시적으로 loc 옵션을 사용하는 것이 나중에 코드를 관찰할 때 이해하기 쉽다. loc 옵션은 항상 행, 열의 순서로 입력하면 된다. 코드14처럼 작성하면 행만 의미한다.

In [15]:
df.loc['2019-03-01',['A']]

A   -0.646545
Name: 2019-03-01 00:00:00, dtype: float64

행을 지정하고, 열도 그 뒤에 지정할 수 있다.

In [16]:
df.loc['2019-03-01', ['A','B']]

A   -0.646545
B    1.236250
Name: 2019-03-01 00:00:00, dtype: float64

다수의 열을 지정할 수 있다.

In [17]:
df.loc['2019-03-01' : '2019-03-02', ['A','B']]

Unnamed: 0,A,B
2019-03-01,-0.646545,1.23625
2019-03-02,-1.467046,-0.461063
