In [1]:
import pandas as pd

In [2]:
dates = pd.date_range('20190301', periods=6)
dates

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

위 코드는 pandas의 날짜형 변수를 사용하는 것으로 2019년 3월 1일부터 6일간을 dates라는 변수에 저장한 것이다. 날짜 등을 다루는 시계열 관련 함수를 지원한다는 것은 꽤 중요하다. 어떤 달은 31일, 어떤 달은 28일, 게다가 몇 년에 한번 29일. 이런 생각을 하지 않아도 된다는 것 하나만 봐도 중요한 일이다. pandas의 date_range 함수를 이용해서 날짜를 생성할 수 있다.

In [3]:
import numpy as np
df=pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555
2019-03-04,-1.487329,0.745915,0.025615,0.301298
2019-03-05,1.568619,0.254079,-0.124699,0.987801
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164


DataFrame은 pandas의 기본이 되는 중요한 구조이자 그 구조를 이용해서 데이터를 만드는 명령이다.  
먼저 랜덤 변수를 6행, 4열로 만들기 위해 numpy라는 수치 연산 관련 모듈을 np라는 이름으로 import했다.

<img src="./ch2/img/img2-1.png"/>

그림 2-1.pandas DataFrame의 구조

DataFrame은 그림 2-1에 있듯이 세로 방향의 축 제목을 의미하는 칼럼(column)과 각 행의 이름을 의미하는 인덱스(index) 그리고 내용인 밸류(value)로 되어 있다.  
바로 위의 코드 3은 numpy가 제공하는 랜덤 변수로 밸류를 채웠다. 그리고, 코드2에서 만든 날짜로 인덱스를 지정하고, 칼럼 이름은 직접 'A','B','C','D'라고 입력한 것이다.  
이렇게 해서 DataFrame을 만들 수 있다.

In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [6]:
df.index

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df.values

array([[ 0.78599166, -0.031581  , -0.646492  , -0.26482382],
       [-1.04004676,  0.36003841, -0.77886279, -1.52792872],
       [-2.11563681, -0.13864867, -1.84458544,  0.28255469],
       [-1.48732871,  0.7459147 ,  0.02561547,  0.30129799],
       [ 1.5686192 ,  0.25407854, -0.12469858,  0.98780142],
       [ 0.2959652 , -0.53960835, -0.94040432, -0.77516396]])

방금 DataFrame을 저장하는 변수 df에서 칼럼과 인덱스, 밸류를 조회할 수 있다.  
먼저 type 함수는 해당 변수 혹은 함수의 형(type)을 알려준다. 당연한 이야기지만, df변수는 pandas의 DataFrame클래스이다.  
그리고, df 변수에서 columns, index, values 속성을 모두 조회할 수 있다.

In [8]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.332073,0.108366,-0.718238,-0.166044
std,1.433463,0.445312,0.668199,0.892919
min,-2.115637,-0.539608,-1.844585,-1.527929
25%,-1.375508,-0.111882,-0.900019,-0.647579
50%,-0.372041,0.111249,-0.712677,0.008865
75%,0.663485,0.333548,-0.255147,0.296612
max,1.568619,0.745915,0.025615,0.987801


랜덤 변수를 사용했기 때문에 의미는 없지만, 통계적 개요를 보여주는 describe 함수가 있다.  
개수, 평균, 표준편차, 최댓값/최솟값 등을 한눈에 알려준다.

In [9]:
df.sort_values(by='A')

Unnamed: 0,A,B,C,D
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555
2019-03-04,-1.487329,0.745915,0.025615,0.301298
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-05,1.568619,0.254079,-0.124699,0.987801


In [10]:
df.sort_values(by='A', ascending=False)

Unnamed: 0,A,B,C,D
2019-03-05,1.568619,0.254079,-0.124699,0.987801
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929
2019-03-04,-1.487329,0.745915,0.025615,0.301298
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555


정렬 기능은 sort_values라는 명령으로 수행 가능하다. by 옵션으로 정렬 기준이 되는 칼럼을 지정하고, ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션으로 내림차순이나 오름차순을 지정할 수 있다.
ascending 옵션을 지정하지 않으면 기본 상태는 오름차순으로 정렬하는 것이고, False라고 지정하면 내림차순을 지정하는 것이다
파이썬에서는 True/False를 지정할 때는 알파벳 첫 글자가 꼭 대문자여야 한다.

Pandas든 엑셀이든 데이터를 잘 사용하려면 원하는 것만 선택할 수 있어야 한다. 하나의 요소만 선택할 수도 있지만, 범위로 선택할 수도 있다. 이번에는 slice라는 데이터를 범위를 지정해서 선택하는 방법을 학습하려고 한다.

In [11]:
df['A']

2019-03-01    0.785992
2019-03-02   -1.040047
2019-03-03   -2.115637
2019-03-04   -1.487329
2019-03-05    1.568619
2019-03-06    0.295965
Freq: D, Name: A, dtype: float64

먼저 간단하게 칼럼 이름만 입력하면 해당 칼럼의 내용이 나타난다.

In [12]:
type(df['A'])

pandas.core.series.Series

이때, 결과는 한 줄짜리 DataFrame 즉, Series로 나타난다. 사실 pandas에서 가장 작은 데이터형은 Series이고 그다음이 DataFrame이다. 실행된 결과 혹은 사용하는 입력으로만 보면 DataFrame이 훨씬 많다. 우리는 그냥 한 줄 짜리는 Series라고 이해하고 지나가자.

In [13]:
df[0:3]

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555


이 코드 13번은 행 기준으로 선택한 것이다. 여기서 파이썬을 처음 만나는 분들은 조심해야 하는 것이 0:3의 의미이다.  
0:3 = 0, 1, 2  
를 의미한다. 즉, 0부터 3 앞까지이다. 그래서 코드 3의 결과에서 0번, 1번, 2번 줄만 선택한 것이다.

In [14]:
df.loc['2019-03-01']

A    0.785992
B   -0.031581
C   -0.646492
D   -0.264824
Name: 2019-03-01 00:00:00, dtype: float64

한가지, 코드 11은 열을 선택한 것이고 코드 13번은 열을 선택했다. 그러나, 직관적으로 어떨 때는 행이고, 어떨 때는 열인지 혼동이 오기도 한다. 그래서 명시적으로 loc 옵션을 사용하는 것이 나중에 코드를 관찰할 때 이해하기 쉽다. loc 옵션은 항상 행, 열의 순서로 입력하면 된다. 코드14처럼 작성하면 행만 의미한다.

In [15]:
df.loc['2019-03-01',['A']]

A    0.785992
Name: 2019-03-01 00:00:00, dtype: float64

행을 지정하고, 열도 그 뒤에 지정할 수 있다.

In [16]:
df.loc['2019-03-01', ['A','B']]

A    0.785992
B   -0.031581
Name: 2019-03-01 00:00:00, dtype: float64

다수의 열을 지정할 수 있다.

In [17]:
df.loc['2019-03-01' : '2019-03-02', ['A','B']]

Unnamed: 0,A,B
2019-03-01,0.785992,-0.031581
2019-03-02,-1.040047,0.360038


범위로 행을 지정할 수 있다.

In [18]:
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
2019-03-01,0.785992,-0.031581
2019-03-02,-1.040047,0.360038
2019-03-03,-2.115637,-0.138649
2019-03-04,-1.487329,0.745915
2019-03-05,1.568619,0.254079
2019-03-06,0.295965,-0.539608


전체 행(:)을 선택하거나 열을 선택할 수 있다. 위에서 보듯이 loc 옵션은 칼럼이나 인덱스의 이름을 사용해야 한다.

In [19]:
df.iloc[0:2]

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929


loc 옵션이 이름을 사용하는 것에 비해서 iloc 옵션은 숫자만 사용한다. 몇 번째인지를 선택하는 것이다. 코드 19는 0부터 2 앞까지, 그러니까, 0과 1번째 행을 선택한다.

In [20]:
df.iloc[0:2, 0:2]

Unnamed: 0,A,B
2019-03-01,0.785992,-0.031581
2019-03-02,-1.040047,0.360038


행과 열의 범위를 지정할 수 있다.

In [21]:
df.iloc[[0,1,3], 0:2]

Unnamed: 0,A,B
2019-03-01,0.785992,-0.031581
2019-03-02,-1.040047,0.360038
2019-03-04,-1.487329,0.745915


다수의 행과 열을 범위로 지정할 수 있다.

In [22]:
df.iloc[[0,1,3]]

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929
2019-03-04,-1.487329,0.745915,0.025615,0.301298


다수의 열을 선택할 수 있다.

In [23]:
df['A']>0

2019-03-01     True
2019-03-02    False
2019-03-03    False
2019-03-04    False
2019-03-05     True
2019-03-06     True
Freq: D, Name: A, dtype: bool

코드 23은 df 변수의 'A' 칼럼에서 양수를 물었고, 그 대답이 True/False로 나타난 것이다. 코드 23의 결과가 True/False이니 이를 행을 선택하는 입력으로 사용할 수 있다.

In [24]:
df[df['A']>0]

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824
2019-03-05,1.568619,0.254079,-0.124699,0.987801
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164


바로 이렇게 할 수 있다. DataFrame에서 조건문을 적용하는 간단한 예제이다. 그러면, DataFrame 전체에는 적용할 수 없을까? 가능하다. 아주 쉽게 된다.

In [25]:
df>0

Unnamed: 0,A,B,C,D
2019-03-01,True,False,False,False
2019-03-02,False,True,False,False
2019-03-03,False,False,False,True
2019-03-04,False,True,True,True
2019-03-05,True,True,False,True
2019-03-06,True,False,False,False


이렇게 결과가 나오는 것에 대해,

In [26]:
df[df>0]

Unnamed: 0,A,B,C,D
2019-03-01,0.785992,,,
2019-03-02,,0.360038,,
2019-03-03,,,,0.282555
2019-03-04,,0.745915,0.025615,0.301298
2019-03-05,1.568619,0.254079,,0.987801
2019-03-06,0.295965,,,


만약 칼럼의 순서를 바꾸고 싶다면

In [27]:
df2 = pd.DataFrame(df, columns=['A','C','D','B'])

이렇게 DataFrame 명령에 columns 옵션을 이용해서 쉽게 변경할 수 있다.

In [28]:
df['E'] = np.nan
df

Unnamed: 0,A,B,C,D,E
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824,
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929,
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555,
2019-03-04,-1.487329,0.745915,0.025615,0.301298,
2019-03-05,1.568619,0.254079,-0.124699,0.987801,
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164,


새로운 열을 만드는 간단한 방법은 새로운 열('E')을 선언하고, 값을 지정하면 된다. numpy가 제공하는 nan(not a nuber)을 지정하면, 전체 열이 해당 값으로 채워진다.

In [29]:
df.loc['2019-03-02', ['E']] = 2
df

Unnamed: 0,A,B,C,D,E
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824,
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929,2.0
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555,
2019-03-04,-1.487329,0.745915,0.025615,0.301298,
2019-03-05,1.568619,0.254079,-0.124699,0.987801,
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164,


loc 옵션으로 행과 열의 위치(['2019-03-02', ['E']]) 를 지정해서 원하는 값을 저장할 수 있다.

In [30]:
df['F'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C,D,E,F
2019-03-01,0.785992,-0.031581,-0.646492,-0.264824,,0.754411
2019-03-02,-1.040047,0.360038,-0.778863,-1.527929,2.0,-0.680008
2019-03-03,-2.115637,-0.138649,-1.844585,0.282555,,-2.254285
2019-03-04,-1.487329,0.745915,0.025615,0.301298,,-0.741414
2019-03-05,1.568619,0.254079,-0.124699,0.987801,,1.822698
2019-03-06,0.295965,-0.539608,-0.940404,-0.775164,,-0.243643


Pandas는 열(column) 방향 연산이 아주 자연스럽다. 코드 30의 경우를 보면 A열과 B열을 더하겠다고 하면, 두 열의 각 위치가 더해져서 새로운 열이 될 수 있다. 보통 조금 더 low 레벨 언어라면 이런 경우 반복문(for)문을 사용해야 할것이다.