# 1. Object Creation (객체 생성)


In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [6]:
s = pd.Series([1,3,5,np.nan, 6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

datetime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 만듭니다.

In [7]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [8]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.342426,-0.851732,1.347389,-0.812204
2013-01-02,-3.143569,-0.354926,0.00614,1.39426
2013-01-03,0.417865,-0.202697,-1.131247,-0.275793
2013-01-04,0.295284,0.917545,0.918773,1.900139
2013-01-05,0.77659,0.096479,-1.093643,-0.452882
2013-01-06,-0.418649,0.843096,1.005303,-1.007763


Series와 같은 것으로 변환될 수 있는 객체들의 dict로 구성된 데이터프레임을 만듭니다.

In [9]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열은 다양한 데이터 타입 (dtypes)으로 구성됩니다.

In [10]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

# 2. Viewing Data (데이터 확인하기)
Basic Section을 참조하세요.

데이터프레임의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같습니다.

역자 주: 괄호() 안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있습니다. 숫자가 들어간다면, 윗 / 마지막 줄의 특정 줄을 불러올 수 있습니다. 숫자가 들어가지 않다면, 기본값인 5로 처리됩니다.

예시

In [11]:
df.tail(3)  # 끝에서 마지막 3줄을 불러옴
df.tail()  # 끝에서 마지막 5줄 불러옴
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.342426,-0.851732,1.347389,-0.812204
2013-01-02,-3.143569,-0.354926,0.00614,1.39426
2013-01-03,0.417865,-0.202697,-1.131247,-0.275793
2013-01-04,0.295284,0.917545,0.918773,1.900139
2013-01-05,0.77659,0.096479,-1.093643,-0.452882


In [12]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,0.295284,0.917545,0.918773,1.900139
2013-01-05,0.77659,0.096479,-1.093643,-0.452882
2013-01-06,-0.418649,0.843096,1.005303,-1.007763


인덱스 (index), 열 (column) 그리고 numpy 데이터에 대한 세부 정보를 봅니다.

In [13]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [14]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [15]:
df.values

array([[-0.34242608, -0.85173236,  1.34738899, -0.8122038 ],
       [-3.14356852, -0.35492605,  0.00614012,  1.39426024],
       [ 0.41786511, -0.20269699, -1.13124697, -0.27579275],
       [ 0.29528412,  0.91754506,  0.91877276,  1.90013908],
       [ 0.77658994,  0.09647861, -1.09364304, -0.45288244],
       [-0.41864935,  0.84309572,  1.0053032 , -1.00776347]])

describe()는 데이터의 대략적인 통계적 정보 요약을 보여줍니다.

In [16]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.402484,0.074627,0.175453,0.124293
std,1.418977,0.695859,1.091911,1.21805
min,-3.143569,-0.851732,-1.131247,-1.007763
25%,-0.399594,-0.316869,-0.818697,-0.722373
50%,-0.023571,-0.053109,0.462456,-0.364338
75%,0.38722,0.656441,0.983671,0.976747
max,0.77659,0.917545,1.347389,1.900139


데이터를 전치합니다.

In [17]:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-0.342426,-3.143569,0.417865,0.295284,0.77659,-0.418649
B,-0.851732,-0.354926,-0.202697,0.917545,0.096479,0.843096
C,1.347389,0.00614,-1.131247,0.918773,-1.093643,1.005303
D,-0.812204,1.39426,-0.275793,1.900139,-0.452882,-1.007763


축 별로 정렬합니다.

In [18]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.812204,1.347389,-0.851732,-0.342426
2013-01-02,1.39426,0.00614,-0.354926,-3.143569
2013-01-03,-0.275793,-1.131247,-0.202697,0.417865
2013-01-04,1.900139,0.918773,0.917545,0.295284
2013-01-05,-0.452882,-1.093643,0.096479,0.77659
2013-01-06,-1.007763,1.005303,0.843096,-0.418649


값 별로 정렬합니다.

In [19]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-01,-0.342426,-0.851732,1.347389,-0.812204
2013-01-02,-3.143569,-0.354926,0.00614,1.39426
2013-01-03,0.417865,-0.202697,-1.131247,-0.275793
2013-01-05,0.77659,0.096479,-1.093643,-0.452882
2013-01-06,-0.418649,0.843096,1.005303,-1.007763
2013-01-04,0.295284,0.917545,0.918773,1.900139


# 3. Selection (선택)
주석 (Note) : 선택과 설정을 위한 Python / Numpy의 표준화된 표현들이 직관적이며, 코드 작성을 위한 양방향 작업에 유용하지만 우리는 Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc 을 추천합니다.

데이터 인덱싱 및 선택 문서와 다중 인덱싱 / 심화 인덱싱 문서를 참조하세요.

Getting (데이터 얻기)  

df.A 와 동일한 Series를 생성하는 단일 열을 선택합니다.

In [24]:
df['A']

2013-01-01   -0.342426
2013-01-02   -3.143569
2013-01-03    0.417865
2013-01-04    0.295284
2013-01-05    0.776590
2013-01-06   -0.418649
Freq: D, Name: A, dtype: float64

행을 분할하는 [ ]를 통해 선택합니다.

In [23]:
df[0:3]


Unnamed: 0,A,B,C,D
2013-01-01,-0.342426,-0.851732,1.347389,-0.812204
2013-01-02,-3.143569,-0.354926,0.00614,1.39426
2013-01-03,0.417865,-0.202697,-1.131247,-0.275793


In [None]:
df['20130102':'20130104']

Selection by Label (Label 을 통한 선택)
Label을 통한 선택에서 더 많은 내용을 확인하세요.

라벨을 사용하여 횡단면을 얻습니다.

In [22]:
df.loc[dates[0]]

A   -0.342426
B   -0.851732
C    1.347389
D   -0.812204
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축 (의 데이터)을 얻습니다.

In [21]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.342426,-0.851732
2013-01-02,-3.143569,-0.354926
2013-01-03,0.417865,-0.202697
2013-01-04,0.295284,0.917545
2013-01-05,0.77659,0.096479
2013-01-06,-0.418649,0.843096
