Pandas 문법 정리

일반적으로 각 패키지는 pd, np, plt의 이름으로 불러옴

print를 사용 안해도 마지막 줄에 있는 것이 출력됌.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1. Object Creation

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만듦

* Series : 모든 유형의 데이터를 보유하는 1차원 배열, 테이블의 열
* DataFrame : 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다. 

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 7])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    7.0
dtype: float64

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임 만들기

* NaN : 비어있는 값, 단순한 등호로 비교가 불가하기 때문에 isnan()으로 비교를 해야한다.
* numpy : 배열을 사용하기 위한 파이썬의 표준 패키지 (파이썬은 자체적으로 배열 제공 x)
* randn(m,n) : random 내장 함수, 기대값이 0, 표준 편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한 m*n 행렬 return

In [4]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [5]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,1.208003,-1.019246,0.623445,0.239143
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-03,-1.512406,-0.084194,2.801244,0.701138
2013-01-04,-0.190237,1.038708,0.338404,-0.37904
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996
2013-01-06,-0.868415,0.868511,0.709327,-0.578179


Series와 같은 것으로 변환될 수 있는 객체들의 dictonary로 구성된 데이터 프레임 만들기

* dictonary : 자료형 중 하나로 키와 값으로 이루어짐

In [6]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열의 데이터 타입 확인(.dtypes)

In [7]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

2. Viewing Data (데이터 확인하기)

head(), tail()은 데이터의 전부가 아닌 상단, 하단 부분만 보여준다.

() 안의 숫자 입력 가능 / 위, 아래부터 숫자만큼 불러와줌. / 기본값은 5여서 숫자를 입력하지 않는다면 자동으로 5줄 출력

(ex)

In [8]:
df.tail(3) #끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,-0.190237,1.038708,0.338404,-0.37904
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996
2013-01-06,-0.868415,0.868511,0.709327,-0.578179


In [9]:
df.head() 

Unnamed: 0,A,B,C,D
2013-01-01,1.208003,-1.019246,0.623445,0.239143
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-03,-1.512406,-0.084194,2.801244,0.701138
2013-01-04,-0.190237,1.038708,0.338404,-0.37904
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996


index, column, numpy 데이터에 대한 세부 정보 확인하기

In [10]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [11]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [12]:
df.values #numpy 데이터

array([[ 1.2080026 , -1.01924578,  0.62344522,  0.23914335],
       [ 0.1547093 , -0.63729641, -1.05746322, -0.56276842],
       [-1.51240561, -0.0841935 ,  2.80124378,  0.70113754],
       [-0.19023671,  1.03870806,  0.3384037 , -0.37904046],
       [ 0.64796647, -1.18307222, -0.41208474, -0.387996  ],
       [-0.86841516,  0.86851139,  0.70932676, -0.57817857]])

데이터의 대략적인 통계적 정보 요악 확인하기

* mean : 평균

In [13]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.093397,-0.169431,0.500479,-0.161284
std,0.992818,0.950025,1.314419,0.517285
min,-1.512406,-1.183072,-1.057463,-0.578179
25%,-0.698871,-0.923758,-0.224463,-0.519075
50%,-0.017764,-0.360745,0.480924,-0.383518
75%,0.524652,0.630335,0.687856,0.084597
max,1.208003,1.038708,2.801244,0.701138


데이터 전치하기

In [14]:
df.T #위의 df.head()랑 비교

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,1.208003,0.154709,-1.512406,-0.190237,0.647966,-0.868415
B,-1.019246,-0.637296,-0.084194,1.038708,-1.183072,0.868511
C,0.623445,-1.057463,2.801244,0.338404,-0.412085,0.709327
D,0.239143,-0.562768,0.701138,-0.37904,-0.387996,-0.578179


축 별로 정렬

* 축(axis)는 n차원 배열을 구성하는 요소 / 2차원 배열에서 axis = 0 은 행을 의미, axis = 1은 열을 의미
* ascending : 오름차순, 내림차순 결정 / (ex) ascending = true 는 오름차순, = false 는 내림차순

In [15]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.239143,0.623445,-1.019246,1.208003
2013-01-02,-0.562768,-1.057463,-0.637296,0.154709
2013-01-03,0.701138,2.801244,-0.084194,-1.512406
2013-01-04,-0.37904,0.338404,1.038708,-0.190237
2013-01-05,-0.387996,-0.412085,-1.183072,0.647966
2013-01-06,-0.578179,0.709327,0.868511,-0.868415


값 별로 정렬

In [16]:
df.sort_values(by='B', ascending=False) #B를 기준으로 정렬

Unnamed: 0,A,B,C,D
2013-01-04,-0.190237,1.038708,0.338404,-0.37904
2013-01-06,-0.868415,0.868511,0.709327,-0.578179
2013-01-03,-1.512406,-0.084194,2.801244,0.701138
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-01,1.208003,-1.019246,0.623445,0.239143
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996


3. Selection

Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc을 중점으로 배울 것

Getting (데이터 얻기)

df.A와 동일한 Series를 생성하는 단일 열을 선택

In [17]:
df['A']

2013-01-01    1.208003
2013-01-02    0.154709
2013-01-03   -1.512406
2013-01-04   -0.190237
2013-01-05    0.647966
2013-01-06   -0.868415
Freq: D, Name: A, dtype: float64

슬라이싱 -> ':' 이용 

In [18]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.208003,-1.019246,0.623445,0.239143
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-03,-1.512406,-0.084194,2.801244,0.701138


In [19]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-03,-1.512406,-0.084194,2.801244,0.701138
2013-01-04,-0.190237,1.038708,0.338404,-0.37904


Selection by Label(Label을 통한 선택)

.loc[] 이용, 라벨을 사용하여 횡단면을 얻음

* label : index 이름

In [20]:
df.loc[dates[0]]

A    1.208003
B   -1.019246
C    0.623445
D    0.239143
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축의 데이터를 얻음

In [21]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,1.208003,-1.019246
2013-01-02,0.154709,-0.637296
2013-01-03,-1.512406,-0.084194
2013-01-04,-0.190237,1.038708
2013-01-05,0.647966,-1.183072
2013-01-06,-0.868415,0.868511


양쪽 종단점을 포함한 라벨 슬라이싱

In [22]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,0.154709,-0.637296
2013-01-03,-1.512406,-0.084194
2013-01-04,-0.190237,1.038708


반한되는 객체 차원 줄이기

In [23]:
df.loc['20130102',['A','B']] #1차원


A    0.154709
B   -0.637296
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻음

* 스칼라 : 방향은 없지만, 실수 공간에서 크기를 나타내는 값, 상수

In [24]:
df.loc[dates[0],'A']

1.208002595780964

스칼라 값을 더 빠르게 구하는 방법(.at 이용)

In [25]:
df.at[dates[0],'A']

1.208002595780964

Selection by Position

넘겨받은 정수의 위치를 기준으로 선택

In [26]:
df.iloc[3]

A   -0.190237
B    1.038708
C    0.338404
D   -0.379040
Name: 2013-01-04 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해,  numpy/python과 유사하게 작동

In [27]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,-0.190237,1.038708
2013-01-05,0.647966,-1.183072


정수로 표기된 위치값의 리스트들을 통해, numpy / python의 스타일과 유사해집니다.

In [28]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.154709,-1.057463
2013-01-03,-1.512406,2.801244
2013-01-05,0.647966,-0.412085


명시적으로 행, 열을 나누고자 하는 경우

In [29]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-03,-1.512406,-0.084194,2.801244,0.701138


In [30]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-1.019246,0.623445
2013-01-02,-0.637296,-1.057463
2013-01-03,-0.084194,2.801244
2013-01-04,1.038708,0.338404
2013-01-05,-1.183072,-0.412085
2013-01-06,0.868511,0.709327


명시적으로 특정한 값을 얻고자 하는 경우

In [31]:
df.iloc[1,1]

-0.6372964064776077

스칼라 값을 빠르게 얻는 방법

In [32]:
df.iat[1,1]

-0.6372964064776077

Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용

In [33]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.208003,-1.019246,0.623445,0.239143
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996


Boolean 조건을 충족하는 데이터프레임에서 값을 선택, 만족을 하지 않는 것은 NaN으로 표시

In [34]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.208003,,0.623445,0.239143
2013-01-02,0.154709,,,
2013-01-03,,,2.801244,0.701138
2013-01-04,,1.038708,0.338404,
2013-01-05,0.647966,,,
2013-01-06,,0.868511,0.709327,


isin() : 필터링 해주는 함수

In [35]:
df2 = df.copy() #클론 만듦
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three'] #E부분 만듦
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,1.208003,-1.019246,0.623445,0.239143,one
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768,one
2013-01-03,-1.512406,-0.084194,2.801244,0.701138,two
2013-01-04,-0.190237,1.038708,0.338404,-0.37904,three
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996,four
2013-01-06,-0.868415,0.868511,0.709327,-0.578179,three


In [36]:
df2[df2['E'].isin(['two','four'])] #E에서 two, four 부분만 출력

Unnamed: 0,A,B,C,D,E
2013-01-03,-1.512406,-0.084194,2.801244,0.701138,two
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996,four


Setting(설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬됌.

In [38]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
df["F"] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,1.208003,-1.019246,0.623445,0.239143,
2013-01-02,0.154709,-0.637296,-1.057463,-0.562768,1.0
2013-01-03,-1.512406,-0.084194,2.801244,0.701138,2.0
2013-01-04,-0.190237,1.038708,0.338404,-0.37904,3.0
2013-01-05,0.647966,-1.183072,-0.412085,-0.387996,4.0
2013-01-06,-0.868415,0.868511,0.709327,-0.578179,5.0


In [43]:
df.at[dates[0],'A'] = 0 #라벨에 의해 값을 설정
df.iat[0,1] = 0 #위치에 의해 값을 설정
df.loc[:,'D'] = np.array([5] * len(df)) #Numpy 배열을 사용한 할당에 의해 값을 설정합니다.
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,0.623445,5.0,
2013-01-02,0.154709,-0.637296,-1.057463,5.0,1.0
2013-01-03,-1.512406,-0.084194,2.801244,5.0,2.0
2013-01-04,-0.190237,1.038708,0.338404,5.0,3.0
2013-01-05,0.647966,-1.183072,-0.412085,5.0,4.0
2013-01-06,-0.868415,0.868511,0.709327,5.0,5.0


where 연산 설정

* where 연산 : 조건을 사용하는 연산, 원하는 값을 도출하기 위해 사용

In [44]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.623445,-5.0,
2013-01-02,-0.154709,-0.637296,-1.057463,-5.0,-1.0
2013-01-03,-1.512406,-0.084194,-2.801244,-5.0,-2.0
2013-01-04,-0.190237,-1.038708,-0.338404,-5.0,-3.0
2013-01-05,-0.647966,-1.183072,-0.412085,-5.0,-4.0
2013-01-06,-0.868415,-0.868511,-0.709327,-5.0,-5.0
