Pandas 문법 정리

일반적으로 각 패키지는 pd, np, plt의 이름으로 불러옴

print를 사용 안해도 마지막 줄에 있는 것이 출력됨.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1. Object Creation

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만듦

* Series : 모든 유형의 데이터를 보유하는 1차원 배열, 테이블의 열
* DataFrame : 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다. 

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 7])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    7.0
dtype: float64

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임 만들기

* NaN : 비어있는 값, 단순한 등호로 비교가 불가하기 때문에 isnan()으로 비교를 해야한다.
* numpy : 배열을 사용하기 위한 파이썬의 표준 패키지 (파이썬은 자체적으로 배열 제공 x)
* randn(m,n) : random 내장 함수, 기대값이 0, 표준 편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한 m*n 행렬 return

In [4]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [5]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-03,-0.007521,1.084289,-2.023672,0.066813
2013-01-04,-0.426157,0.518923,0.059316,0.198711
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689
2013-01-06,-0.14082,0.958133,2.054388,1.090378


Series와 같은 것으로 변환될 수 있는 객체들의 dictonary로 구성된 데이터 프레임 만들기

* dictonary : 자료형 중 하나로 키와 값으로 이루어짐

In [6]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열의 데이터 타입 확인(.dtypes)

In [7]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

2. Viewing Data (데이터 확인하기)

head(), tail()은 데이터의 전부가 아닌 상단, 하단 부분만 보여준다.

() 안의 숫자 입력 가능 / 위, 아래부터 숫자만큼 불러와줌. / 기본값은 5여서 숫자를 입력하지 않는다면 자동으로 5줄 출력

(ex)

In [8]:
df.tail(3) #끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,-0.426157,0.518923,0.059316,0.198711
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689
2013-01-06,-0.14082,0.958133,2.054388,1.090378


In [9]:
df.head() 

Unnamed: 0,A,B,C,D
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-03,-0.007521,1.084289,-2.023672,0.066813
2013-01-04,-0.426157,0.518923,0.059316,0.198711
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689


index, column, numpy 데이터에 대한 세부 정보 확인하기

In [10]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [11]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [12]:
df.values #numpy 데이터

array([[-0.32171425,  1.09366034, -0.67099602, -0.39125813],
       [ 0.99424412,  1.01546023, -0.07335606, -0.37798975],
       [-0.00752077,  1.08428913, -2.02367223,  0.06681331],
       [-0.42615673,  0.51892319,  0.05931567,  0.19871128],
       [-0.44161704, -0.5145612 , -0.12297458, -0.17168908],
       [-0.1408198 ,  0.95813313,  2.05438777,  1.09037826]])

데이터의 대략적인 통계적 정보 요악 확인하기

* mean : 평균

In [13]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.057264,0.692651,-0.129549,0.069161
std,0.542009,0.628716,1.318281,0.553102
min,-0.441617,-0.514561,-2.023672,-0.391258
25%,-0.400046,0.628726,-0.533991,-0.326415
50%,-0.231267,0.986797,-0.098165,-0.052438
75%,-0.040846,1.067082,0.026148,0.165737
max,0.994244,1.09366,2.054388,1.090378


데이터 전치하기

In [14]:
df.T #위의 df.head()랑 비교

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-0.321714,0.994244,-0.007521,-0.426157,-0.441617,-0.14082
B,1.09366,1.01546,1.084289,0.518923,-0.514561,0.958133
C,-0.670996,-0.073356,-2.023672,0.059316,-0.122975,2.054388
D,-0.391258,-0.37799,0.066813,0.198711,-0.171689,1.090378


축 별로 정렬

* 축(axis)는 n차원 배열을 구성하는 요소 / 2차원 배열에서 axis = 0 은 행을 의미, axis = 1은 열을 의미
* ascending : 오름차순, 내림차순 결정 / (ex) ascending = true 는 오름차순, = false 는 내림차순

In [15]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.391258,-0.670996,1.09366,-0.321714
2013-01-02,-0.37799,-0.073356,1.01546,0.994244
2013-01-03,0.066813,-2.023672,1.084289,-0.007521
2013-01-04,0.198711,0.059316,0.518923,-0.426157
2013-01-05,-0.171689,-0.122975,-0.514561,-0.441617
2013-01-06,1.090378,2.054388,0.958133,-0.14082


값 별로 정렬

In [16]:
df.sort_values(by='B', ascending=False) #B를 기준으로 정렬

Unnamed: 0,A,B,C,D
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258
2013-01-03,-0.007521,1.084289,-2.023672,0.066813
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-06,-0.14082,0.958133,2.054388,1.090378
2013-01-04,-0.426157,0.518923,0.059316,0.198711
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689


3. Selection

Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc을 중점으로 배울 것

Getting (데이터 얻기)

df.A와 동일한 Series를 생성하는 단일 열을 선택

In [17]:
df['A']

2013-01-01   -0.321714
2013-01-02    0.994244
2013-01-03   -0.007521
2013-01-04   -0.426157
2013-01-05   -0.441617
2013-01-06   -0.140820
Freq: D, Name: A, dtype: float64

슬라이싱 -> ':' 이용 

In [18]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-03,-0.007521,1.084289,-2.023672,0.066813


In [19]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-03,-0.007521,1.084289,-2.023672,0.066813
2013-01-04,-0.426157,0.518923,0.059316,0.198711


Selection by Label(Label을 통한 선택)

.loc[] 이용, 라벨을 사용하여 횡단면을 얻음

* label : index 이름

In [20]:
df.loc[dates[0]]

A   -0.321714
B    1.093660
C   -0.670996
D   -0.391258
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축의 데이터를 얻음

In [21]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.321714,1.09366
2013-01-02,0.994244,1.01546
2013-01-03,-0.007521,1.084289
2013-01-04,-0.426157,0.518923
2013-01-05,-0.441617,-0.514561
2013-01-06,-0.14082,0.958133


양쪽 종단점을 포함한 라벨 슬라이싱

In [22]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,0.994244,1.01546
2013-01-03,-0.007521,1.084289
2013-01-04,-0.426157,0.518923


반한되는 객체 차원 줄이기

In [23]:
df.loc['20130102',['A','B']] #1차원


A    0.994244
B    1.015460
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻음

* 스칼라 : 방향은 없지만, 실수 공간에서 크기를 나타내는 값, 상수

In [24]:
df.loc[dates[0],'A']

-0.3217142452769051

스칼라 값을 더 빠르게 구하는 방법(.at 이용)

In [25]:
df.at[dates[0],'A']

-0.3217142452769051

Selection by Position

넘겨받은 정수의 위치를 기준으로 선택

In [26]:
df.iloc[3]

A   -0.426157
B    0.518923
C    0.059316
D    0.198711
Name: 2013-01-04 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해,  numpy/python과 유사하게 작동

In [27]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,-0.426157,0.518923
2013-01-05,-0.441617,-0.514561


정수로 표기된 위치값의 리스트들을 통해, numpy / python의 스타일과 유사해집니다.

In [28]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.994244,-0.073356
2013-01-03,-0.007521,-2.023672
2013-01-05,-0.441617,-0.122975


명시적으로 행, 열을 나누고자 하는 경우

In [29]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.994244,1.01546,-0.073356,-0.37799
2013-01-03,-0.007521,1.084289,-2.023672,0.066813


In [30]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,1.09366,-0.670996
2013-01-02,1.01546,-0.073356
2013-01-03,1.084289,-2.023672
2013-01-04,0.518923,0.059316
2013-01-05,-0.514561,-0.122975
2013-01-06,0.958133,2.054388


명시적으로 특정한 값을 얻고자 하는 경우

In [31]:
df.iloc[1,1]

1.0154602265447419

스칼라 값을 빠르게 얻는 방법

In [32]:
df.iat[1,1]

1.0154602265447419

Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용

In [33]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-02,0.994244,1.01546,-0.073356,-0.37799


Boolean 조건을 충족하는 데이터프레임에서 값을 선택, 만족을 하지 않는 것은 NaN으로 표시

In [34]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,1.09366,,
2013-01-02,0.994244,1.01546,,
2013-01-03,,1.084289,,0.066813
2013-01-04,,0.518923,0.059316,0.198711
2013-01-05,,,,
2013-01-06,,0.958133,2.054388,1.090378


isin() : 필터링 해주는 함수

In [35]:
df2 = df.copy() #클론 만듦
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three'] #E부분 만듦
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258,one
2013-01-02,0.994244,1.01546,-0.073356,-0.37799,one
2013-01-03,-0.007521,1.084289,-2.023672,0.066813,two
2013-01-04,-0.426157,0.518923,0.059316,0.198711,three
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689,four
2013-01-06,-0.14082,0.958133,2.054388,1.090378,three


In [36]:
df2[df2['E'].isin(['two','four'])] #E에서 two, four 부분만 출력

Unnamed: 0,A,B,C,D,E
2013-01-03,-0.007521,1.084289,-2.023672,0.066813,two
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689,four


Setting(설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬됌.

In [37]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
df["F"] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,-0.321714,1.09366,-0.670996,-0.391258,
2013-01-02,0.994244,1.01546,-0.073356,-0.37799,1.0
2013-01-03,-0.007521,1.084289,-2.023672,0.066813,2.0
2013-01-04,-0.426157,0.518923,0.059316,0.198711,3.0
2013-01-05,-0.441617,-0.514561,-0.122975,-0.171689,4.0
2013-01-06,-0.14082,0.958133,2.054388,1.090378,5.0


In [38]:
df.at[dates[0],'A'] = 0 #라벨에 의해 값을 설정
df.iat[0,1] = 0 #위치에 의해 값을 설정
df.loc[:,'D'] = np.array([5] * len(df)) #Numpy 배열을 사용한 할당에 의해 값을 설정합니다.
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.670996,5.0,
2013-01-02,0.994244,1.01546,-0.073356,5.0,1.0
2013-01-03,-0.007521,1.084289,-2.023672,5.0,2.0
2013-01-04,-0.426157,0.518923,0.059316,5.0,3.0
2013-01-05,-0.441617,-0.514561,-0.122975,5.0,4.0
2013-01-06,-0.14082,0.958133,2.054388,5.0,5.0


where 연산 설정

* where 연산 : 조건을 사용하는 연산, 원하는 값을 도출하기 위해 사용

In [39]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.670996,-5.0,
2013-01-02,-0.994244,-1.01546,-0.073356,-5.0,-1.0
2013-01-03,-0.007521,-1.084289,-2.023672,-5.0,-2.0
2013-01-04,-0.426157,-0.518923,-0.059316,-5.0,-3.0
2013-01-05,-0.441617,-0.514561,-0.122975,-5.0,-4.0
2013-01-06,-0.14082,-0.958133,-2.054388,-5.0,-5.0


4. Missing Data(결측치)

Pandas는 결측치를 표현하기 위해 주로 np.nan값을 사용함. 이것은 기본 설정값이지만 계산에는 포함되지 않음

러닝 프로젝트에서 이 결측치의 값은 오류를 발생시키기 때문에 제거해야 한다.

* 결측치 : 데이터에 값이 없는 상태

Reindexing(.reindex)으로 지정된 축 상의 인덱스를 변경, 추가, 삭제 가능 

Reindexing은 데이터의 복사본을 반환함.

In [40]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.670996,5.0,,1.0
2013-01-02,0.994244,1.01546,-0.073356,5.0,1.0,1.0
2013-01-03,-0.007521,1.084289,-2.023672,5.0,2.0,
2013-01-04,-0.426157,0.518923,0.059316,5.0,3.0,


결측치를 가지고 있는 행들을 지움(dropna 이용)

data.dropna() : NaN값이 들어있는 row삭제
data.dropna(axis=1) : NaN값이 들어있는 column삭제
data.drop('column명', axis=1) : column삭제 (값이 들어있는 것도 삭제)
data.drop(n) : n번째 row삭제

In [41]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,0.994244,1.01546,-0.073356,5.0,1.0,1.0


결측치를 채워 넣음

In [42]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.670996,5.0,5.0,1.0
2013-01-02,0.994244,1.01546,-0.073356,5.0,1.0,1.0
2013-01-03,-0.007521,1.084289,-2.023672,5.0,2.0,5.0
2013-01-04,-0.426157,0.518923,0.059316,5.0,3.0,5.0


isna() : 데이터프레임의 모든 값이 boolean 형태로 표시되도록 하며, nan인 값에만 True가 표시되게 하는 함수

In [43]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


5. Operation

Stats(통계)

일반적으로 결측치를 제외한 후 연산됨.

* mean : 평균치

In [44]:
print(df.mean()) #축의 기본값이 행으로 되어 있음
df.mean(1) 

A   -0.003645
B    0.510374
C   -0.129549
D    5.000000
F    3.000000
dtype: float64


2013-01-01    1.082251
2013-01-02    1.587270
2013-01-03    1.210619
2013-01-04    1.630416
2013-01-05    1.584169
2013-01-06    2.574340
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체로 연산

Pandas는 지정된 차원을 따라 자동으로 브로드 캐스팅됨.

* broadcast : n차원이나 스칼라 값으로 연산을 수행할 때 도출되는 결과의 규칙을 설명하는 것
* shift() : 행의 위치를 일정 칸 수씩 이동시킴. 기본은 밑으로, 음수는 위로 이동시킴
* sub() : ataFrame에 다른 데이터프레임이나, Series, 스칼라 등 데이터를 뺌

In [45]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [46]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-1.007521,0.084289,-3.023672,4.0,1.0
2013-01-04,-3.426157,-2.481077,-2.940684,2.0,0.0
2013-01-05,-5.441617,-5.514561,-5.122975,0.0,-1.0
2013-01-06,,,,,


Apply(적용)

데이터에 함수 적용

() 안에는 자신이 만든 함수도 사용이 가능하다.

In [47]:
df.apply(np.cumsum)


Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.670996,5.0,
2013-01-02,0.994244,1.01546,-0.744352,10.0,1.0
2013-01-03,0.986723,2.099749,-2.768024,15.0,3.0
2013-01-04,0.560567,2.618673,-2.708709,20.0,6.0
2013-01-05,0.11895,2.104111,-2.831683,25.0,10.0
2013-01-06,-0.02187,3.062244,-0.777295,30.0,15.0


In [48]:
df.apply(lambda x: x.max() - x.min())

A    1.435861
B    1.598850
C    4.078060
D    0.000000
F    4.000000
dtype: float64

Histogramming(히스토그래밍)

* 히스토그램 : 한 개 변수에 대한 몇 가지 데이터 포인트의 빈도 분포를 나타내는 데 사용되는 그래프

Value Count

Series method와 최상위 함수들은 히스토그램을 계산함.

In [49]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    0
1    0
2    5
3    1
4    1
5    6
6    5
7    5
8    4
9    6
dtype: int32

In [50]:
s.value_counts() #히스토그램 계산

5    3
0    2
1    2
6    2
4    1
Name: count, dtype: int64

String Methods

Series는 문자열 처리 메소드 모음이 있음.

이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함됨.

In [51]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower() #다 소문자로

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

6. Merge (병합)

결합(join) / 병합(merge) 형태의 연산에 대한 Series, DataFrame, Panel 객체를 다양한 logic으로 결합할 수 있는 다양한 기능을 Pandas에서 제공함

Concat(연결)

In [52]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,-2.129127,1.656936,1.196698,-0.120893
1,0.130364,0.435836,-0.051303,0.317655
2,-0.192541,0.007864,0.696502,1.129694
3,-0.83946,-0.604795,-0.273344,-0.421818
4,0.216024,-1.034272,0.306083,-1.52267
5,-0.560622,0.681914,-0.950545,-0.162388
6,0.418356,-1.10286,1.097718,-1.937696
7,-1.386603,-0.547215,2.082862,0.634456
8,-0.552681,0.625929,-0.63617,-1.416736
9,-0.252265,-0.969439,-0.891946,-0.674738


In [53]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]
# 연결
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-2.129127,1.656936,1.196698,-0.120893
1,0.130364,0.435836,-0.051303,0.317655
2,-0.192541,0.007864,0.696502,1.129694
3,-0.83946,-0.604795,-0.273344,-0.421818
4,0.216024,-1.034272,0.306083,-1.52267
5,-0.560622,0.681914,-0.950545,-0.162388
6,0.418356,-1.10286,1.097718,-1.937696
7,-1.386603,-0.547215,2.082862,0.634456
8,-0.552681,0.625929,-0.63617,-1.416736
9,-0.252265,-0.969439,-0.891946,-0.674738


Join(결합)

SQL 방식으로 병합함.

In [54]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [55]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [56]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [57]:
pd.merge(left, right, on= 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


7. Grouping(그룹화)

분할 : 몇몇 기준에 따라 여러 그룹으로 데이터를 나누는 것
적용 : 각 그룹에 독립적으로 함수를 적용하는 것
결합 : 결과물들을 하나의 데이터 구조로 결합하는 것

위의 세 단계 중 하나 이상을 포함하는 것을 그룹화라 함.

In [58]:
df = pd.DataFrame(
    {
        'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C' : np.random.randn(8),
        'D' : np.random.randn(8)
    })
df

Unnamed: 0,A,B,C,D
0,foo,one,1.481222,-2.016298
1,bar,one,-0.317086,-1.739677
2,foo,two,-0.113545,-0.619023
3,bar,three,-1.795497,1.159299
4,foo,two,0.472847,-1.037859
5,bar,two,1.618556,0.837021
6,foo,one,0.623047,1.33078
7,foo,three,0.243886,0.21484


생성된 데이터프레임을 그룹화한 후 각 그룹에 sum() 함수 적용

In [59]:
df.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,-0.494026,0.256644
foo,onetwotwoonethree,2.707456,-2.127559


여러 열을 기준으로 그룹화 하면 인덱스가 순차적으로 형성됨.

In [60]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.317086,-1.739677
bar,three,-1.795497,1.159299
bar,two,1.618556,0.837021
foo,one,2.104269,-0.685518
foo,three,0.243886,0.21484
foo,two,0.359302,-1.656882


8. Reshaping (변형)

인덱스가 두 개인 경우, 다중 인덱싱이 가능하다.(pd.MultiIndex)

In [61]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
print(df)
df2 = df[:4]
df2

                     A         B
first second                    
bar   one    -0.367188 -0.509017
      two    -1.253961 -1.722852
baz   one    -0.687815 -0.506181
      two     0.406460  1.331999
foo   one     1.544363 -0.184739
      two     0.473086  0.106674
qux   one    -1.866715  1.345720
      two    -0.349204  0.509287


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.367188,-0.509017
bar,two,-1.253961,-1.722852
baz,one,-0.687815,-0.506181
baz,two,0.40646,1.331999


stack() 메소드는 데이터프레임 열들의 계층을 압축함.

* 데이터 압축 : 빠르게 읽고 쓰는데 적합한, 하지만 용량이 작게 하는 것.

In [62]:
stacked = df2.stack()
stacked #데이터가 압축된 상태

first  second   
bar    one     A   -0.367188
               B   -0.509017
       two     A   -1.253961
               B   -1.722852
baz    one     A   -0.687815
               B   -0.506181
       two     A    0.406460
               B    1.331999
dtype: float64

stack()의 역 연산은 unstack(), 기본적으로 마지막 index를 unstack함

In [63]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.367188,-0.509017
bar,two,-1.253961,-1.722852
baz,one,-0.687815,-0.506181
baz,two,0.40646,1.331999


In [64]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.367188,-1.253961
bar,B,-0.509017,-1.722852
baz,A,-0.687815,0.40646
baz,B,-0.506181,1.331999


In [65]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.367188,-0.687815
one,B,-0.509017,-0.506181
two,A,-1.253961,0.40646
two,B,-1.722852,1.331999


Pivot Tables

데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것

In [66]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,1.253967,-1.029056
1,one,B,foo,-1.388052,-1.928522
2,two,C,foo,-0.831345,-0.379451
3,three,A,bar,-2.00031,1.783217
4,one,B,bar,-0.864702,-2.32334
5,one,C,bar,1.283875,0.161604
6,two,A,foo,-0.531142,-1.35019
7,three,B,foo,0.060661,0.569258
8,one,C,foo,-0.306779,-0.670444
9,one,A,bar,0.422054,0.242619


In [67]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) #피봇 테이블 생성, A, B:행/ C:열

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.422054,1.253967
one,B,-0.864702,-1.388052
one,C,1.283875,-0.306779
three,A,-2.00031,
three,B,,0.060661
three,C,0.349322,
two,A,,-0.531142
two,B,1.034563,
two,C,,-0.831345


9. Time Series(시계열)

Pandas는 자주 일어나는 데이터 변환 사이에 수행하는 리샘플링 연상을 위해 간단하고, 강력하며, 호율적인 함수를 제공함.

(ex)

In [79]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng) #500ms마다 랜덤한 숫자가 나옴
ts.resample('5Min').sum()


2012-01-01    25239
Freq: 5T, dtype: int32

시간대 표현(UTC)

In [87]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

2012-03-06    0.482252
2012-03-07   -0.068974
2012-03-08    0.254417
2012-03-09    1.447660
2012-03-10   -3.053414
Freq: D, dtype: float64

In [88]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-06 00:00:00+00:00    0.482252
2012-03-07 00:00:00+00:00   -0.068974
2012-03-08 00:00:00+00:00    0.254417
2012-03-09 00:00:00+00:00    1.447660
2012-03-10 00:00:00+00:00   -3.053414
Freq: D, dtype: float64

다른 시간대로 변환(US/Eastern)

In [89]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00    0.482252
2012-03-06 19:00:00-05:00   -0.068974
2012-03-07 19:00:00-05:00    0.254417
2012-03-08 19:00:00-05:00    1.447660
2012-03-09 19:00:00-05:00   -3.053414
Freq: D, dtype: float64

시간 표현을 기간 표현으로 변환

In [91]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print(ts)
ps = ts.to_period() #변환
ps

2012-01-31    1.523557
2012-02-29    1.874830
2012-03-31   -0.031859
2012-04-30   -0.616567
2012-05-31   -0.291545
Freq: M, dtype: float64


2012-01    1.523557
2012-02    1.874830
2012-03   -0.031859
2012-04   -0.616567
2012-05   -0.291545
Freq: M, dtype: float64

기간 표현을 시간 표현으로 변환

In [92]:
ps.to_timestamp()

2012-01-01    1.523557
2012-02-01    1.874830
2012-03-01   -0.031859
2012-04-01   -0.616567
2012-05-01   -0.291545
Freq: MS, dtype: float64