Pandas 문법 정리

일반적으로 각 패키지는 pd, np, plt의 이름으로 불러옴

print를 사용 안해도 마지막 줄에 있는 것이 출력됨.

In [98]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1. Object Creation

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만듦

* Series : 모든 유형의 데이터를 보유하는 1차원 배열, 테이블의 열
* DataFrame : 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다. 

In [99]:
s = pd.Series([1, 3, 5, np.nan, 6, 7])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    7.0
dtype: float64

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임 만들기

* NaN : 비어있는 값, 단순한 등호로 비교가 불가하기 때문에 isnan()으로 비교를 해야한다.
* numpy : 배열을 사용하기 위한 파이썬의 표준 패키지 (파이썬은 자체적으로 배열 제공 x)
* randn(m,n) : random 내장 함수, 기대값이 0, 표준 편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한 m*n 행렬 return

In [100]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [101]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-03,-0.428698,-0.79717,0.710943,0.473848
2013-01-04,2.759061,0.361705,0.625888,-1.054119
2013-01-05,0.86062,0.902332,0.526906,-0.575683
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651


Series와 같은 것으로 변환될 수 있는 객체들의 dictonary로 구성된 데이터 프레임 만들기

* dictonary : 자료형 중 하나로 키와 값으로 이루어짐

In [102]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열의 데이터 타입 확인(.dtypes)

In [103]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

2. Viewing Data (데이터 확인하기)

head(), tail()은 데이터의 전부가 아닌 상단, 하단 부분만 보여준다.

() 안의 숫자 입력 가능 / 위, 아래부터 숫자만큼 불러와줌. / 기본값은 5여서 숫자를 입력하지 않는다면 자동으로 5줄 출력

(ex)

In [104]:
df.tail(3) #끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,2.759061,0.361705,0.625888,-1.054119
2013-01-05,0.86062,0.902332,0.526906,-0.575683
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651


In [105]:
df.head() 

Unnamed: 0,A,B,C,D
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-03,-0.428698,-0.79717,0.710943,0.473848
2013-01-04,2.759061,0.361705,0.625888,-1.054119
2013-01-05,0.86062,0.902332,0.526906,-0.575683


index, column, numpy 데이터에 대한 세부 정보 확인하기

In [106]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [107]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [108]:
df.values #numpy 데이터

array([[-0.10743463, -1.0779625 , -0.18638279,  1.25701118],
       [-2.36451669,  0.78314648, -0.73637683,  0.84153781],
       [-0.42869843, -0.79717041,  0.71094303,  0.47384772],
       [ 2.7590613 ,  0.36170498,  0.62588806, -1.0541189 ],
       [ 0.86062028,  0.90233158,  0.52690647, -0.57568298],
       [ 1.00029486, -2.5318174 , -2.07314137, -1.7986511 ]])

데이터의 대략적인 통계적 정보 요악 확인하기

* mean : 평균

In [109]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.286554,-0.393295,-0.188694,-0.142676
std,1.711564,1.3295,1.080378,1.188981
min,-2.364517,-2.531817,-2.073141,-1.798651
25%,-0.348382,-1.007764,-0.598878,-0.93451
50%,0.376593,-0.217733,0.170262,-0.050918
75%,0.965376,0.677786,0.601143,0.749615
max,2.759061,0.902332,0.710943,1.257011


데이터 전치하기

In [110]:
df.T #위의 df.head()랑 비교

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-0.107435,-2.364517,-0.428698,2.759061,0.86062,1.000295
B,-1.077962,0.783146,-0.79717,0.361705,0.902332,-2.531817
C,-0.186383,-0.736377,0.710943,0.625888,0.526906,-2.073141
D,1.257011,0.841538,0.473848,-1.054119,-0.575683,-1.798651


축 별로 정렬

* 축(axis)는 n차원 배열을 구성하는 요소 / 2차원 배열에서 axis = 0 은 행을 의미, axis = 1은 열을 의미
* ascending : 오름차순, 내림차순 결정 / (ex) ascending = true 는 오름차순, = false 는 내림차순

In [111]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,1.257011,-0.186383,-1.077962,-0.107435
2013-01-02,0.841538,-0.736377,0.783146,-2.364517
2013-01-03,0.473848,0.710943,-0.79717,-0.428698
2013-01-04,-1.054119,0.625888,0.361705,2.759061
2013-01-05,-0.575683,0.526906,0.902332,0.86062
2013-01-06,-1.798651,-2.073141,-2.531817,1.000295


값 별로 정렬

In [112]:
df.sort_values(by='B', ascending=False) #B를 기준으로 정렬

Unnamed: 0,A,B,C,D
2013-01-05,0.86062,0.902332,0.526906,-0.575683
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-04,2.759061,0.361705,0.625888,-1.054119
2013-01-03,-0.428698,-0.79717,0.710943,0.473848
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651


3. Selection

Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc을 중점으로 배울 것

Getting (데이터 얻기)

df.A와 동일한 Series를 생성하는 단일 열을 선택

In [113]:
df['A']

2013-01-01   -0.107435
2013-01-02   -2.364517
2013-01-03   -0.428698
2013-01-04    2.759061
2013-01-05    0.860620
2013-01-06    1.000295
Freq: D, Name: A, dtype: float64

슬라이싱 -> ':' 이용 

In [114]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-03,-0.428698,-0.79717,0.710943,0.473848


In [115]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-03,-0.428698,-0.79717,0.710943,0.473848
2013-01-04,2.759061,0.361705,0.625888,-1.054119


Selection by Label(Label을 통한 선택)

.loc[] 이용, 라벨을 사용하여 횡단면을 얻음

* label : index 이름

In [116]:
df.loc[dates[0]]

A   -0.107435
B   -1.077962
C   -0.186383
D    1.257011
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축의 데이터를 얻음

In [117]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.107435,-1.077962
2013-01-02,-2.364517,0.783146
2013-01-03,-0.428698,-0.79717
2013-01-04,2.759061,0.361705
2013-01-05,0.86062,0.902332
2013-01-06,1.000295,-2.531817


양쪽 종단점을 포함한 라벨 슬라이싱

In [118]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,-2.364517,0.783146
2013-01-03,-0.428698,-0.79717
2013-01-04,2.759061,0.361705


반한되는 객체 차원 줄이기

In [119]:
df.loc['20130102',['A','B']] #1차원


A   -2.364517
B    0.783146
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻음

* 스칼라 : 방향은 없지만, 실수 공간에서 크기를 나타내는 값, 상수

In [120]:
df.loc[dates[0],'A']

-0.10743463291917107

스칼라 값을 더 빠르게 구하는 방법(.at 이용)

In [121]:
df.at[dates[0],'A']

-0.10743463291917107

Selection by Position

넘겨받은 정수의 위치를 기준으로 선택

In [122]:
df.iloc[3]

A    2.759061
B    0.361705
C    0.625888
D   -1.054119
Name: 2013-01-04 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해,  numpy/python과 유사하게 작동

In [123]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,2.759061,0.361705
2013-01-05,0.86062,0.902332


정수로 표기된 위치값의 리스트들을 통해, numpy / python의 스타일과 유사해집니다.

In [124]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-2.364517,-0.736377
2013-01-03,-0.428698,0.710943
2013-01-05,0.86062,0.526906


명시적으로 행, 열을 나누고자 하는 경우

In [125]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-2.364517,0.783146,-0.736377,0.841538
2013-01-03,-0.428698,-0.79717,0.710943,0.473848


In [126]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-1.077962,-0.186383
2013-01-02,0.783146,-0.736377
2013-01-03,-0.79717,0.710943
2013-01-04,0.361705,0.625888
2013-01-05,0.902332,0.526906
2013-01-06,-2.531817,-2.073141


명시적으로 특정한 값을 얻고자 하는 경우

In [127]:
df.iloc[1,1]

0.7831464843641388

스칼라 값을 빠르게 얻는 방법

In [128]:
df.iat[1,1]

0.7831464843641388

Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용

In [129]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-04,2.759061,0.361705,0.625888,-1.054119
2013-01-05,0.86062,0.902332,0.526906,-0.575683
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651


Boolean 조건을 충족하는 데이터프레임에서 값을 선택, 만족을 하지 않는 것은 NaN으로 표시

In [130]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,,,1.257011
2013-01-02,,0.783146,,0.841538
2013-01-03,,,0.710943,0.473848
2013-01-04,2.759061,0.361705,0.625888,
2013-01-05,0.86062,0.902332,0.526906,
2013-01-06,1.000295,,,


isin() : 필터링 해주는 함수

In [131]:
df2 = df.copy() #클론 만듦
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three'] #E부분 만듦
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011,one
2013-01-02,-2.364517,0.783146,-0.736377,0.841538,one
2013-01-03,-0.428698,-0.79717,0.710943,0.473848,two
2013-01-04,2.759061,0.361705,0.625888,-1.054119,three
2013-01-05,0.86062,0.902332,0.526906,-0.575683,four
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651,three


In [132]:
df2[df2['E'].isin(['two','four'])] #E에서 two, four 부분만 출력

Unnamed: 0,A,B,C,D,E
2013-01-03,-0.428698,-0.79717,0.710943,0.473848,two
2013-01-05,0.86062,0.902332,0.526906,-0.575683,four


Setting(설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬됌.

In [133]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
df["F"] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,-0.107435,-1.077962,-0.186383,1.257011,
2013-01-02,-2.364517,0.783146,-0.736377,0.841538,1.0
2013-01-03,-0.428698,-0.79717,0.710943,0.473848,2.0
2013-01-04,2.759061,0.361705,0.625888,-1.054119,3.0
2013-01-05,0.86062,0.902332,0.526906,-0.575683,4.0
2013-01-06,1.000295,-2.531817,-2.073141,-1.798651,5.0


In [134]:
df.at[dates[0],'A'] = 0 #라벨에 의해 값을 설정
df.iat[0,1] = 0 #위치에 의해 값을 설정
df.loc[:,'D'] = np.array([5] * len(df)) #Numpy 배열을 사용한 할당에 의해 값을 설정합니다.
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.186383,5.0,
2013-01-02,-2.364517,0.783146,-0.736377,5.0,1.0
2013-01-03,-0.428698,-0.79717,0.710943,5.0,2.0
2013-01-04,2.759061,0.361705,0.625888,5.0,3.0
2013-01-05,0.86062,0.902332,0.526906,5.0,4.0
2013-01-06,1.000295,-2.531817,-2.073141,5.0,5.0


where 연산 설정

* where 연산 : 조건을 사용하는 연산, 원하는 값을 도출하기 위해 사용

In [135]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.186383,-5.0,
2013-01-02,-2.364517,-0.783146,-0.736377,-5.0,-1.0
2013-01-03,-0.428698,-0.79717,-0.710943,-5.0,-2.0
2013-01-04,-2.759061,-0.361705,-0.625888,-5.0,-3.0
2013-01-05,-0.86062,-0.902332,-0.526906,-5.0,-4.0
2013-01-06,-1.000295,-2.531817,-2.073141,-5.0,-5.0


4. Missing Data(결측치)

Pandas는 결측치를 표현하기 위해 주로 np.nan값을 사용함. 이것은 기본 설정값이지만 계산에는 포함되지 않음

러닝 프로젝트에서 이 결측치의 값은 오류를 발생시키기 때문에 제거해야 한다.

* 결측치 : 데이터에 값이 없는 상태

Reindexing(.reindex)으로 지정된 축 상의 인덱스를 변경, 추가, 삭제 가능 

Reindexing은 데이터의 복사본을 반환함.

In [136]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.186383,5.0,,1.0
2013-01-02,-2.364517,0.783146,-0.736377,5.0,1.0,1.0
2013-01-03,-0.428698,-0.79717,0.710943,5.0,2.0,
2013-01-04,2.759061,0.361705,0.625888,5.0,3.0,


결측치를 가지고 있는 행들을 지움(dropna 이용)

data.dropna() : NaN값이 들어있는 row삭제
data.dropna(axis=1) : NaN값이 들어있는 column삭제
data.drop('column명', axis=1) : column삭제 (값이 들어있는 것도 삭제)
data.drop(n) : n번째 row삭제

In [137]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,-2.364517,0.783146,-0.736377,5.0,1.0,1.0


결측치를 채워 넣음

In [138]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,-0.186383,5.0,5.0,1.0
2013-01-02,-2.364517,0.783146,-0.736377,5.0,1.0,1.0
2013-01-03,-0.428698,-0.79717,0.710943,5.0,2.0,5.0
2013-01-04,2.759061,0.361705,0.625888,5.0,3.0,5.0


isna() : 데이터프레임의 모든 값이 boolean 형태로 표시되도록 하며, nan인 값에만 True가 표시되게 하는 함수

In [139]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


5. Operation

Stats(통계)

일반적으로 결측치를 제외한 후 연산됨.

* mean : 평균치

In [140]:
print(df.mean()) #축의 기본값이 행으로 되어 있음
df.mean(1) 

A    0.304460
B   -0.213634
C   -0.188694
D    5.000000
F    3.000000
dtype: float64


2013-01-01    1.203404
2013-01-02    0.736451
2013-01-03    1.297015
2013-01-04    2.349331
2013-01-05    2.257972
2013-01-06    1.279067
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체로 연산

Pandas는 지정된 차원을 따라 자동으로 브로드 캐스팅됨.

* broadcast : n차원이나 스칼라 값으로 연산을 수행할 때 도출되는 결과의 규칙을 설명하는 것
* shift() : 행의 위치를 일정 칸 수씩 이동시킴. 기본은 밑으로, 음수는 위로 이동시킴
* sub() : ataFrame에 다른 데이터프레임이나, Series, 스칼라 등 데이터를 뺌

In [141]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [142]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-1.428698,-1.79717,-0.289057,4.0,1.0
2013-01-04,-0.240939,-2.638295,-2.374112,2.0,0.0
2013-01-05,-4.13938,-4.097668,-4.473094,0.0,-1.0
2013-01-06,,,,,


Apply(적용)

데이터에 함수 적용

() 안에는 자신이 만든 함수도 사용이 가능하다.

In [143]:
df.apply(np.cumsum)


Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.186383,5.0,
2013-01-02,-2.364517,0.783146,-0.92276,10.0,1.0
2013-01-03,-2.793215,-0.014024,-0.211817,15.0,3.0
2013-01-04,-0.034154,0.347681,0.414071,20.0,6.0
2013-01-05,0.826466,1.250013,0.940978,25.0,10.0
2013-01-06,1.826761,-1.281805,-1.132163,30.0,15.0


In [144]:
df.apply(lambda x: x.max() - x.min())

A    5.123578
B    3.434149
C    2.784084
D    0.000000
F    4.000000
dtype: float64

Histogramming(히스토그래밍)

* 히스토그램 : 한 개 변수에 대한 몇 가지 데이터 포인트의 빈도 분포를 나타내는 데 사용되는 그래프

Value Count

Series method와 최상위 함수들은 히스토그램을 계산함.

In [145]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    6
1    4
2    4
3    3
4    6
5    6
6    0
7    0
8    4
9    1
dtype: int32

In [146]:
s.value_counts() #히스토그램 계산

6    3
4    3
0    2
3    1
1    1
Name: count, dtype: int64

String Methods

Series는 문자열 처리 메소드 모음이 있음.

이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함됨.

In [147]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower() #다 소문자로

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

6. Merge (병합)

결합(join) / 병합(merge) 형태의 연산에 대한 Series, DataFrame, Panel 객체를 다양한 logic으로 결합할 수 있는 다양한 기능을 Pandas에서 제공함

Concat(연결)

In [148]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,-0.670915,-0.279549,0.971326,1.205619
1,1.328799,-0.387301,-0.542513,-0.478752
2,1.157742,0.021955,-0.339238,0.549194
3,-1.777586,1.554451,-0.227389,-0.627948
4,-1.077079,-0.024922,-1.374143,0.193592
5,0.306079,-0.61361,-0.531656,2.322704
6,-1.096724,-0.515333,-1.663141,0.223536
7,-1.519717,-0.707062,-0.578042,-1.396291
8,0.277896,1.142863,-0.1261,-0.054006
9,-0.389008,0.713111,-1.043065,1.709501


In [149]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]
# 연결
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.670915,-0.279549,0.971326,1.205619
1,1.328799,-0.387301,-0.542513,-0.478752
2,1.157742,0.021955,-0.339238,0.549194
3,-1.777586,1.554451,-0.227389,-0.627948
4,-1.077079,-0.024922,-1.374143,0.193592
5,0.306079,-0.61361,-0.531656,2.322704
6,-1.096724,-0.515333,-1.663141,0.223536
7,-1.519717,-0.707062,-0.578042,-1.396291
8,0.277896,1.142863,-0.1261,-0.054006
9,-0.389008,0.713111,-1.043065,1.709501


Join(결합)

SQL 방식으로 병합함.

In [150]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [151]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [152]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [153]:
pd.merge(left, right, on= 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


7. Grouping(그룹화)

분할 : 몇몇 기준에 따라 여러 그룹으로 데이터를 나누는 것
적용 : 각 그룹에 독립적으로 함수를 적용하는 것
결합 : 결과물들을 하나의 데이터 구조로 결합하는 것

위의 세 단계 중 하나 이상을 포함하는 것을 그룹화라 함.

In [154]:
df = pd.DataFrame(
    {
        'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C' : np.random.randn(8),
        'D' : np.random.randn(8)
    })
df

Unnamed: 0,A,B,C,D
0,foo,one,0.765297,-0.00028
1,bar,one,0.804436,-1.422369
2,foo,two,1.760325,0.293422
3,bar,three,0.830587,0.070441
4,foo,two,-2.150503,0.489408
5,bar,two,-0.056411,1.379197
6,foo,one,0.472006,-0.909312
7,foo,three,-0.106716,0.850894


생성된 데이터프레임을 그룹화한 후 각 그룹에 sum() 함수 적용

In [155]:
df.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,1.578612,0.027269
foo,onetwotwoonethree,0.740408,0.724132


여러 열을 기준으로 그룹화 하면 인덱스가 순차적으로 형성됨.

In [156]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.804436,-1.422369
bar,three,0.830587,0.070441
bar,two,-0.056411,1.379197
foo,one,1.237303,-0.909592
foo,three,-0.106716,0.850894
foo,two,-0.390179,0.78283


8. Reshaping (변형)

인덱스가 두 개인 경우, 다중 인덱싱이 가능하다.(pd.MultiIndex)

In [157]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
print(df)
df2 = df[:4]
df2

                     A         B
first second                    
bar   one    -0.323301 -2.019149
      two    -0.160800  0.309971
baz   one    -0.157269 -1.438515
      two    -0.111221  2.348086
foo   one     0.077916 -1.928069
      two     0.138489 -0.019842
qux   one     0.819190 -0.274014
      two    -2.084896 -2.366129


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.323301,-2.019149
bar,two,-0.1608,0.309971
baz,one,-0.157269,-1.438515
baz,two,-0.111221,2.348086


stack() 메소드는 데이터프레임 열들의 계층을 압축함.

* 데이터 압축 : 빠르게 읽고 쓰는데 적합한, 하지만 용량이 작게 하는 것.

In [158]:
stacked = df2.stack()
stacked #데이터가 압축된 상태

first  second   
bar    one     A   -0.323301
               B   -2.019149
       two     A   -0.160800
               B    0.309971
baz    one     A   -0.157269
               B   -1.438515
       two     A   -0.111221
               B    2.348086
dtype: float64

stack()의 역 연산은 unstack(), 기본적으로 마지막 index를 unstack함

In [159]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.323301,-2.019149
bar,two,-0.1608,0.309971
baz,one,-0.157269,-1.438515
baz,two,-0.111221,2.348086


In [160]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.323301,-0.1608
bar,B,-2.019149,0.309971
baz,A,-0.157269,-0.111221
baz,B,-1.438515,2.348086


In [161]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.323301,-0.157269
one,B,-2.019149,-1.438515
two,A,-0.1608,-0.111221
two,B,0.309971,2.348086


Pivot Tables

데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것

In [162]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.08953,1.171335
1,one,B,foo,-2.113869,-0.32755
2,two,C,foo,-2.705487,0.835315
3,three,A,bar,0.15682,0.269685
4,one,B,bar,-0.174341,0.562018
5,one,C,bar,0.864737,0.526601
6,two,A,foo,0.083882,-0.091026
7,three,B,foo,-0.483153,0.090638
8,one,C,foo,-1.479565,-0.830393
9,one,A,bar,1.383773,0.570406


In [163]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) #피봇 테이블 생성, A, B:행/ C:열

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.383773,0.08953
one,B,-0.174341,-2.113869
one,C,0.864737,-1.479565
three,A,0.15682,
three,B,,-0.483153
three,C,-1.038172,
two,A,,0.083882
two,B,-0.831334,
two,C,,-2.705487


9. Time Series(시계열)

Pandas는 자주 일어나는 데이터 변환 사이에 수행하는 리샘플링 연상을 위해 간단하고, 강력하며, 호율적인 함수를 제공함.

(ex)

In [164]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng) #500ms마다 랜덤한 숫자가 나옴
ts.resample('5Min').sum()


2012-01-01    25966
Freq: 5T, dtype: int32

시간대 표현(UTC)

In [165]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

2012-03-06   -0.986982
2012-03-07   -0.494159
2012-03-08   -0.909172
2012-03-09    0.285322
2012-03-10    1.025474
Freq: D, dtype: float64

In [166]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-06 00:00:00+00:00   -0.986982
2012-03-07 00:00:00+00:00   -0.494159
2012-03-08 00:00:00+00:00   -0.909172
2012-03-09 00:00:00+00:00    0.285322
2012-03-10 00:00:00+00:00    1.025474
Freq: D, dtype: float64

다른 시간대로 변환(US/Eastern)

In [167]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00   -0.986982
2012-03-06 19:00:00-05:00   -0.494159
2012-03-07 19:00:00-05:00   -0.909172
2012-03-08 19:00:00-05:00    0.285322
2012-03-09 19:00:00-05:00    1.025474
Freq: D, dtype: float64

시간 표현을 기간 표현으로 변환

In [168]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print(ts)
ps = ts.to_period() #변환
ps

2012-01-31    0.225637
2012-02-29   -0.632971
2012-03-31   -0.708873
2012-04-30    0.957951
2012-05-31   -0.536279
Freq: M, dtype: float64


2012-01    0.225637
2012-02   -0.632971
2012-03   -0.708873
2012-04    0.957951
2012-05   -0.536279
Freq: M, dtype: float64

기간 표현을 시간 표현으로 변환

In [169]:
ps.to_timestamp()

2012-01-01    0.225637
2012-02-01   -0.632971
2012-03-01   -0.708873
2012-04-01    0.957951
2012-05-01   -0.536279
Freq: MS, dtype: float64

10. Categoricals (범주화)

Pandas는 데이터프레임 내에 범주형 데이터를 포함할 수 있음.

* 범주형 데이터 : 범주형 데이터는 ‘A’, ‘B’, ‘C’와 같이 종류를 표시하는 데이터를 말한다. 카테고리(category) 데이터라고도 부름. String 데이터.

In [255]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
df["grade"] = df["raw_grade"].astype("category") #가공하지 않은 성적을 범주형 데이터로 변환
df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

In [264]:
df.sort_values(by='grade')

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']