Pandas 문법 정리

일반적으로 각 패키지는 pd, np, plt의 이름으로 불러옴

print를 사용 안해도 마지막 줄에 있는 것이 출력됨.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1. Object Creation

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만듦

* Series : 모든 유형의 데이터를 보유하는 1차원 배열, 테이블의 열
* DataFrame : 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다. 

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 7])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    7.0
dtype: float64

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임 만들기

* NaN : 비어있는 값, 단순한 등호로 비교가 불가하기 때문에 isnan()으로 비교를 해야한다.
* numpy : 배열을 사용하기 위한 파이썬의 표준 패키지 (파이썬은 자체적으로 배열 제공 x)
* randn(m,n) : random 내장 함수, 기대값이 0, 표준 편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한 m*n 행렬 return

In [3]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.452613,-1.247263,1.676231,0.474321
2013-01-02,-0.282279,-1.418181,0.672313,0.889855
2013-01-03,-1.405448,0.394669,1.207773,-0.824348
2013-01-04,-1.196517,0.852697,0.906327,0.914355
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592
2013-01-06,0.247433,1.0841,-1.424121,-1.38614


Series와 같은 것으로 변환될 수 있는 객체들의 dictonary로 구성된 데이터 프레임 만들기

* dictonary : 자료형 중 하나로 키와 값으로 이루어짐

In [5]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열의 데이터 타입 확인(.dtypes)

In [6]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

2. Viewing Data (데이터 확인하기)

head(), tail()은 데이터의 전부가 아닌 상단, 하단 부분만 보여준다.

() 안의 숫자 입력 가능 / 위, 아래부터 숫자만큼 불러와줌. / 기본값은 5여서 숫자를 입력하지 않는다면 자동으로 5줄 출력

(ex)

In [7]:
df.tail(3) #끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,-1.196517,0.852697,0.906327,0.914355
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592
2013-01-06,0.247433,1.0841,-1.424121,-1.38614


In [8]:
df.head() 

Unnamed: 0,A,B,C,D
2013-01-01,-1.452613,-1.247263,1.676231,0.474321
2013-01-02,-0.282279,-1.418181,0.672313,0.889855
2013-01-03,-1.405448,0.394669,1.207773,-0.824348
2013-01-04,-1.196517,0.852697,0.906327,0.914355
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592


index, column, numpy 데이터에 대한 세부 정보 확인하기

In [9]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [10]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [11]:
df.values #numpy 데이터

array([[-1.45261265, -1.24726269,  1.67623118,  0.47432128],
       [-0.28227866, -1.41818108,  0.67231278,  0.88985515],
       [-1.40544801,  0.39466895,  1.20777324, -0.82434812],
       [-1.19651655,  0.85269745,  0.90632677,  0.91435535],
       [-2.30384052, -0.61838773, -0.15352961,  0.6345921 ],
       [ 0.24743285,  1.08410041, -1.42412128, -1.38613991]])

데이터의 대략적인 통계적 정보 요악 확인하기

* mean : 평균

In [12]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-1.065544,-0.158727,0.480832,0.117106
std,0.911406,1.082245,1.114127,0.977162
min,-2.303841,-1.418181,-1.424121,-1.38614
25%,-1.440821,-1.090044,0.052931,-0.499681
50%,-1.300982,-0.111859,0.78932,0.554457
75%,-0.510838,0.73819,1.132412,0.826039
max,0.247433,1.0841,1.676231,0.914355


데이터 전치하기

In [13]:
df.T #위의 df.head()랑 비교

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-1.452613,-0.282279,-1.405448,-1.196517,-2.303841,0.247433
B,-1.247263,-1.418181,0.394669,0.852697,-0.618388,1.0841
C,1.676231,0.672313,1.207773,0.906327,-0.15353,-1.424121
D,0.474321,0.889855,-0.824348,0.914355,0.634592,-1.38614


축 별로 정렬

* 축(axis)는 n차원 배열을 구성하는 요소 / 2차원 배열에서 axis = 0 은 행을 의미, axis = 1은 열을 의미
* ascending : 오름차순, 내림차순 결정 / (ex) ascending = true 는 오름차순, = false 는 내림차순

In [14]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.474321,1.676231,-1.247263,-1.452613
2013-01-02,0.889855,0.672313,-1.418181,-0.282279
2013-01-03,-0.824348,1.207773,0.394669,-1.405448
2013-01-04,0.914355,0.906327,0.852697,-1.196517
2013-01-05,0.634592,-0.15353,-0.618388,-2.303841
2013-01-06,-1.38614,-1.424121,1.0841,0.247433


값 별로 정렬

In [15]:
df.sort_values(by='B', ascending=False) #B를 기준으로 정렬

Unnamed: 0,A,B,C,D
2013-01-06,0.247433,1.0841,-1.424121,-1.38614
2013-01-04,-1.196517,0.852697,0.906327,0.914355
2013-01-03,-1.405448,0.394669,1.207773,-0.824348
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592
2013-01-01,-1.452613,-1.247263,1.676231,0.474321
2013-01-02,-0.282279,-1.418181,0.672313,0.889855


3. Selection

Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc을 중점으로 배울 것

Getting (데이터 얻기)

df.A와 동일한 Series를 생성하는 단일 열을 선택

In [16]:
df['A']

2013-01-01   -1.452613
2013-01-02   -0.282279
2013-01-03   -1.405448
2013-01-04   -1.196517
2013-01-05   -2.303841
2013-01-06    0.247433
Freq: D, Name: A, dtype: float64

슬라이싱 -> ':' 이용 

In [17]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-1.452613,-1.247263,1.676231,0.474321
2013-01-02,-0.282279,-1.418181,0.672313,0.889855
2013-01-03,-1.405448,0.394669,1.207773,-0.824348


In [18]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,-0.282279,-1.418181,0.672313,0.889855
2013-01-03,-1.405448,0.394669,1.207773,-0.824348
2013-01-04,-1.196517,0.852697,0.906327,0.914355


Selection by Label(Label을 통한 선택)

.loc[] 이용, 라벨을 사용하여 횡단면을 얻음

* label : index 이름

In [19]:
df.loc[dates[0]]

A   -1.452613
B   -1.247263
C    1.676231
D    0.474321
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축의 데이터를 얻음

In [20]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-1.452613,-1.247263
2013-01-02,-0.282279,-1.418181
2013-01-03,-1.405448,0.394669
2013-01-04,-1.196517,0.852697
2013-01-05,-2.303841,-0.618388
2013-01-06,0.247433,1.0841


양쪽 종단점을 포함한 라벨 슬라이싱

In [21]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.282279,-1.418181
2013-01-03,-1.405448,0.394669
2013-01-04,-1.196517,0.852697


반한되는 객체 차원 줄이기

In [22]:
df.loc['20130102',['A','B']] #1차원


A   -0.282279
B   -1.418181
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻음

* 스칼라 : 방향은 없지만, 실수 공간에서 크기를 나타내는 값, 상수

In [23]:
df.loc[dates[0],'A']

-1.4526126502099361

스칼라 값을 더 빠르게 구하는 방법(.at 이용)

In [24]:
df.at[dates[0],'A']

-1.4526126502099361

Selection by Position

넘겨받은 정수의 위치를 기준으로 선택

In [25]:
df.iloc[3]

A   -1.196517
B    0.852697
C    0.906327
D    0.914355
Name: 2013-01-04 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해,  numpy/python과 유사하게 작동

In [26]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,-1.196517,0.852697
2013-01-05,-2.303841,-0.618388


정수로 표기된 위치값의 리스트들을 통해, numpy / python의 스타일과 유사해집니다.

In [27]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-0.282279,0.672313
2013-01-03,-1.405448,1.207773
2013-01-05,-2.303841,-0.15353


명시적으로 행, 열을 나누고자 하는 경우

In [28]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-0.282279,-1.418181,0.672313,0.889855
2013-01-03,-1.405448,0.394669,1.207773,-0.824348


In [29]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-1.247263,1.676231
2013-01-02,-1.418181,0.672313
2013-01-03,0.394669,1.207773
2013-01-04,0.852697,0.906327
2013-01-05,-0.618388,-0.15353
2013-01-06,1.0841,-1.424121


명시적으로 특정한 값을 얻고자 하는 경우

In [30]:
df.iloc[1,1]

-1.4181810765314082

스칼라 값을 빠르게 얻는 방법

In [31]:
df.iat[1,1]

-1.4181810765314082

Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용

In [32]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-06,0.247433,1.0841,-1.424121,-1.38614


Boolean 조건을 충족하는 데이터프레임에서 값을 선택, 만족을 하지 않는 것은 NaN으로 표시

In [33]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,,1.676231,0.474321
2013-01-02,,,0.672313,0.889855
2013-01-03,,0.394669,1.207773,
2013-01-04,,0.852697,0.906327,0.914355
2013-01-05,,,,0.634592
2013-01-06,0.247433,1.0841,,


isin() : 필터링 해주는 함수

In [34]:
df2 = df.copy() #클론 만듦
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three'] #E부분 만듦
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-1.452613,-1.247263,1.676231,0.474321,one
2013-01-02,-0.282279,-1.418181,0.672313,0.889855,one
2013-01-03,-1.405448,0.394669,1.207773,-0.824348,two
2013-01-04,-1.196517,0.852697,0.906327,0.914355,three
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592,four
2013-01-06,0.247433,1.0841,-1.424121,-1.38614,three


In [35]:
df2[df2['E'].isin(['two','four'])] #E에서 two, four 부분만 출력

Unnamed: 0,A,B,C,D,E
2013-01-03,-1.405448,0.394669,1.207773,-0.824348,two
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592,four


Setting(설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬됌.

In [36]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
df["F"] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,-1.452613,-1.247263,1.676231,0.474321,
2013-01-02,-0.282279,-1.418181,0.672313,0.889855,1.0
2013-01-03,-1.405448,0.394669,1.207773,-0.824348,2.0
2013-01-04,-1.196517,0.852697,0.906327,0.914355,3.0
2013-01-05,-2.303841,-0.618388,-0.15353,0.634592,4.0
2013-01-06,0.247433,1.0841,-1.424121,-1.38614,5.0


In [37]:
df.at[dates[0],'A'] = 0 #라벨에 의해 값을 설정
df.iat[0,1] = 0 #위치에 의해 값을 설정
df.loc[:,'D'] = np.array([5] * len(df)) #Numpy 배열을 사용한 할당에 의해 값을 설정합니다.
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.676231,5.0,
2013-01-02,-0.282279,-1.418181,0.672313,5.0,1.0
2013-01-03,-1.405448,0.394669,1.207773,5.0,2.0
2013-01-04,-1.196517,0.852697,0.906327,5.0,3.0
2013-01-05,-2.303841,-0.618388,-0.15353,5.0,4.0
2013-01-06,0.247433,1.0841,-1.424121,5.0,5.0


where 연산 설정

* where 연산 : 조건을 사용하는 연산, 원하는 값을 도출하기 위해 사용

In [38]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.676231,-5.0,
2013-01-02,-0.282279,-1.418181,-0.672313,-5.0,-1.0
2013-01-03,-1.405448,-0.394669,-1.207773,-5.0,-2.0
2013-01-04,-1.196517,-0.852697,-0.906327,-5.0,-3.0
2013-01-05,-2.303841,-0.618388,-0.15353,-5.0,-4.0
2013-01-06,-0.247433,-1.0841,-1.424121,-5.0,-5.0


4. Missing Data(결측치)

Pandas는 결측치를 표현하기 위해 주로 np.nan값을 사용함. 이것은 기본 설정값이지만 계산에는 포함되지 않음

러닝 프로젝트에서 이 결측치의 값은 오류를 발생시키기 때문에 제거해야 한다.

* 결측치 : 데이터에 값이 없는 상태

Reindexing(.reindex)으로 지정된 축 상의 인덱스를 변경, 추가, 삭제 가능 

Reindexing은 데이터의 복사본을 반환함.

In [39]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.676231,5.0,,1.0
2013-01-02,-0.282279,-1.418181,0.672313,5.0,1.0,1.0
2013-01-03,-1.405448,0.394669,1.207773,5.0,2.0,
2013-01-04,-1.196517,0.852697,0.906327,5.0,3.0,


결측치를 가지고 있는 행들을 지움(dropna 이용)

data.dropna() : NaN값이 들어있는 row삭제
data.dropna(axis=1) : NaN값이 들어있는 column삭제
data.drop('column명', axis=1) : column삭제 (값이 들어있는 것도 삭제)
data.drop(n) : n번째 row삭제

In [40]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,-0.282279,-1.418181,0.672313,5.0,1.0,1.0


결측치를 채워 넣음

In [41]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.676231,5.0,5.0,1.0
2013-01-02,-0.282279,-1.418181,0.672313,5.0,1.0,1.0
2013-01-03,-1.405448,0.394669,1.207773,5.0,2.0,5.0
2013-01-04,-1.196517,0.852697,0.906327,5.0,3.0,5.0


isna() : 데이터프레임의 모든 값이 boolean 형태로 표시되도록 하며, nan인 값에만 True가 표시되게 하는 함수

In [42]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


5. Operation

Stats(통계)

일반적으로 결측치를 제외한 후 연산됨.

* mean : 평균치

In [43]:
print(df.mean()) #축의 기본값이 행으로 되어 있음
df.mean(1) 

A   -0.823442
B    0.049150
C    0.480832
D    5.000000
F    3.000000
dtype: float64


2013-01-01    1.669058
2013-01-02    0.994371
2013-01-03    1.439399
2013-01-04    1.712502
2013-01-05    1.184848
2013-01-06    1.981482
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체로 연산

Pandas는 지정된 차원을 따라 자동으로 브로드 캐스팅됨.

* broadcast : n차원이나 스칼라 값으로 연산을 수행할 때 도출되는 결과의 규칙을 설명하는 것
* shift() : 행의 위치를 일정 칸 수씩 이동시킴. 기본은 밑으로, 음수는 위로 이동시킴
* sub() : ataFrame에 다른 데이터프레임이나, Series, 스칼라 등 데이터를 뺌

In [44]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [45]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-2.405448,-0.605331,0.207773,4.0,1.0
2013-01-04,-4.196517,-2.147303,-2.093673,2.0,0.0
2013-01-05,-7.303841,-5.618388,-5.15353,0.0,-1.0
2013-01-06,,,,,


Apply(적용)

데이터에 함수 적용

() 안에는 자신이 만든 함수도 사용이 가능하다.

In [46]:
df.apply(np.cumsum)


Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.676231,5.0,
2013-01-02,-0.282279,-1.418181,2.348544,10.0,1.0
2013-01-03,-1.687727,-1.023512,3.556317,15.0,3.0
2013-01-04,-2.884243,-0.170815,4.462644,20.0,6.0
2013-01-05,-5.188084,-0.789202,4.309114,25.0,10.0
2013-01-06,-4.940651,0.294898,2.884993,30.0,15.0


In [47]:
df.apply(lambda x: x.max() - x.min())

A    2.551273
B    2.502281
C    3.100352
D    0.000000
F    4.000000
dtype: float64

Histogramming(히스토그래밍)

* 히스토그램 : 한 개 변수에 대한 몇 가지 데이터 포인트의 빈도 분포를 나타내는 데 사용되는 그래프

Value Count

Series method와 최상위 함수들은 히스토그램을 계산함.

In [48]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

0    2
1    4
2    3
3    3
4    2
5    6
6    6
7    5
8    6
9    2
dtype: int32

In [49]:
s.value_counts() #히스토그램 계산

2    3
6    3
3    2
4    1
5    1
Name: count, dtype: int64

String Methods

Series는 문자열 처리 메소드 모음이 있음.

이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함됨.

In [50]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower() #다 소문자로

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

6. Merge (병합)

결합(join) / 병합(merge) 형태의 연산에 대한 Series, DataFrame, Panel 객체를 다양한 logic으로 결합할 수 있는 다양한 기능을 Pandas에서 제공함

Concat(연결)

In [51]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,0.759411,-1.339366,0.728623,0.890007
1,-0.103904,1.7723,1.393713,0.22137
2,0.370096,0.08941,0.477528,-0.859582
3,0.366697,-0.301403,-1.238883,-0.143046
4,0.44361,-1.589682,-0.352896,0.488791
5,-0.607868,0.86178,0.72559,-1.522368
6,-1.228891,-0.37939,-0.161935,-1.612756
7,0.207044,-1.976583,0.062995,1.25993
8,0.489309,-0.103293,1.402494,-0.180086
9,0.346826,-0.973783,0.099026,-1.654802


In [52]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]
# 연결
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,0.759411,-1.339366,0.728623,0.890007
1,-0.103904,1.7723,1.393713,0.22137
2,0.370096,0.08941,0.477528,-0.859582
3,0.366697,-0.301403,-1.238883,-0.143046
4,0.44361,-1.589682,-0.352896,0.488791
5,-0.607868,0.86178,0.72559,-1.522368
6,-1.228891,-0.37939,-0.161935,-1.612756
7,0.207044,-1.976583,0.062995,1.25993
8,0.489309,-0.103293,1.402494,-0.180086
9,0.346826,-0.973783,0.099026,-1.654802


Join(결합)

SQL 방식으로 병합함.

In [53]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [54]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [55]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [56]:
pd.merge(left, right, on= 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


7. Grouping(그룹화)

분할 : 몇몇 기준에 따라 여러 그룹으로 데이터를 나누는 것
적용 : 각 그룹에 독립적으로 함수를 적용하는 것
결합 : 결과물들을 하나의 데이터 구조로 결합하는 것

위의 세 단계 중 하나 이상을 포함하는 것을 그룹화라 함.

In [57]:
df = pd.DataFrame(
    {
        'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C' : np.random.randn(8),
        'D' : np.random.randn(8)
    })
df

Unnamed: 0,A,B,C,D
0,foo,one,0.877207,-1.092948
1,bar,one,1.003833,-1.039698
2,foo,two,1.707873,1.514661
3,bar,three,1.994847,-1.260984
4,foo,two,-1.363569,-0.078507
5,bar,two,0.887811,1.19876
6,foo,one,-1.334989,-0.763271
7,foo,three,-0.700892,-0.379209


생성된 데이터프레임을 그룹화한 후 각 그룹에 sum() 함수 적용

In [58]:
df.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,3.88649,-1.101923
foo,onetwotwoonethree,-0.81437,-0.799275


여러 열을 기준으로 그룹화 하면 인덱스가 순차적으로 형성됨.

In [59]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.003833,-1.039698
bar,three,1.994847,-1.260984
bar,two,0.887811,1.19876
foo,one,-0.457782,-1.85622
foo,three,-0.700892,-0.379209
foo,two,0.344304,1.436153


8. Reshaping (변형)

인덱스가 두 개인 경우, 다중 인덱싱이 가능하다.(pd.MultiIndex)

In [62]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
print(df)
df2 = df[:4]
df2

                     A         B
first second                    
bar   one    -0.364025  0.029687
      two     0.381752  1.970301
baz   one     1.573210 -1.056056
      two    -0.830407 -0.942644
foo   one     0.524445 -0.626005
      two     1.749206 -0.328401
qux   one    -2.977127 -0.307707
      two    -0.363406 -0.195101


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.364025,0.029687
bar,two,0.381752,1.970301
baz,one,1.57321,-1.056056
baz,two,-0.830407,-0.942644


stack() 메소드는 데이터프레임 열들의 계층을 압축함.

* 데이터 압축 : 빠르게 읽고 쓰는데 적합한, 하지만 용량이 작게 하는 것.

In [63]:
stacked = df2.stack()
stacked #데이터가 압축된 상태

first  second   
bar    one     A   -0.364025
               B    0.029687
       two     A    0.381752
               B    1.970301
baz    one     A    1.573210
               B   -1.056056
       two     A   -0.830407
               B   -0.942644
dtype: float64

stack()의 역 연산은 unstack(), 기본적으로 마지막 index를 unstack함

In [64]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.364025,0.029687
bar,two,0.381752,1.970301
baz,one,1.57321,-1.056056
baz,two,-0.830407,-0.942644


In [67]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.364025,0.381752
bar,B,0.029687,1.970301
baz,A,1.57321,-0.830407
baz,B,-1.056056,-0.942644


In [66]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.364025,1.57321
one,B,0.029687,-1.056056
two,A,0.381752,-0.830407
two,B,1.970301,-0.942644


Pivot Tables

데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것

In [68]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,0.858085,-0.866558
1,one,B,foo,1.982964,-1.845061
2,two,C,foo,0.257717,2.626672
3,three,A,bar,-2.753797,1.10613
4,one,B,bar,0.107857,0.158102
5,one,C,bar,0.556103,0.6444
6,two,A,foo,0.094245,-0.163687
7,three,B,foo,-0.591499,0.414638
8,one,C,foo,-1.042064,0.408665
9,one,A,bar,0.821402,-1.186178


In [69]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) #피봇 테이블 생성, A, B:행/ C:열

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.821402,0.858085
one,B,0.107857,1.982964
one,C,0.556103,-1.042064
three,A,-2.753797,
three,B,,-0.591499
three,C,-1.03287,
two,A,,0.094245
two,B,-1.831669,
two,C,,0.257717
