# Pivoting

### Why? 피벗을 하지?
- 피벗(Pivot)이라는건 뭘까요? 피벗은 단어의 의미 그대로 회전중심축을 의미하는데, 원본 데이터를 사용자가 정의한 축을 중심으로 다양하게 분석(회전)해볼 수 있다는 의미입니다. 엑셀 97에서 처음 소개된 피벗테이블은 너무 복잡해보여서 사용자들이 쉽게 접근하지 못했던 것이 사실입니다. 엑셀 2007부터는 클릭 몇번으로 피벗테이블을 만들고 분석할 수 있게 되었는데, 여러분들도 저와 함께 쉽게 이해하실 수 있을겁니다.

## Pivoting long to wide format
 - 데이터베이스나 CSV 파일에 여러 개의 시계열 데이터를 저장하는 일반적인 방법은 시간순으로 나열하는 방법
 - csv파일 읽기: p.222쪽 참고 
 - 컬럼 이름 변경
 - 컬럼 합치기
 - 원하는 컬럼만 보여주기: p.169쪽 frame2.ix['three'] 부분 참고

In [2]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

In [3]:
%matplotlib inline

    date, item, value
    1959-03-31 00:00:00, realgdp, 2710.349
    1959-03-31 00:00:00, infl, 0.000
    1959-03-31 00:00:00, unemp, 5.800
    1959-06-30 00:00:00, realgdp, 2778.801
    1959-06-30 00:00:00, infl, 2.340
    1959-06-30 00:00:00, unemp, 5.100
    1959-09-30 00:00:00, realgdp, 2775.488
    1959-09-30 00:00:00, infl, 2.740
    1959-09-30 00:00:00, unemp, 5.300
    1959-12-31 00:00:00, realgdp, 2785.204        

In [18]:
# header를 0으로 설정하겠다는건데.. 기본값.
# 계속 pivot 할 때 에러가 난다.
# names로 꼭 설정해야 하나보다. pivot이 인식하는 것은 names로 setting된 값인듯.
# 열과 행을 바꿔야 하기 때문에 이미 인식하고 있는 값이 없으면 error 뱉는것 같다.

# 이것 말고는 딱히 다른게 생각나지 않는다.
# csv 파일에서 1번째 줄인 header를 지우면 어떤 컬럼인지 모르니까 차라리 skiprows=1 을 해주는게 낫겠다.
# 6장 처음 부분에 read_csv 옵션들이 있으니 참고

ldata = pd.read_csv('ch07/pivot.csv', skiprows=1, names=['date', 'item', 'value'])
#ldata =  pd.read_csv('ch07/pivot.csv',header=0)
ldata

Unnamed: 0,date,item,value
0,1959-03-31 00:00:00,realgdp,2710.349
1,1959-03-31 00:00:00,infl,0.0
2,1959-03-31 00:00:00,unemp,5.8
3,1959-06-30 00:00:00,realgdp,2778.801
4,1959-06-30 00:00:00,infl,2.34
5,1959-06-30 00:00:00,unemp,5.1
6,1959-09-30 00:00:00,realgdp,2775.488
7,1959-09-30 00:00:00,infl,2.74
8,1959-09-30 00:00:00,unemp,5.3
9,1959-12-31 00:00:00,realgdp,2785.204


In [12]:
type(ldata)

pandas.core.frame.DataFrame

In [22]:
# 1번째 인자: 로우 색인으로 사용될 칼럼 이름
# 2번째 인자: 칼럼 색인으로 사용될 칼럼 이름
# 3번째 인자: DataFrame에 채워 넣을 값을 담고 있는 칼럼
pivoted = ldata.pivot('date', 'item', 'value')
pivoted

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 00:00:00,0.0,2710.349,5.8
1959-06-30 00:00:00,2.34,2778.801,5.1
1959-09-30 00:00:00,2.74,2775.488,5.3
1959-12-31 00:00:00,,2785.204,


 - 한번에 2개의 컬럼 변형 

In [23]:
len(ldata)

10

In [24]:
ldata['value2'] = np.random.randn(len(ldata))

In [25]:
ldata.head()

Unnamed: 0,date,item,value,value2
0,1959-03-31 00:00:00,realgdp,2710.349,-2.036444
1,1959-03-31 00:00:00,infl,0.0,0.072176
2,1959-03-31 00:00:00,unemp,5.8,0.417122
3,1959-06-30 00:00:00,realgdp,2778.801,-0.748095
4,1959-06-30 00:00:00,infl,2.34,-1.162158


In [27]:
pivoted = ldata.pivot('date','item')
pivoted.head()

Unnamed: 0_level_0,value,value,value,value2,value2,value2
item,infl,realgdp,unemp,infl,realgdp,unemp
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1959-03-31 00:00:00,0.0,2710.349,5.8,0.072176,-2.036444,0.417122
1959-06-30 00:00:00,2.34,2778.801,5.1,-1.162158,-0.748095,-0.45275
1959-09-30 00:00:00,2.74,2775.488,5.3,0.736135,1.312129,0.052877
1959-12-31 00:00:00,,2785.204,,,-0.466796,


In [28]:
pivoted['value'][:5]

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 00:00:00,0.0,2710.349,5.8
1959-06-30 00:00:00,2.34,2778.801,5.1
1959-09-30 00:00:00,2.74,2775.488,5.3
1959-12-31 00:00:00,,2785.204,


 - pivot: set_index를 사용해서 계층적 색인을 만들고 unstack 메서드를 이용해서 형태를 변경하는 단축키같은 메서드

In [29]:
ldata.set_index(['date','item'])

Unnamed: 0_level_0,Unnamed: 1_level_0,value,value2
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 00:00:00,realgdp,2710.349,-2.036444
1959-03-31 00:00:00,infl,0.0,0.072176
1959-03-31 00:00:00,unemp,5.8,0.417122
1959-06-30 00:00:00,realgdp,2778.801,-0.748095
1959-06-30 00:00:00,infl,2.34,-1.162158
1959-06-30 00:00:00,unemp,5.1,-0.45275
1959-09-30 00:00:00,realgdp,2775.488,1.312129
1959-09-30 00:00:00,infl,2.74,0.736135
1959-09-30 00:00:00,unemp,5.3,0.052877
1959-12-31 00:00:00,realgdp,2785.204,-0.466796


In [31]:
unstacked = ldata.set_index(['date','item']).unstack('item')
unstacked

Unnamed: 0_level_0,value,value,value,value2,value2,value2
item,infl,realgdp,unemp,infl,realgdp,unemp
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1959-03-31 00:00:00,0.0,2710.349,5.8,0.072176,-2.036444,0.417122
1959-06-30 00:00:00,2.34,2778.801,5.1,-1.162158,-0.748095,-0.45275
1959-09-30 00:00:00,2.74,2775.488,5.3,0.736135,1.312129,0.052877
1959-12-31 00:00:00,,2785.204,,,-0.466796,


In [32]:
# set_index가 로우 설정
# set_index로 설정되지 않은 것들은 모두 열로 이동
unstacked = ldata.set_index(['date'])
unstacked

Unnamed: 0_level_0,item,value,value2
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 00:00:00,realgdp,2710.349,-2.036444
1959-03-31 00:00:00,infl,0.0,0.072176
1959-03-31 00:00:00,unemp,5.8,0.417122
1959-06-30 00:00:00,realgdp,2778.801,-0.748095
1959-06-30 00:00:00,infl,2.34,-1.162158
1959-06-30 00:00:00,unemp,5.1,-0.45275
1959-09-30 00:00:00,realgdp,2775.488,1.312129
1959-09-30 00:00:00,infl,2.74,0.736135
1959-09-30 00:00:00,unemp,5.3,0.052877
1959-12-31 00:00:00,realgdp,2785.204,-0.466796


## Data Transformation 
 - 필터링, 정제 및 다른 변형 역시 중요한 연산

### Remove Duplicates

In [34]:
data = pd.DataFrame({'k1': ['one'] * 3 + ['two'] * 4,
                  'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [35]:
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [38]:
data2 = pd.DataFrame({'k1': ['one'] * 3 + ['two'] * 4,
                  'k2': [1, 1, 2, 3, 3, 3, 4]})
data2

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,3
6,two,4


In [49]:
# 2개 열이 모두 같아야 중복으로 인정 됨
data2.duplicated()

0    False
1     True
2    False
3    False
4     True
5     True
6    False
dtype: bool

In [48]:
pd.concat([data,data2,data.duplicated(),data2.duplicated()],axis=1)

Unnamed: 0,k1,k2,k1.1,k2.1,0,1
0,one,1,one,1,False,False
1,one,1,one,1,True,True
2,one,2,one,2,False,False
3,two,3,two,3,False,False
4,two,3,two,3,True,True
5,two,4,two,3,False,True
6,two,4,two,4,True,False


In [50]:
# druplicated 배열이 False인 DataFrame 반환
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [51]:
data['v1'] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [52]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
3,two,3,3


In [53]:
# 여러개 중복이 있을 경우 첫번째를 남기고 지우는데 이것은 마지막 것을 남긴다.
data.drop_duplicates(['k1'], take_last=True)

  from ipykernel import kernelapp as app


Unnamed: 0,k1,k2,v1
2,one,2,2
6,two,4,6


In [54]:
data.drop_duplicates(['k1', 'k2'])

Unnamed: 0,k1,k2,v1
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


## Transforming Data Using a Function or Mapping 
 - DataFrame의 칼럼이나 Series, 배열 안의 값을 기반으로 데이터의 형태를 변형하고 싶을 때

In [56]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami',
                           'corned beef', 'Bacon', 'pastrami',
                           'honey ham', 'nova lox'],
                  'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


 - 해당 육류가 어떤 동물의 고기인지 알려줄 수 있는 칼럼을 하나 추가한다고 가정
 - 육류별 동물을 담고 있는 사전 데이터 작성

In [58]:
meat_to_animal = {
                  'bacon': 'pig',
                  'pulled pork': 'pig',
                  'pastrami': 'cow',
                  'corned beef': 'cow',
                  'honey ham': 'pig',
                  'nova lox': 'salmon'
                  }
meat_to_animal

{'bacon': 'pig',
 'corned beef': 'cow',
 'honey ham': 'pig',
 'nova lox': 'salmon',
 'pastrami': 'cow',
 'pulled pork': 'pig'}

 - Series의 map 메서드는 사전류의 객체나 어떤 함수를 받을 수 있는데, 이 데이터에는 육류의 이름에 대∙소문자가 섞여 있는 사소한 문제가 있으므로 모두 소문자로 변경

In [60]:
data['animal'] = data['food'].map(str.lower).map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [61]:
data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

#### 3단계로 풀어 헤쳐서 함수의 역할 살펴보기
 - 처음에는 한 번에 읽을 수 없으니 조각조각 코드를 나눠서 실행해 본다.
 - 하나씩 하나씩 퍼즐 맞추듯이 조립하여 의미를 확인해 본다.

In [62]:
# 먼저 data['food']에 어떤 데이터가 있는지 확인
data['food']

0          bacon
1    pulled pork
2          bacon
3       Pastrami
4    corned beef
5          Bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [65]:
data['food'].map(str.lower)

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [66]:
# 또 map으로 meat_to_animal dictionary를 넘긴다.
# bacon -> pig로, pastrami -> cow로 변경
data['food'].map(str.lower).map(meat_to_animal)

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### Replacing Values

 - fillna 메서드: 누락된 값을 채우는 일은 일반적인 값 치환 작업
 - 위에서 살펴봤듯이 map 메서드를 한 객체 안에서 값의 부분집합을 변경하는 데 사용했다면,
 - replace 메서드: 같은 작업에 대해서 좀 더 간단하고 유연한 방법 제공

In [70]:
data = pd.Series([1., -999., 2., -999., -1000., 3.],dtype=np.int64)
data

0       1
1    -999
2       2
3    -999
4   -1000
5       3
dtype: int64

In [72]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [73]:
# 1개 이상을 변경하려면 list로 넘기면 모두 알아서 변경해준다.
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [74]:
# 변경할 문자열만 list로 넘기라는 법 없음
# 변경하고 싶은 문자열도 list로 넘기면 순서에 맞게끔 변경해 줌
data.replace([-999, -1000], [999, 1000])

0       1
1     999
2       2
3     999
4    1000
5       3
dtype: int64

In [75]:
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [76]:
# Arguments can be dictionary
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

## Renaming Axis Indexs 
 - Series의 값처럼 축 이름 역시 유사한 방식으로 함수나 새롭게 바꿀 값으로 이용해서 변형
 - 새로운 자료 구조를 만들지 않고 그 자리에서 바로 축 이름을 변경하는 것이 가능

In [78]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                 index = ['Ohio', 'Colorado', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


#### Map Function 

In [79]:
data.index.map(str.upper)

array(['OHIO', 'COLORADO', 'NEW YORK'], dtype=object)

In [80]:
data.index

Index(['Ohio', 'Colorado', 'New York'], dtype='object')

In [81]:
data.index = data.index.map(str.upper)
data.index

Index(['OHIO', 'COLORADO', 'NEW YORK'], dtype='object')

  - 원래 df 를 건들지 않고 새로운 df를 생성하려면 **rename** methond 를 사용.

In [82]:
data.rename(index=str.title,columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [83]:
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


 - rename 메서드: 사전 형식의 객체를 이용해서 축 이름 중 일부만 변경하는 것도 가능

In [84]:
data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11
