## Pandas Pivot Table 활용
* 피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말함
* Pandas는 피봇테이블을 만들기 위한 pivot 메서드를 제공함. 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣음
* Pandas는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후 행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣음. 만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣음

In [1]:
import pandas as pd

# 다음 데이터는 각 도시의 연도별 인구를 나타낸 것임 
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


#### 도시 이름이 열 인덱스가 되고 연도가 행 인덱스가 되어 행과 열 인덱스만 보면 어떤 도시의 어떤 시점의 인구를 쉽게 알 수 있도록 피봇테이블로 만들어보자

In [4]:
df1.pivot("연도", "도시", "인구")

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


In [5]:
df1.pivot_table("인구", "도시", "연도")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [7]:
df1.pivot_table("인구", "도시", "연도", margins=True, margins_name="합계")

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
합계,6637546.5,4429292.0,5414500.0,5350809.0


In [6]:
df1.pivot_table("인구", "도시", "연도", margins=True)

연도,2005,2010,2015,All
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
All,6637546.5,4429292.0,5414500.0,5350809.0


In [8]:
df1.groupby('도시').mean()  # 도시별 평균 인구 수 

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3451492.0
서울,9766113.0
인천,1576827.0


In [9]:
df1.pivot_table('인구', index=["연도", "도시"])  # 연도별 평균 인구 수 

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [12]:
df1['인구'].mean()

5350808.625

In [13]:
df1.pivot_table("인구", _____=["연도", "도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## Pandas Crosstab을 이용한 도표 만들기

In [15]:
import pandas as pd
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['infantry', 'infantry', 'cavalry', 'cavalry', 'infantry', 'infantry', 'cavalry', 'cavalry','infantry', 'infantry', 'cavalry', 'cavalry'], 
        'experience': ['veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie','veteran', 'rookie', 'veteran', 'rookie'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'experience', 'name', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,regiment,company,experience,name,preTestScore,postTestScore
0,Nighthawks,infantry,veteran,Miller,4,25
1,Nighthawks,infantry,rookie,Jacobson,24,94
2,Nighthawks,cavalry,veteran,Ali,31,57
3,Nighthawks,cavalry,rookie,Milner,2,62
4,Dragoons,infantry,veteran,Cooze,3,70
5,Dragoons,infantry,rookie,Jacon,4,25
6,Dragoons,cavalry,veteran,Ryaner,24,94
7,Dragoons,cavalry,rookie,Sone,31,57
8,Scouts,infantry,veteran,Sloan,2,62
9,Scouts,infantry,rookie,Piger,3,70


In [16]:
pd.crosstab(df.regiment, df.company, margins=True)

company,cavalry,infantry,All
regiment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dragoons,2,2,4
Nighthawks,2,2,4
Scouts,2,2,4
All,6,6,12


In [17]:
pd.crosstab([df.company, df.experience], df.regiment,  margins=True)

Unnamed: 0_level_0,regiment,Dragoons,Nighthawks,Scouts,All
company,experience,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
cavalry,rookie,1,1,1,3
cavalry,veteran,1,1,1,3
infantry,rookie,1,1,1,3
infantry,veteran,1,1,1,3
All,,4,4,4,12
