Pandas 라이브러리를 사용하는 방법을 정리했습니다.

```bash
pip install pandas numpy xlrd
```
필요한 모듈을 터미널에서 위의 명령어로 먼저 설치합니다. 

- pandas: **raw Data**를 불러들여 편집하는데 사용
- numpy: **pandas**의 **aggfunc**으로 평균과 분산값을 구하는데 사용 
- xlrd : excel 파일을 읽어들이는데 필요

> 출처 : [pinkwink](http://pinkwink.kr/977) 


In [1]:
# import modules
import pandas as pd 
import numpy as np


사용한 데이터는 깃허브에 공개되어 있는 엑셀파일 사용합니다.

In [2]:
# read data from web
df = pd.read_excel('https://github.com/chris1610/pbpython/raw/master/data/salesfunnel.xlsx')
df.head() # 매니저나 도매상별 매출 집계 데이터 입니다. pd.read_excel 로 읽었구요

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


In [3]:
df['Status'] = df['Status'].astype('category') # 데이터 타입을 변경
# Status 컬럼을 .cat.set_categories로 카테고리형으로 변경합니다.
df['Status'].cat.set_categories(['won','pending','presented','declined'], inplace = True)
df .head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


In [4]:
# 그리고... pd.pivot_table 명령을 Name 컬럼을 기준으로 적용합니다. 그러면 중복된 Name들을 모두 하나로 표현해서 위 그림과 같은 결과가 나타납니다. 중복된 항목의 숫자들은 모두 평균으로 처리됩니다.
pd.pivot_table(df, index = ['Name','Rep', 'Manager'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Name,Rep,Manager,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barton LLC,John Smith,Debra Henley,740150.0,35000.0,1.0
"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,737550.0,35000.0,1.0
Herman LLC,Cedric Moss,Fred Anderson,141962.0,65000.0,2.0
Jerde-Hilpert,John Smith,Debra Henley,412290.0,5000.0,2.0
"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,307599.0,7000.0,3.0
Keeling LLC,Wendy Yule,Fred Anderson,688981.0,100000.0,5.0
Kiehn-Spinka,Daniel Hilton,Debra Henley,146832.0,65000.0,2.0
Koepp Ltd,Wendy Yule,Fred Anderson,729833.0,35000.0,2.0
Kulas Inc,Daniel Hilton,Debra Henley,218895.0,25000.0,1.5
Purdy-Kunde,Cedric Moss,Fred Anderson,163416.0,30000.0,1.0


In [5]:
#이번에는 Name, Rep, Manager를 모두 사용하는것입니다.
pd.pivot_table(df, index=['Manager','Rep'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Account,Price,Quantity
Manager,Rep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,Craig Booker,720237.0,20000.0,1.25
Debra Henley,Daniel Hilton,194874.0,38333.333333,1.666667
Debra Henley,John Smith,576220.0,20000.0,1.5
Fred Anderson,Cedric Moss,196016.5,27500.0,1.25
Fred Anderson,Wendy Yule,614061.5,44250.0,3.0


In [6]:
# Name은 빼고, Manager와 Rep만 사용하면, 먼저 언급한 Manger를 중복된 것을 정리하면 위와 같이 되고, 그 안에 Rep을 각각 표현해주고 있습니다.
# values 옵션을 사용해서 Price만 표현되도록 할 수 있습니다.

pd.pivot_table(df, index = ['Manager','Rep'], values = ['Price'] )

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,20000.0
Debra Henley,Daniel Hilton,38333.333333
Debra Henley,John Smith,20000.0
Fred Anderson,Cedric Moss,27500.0
Fred Anderson,Wendy Yule,44250.0


In [7]:
# 이제 aggfunc 옵션을 사용해서 기본적으로 평균값을 표현하던 것을 np.sum을 이용해서 합계를 표현하도록 할 수 있습니다.
pd.pivot_table(df, index = ['Manager','Rep'], values = ['Price'], aggfunc = np.sum )

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,80000
Debra Henley,Daniel Hilton,115000
Debra Henley,John Smith,40000
Fred Anderson,Cedric Moss,110000
Fred Anderson,Wendy Yule,177000


In [8]:
# 또한 이제 aggfunc 옵션을 사용해서 기본적으로 평균값을 표현하던 것을 np.sum을 이용해서 합계를 표현하도록 할 수 있습니다.
pd.pivot_table(df, index = ['Manager','Rep'], values = ['Price'], aggfunc = [np.sum, np.mean] )

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price
Manager,Rep,Unnamed: 2_level_2,Unnamed: 3_level_2
Debra Henley,Craig Booker,80000,20000.0
Debra Henley,Daniel Hilton,115000,38333.333333
Debra Henley,John Smith,40000,20000.0
Fred Anderson,Cedric Moss,110000,27500.0
Fred Anderson,Wendy Yule,177000,44250.0
