# 판다스 (데이터프레임) 피벗 테이블과 그룹 분석

In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

#### 피벗 테이블

- 데이터 재구조화  
- 원본 데이터에서 원하는 열을 선택하여 원하는 형태로 행과 열을 배치해서 새로운 형태의 데이터를 만드는 것  
- 많은 양의 데이터에서 필요한 데이터만 추출하여 새로운 형태의 표를 보여주는 기능
- 원본 데이터로부터 원하는 형태의 가공된 데이터 추출 가능
    - 데이터의 형태를 변경하기 위해 많이 사용하는 방법     


### Pandas에서 제공하는 피봇 테이블 기능 :  pivot_table() 메소드 

pivot_table(data, values, index, columns, aggfun, fill_value, margins, margins_name)  
    - data : 분석할 데이터 프레임. 메서드 형식일때는 필요하지 않음 ex)df1.pivot_table()  
    - values : 분석할 데이터 프레임에서 분석할 열  
    - index :  행 인덱스로 들어갈 키열 또는 키열의 리스트  
    - columns : 열 인덱스로 들어갈 키열 또는 키열의 리스트    
    - aggfunc : 분석 메소드. mean이 기본 함수   
    - fill_value : NaN 대체값 지정    
    - margins : 모든 데이터를 분석한 결과를 행열로 추가할 지 여부  
    - margins_name : margins가 추가될 때 그 열(행)의 이름   



### pivot_table() 사용방법
(1) df.pivot_table()  
(2) pd.pivot_table()

- 두개의 키를 사용해서 데이터를 선택  
    - 행 인덱스, 열 인덱스  
- 인덱스 명을 제외한 나머지 값(data)은 수치 data 만 사용함  
- 기본 함수가 평균(mean)함수 이기 때문에 각 데이터의 평균값이 반환  

#### 피벗 테이블 예제 1

In [3]:
# 데이터프레임 생성

data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


### 각 도시에 대한 연도별 인구 데이터  추출

- 행과 열 인덱스만 보면 어떤 도시의 어떤 시점의 인구인지 쉽게 알 수 있도록  
    - 행 인덱스 : 도시  
    - 열 인덱스 : 연도   
    - 데이터 : 인구 (인구 수)  

In [None]:
# 인수명 명시
df1.pivot_table(index='도시', columns='연도', value)

#### 피벗 테이블 예제 2

In [6]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터 중 일부 열만 추출해서 사용
df = sns.load_dataset('titanic')[['age','sex','class','fare','survived']]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [None]:
######################################################################################

### 그룹 분석

- 만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는   
- 그룹의 특성을 보여주는 그룹분석(group analysis)을 수행해야 함  
---
- 판다스에서의 그룹 분석 기능 : groupby() 메서드 사용  
- 그룹 분석 단계  
    (1) 분석하고자 하는 시리즈나 데이터프레임에 groupby() 메서드를 사용하여 그룹화 수행   
        - 그룹 객체 반환  (객체를 그대로 사용 못함)  
    (2) 그룹 객체에 대해 그룹 연산을 수행

#### groupby() 메소드
- 데이터를 그룹별로 분류하는 역할
- groupby() 메소드 인수
    - 열 또는 열 리스트
    - 행 인덱스
- 연산 결과로 그룹 데이터를 나타내는 GroupBy 클래스 객체 반환
- 객체에는 그룹별로 연산할 수 있는 그룹 연산 메소드가 포함 

#### GroupBy 클래스 객체의 그룹 연산 메서드

- size(), count() : 그룹 데이터의 개수 반환  
    - count() : Null 값이 아닌 행만 반환  
    - size() : Null 값인 행도 모두 포함해서 반환  
- mean(), median(), min(), max() : 그룹 데이터의 평균, 중앙값, 최소, 최대 값 반환  
- sum(), prod(), std(),var(), quantile() : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수 반환  
- first(), last() : 그룹 데이터 중 가장 첫 번째, 마지막 데이터 반환  


#### 이 외에도 많이 사용되는 그룹 연산

- agg(), aggregate()  
    - 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달  
    - 또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트 전달  

- describe()  
    - 하나의 그룹 대표값이 아니라 여러 개의 값을 데이터프레임으로 반환  

- apply()  
    - describe() 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹 연산이 없는 경우에 사용

- transform()  
    - 그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형

In [72]:
# df 생성 - 고객 정보를 담고 있는 df
df1 =pd.DataFrame({
    '고객번호' : [1001,1002,1003,1004,1005,1006,1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']})
df1

# df 생성 - 예금 정보 df
df2 = pd.DataFrame({
    '고객번호':[1001,1001,1005,1006,1008,1001],
    '금액' : [10000,20000,15000,5000,100000,30000]})
df2

df = pd.merge(df1, df2, how='inner')
df

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


### 그룹객체에 함수 적용 : apply() / agg()
- group객체.apply(적용함수) / group객체.agg(적용함수)
  - 개별 원소가 아닌 그룹에 적용

- agg() : 숫자 타입의 스칼라 값(하나의 값)만 리턴하는 함수를 적용 
    - 데이터프레임을 반환하는 함수에는 사용 불가
- apply()
  - 스칼라값 반환 함수 및 데이터프레임 반환하는 함수에 사용 

#### 그룹객체에 함수 적용 예1 

#### 그룹객체에 함수 적용 예 2

#### apply() / agg() 예제

In [278]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


sepal_length : 꽃받침 길이  
sepal_width : 꽃받침 너비  
petal_length : 꽃잎 길이  
petal_width : 꽃잎 너비  
species : 아이리스 종류(setosa, versicolor, virginica)  

#### 사용자 정의 함수 생성해서 agg()/apply()에 적용

In [38]:
#############################################################################

## 그룹함수  및 피봇 테이블 이용 간단한 분석 예제

#### 식당에서 식사 후 내는 팁(tip)과 관련된 데이터 이용

- seaborn 패키지 내 tips 데이터셋 사용

    - total_bill: 식사대금

    - tip: 팁

    - sex: 성별

    - smoker: 흡연/금연 여부

    - day: 요일

    - time: 시간

    - size: 테이블 당 인원

##### 분석 내용
(1) 식사 대금 대비 팁을 누가 더 많이 주는가? 여성/남성, 흡연자/비흡연자  
(2) 식사 대금 대비 팁의 비율이 언제 가장 높아지는가? 요일

- 가공 필드 생성 : 식사대금 대비 팁의 비율
    - tip_pct = 팁 / 식사대금

#### (1) 식사 대금 대비 팁을 누가 더 많이 주는가? 여성/남성, 흡연자/비흡연자

#### (2) 식사 대금 대비 팁의 비율이 언제 가장 높아지는가?