# 06_그룹분석

그룹분석이란 "학년별 국어평균"과 같이 데이터를 집단별로 나누어 그룹함수를 적용한 분석방법

ex) 지역별 인구수, 학년별 평균점수, 연령별 평균소득



## #01. 필요한 기본 패키지와 샘플 데이터 준비

### a) 패키지 가져오기 

In [1]:
import numpy                    # 수치연산패키지
from pandas import DataFrame    # 데이터프레임 클래스
from pandas import read_csv     # csv 로드 함수

### b) 샘플 데이터 가져오기 

In [3]:
성적표csv = read_csv("http://itpaper.co.kr/demo/py/grade.csv", encoding="euc-kr")
성적표csv

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### c) 성적표 데이터 전처리 

이름 컬럼을 인덱스로 지정하고 원래의 이름 컬럼은 삭제한다.

In [12]:
현재인덱스 = list(성적표csv.index)
이름=list(성적표csv['이름'])

indexDict = {}
for i, v in enumerate(이름):
    # `이름`의 i번째에 대응되는 항목을 `현재인덱스`에서 가져옴
    before = 현재인덱스[i];
    indexDict[before] = v
    
성적표 = 성적표csv.rename(index=indexDict)
성적표.drop('이름', axis=1, inplace=True)
성적표

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## #02. 집계함수 사용
데이터프레임에서 집계함수를 사용하면 열단위(세로방향)에 대해 수행된다.

### 사용 가능한 집계 함수의 종류
- 그룹별 데이터의 갯수 : size, count
- 평균, 중앙값, 최소, 최대 ; mean, median, min, max
- 합계, 곱, 표준편차, 분산, 사분위수: sum, prod, std, var, quantile
- 그룹 안에서 첫번째, 마지막 데이터 : first, last

### 1) 전체 열에 대한 집계

#### 총점

데이터 타입이 문자열인 컬럼에 대해서는 모든 데이터를 하나의 문자열로 병합한 값이 표시된ㄷ.

In [18]:
# 과목별 총점
성적표.sum()

학년            11
성별    남자여자남자여자남자
국어           461
영어           270
수학           181
과학           294
dtype: object

#### 평균

숫자형태가 아니기 때문에 값을 계산할 수 없는 컬럼은 자동으로 제외된다.

In [19]:
# 과목별 평균
성적표.mean()

학년     2.200000
국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

### 2) 특정열에 대한 집계

In [20]:
# 국어 과목에서 최고점수
성적표['국어'].max()

120

### 3) 행 단위 집계

집계함수에 `axis=1` 파라미터를 지정한다.

**집계함수에서의 axis의 의미**
- *axis=0* : y축, 열단위, 기본값
- *axis=1* : x축, 행단위, 필요한 경우 명시

> `drop()`함수와는 반대 개념으로 동작하므로 유의해야 한다.

#### a) 합계

문자열 데이터는 제외된다.

> 여기서는 학년 데이터까지 합계에 포함되므로 정확한 값이라고 볼 수는 없다.

In [21]:
# 학생별 총점
성적표.sum(axis=1)

철수    251.0
영희    314.0
민수    163.0
수현    227.0
호영    262.0
dtype: float64

In [22]:
# 학생별 평균
성적표.mean(axis=1)

철수    62.750000
영희    62.800000
민수    54.333333
수현    45.400000
호영    65.500000
dtype: float64

### 4) 특정 행에 대한 집계

특정 행의 집계는 `성별`과 같은 숫자가 아닌 형태가 포함되어 있을 경우 에러가 발생한다.

In [23]:
# 평균을 산출하기 위한 컬러만 추출
성적df = 성적표.filter(['국어','영어','수학','과학'])
# 영희에 대한 행만 추출하여 평균 집계
영희df = 성적df.loc['영희'].mean()
영희df

78.0

### 5) 행 단위 집계 결과를 새로운 열로 추가하기 

`axis` 파라미터의 값이 `drop()`함수와 반대로 적용되므로 주의!!!

#### a) 평균을 산출하기 위한 컬럼만 추출

In [24]:
성적df = 성적표.filter(['국어','영어','수학','과학'])
성적df

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민수,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


#### b) 학생별 총점과 평균 산출

In [25]:
총점 = 성적df.sum(axis=1)
총점

철수    250.0
영희    312.0
민수    162.0
수현    224.0
호영    258.0
dtype: float64

In [27]:
평균 = 성적df.mean(axis=1)
평균

철수    83.333333
영희    78.000000
민수    81.000000
수현    56.000000
호영    86.000000
dtype: float64

#### c) 데이터프레임의 복사본을 생성한 후 산출한 집계 결과를 새로운 열로 추가 

In [28]:
성적표cp = 성적표.copy()
성적표cp['총점'] = 총점
성적표cp['평균'] = 평균
성적표cp

Unnamed: 0,학년,성별,국어,영어,수학,과학,총점,평균
철수,1,남자,98,,88.0,64.0,250.0,83.333333
영희,2,여자,88,90.0,62.0,72.0,312.0,78.0
민수,1,남자,92,70.0,,,162.0,81.0
수현,3,여자,63,60.0,31.0,70.0,224.0,56.0
호영,4,남자,120,50.0,,88.0,258.0,86.0


## #03. 집단별로 나누기

- 동일한 값을 갖는 데이터들끼리 그룹으로 묶고, 그 이외의 다른 데이터들에게 집계를 수행하는 형태.
- SQL의 group by절과 같은 기능.

### 1) 샘플 데이터 만들기

In [29]:
인구조사 = read_csv("http://itpaper.co.kr/demo/py/city_people.csv", encoding="euc-kr")
인구조사

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


### 2) 하나의 컬럼을 집단별로 나누고 그룹분석 수행하기

#### a) 15년간의 도시별 최대 인구수

##### 분석을 위해 그룹으로 묶을 컬럼(하나 이상)과 집계를 수행할 컬럼을 추출

In [30]:
도시별인구 = 인구조사.filter(['도시','인구'])
도시별인구

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


##### 특정 컬럼을 그룹으로 묶고 다른 컬럼으로 집계 수행
그룹으로 묶인 컬럼은 인덱스로 구성된다.

In [31]:
도시별_최대_인구수 = 도시별인구.groupby('도시').max()
도시별_최대_인구수

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


### 3) 두 개 이상의 컬럼을 집단별로 나누고 그룹분석 수해하기 

각 지역별로 5년 단위 최대 인구수

#### 기준이 될 컬럼 2건과 집계를 수행할 컬럼 추출

In [32]:
지역_연도_인구 = 인구조사.filter(['지역','연도','인구'])
지역_연도_인구

Unnamed: 0,지역,연도,인구
0,수도권,2015,9904312
1,수도권,2010,9631482
2,수도권,2005,9762546
3,경상권,2015,3448737
4,경상권,2010,3393191
5,경상권,2005,3512547
6,수도권,2015,2890451
7,수도권,2010,2632035


#### 두 개 이상의 컬럼을 그룹으로 묶은 후 집계 수행

그룹으로 묶인 결과가 인덱스로 구성된다.

In [34]:
지역_연도별_최대인구 = 지역_연도_인구.groupby(['지역','연도']).max()
지역_연도별_최대인구

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


#### 인덱스를 구성하지 않고 그룹으로 묶기

In [35]:
지역_연도_인구.groupby(['지역','연도'], as_index=False).max()

Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


### 4) 하나의 컬럼에 대해 여러개의 집계함수 동시 사용

`agg()` 함수에 집계함수의 이름을 문자열 원소로 갖는 리스트로 설정한다.

In [36]:
도시인구 = 인구조사.filter(['도시','인구'])
도시인구.groupby('도시').agg(['min', 'max','std','sum'])

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,59725.663038,10354475
서울,9631482,9904312,136449.978473,29298340
인천,2632035,2890451,182727.705967,5522486


### 5) 여러 컬럼에 대해 서로 다른 집계함수 적용하기
딕셔너리 형식으로 `{컬럼명:[함수리스트], 컬럼명:[함수리스트], }` 형태로 지정한다.

In [38]:
지역도시인구 = 인구조사.filter(['지역','도시','인구'])
지역도시인구

Unnamed: 0,지역,도시,인구
0,수도권,서울,9904312
1,수도권,서울,9631482
2,수도권,서울,9762546
3,경상권,부산,3448737
4,경상권,부산,3393191
5,경상권,부산,3512547
6,수도권,인천,2890451
7,수도권,인천,2632035


In [39]:
지역도시인구.groupby('지역').agg({'도시':['count'], '인구':['sum','max']})

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312


### 6) 사용자 정의 함수를 적용하기

In [41]:
def my_range(x):
    # 파라미터로 전달되는 객체는 특정 컬럼에 대한 Serise 객체
    return numpy.max(x) - numpy.min(x) 

# 사용자 정의 함수의 이름은 문자열로 지정하지 않는다.
도시인구.groupby('도시').agg(['min','max','std','sum',my_range])

Unnamed: 0_level_0,인구,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,sum,my_range
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
부산,3393191,3512547,59725.663038,10354475,119356
서울,9631482,9904312,136449.978473,29298340,272830
인천,2632035,2890451,182727.705967,5522486,258416


## #04. 피벗테이블