In [1]:
import numpy as np
import pandas as pd


In [2]:
# 데이터 추출
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 집계 함수 사용
- 데이터 프레임에서 집계함수는 열단위로 수행한다.
- 결측치인 로우는 제외하고 계산한다.
|함수명|구하는값|
|---|---|
|size|데이터의 개수|
|count|데이터의 개수|
|mean|평균|
|median|중간값|
|min|최소값|
|max|최대값|
|sum|합계|
|prod|곱|
|std|표준편차|
|var|분산|
|quantile|위치값 등등|


- size : 데이터의 개수, count : 데이터의 개수, mean : 평균,
- median : 중간값, min : 최소값, max : 최대값, sum : 합계,
- prod : 곱, std : 표준편차, var : 분산, quantile : 위치값 등등

### 전체 열에 대한 집계

In [3]:
# 총점
df1.sum()

학년            11
성별    남자여자남자여자남자
국어           461
영어         270.0
수학         181.0
과학         294.0
dtype: object

In [4]:
# 평균
# 수치형 데이터가 아닌 것들은 계산이 불가능하기 때문에
# 제외한다.
df1.mean()

학년     2.200000
국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

In [5]:
#데이터의 개수
df1.count()

학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64

In [6]:
# 특정 열의 평균을 구한다.
# 통계에 관련된 함수들은 데이터 프레임 뿐만 아니라 Series도 동일하게
##가지고 있다.
df1['국어'].max()

120

In [7]:
# 행단위 집계
# 문자열 데이터는 제외된다.
df1[['국어', '영어', '수학', '과학']].mean(axis=1)

이름
철수    83.333333
영희    78.000000
민수    81.000000
수현    56.000000
호영    86.000000
dtype: float64

In [8]:
# 각 학생별 총점과 평균을 구해 데이터 프레임에 추가한다.
# 학생별 전체 총점을 구한다. (총점 열 추가로 생김)
df1['총점'] = df1[['국어', '영어','수학','과학']].sum(axis=1)
df1['평균'] = df1[['국어', '영어','수학','과학']].mean(axis=1)
df1
# 결측치를 제외하고 평균할 것인지,
##결측치를 0으로 두고 평균을 구할 것인지 정할 것

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,총점,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1,남자,98,,88.0,64.0,250.0,83.333333
영희,2,여자,88,90.0,62.0,72.0,312.0,78.0
민수,1,남자,92,70.0,,,162.0,81.0
수현,3,여자,63,60.0,31.0,70.0,224.0,56.0
호영,4,남자,120,50.0,,88.0,258.0,86.0


### 그룹 통계

In [9]:
df1 = pd.read_csv('data/city_people.csv', encoding='euc-kr')
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [10]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [11]:
# 도시를 기준으로 인구 최대 값을 구한다.(필요한 값만 구하는 것)
df2 = df1[['도시', '인구']]
df2
# 기준으로 지정한 컬럼의 값은 index로 지정된다.
r1 = df2.groupby('도시').max()
r1

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


In [12]:
r2 = df1.groupby('도시').max()
r2

Unnamed: 0_level_0,연도,인구,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,2015,3512547,경상권
서울,2015,9904312,수도권
인천,2015,2890451,수도권


In [13]:
#전체에서 groupby하는 것
r2 = df1.groupby('도시')['인구'].max()
r2

도시
부산    3512547
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [14]:
# 두 개 이상의 컬럼을 그룹의 기준으로 설정한다.
# 각 권역에서 년도별 최대 인구 수를 구한다.
df2 = df1[['연도', '인구', '지역']]
df2
## 밑에 이어서
r2 = df2.groupby(['지역', '연도']).max()
r2
# 인덱스로 지역, 연도 둘 다 빠짐.

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [15]:
# 기준이 되는 컬럼을 데이터로 포함시키고 싶다면 as_index에 False를 넣어준다.
df2 = df1[['도시', '인구']]
r1 = df2.groupby('도시', as_index=False).max()

df3 = df1[['지역','연도','인구']]
r2 = df3.groupby(['지역','연도'], as_index=False).max()

display(r1)
display(r2)

Unnamed: 0,도시,인구
0,부산,3512547
1,서울,9904312
2,인천,2890451


Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547
1,경상권,2010,3393191
2,경상권,2015,3448737
3,수도권,2005,9762546
4,수도권,2010,9631482
5,수도권,2015,9904312


### 여러 통계 값을 동시에 구하기

In [16]:
df2 = df1[['도시','인구']]
df2

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


In [17]:
# 각 도시별 최소, 최대, 표준편차, 총합을 구한다.
# 구할 통계에 대한 함수의 이름을 문자열로 넣어준다.
df2.groupby('도시').agg(['min','max','std','sum'])

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,std,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,59725.663038,10354475
서울,9631482,9904312,136449.978473,29298340
인천,2632035,2890451,182727.705967,5522486


In [18]:
# 각 컬럼별 서로 다른 통계값을 구한다.
df2 = df1[['도시','인구','지역']]

a1 = {
    '도시' : ['count'],
    '인구' : ['sum', 'max']
}

df2.groupby('지역').agg(a1)

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312
