In [51]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# 7-1. 통계 함수
## 주요 통계 함수 목록
<img src="img/7강/통계함수.jpg" alt="통계함수" style="width: 400px;"/>

## 주요 함수 옵션
<img src="img/7강/주요함수옵션.jpg" alt="주요옵션" style="width: 400px;"/>

### ** axis는 통계함수 뿐만 아니라, 많은 함수에서 동일하게 적용됨. **

In [52]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2016, 2016, 2016, 2017, 2017, 2017], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2016, '과학')] = np.nan

In [53]:
df

년도,2016,2016,2016,2017,2017,2017
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Park,59,69,71.0,86,73,56
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Moon,63,58,,70,66,55


In [54]:
# 2016년 성적만 선택해서 df2016에 저장
df2016 = df[2016]
df2016

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,94,97,50.0
Park,59,69,71.0
Lee,74,74,62.0
Jung,73,96,74.0
Moon,63,58,


In [55]:
# 1) count() - NaN 값을 제외한 데이터의 갯수 
df2016.count()
# 기본적으로 컬럼 단위로 함수 적용

과목
영어    5
수학    5
과학    4
dtype: int64

In [56]:
# 2) sum() - 값의 합을 계산
## 기본적으로 함수는 각 컬럼에 있는 로우(row)들의 값들로 수행됨. (기본값 axis =0) 
## 모든 통계 함수는 동일함.
df2016.sum()

과목
영어    363.0
수학    394.0
과학    257.0
dtype: float64

In [57]:
# 각 학생들의 과목 평균 구하기
df2016.mean(axis=1)
# moon은 과학 점수가 없음. 통계함수는 기본값이 NaN을 빼고 계산

학생명
Kim     80.333333
Park    66.333333
Lee     70.000000
Jung    81.000000
Moon    60.500000
dtype: float64

In [58]:
df2016.fillna(0).mean(axis=1)

학생명
Kim     80.333333
Park    66.333333
Lee     70.000000
Jung    81.000000
Moon    40.333333
dtype: float64

In [59]:
# 연산 시 하나라도 NaN이 나오면 결과값은 NaN
63 + 48 + np.NaN

nan

In [60]:
df2016.mean(axis=1, skipna=False)

학생명
Kim     80.333333
Park    66.333333
Lee     70.000000
Jung    81.000000
Moon          NaN
dtype: float64

In [61]:
# 3) describe() - 각 컬럼에 대한 요약 통계
df2016.describe()

과목,영어,수학,과학
count,5.0,5.0,4.0
mean,72.6,78.8,64.25
std,13.575714,17.166828,10.781929
min,59.0,58.0,50.0
25%,63.0,69.0,59.0
50%,73.0,74.0,66.5
75%,74.0,96.0,71.75
max,94.0,97.0,74.0


In [62]:
# 실습 1.df 대상으로 년도별 과목별 평균 성적을 출력
df.mean()

년도    과목
2016  영어    72.60
      수학    78.80
      과학    64.25
2017  영어    65.40
      수학    73.40
      과학    72.80
dtype: float64

In [63]:
# 실습 2. df 대상으로 학생별로 모든 년도/과목에 대한 전체 평균을 출력
df.mean(axis=1)

학생명
Kim     72.666667
Park    69.000000
Lee     73.000000
Jung    78.666667
Moon    62.400000
dtype: float64

In [64]:
# 실습 3. 년도별 학생별 평균 구하기 
# 컬럼명이 (2016, '평균')으로 2016년 학생별 평균을 저장.
# 컬럼명이 (2017, '평균')으로 2017년 학생별 평균을 저장.
df[2016, '평균'] = df[2016].mean(axis=1)
df[2017, '평균'] = df[2017].mean(axis=1)
df.sort_index(axis=1)

년도,2016,2016,2016,2016,2017,2017,2017,2017
과목,과학,수학,영어,평균,과학,수학,영어,평균
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Kim,50.0,97,94,80.333333,89,53,53,65.0
Park,71.0,69,59,66.333333,56,73,86,71.666667
Lee,62.0,74,74,70.0,89,88,51,76.0
Jung,74.0,96,73,81.0,75,87,67,76.333333
Moon,,58,63,60.5,55,66,70,63.666667


In [65]:
# 두번째 방법 -  컬럼 인덱스 정보를 활용하여 일반화하여 구하기
df.columns


MultiIndex([(2016, '영어'),
            (2016, '수학'),
            (2016, '과학'),
            (2017, '영어'),
            (2017, '수학'),
            (2017, '과학'),
            (2016, '평균'),
            (2017, '평균')],
           names=['년도', '과목'])

In [66]:
df.columns.get_level_values(0)

Int64Index([2016, 2016, 2016, 2017, 2017, 2017, 2016, 2017], dtype='int64', name='년도')

In [67]:
year = df.columns.get_level_values(0).unique()
year

Int64Index([2016, 2017], dtype='int64', name='년도')

In [68]:
for col in year:
    df[col, '평균2'] = df[col].mean(axis=1)
df

년도,2016,2016,2016,2017,2017,2017,2016,2017,2016,2017
과목,영어,수학,과학,영어,수학,과학,평균,평균,평균2,평균2
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Kim,94,97,50.0,53,53,89,80.333333,65.0,80.333333,65.0
Park,59,69,71.0,86,73,56,66.333333,71.666667,66.333333,71.666667
Lee,74,74,62.0,51,88,89,70.0,76.0,70.0,76.0
Jung,73,96,74.0,67,87,75,81.0,76.333333,81.0,76.333333
Moon,63,58,,70,66,55,60.5,63.666667,60.5,63.666667


# 7-2. 정렬
## * 데이터 정렬 : sort_values()
<img src="img/7강/데이터프레임정렬.jpg" alt="DataFrame.sort_values" style="width: 600px;"/>
## * 인덱스 정렬 : sort_index() - 인자는 sort_values()와 동일
### http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values

## 1) Series 정렬

In [69]:
# Series 정렬을 위한 샘플 데이터
sr = Series([3,5,2,1,7,10], index = list('bcafed'))
sr

b     3
c     5
a     2
f     1
e     7
d    10
dtype: int64

In [70]:
# 로우 인덱스 라벨의 값으로 정렬
sr.sort_index()

a     2
b     3
c     5
d    10
e     7
f     1
dtype: int64

In [71]:
# Series의 값으로 정렬 (기본값 = 오름차순)
sr.sort_values()

f     1
a     2
b     3
c     5
e     7
d    10
dtype: int64

In [72]:
# Series의 값으로 내림차순 정렬
sr.sort_values(ascending=False)

d    10
e     7
c     5
b     3
a     2
f     1
dtype: int64

## 2) DataFrame 정렬

In [73]:
df2016

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,94,97,50.0
Park,59,69,71.0
Lee,74,74,62.0
Jung,73,96,74.0
Moon,63,58,


In [74]:
# 학생명으로 정렬(row index로 정렬)
df2016.sort_index()

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jung,73,96,74.0
Kim,94,97,50.0
Lee,74,74,62.0
Moon,63,58,
Park,59,69,71.0


In [75]:
# 컬럼 인덱스를 정렬하고자 할 때에는 axis 인자 활용
df2016.sort_index(axis=1)

과목,과학,수학,영어
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,50.0,97,94
Park,71.0,69,59
Lee,62.0,74,74
Jung,74.0,96,73
Moon,,58,63


In [76]:
#df2016을 수학성적으로 오름차순 정렬
df2016.sort_values(by='수학')

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Moon,63,58,
Park,59,69,71.0
Lee,74,74,62.0
Jung,73,96,74.0
Kim,94,97,50.0


In [77]:
# df2016을 영어 성적으로 내림차순 정렬
df2016.sort_values(by='영어', ascending=False)

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,94,97,50.0
Lee,74,74,62.0
Jung,73,96,74.0
Moon,63,58,
Park,59,69,71.0


In [78]:
# 계층 색인 정렬


In [80]:
# df의 평균2 컬럼을 삭제
df.drop([  (2016, '평균2'), (2017, '평균2')  ], axis=1, inplace=True)
df

년도,2016,2016,2016,2017,2017,2017,2016,2017
과목,영어,수학,과학,영어,수학,과학,평균,평균
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Kim,94,97,50.0,53,53,89,80.333333,65.0
Park,59,69,71.0,86,73,56,66.333333,71.666667
Lee,74,74,62.0,51,88,89,70.0,76.0
Jung,73,96,74.0,67,87,75,81.0,76.333333
Moon,63,58,,70,66,55,60.5,63.666667


In [83]:
df.sort_index(axis=1, inplace=True)
df

년도,2016,2016,2016,2016,2017,2017,2017,2017
과목,과학,수학,영어,평균,과학,수학,영어,평균
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Kim,50.0,97,94,80.333333,89,53,53,65.0
Park,71.0,69,59,66.333333,56,73,86,71.666667
Lee,62.0,74,74,70.0,89,88,51,76.0
Jung,74.0,96,73,81.0,75,87,67,76.333333
Moon,,58,63,60.5,55,66,70,63.666667


In [84]:
# df를 2017년 수학 성적 기준으로 내림차순 정렬
df.sort_values(by=(2017,'수학'), ascending=False)

년도,2016,2016,2016,2016,2017,2017,2017,2017
과목,과학,수학,영어,평균,과학,수학,영어,평균
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Lee,62.0,74,74,70.0,89,88,51,76.0
Jung,74.0,96,73,81.0,75,87,67,76.333333
Park,71.0,69,59,66.333333,56,73,86,71.666667
Moon,,58,63,60.5,55,66,70,63.666667
Kim,50.0,97,94,80.333333,89,53,53,65.0


In [85]:
# df를 2017년 수학 성적 기준으로 내림차순 정렬, 2017년 평균이 같은 경우에는 2016년 평균으로 내림차순 정렬
df.sort_values(by = [(2017, '수학'), (2016, '평균')], 
               ascending = False)

년도,2016,2016,2016,2016,2017,2017,2017,2017
과목,과학,수학,영어,평균,과학,수학,영어,평균
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Lee,62.0,74,74,70.0,89,88,51,76.0
Jung,74.0,96,73,81.0,75,87,67,76.333333
Park,71.0,69,59,66.333333,56,73,86,71.666667
Moon,,58,63,60.5,55,66,70,63.666667
Kim,50.0,97,94,80.333333,89,53,53,65.0
