In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# 7-1. 통계 함수
## 주요 통계 함수 목록
<img src="img/7강/통계함수.jpg" alt="통계함수" style="width: 400px;"/>

## 주요 함수 옵션
<img src="img/7강/주요함수옵션.jpg" alt="주요옵션" style="width: 400px;"/>

### ** axis는 통계함수 뿐만 아니라, 많은 함수에서 동일하게 적용됨. **

In [3]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)), 
                  columns=[[2016, 2016, 2017, 2017], ['영어','수학','영어','수학']], index = ['Kim','Park','Lee','Jung','Moon'])
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [5]:
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [6]:
# 2016년 성적만 선택해서 df2016에 저장
df2016 = df[2016]

In [7]:
# 1) count() - NaN 값을 제외한 데이터의 갯수 
df2016.count()

과목
영어    5
수학    5
dtype: int64

In [8]:
# 2) sum() - 값의 합을 계산
## 기본적으로 함수는 각 컬럼에 있는 로우(row)들의 값들로 수행됨. (기본값 axis =0) 
## 모든 통계 함수는 동일함.
df2016.sum()

과목
영어    380
수학    435
dtype: int64

In [9]:
df2016.sum(axis=1)

학생명
Kim     191
Park    142
Lee     157
Jung    148
Moon    177
dtype: int64

In [10]:
# 각 학생들의 과목 평균 구하기
df.mean(axis=1)

학생명
Kim     73.50
Park    67.50
Lee     71.50
Jung    65.25
Moon    86.50
dtype: float64

In [11]:
# 3) describe() - 각 컬럼에 대한 요약 통계
df2016.describe()

과목,영어,수학
count,5.0,5.0
mean,76.0,87.0
std,16.015617,8.336666
min,53.0,74.0
25%,71.0,86.0
50%,74.0,89.0
75%,88.0,89.0
max,94.0,97.0


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Kim to Moon
Data columns (total 4 columns):
(2016, 영어)    5 non-null int64
(2016, 수학)    5 non-null int64
(2017, 영어)    5 non-null int64
(2017, 수학)    5 non-null int64
dtypes: int64(4)
memory usage: 360.0+ bytes


In [15]:
# 2016년에 가장 높은 수학점수
df2016.수학.max()

97

### 실습

In [16]:
# 실습.df 대상으로 년도별 과목별 평균 성적을 출력
df.mean()

년도    과목
2016  영어    76.0
      수학    87.0
2017  영어    63.4
      수학    65.0
dtype: float64

In [17]:
# 실습. df 대상으로 학생별로 모든 년도/과목에 대한 전체 평균을 출력
df.mean(axis=1)

학생명
Kim     73.50
Park    67.50
Lee     71.50
Jung    65.25
Moon    86.50
dtype: float64

In [25]:
df.stack('과목').mean(axis=1)

학생명   과목
Kim   수학    75.0
      영어    72.0
Park  수학    79.0
      영어    56.0
Lee   수학    71.0
      영어    72.0
Jung  수학    62.5
      영어    68.0
Moon  수학    92.5
      영어    80.5
dtype: float64

# 7-2. 정렬
##  데이터 정렬 : sort_values()
<img src="img/7강/데이터프레임정렬.jpg" alt="DataFrame.sort_values" style="width: 600px;"/>

## 인덱스 정렬 : sort_index() - 인자는 sort_values()와 동일
### http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values

## 1) Series 정렬

In [19]:
# Series 정렬을 위한 샘플 데이터
sr = Series([3,5,2,1,7,10], index = list('bcafed'))
sr

b     3
c     5
a     2
f     1
e     7
d    10
dtype: int64

In [20]:
# 로우 인덱스 라벨의 값으로 정렬
sr.sort_index()

a     2
b     3
c     5
d    10
e     7
f     1
dtype: int64

In [23]:
# Series의 값으로 정렬 (기본값 = 오름차순)
sr.sort_values()

f     1
a     2
b     3
c     5
e     7
d    10
dtype: int64

In [24]:
# Series의 값으로 내림차순 정렬
sr.sort_values(ascending=False)

d    10
e     7
c     5
b     3
a     2
f     1
dtype: int64

## 2) DataFrame 정렬

In [26]:
df2016

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,97
Park,53,89
Lee,71,86
Jung,74,74
Moon,88,89


In [27]:
#수학성적으로 오름차순 정렬
df2016.sort_values(by='수학') # by 를 이용해서 정렬하고자 하는 컬럼

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,74,74
Lee,71,86
Park,53,89
Moon,88,89
Kim,94,97


In [28]:
# 영어 성적으로 내림차순 정렬
df2016.sort_values(by='영어',ascending=False) # by 를 이용해서 정렬하고자 하는 컬럼

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,97
Moon,88,89
Jung,74,74
Lee,71,86
Park,53,89


In [29]:
# 2개 이상의 컬럼으로 정렬
# 수학 성적으로 내림차순 정렬하되,
# 수학 성적이 같으면 영어섲ㅇ적으로 내림차순 정렬
df2016.sort_values(by=['수학','영어'],ascending=False)

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,97
Moon,88,89
Park,53,89
Lee,71,86
Jung,74,74


In [30]:
df2016.sort_values(by=['수학','영어'],ascending=[False,True])

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,94,97
Park,53,89
Moon,88,89
Lee,71,86
Jung,74,74


In [36]:
# 계층 색인인 경우의 정렬
df

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,94,97,50,53
Park,53,89,59,69
Lee,71,86,73,56
Jung,74,74,62,51
Moon,88,89,73,96


In [37]:
# 2017년 수학 성적 기준으로 내림차순 정렬
df.sort_values(by=(2017,'수학'),ascending=False)

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Moon,88,89,73,96
Park,53,89,59,69
Lee,71,86,73,56
Kim,94,97,50,53
Jung,74,74,62,51
