In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 요약통계 정보
- 범위형 데이터 : 최소와 최대로 구성된 데이터(나이, 키, 몸무게..)
- 카테고리형 데이터 : class로 구성된 데이터 (혈액형, 성별, 취미..)

In [3]:
# 데이터 프레임 전체에 대해 describe 함수를 사용하게 되면
# 숫자 컬럼 모두 모아 범위형에 대한 요약 통계정보를 보여준다.
# 따라서, 범위형 컬럼만 모아서 확인해야 한다.
# count : 결측치를 제외한 데이터의 개수
# mean : 결측치를 제외한 평균
# std : 결측치를 제외한 표준편차
# min : 결측치를 제외한 최소값
# 25% : 결측치를 제외한 25% 위치값
# 50% : 결측치를 제외한 50% 위치값
# 75% : 결측치를 제외한 75% 위치값
# max : 결측치를 제외한 최대값
df1[['국어', '영어', '수학', '과학']].describe()

Unnamed: 0,국어,영어,수학,과학
count,5.0,4.0,3.0,4.0
mean,92.2,67.5,60.333333,73.5
std,20.474374,17.078251,28.536526,10.246951
min,63.0,50.0,31.0,64.0
25%,88.0,57.5,46.5,68.5
50%,92.0,65.0,62.0,71.0
75%,98.0,75.0,75.0,76.0
max,120.0,90.0,88.0,88.0


In [4]:
# 카테고리형 데이터에 대한 요약 통계 정보
# 의미없다.
# 문자열과 숫자가 섞여 있을 경우 문자열을 버리고 숫자만 남긴다음
# 범위형 데이터의 요약통계 정보를 보여주기 때문에
# 문자열로 변환해야 한다.
# count : 결측치를 제외한 데이터의 개수
# unique : 결측치를 제외한 데이터 종류의 수
# top : 가장 많이 저장된 데이터
# freq : 가장 많이 저장된 데이터가 몇번 저장되었는가..
df1[['학년', '성별']].astype('str').describe()

Unnamed: 0,학년,성별
count,5,5
unique,4,2
top,1,남자
freq,2,3


In [5]:
# 위치 값 설정
# 보고자 하는 위치들을 리스트로 설정해준다.
# 50% 위치는 생략해도 된다.
a1 = [0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.75, 0.8, 0.9]
df1[['국어', '영어']].describe(percentiles=a1)

Unnamed: 0,국어,영어
count,5.0,4.0
mean,92.2,67.5
std,20.474374,17.078251
min,63.0,50.0
10%,73.0,53.0
20%,83.0,56.0
30%,88.8,59.0
40%,90.4,62.0
50%,92.0,65.0
60%,94.4,68.0


### 통계 함수
- https://www.tutorialspoint.com/python_pandas/python_pandas_descriptive_statistics.htm

In [6]:
# 결측치를 제외한 데이터의 개수
df1.count()

학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64

In [7]:
# 결측치를 제외한 평균
# 평균을 구할 수 없는 데이터(문자열)이 포함되어 있다면
# 경고가 발생한다. 따라서 범위형 데이터만 남겨두고 
# 통계값을 구한다.
df1.drop(['성별', '학년'], axis=1).mean()

국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

In [8]:
# 중간값
df1.drop(['성별', '학년'], axis=1).median()

국어    92.0
영어    65.0
수학    62.0
과학    71.0
dtype: float64

### 그룹을 묶어서 통계값을 계산한다.
- 그룹의 기준을 설정해야 한다.
- 그룹의 기준이 되는 컬럼에서 값이 같은 것 끼리 그룹을 묶고 그 그룹안에서 통계를 구한다.

In [9]:
df1 = pd.read_csv('data/city_people.csv', encoding='euc-kr')
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


### 도시별 최대 인구수

In [10]:
# 방법1. 데이터를 구하는데 필요한 정보만 추출해서 구한다.
df2 = df1[['도시', '인구']]

# 그룹의 기준을 도시로 지정하여 인구 최대수를 구한다.
df2.groupby('도시').max()

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


In [14]:
# 방법2. 전체 데이터프레임을 이용해 모든 컬럼에 대해 통계값을 구하고
# 필요한 것을 추출한다.
df1.groupby('도시')['인구'].max()
df1.groupby('도시')[['인구']].max()

도시
부산    3512547
서울    9904312
인천    2890451
Name: 인구, dtype: int64

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


### 각 지역의 년도별 인구 평균을 구한다.

In [15]:
df2 = df1[['지역', '연도', '인구']]

df3 = df2.groupby(['지역', '연도']).max()
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9631482
수도권,2015,9904312


In [16]:
df3.loc['경상권'].loc[2005]

인구    3512547
Name: 2005, dtype: int64

In [17]:
# 그룹의 기준이되는 컬럼은 인덱스로 빠지게 된다.
# 만약 데이터로 남기고자 한다면 as_index에 Flase를 넣어준다.
df2 = df1[['지역', '연도', '인구']]
df3 = df2.groupby(['지역', '연도'], as_index=False).mean()
df3

Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547.0
1,경상권,2010,3393191.0
2,경상권,2015,3448737.0
3,수도권,2005,9762546.0
4,수도권,2010,6131758.5
5,수도권,2015,6397381.5


### 여러가지 통계 함수를 사용한다.

In [18]:
df2 = df1[['도시', '인구', '연도']]

# 하나 혹은 다수의 컬럼에 대해 동일한 통계값을 구할 때는 함수를 사용한다.
r1 = df2.groupby('도시').mean()
r1

Unnamed: 0_level_0,인구,연도
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,3451492.0,2010.0
서울,9766113.0,2010.0
인천,2761243.0,2012.5


In [19]:
# 하나 혹은 다수의 컬럼에 대해 다양한 통계값을 구할 때는
# agg 함수를 사용한다.
# 이때, 구하고자하는 통계값 이름은 통계함수 이름으로 설정해준다.
r2 = df2.groupby('도시').agg(['min', 'max', 'std', 'sum'])
r2

Unnamed: 0_level_0,인구,인구,인구,인구,연도,연도,연도,연도
Unnamed: 0_level_1,min,max,std,sum,min,max,std,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
부산,3393191,3512547,59725.663038,10354475,2005,2015,5.0,6030
서울,9631482,9904312,136449.978473,29298340,2005,2015,5.0,6030
인천,2632035,2890451,182727.705967,5522486,2010,2015,3.535534,4025


In [20]:
# 각 컬럼에 대해 구하고자 하는 통계 값들이 다를 경우....
df2 = df1[['지역', '도시', '인구']]

# 컬럼과 통계값을 딕셔너리고 구성해준다.
dict1 = {
    '도시' : ['count'],
    '인구' : ['sum', 'max']
}

r1 = df2.groupby('지역').agg(dict1)
r1

Unnamed: 0_level_0,도시,인구,인구
Unnamed: 0_level_1,count,sum,max
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3,10354475,3512547
수도권,5,34820826,9904312
