# "[DA] Pandas - DataFrame 4"
> "주요 통계함수 및 파라미터"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [value_count,describe, count, mean]
- author: 도형준

# 통계

In [1]:
import pandas as pd
import numpy as np

- 주요 통계 함수
    - value_count() : 각 고유값의 중복개수
    - count : NaN 값을 제외한 값의 개수
    - describe : 각 컬럼에 대한 요약통계 계산(count, mean, std, min, 1사분위수, 중위값, 3사분위수, max)
    - min, max : 최소, 최대 값
    - sum : 총 합
    - cumsum : 누적합
    - mean : 평균
    - median : 중위값(전체 데이터를 나열 했을 때 중간에 위치한 값)
    - var : 분산(데이터가 전체적으로 흩어진 정도, 편차제곱의 평균)
    - std : 표준편차 = 분산의 양의 제곱근
- 주요 파라미터
    - axis : 연산의 기준이 되는 축, axis=0(기본값)이면 행 방향으로 axis=1이면 열 방향으로 적용
    - skipna : NaN 값을 제외할지 여부를 설정, 기본값 = True

## 개념

In [2]:
np.random.seed(25)

In [3]:
# 샘플 데이터 생성
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)),
                 index = ['Kim', 'Park', 'Lee', 'Jung', 'Moon'],
                 columns = [[2016, 2016, 2017, 2017],
                           ['영어', '수학', '영어', '수학']])
df.index.set_names('학생명', inplace=True)
df.columns.set_names(['연도', '과목'], inplace=True)
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,54,76,65,73
Park,94,58,78,54
Lee,75,81,55,51
Jung,89,53,74,53
Moon,70,95,53,51


In [4]:
# 기술통계, 요약 통계
df.describe()

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
count,5.0,5.0,5.0,5.0
mean,76.4,72.6,65.0,56.4
std,15.915401,17.184295,11.113055,9.370165
min,54.0,53.0,53.0,51.0
25%,70.0,58.0,55.0,51.0
50%,75.0,76.0,65.0,53.0
75%,89.0,81.0,74.0,54.0
max,94.0,95.0,78.0,73.0


In [5]:
# 2017년도 성적만 분리해서 df2017로 저장(깊은 복사)
df2017 = df[2017].copy()
df2017

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,65,73
Park,78,54
Lee,55,51
Jung,74,53
Moon,53,51


In [6]:
df2017.shape

(5, 2)

In [7]:
# 1) count - NaN을 제외한 데이터의 개수(행 개수)
# 축 기준 설정: axis를 통해 행/열 개수 여부 지정 가능
# 행 개수: axis=0
df2017.count()

과목
영어    5
수학    5
dtype: int64

In [8]:
# 열 개수 => axis =1
df2017.count(axis=1)

학생명
Kim     2
Park    2
Lee     2
Jung    2
Moon    2
dtype: int64

In [9]:
# 엑셀 데이터 적재
# Os error -> engine='python'
# Unicode, Encoding -> encoding='utf-8' or 'cp949'
data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [10]:
# value_counts(): 범주형 데이터(문자열 등)에 대한 각 분류값의 개수
# 도시, 자치구 데이터 사용(data)
data['자치구'].value_counts()

강남구     5
서대문구    5
종로구     5
영등포구    5
송파구     5
도봉구     5
동작구     5
해운대구    5
수영구     5
동래구     5
Name: 자치구, dtype: int64

In [11]:
# 2) sum(): 해당 컬럼이나 로우의 총합을 계산
# 기본 축 방향: 열별 총합
# == 과목별 총합
# axis = 0
df2017.sum()

과목
영어    325
수학    282
dtype: int64

In [12]:
# 학생별 점수 총합

In [13]:
df2017.sum(axis=1)

학생명
Kim     138
Park    132
Lee     106
Jung    127
Moon    104
dtype: int64

In [14]:
# 3) mean()
# 괌고별 평균
# axis = 0(default)
df2017.mean()

과목
영어    65.0
수학    56.4
dtype: float64

In [15]:
# 학생별 평균
df2017.mean(axis=1)

학생명
Kim     69.0
Park    66.0
Lee     53.0
Jung    63.5
Moon    52.0
dtype: float64

## 문제 1

- df변수를 이용해서 2016, 2017년도별, 과목별 평균성적 출력

In [16]:
df.mean()

연도    과목
2016  영어    76.4
      수학    72.6
2017  영어    65.0
      수학    56.4
dtype: float64

- 위의 년도별, 과목별 평균의 로우가 연도로, 컬럼이 과목이 되도록 수정하기

In [17]:
df.mean().unstack()

과목,수학,영어
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,72.6,76.4
2017,56.4,65.0


## 문제 2

- df변수를 이용해서 학생별로 전체 평균을 출력

In [18]:
df.mean(axis=1)

학생명
Kim     67.00
Park    71.00
Lee     65.50
Jung    67.25
Moon    67.25
dtype: float64