---
author: "Woohyeok Moon"
date: 2024-03-15
title: 기초통계
categories: 통계 추론 및 환경 빅데이터 분석
tags: [summarizing univariate data, measure of location, measure of variability, measures of distribution symmetry, outliers, transformations]
showtoc: false
weight: 10
---

데이터 요약(summarization)은 데이터 volume을 줄이는 효과 뿐 아니라, 복잡한 데이터로부터 패턴, 추세, 이상징후와 같은 insight를 추출해낼 수 있다.

## 1) 대표값, 중심 측도(Measure of Location)

대표값을 통해 중요한 insight를 얻을 수 있다. 이러한 대표값들은 데이터의 변화, 영향 및 분석 결과를 평가하는 기준을 제공한다.

### 1.1) 평균(Arithmetic Mean)

#### 1.1.1) 정의 및 계산

값들을 모두 더한 뒤 sample 수로 나누어준다.

$$\bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}$$

#### 1.1.2) 그룹화된 데이터

$k$개의 그룹으로 나뉜 데이터의 전체 평균은, 각 그룹의 평균에 그룹별 sample size만큼 가중치를 주어 계산한다.

$$\bar{X} = \sum_{i=1}^{k} \bar{X_i} \frac{n_i}{n}$$

위와 같은 응용을 통해 데이터를 더 세밀하게 분석할 수 있다.

#### 1.1.3) 개별 관측치의 영향력

평균에서는 이상치의 영향력이 매우 크다.

$$
\bar{X} = \bar{X}\_{(j)} \frac{(n-1)}{n} + X_j \cdot \frac{1}{n} = \bar{X}\_{(j)} + (X_j - \bar{X}\_{(j)}) \cdot \frac{1}{n}
$$

- 평균은 이상치에 취약하고 다른 데이터들의 유의성을 떨어트리기 때문에 개별적인 처리가 필요하다. 하지만 홍수나 가뭄과 같은 데이터에서는 이상치처럼 보일 수 있는 데이터가 실제로 유효하고 중요한 데이터인 경우가 많기 때문에 처리에 유의해야 한다.

![이상치 예시](https://github.com/WooHyeok-Moon/Axiomize/assets/76620002/c821921d-c59d-4b44-bc2f-2590d2bf4b7b)

위 그림처럼 비정상적으로 큰 하나의 데이터가 평균에 큰 영향을 미친다. 마치 지렛대와 비슷해보임..

#### 1.1.4) 생각해볼 것

- 평균을 통해 데이터의 핵심적인 정보를 얻을 수 있지만, 수질 데이터와 같이 자연적, 인위적 영향으로 인한 이상치가 존재할 수 있는 데이터에서는 전적으로 신뢰해서는 안 된다.
- 수역으로 유입되는 총 성분과 같이 데이터의 전체 합에 관심 있는 경우에는 평균이 정말 좋은 대표값이지만, 일반적인 경우 중앙값이나 최빈값이 outlier에 더 robust하다.

### 1.2) 중앙값(The Median)

#### 1.2.1) 정의 및 계산

중앙값은 데이터를 sorting하여 나열했을 때 중간 위치에 해당하는 값이다.

$$
median = P_{0.50} =
\begin{cases}
X(\frac{n+1}{2}) &\text{when $n$ is odd}\\\\
\frac{1}{2}\Big(X(\frac{n}{2})+X(\frac{n}{2}+1)\Big) &\text{when $n$ is even}
\end{cases}
$$

- sample size가 짝수인 경우 중간 두 값의 평균으로 계산된다.
- 중앙값은 정렬된 데이터에서 순서를 기준으로 데이터를 추출하기 때문에 이상치에 robust하다.

#### 1.2.2) 이상치에 대한 저항

In [8]:
import numpy as np
A = np.array([2, 4, 8, 9, 11, 11, 12])
B = np.array([2, 4, 8, 9, 11, 11, 120])
print(f'median of A: {np.median(A)}')
print(f'median of B: {np.median(B)}')

median of A: 9.0
median of B: 9.0


위 예시를 보면 B에 120이라는 이상치가 들어있으나 중앙값은 그대로 9가 튀어나온다.

#### 1.2.3) 특정 상황에서 평균보다 선호되는 이유

- 데이터를 요약할 때, 일반적으로 평균보다 중앙값이 안정적인 값을 제공한다.
- 예를 들어 다양한 개울의 화학 물질 농도를 측정한다고 할 때, 중앙값을 사용하면 농도가 비정상적으로 높은 하나의 개울이 있다고 하더라도 전체적인 추정치에 크게 영향을 미치지 않는다.

### 1.3) 중심을 측정하는 다른 대표값들

#### 1.3.1) 최빈값(Mode)

- 정의: 데이터에서 가장 자주 나온 값을 의미하며, [^1]nominal data에서 사용할 수 있는 유일한 대표값이다.
- land cover type과 같이 일반적인 인간의 행동이나 선호도를 이해하는 데에 유용하다.
- 하나의 dataset에 최빈값이 하나 존재하면 unimodal, 둘 존재하면 bimodal, 이보다 여러 개 존재하면 multimodal이라고 한다.

![modal](https://github.com/WooHyeok-Moon/Axiomize/assets/76620002/e2d5245b-fa84-456e-9344-bbfff479548c)

#### 1.3.2) 기하평균(Geometric Mean)

- 정의: 각 샘플을 모두 곱해서 sample size만큼 n차 제곱근을 취한다.

$$
GM = \sqrt[n]{X_1 \cdot X_2 \cdot \ldots \cdot X_n} = \Big(\prod_{i=1}^{n} x_i\Big)^{\frac{1}{n}}
$$

- 데이터의 로그 평균을 씌워 구한 다음 원래 단위로 변환하면 더 간단하게 구할 수 있다.

$$
GM = exp\bigg(\frac{\sum_{i=1}^{n} Y_i}{n}\bigg) = exp(\bar{Y})
$$

기하평균은 모든 데이터가 양수인 상황에서만 정의된다.

#### 1.3.3) 가중평균(Weighted Mean)

- 정의: 각각의 데이터에 대한 상대적인 중요도를 반영한 평균

$$
\bar{x}_w = \frac{\sum\_{i=1}^{n} w_i x_i}{\sum\_{i=1}^n w_i}
$$

- 예를 들어 수질 오염 데이터가 있다고 하면 수질이 오염되도록 하는 다양한 오염원들이 있을텐데, 어떤 오염원은 다른 오염원에 비해 수질을 악화시키는 정도가 크다. 이처럼 feature들이 target에 미치는 상대적인 영향을 반영할 수 있다.
- 이러한 가중치를 적절하게 부여하는 것은 데이터의 특성을 정확하게 반영하는 데에 큰 도움이 된다.

# 2) 변동성 측정

데이터의 퍼진 정도를 수치화한 것

환경 데이터에서 퍼진 정도를 이해하는 것은 생태계의 변동성, 인간 활동이 환경에 미치는 영향, 환경을 보존하려는 노력의 효과 등을 정량적으로 해석하는 데에 큰 도움이 된다. 

## 2.1) 고전적인 방법들

### 2.1.1) 범위

- 가장 단순한 형태의 변동성 측정 방법으로, 특정 계절의 온도 범위와 같이 양 극단 사이의 범위를 나타낸다.

$$
Range = Max(X) - Min(X)
$$

산불이나 화재와 같은 extreme한 사건이 존재하는 데이터에서, 해석에 부정적인 영향을 끼칠 수 있다.

#### 2.1.2) 분산

- 평균에 편차제곱(squared deviation)을 취하여 퍼진 정도를 구할 수 있다.

$$
s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}
$$

수자원 확보를 위한 하천 방류량의 변동성 측정에 사용할 수 있음

환경 데이터는 skewed data인 경우가 많은데, 이 경우 변환을 한 번 거쳐야 하기 때문에 데이터가 정규분포를 따를 때 효율적이다.

#### 2.1.3) 표준편차

분산은 단위가 데이터의 제곱 꼴이기 때문에 root를 씌워 조금 더 이해하기 쉬운 단위로 만들어준다.

$$
s = \sqrt{s^2}
$$

[^1]: 수치형 데이터와 달리 하나의 이름에 데이터를 분류할 수 있는 데이터. e.g.) 홍팀 청팀 백팀