# 통계

## 5.1 데이터셋 설명하기
- 데이터가 적다면 가장 간단한 방법은 데이터를 직접 보여주는 것이다.
- 데이터가 많다면 통계를 사용하여 데이터를 정제하여 중요한 정보만 전달할 수 있다.

In [1]:
# 사용자들의 친구 수를 Counter, plt.bar()를 사용해 히스토그램으로 표현 가능
from collections import Counter
import matplotlib.pyplot as plt

friend_counts = Counter(num_friends)
xs = range(101)
ys = [friend_counts[x] for x in xs]
plt.bar(xs, ys)
plt.axis([0, 101, 0, 25])
plt.title("Histogram of Friend Counts")
plt.xlabel("# of friends")
ptl.ylabel("# of people")
plt.show()

NameError: name 'num_friends' is not defined

- 가장 간단한 통계치는 데이터 포인트(data point = row)의 개수
    - num_points = len(num_friends)  # 204
- 최댓값, 최솟값도 유용
    - largest_value = max(num_friends)  # 100
    - smallest_value = min(num_friends)  # 1
    - 최대, 최소를 구하는 문제는 정렬된 리스트의 특정 위치에 있는 값을 구하는 문제로도 볼 수 있다.
        - sorted_values = sorted(num_friends)
        - smallest_value = sorted_values[0]  # 1
        - second_smallest_value = sorted_values[1]  # 1
        - second_largest_value = sroted_values[-2]  # 49
        

### 5.1.1 중심 경향성
데이터의 중심이 어디있는지 나타내는 중심 경향성(central tendency) 지표는 매우 중요하다. 대부분의 경우, 데이터의 값을 데이터 포인트의 개수로 나눈 평균(average)을 사용하게 된다.

In [3]:
from typing import List

def mean(xs: List[float]) -> float:
    return sum(xs) / len(xs)

mean(num_friends)  # 7.33333..

NameError: name 'num_friends' is not defined

- 평균(average)는 데이터 포인트의 값에 따라 이동한다.
    - e.g. 10개의 데이터 포인트 중 아무 데이터 하나만 1을 증가시켜도, 평균은 0.1이 증가한다.
- 중앙값(median)은 데이터 포인트 모든 값의 영향을 받지 않는다. 
    - e.g. 값이 가장 큰 데이터 포인트의 값이 더 커져도 중앙값은 변하지 않는다.

In [6]:
# 밑줄 표시로 시작하는 함수는 private 함수를 의미,
# median 함수를 사용하는 사람이 직접 호출하는 것이 아닌
# median 함수만 호출하도록 생성되어 있다.

def _median_odd(xs: List[float]) -> float:
    """len(xs)가 홀수면 중앙값을 반환"""
    return sorted(xs)[len(xs) // 2]

def _median_even(xs: List[float]) -> float:
    """len(xs)가 짝수면 두 중앙값의 평균을 반환"""
    sorted_xs = sorted(xs)
    hi_midpoint = len(xs) // 2  # e.g. length = 4 => hi_midpoint = 2
    return (sorted_xs[hi_midpoint - 1] + sorted_xs[hi_midpoint]) / 2

def median(v: List[float]) -> float:
    """v의 중앙값을 계산"""
    return _median_even(v) if len(v) % 2 == 0 else _median_odd(v)

assert median([1,10,2,9,5]) == 5
assert median([1,9,2,10]) == (2 + 9) / 2

In [7]:
print(median(num_friends))  # 6

NameError: name 'num_friends' is not defined

- 평균은 중앙보다 계산하기 간편, 데이터가 바뀌어도 값의 변화가 더 부드럽다. 
- 만약, n개의 데이터 포인트가 주어졌을 때, 데이터 포인트 한 개의 값이 작은 수 e만큼 증가한다면 평균은 e/n만큼 증가할 것이다.
    - 이러한 성질 덕분에 평균에 다양한 미적분 기법을 적용할 수 있다.
    
- 중앙값을 찾기 위해서는 주어진 데이터를 정렬해야 한다.
- 만약, 데이터 포인트 한 개의 값이 작은 수 e만큼 증가한다면 중앙값은 e만큼 증가할 수 도 있고, e보다 작은 값만큼 증가할 수도 있다. 주어진 데이터에 따라 중앙값이 변하지 않을 수도 있다.

- 평균은 **이상치(outlier)에 매우 민감**

- **분위(quantile)** 은 중앙값을 포괄하는 개념
    - 중앙값은 상위 50%의 데이터보다 작은 값을 의미
   

In [8]:
def quantile(xs: List[float], p: float) -> float:
    """x의 p분위 속하는 값을 반환"""
    p_index = int(p * len(xs))
    return sorted(xs)[p_index]

assert quantile(num_friends, 0.10) == 1
assert quantile(num_friends, 0.25) == 3
assert quantile(num_friends, 0.75) == 9
assert quantile(num_friends, 0.90) == 13

NameError: name 'num_friends' is not defined

**최빈값(mode, 데이터에서 가장 자주 나오는 값)** 살피는 경우도 있다.

In [9]:
def mode(x: List[float]) -> List[float]:
    """최빈값이 하나보다 많을수도 있으니 결과를 리스트로 반환"""
    counts = Counter(x)
    max_count = max(counts.values())
    return [x_i for x_i, count in counts.items()
           if count == max_count]

assert set(mode(num_friends)) == {1,6}

NameError: name 'num_friends' is not defined

### 5.1.2 산포도
산포도(dispersion)는 데이터가 얼마나 퍼져 있는지를 나타낸다. 보통 0과 근접한 값이면 데이터가 퍼져 있지 않다는 의미이고, 큰 값이면 매우 퍼져있다는 의미의 통계치이다. 
- e.g. 가장 큰 값과 작은 값의 차이를 나타내는 범위는 산포도를 나타내는 가장 간단한 통계치이다.

In [12]:
def data_range(xs: List[float]) -> float:
    return max(xs) - min(xs)

assert data_range(num_friends) == 99

NameError: name 'num_friends' is not defined

- 범위는 max == min 경우, 0이 된다. 이 경우 x의 데이터 포인트는 모두 동일한 값을 갖지며 데이터가 펴져있지 않다는 것을 의미.
- 반대로 범위의 값이 크다면 max가 min에 비해 훨씬 크다는 것을 의미, 데이터가 퍼져 있다는 것을 의미
- 범위 또한 중앙값처럼 데이터 전체에 의존하지 않는다. 모두 0 or 100으로 구성된 데이터나 0, 100 그리고 수많은 50으로 구성된 데이터나 동일한 범위를 갖게 된다. 하지만 첫 번째 데이터(0 or 100으로만 구성된 데이터)가 더 퍼져 있다는 느낌이 든다.
- **분산(variance)** 은 산포도를 측정하는 약간 더 복잡한 개념이다.

In [14]:
def de_mean(xs: List[float]) -> List[float]:
    """x의 모든 데이터 포인트에서 평균을 뺌(평균을 0으로 만들기 위해)"""
    x_bar = mean(xs)
    return [x - x_bar for x in xs]

def variance(xs: List[float]) -> float:
    """편차의 제곱의 평균"""
    assert len(xs) >= 2, "variance requires at least two elements"
    
    n = len(xs)
    deviations = de_mean(xs)
    return sum_of_squares(deviations) / (n - 1)

assert 81.54 < variance(num_friends) < 81.55

NameError: name 'num_friends' is not defined

위 코드를 보면 편차의 제곱의 평균을 계산하는데 n 대신에 n - 1로 나누는 것을 확인할 수 있다. 이는 편차의 제곱 합을 n으로 나누면 **편향(bias)** 때문에 모분산에 대한 추정값이 실제 모분산보다 작게 계산되는 것을 보정하기 위해서이다.

데이터 포인트의 단위가 무엇이든 간에 중심 경향성은 같은 단위를 가진다. 범위(range)도 동일한 단위이다. 하지만 분산은 기존 단위의 제곱이다. 때문에 분산 대신 원래 단위와 같은 단위를 가지는 **표준편차(standard deviation)**를 이용할 때가 많다.

In [15]:
import math
def standard_deviation(xs: List[float]) -> float:
    """표준편차는 분산의 제곱근"""
    return math.sqrt(variance(xs))

assert 9.02 < standard_deviation(num_friends) < 9.04

NameError: name 'num_friends' is not defined

범위와 표준편차 또한 평균처럼 이상치에 민감하게 반응하는 문제가 있다. 더 안정적인 방법은 상위 25%에 해당되는 값과 하위 25%에 해당되는 값의 차이를 계산하는 것이다. 이 방법을 통해 **이상치**가 주는 영향을 제거할 수 있다.

In [17]:
def interquartile_range(xs: List[float]) -> float:
    """상위 25%에 해당되는 값과 하위 25%에 해당되는 값의 차이를 반환"""
    return quantile(xs, 0.75) - quantile(xs, 0.25)

assert interquartile_range(num_friends) == 6

NameError: name 'num_friends' is not defined

## 5.2 상관관계
분산과 비슷한 개념인 **공분산(covariance)**. **분산**은 **하나**의 변수가 평균에서 얼마나 멀리 떨어져 있는지 계산, **공분산**은 **두 변수**가 각각 평균에서 얼마나 멀리 떨어져 있는지 살펴본다.

In [19]:
# daily_minutes: 각 사용자가 하루에 몇 분 동안 사이트를 사용하는 지 나타내는 리스트
def covariance(xs: List[float], ys: List[float]) -> float:
    assert len(xs) == len(ys),  "xs and ys must have same number of elements"
    return dot(de_mean(xs), de_mean(ys)) / (len(xs) - 1)

assert 22.42 < covariance(num_friends, daily_minutes)  < 22.43
assert 22.42 / 60 < covariance(num_friends, daily_minutes) < 22.43 / 60

NameError: name 'num_friends' is not defined

- 공분산이 양수이면, x의 값이 클수록 y의 값이 크고, x의 값이 작을수록 y의 값이 작다는 것을 의미
- 공분산이 음수이면, x의 값이 클수록 y의 값이 작고, x의 값이 작을수록 y의 값이 크다는 것을 의미
- 공분산이 0이면, 관계가 존재하지 않는다는 것을 의미
- 공분산을 해석하는 것은 아래와 같은 이유로 쉽지 않다.
    - 공분산의 단위는 입력 변수의 단위들을 곱해서 계산되기에 이해하기 쉽지 않다.(e.g. 친구 수 x 하루 사용량(분)이라는 단위는 무엇을 의미?)
    - 공분산은 절대적인 값만으로 "크다"고 판단하기 어렵다(모든 사용자의 하루 사용량은 그대로, 친구 수만 두배로 증가한다면 공분산 또한 두배)
- => 공분산 / 각각의 표준편차 = **상관관계(correlation)** 사용

In [21]:
def correlation(xs: List[float], ys: List[float]) -> float:
    """xs와 ys의 값이 각각의 평균에서 얼마나 멀리 떨어져 있는지 계산"""
    stdev_x = standard_deviation(xs)
    stdev_y = standard_deviation(ys)
    if stdev_x > 0 and stdev_y > 0:
        return covariance(xs, ys) / stdev_x / stdev_y
    else:
        return 0  #  편차가 존재하지 않는다면 상관관계는 0
    
assert 0.24 < correlation(num_friends, daily_minutes) < 0.25
assert 0.24 < correlation(num_friends, daily_hours) < 0.25

NameError: name 'num_friends' is not defined

상관관계는 단위가 없고, 항상 -1(완벽한 음의 상관관계) ~ 1(완벽한 양의 상관관계)사이의 값을 갖는다. 

## 5.3 심슨의 역설
데이터 분석을 하다보면 **혼재 변수(confounding variables)** 가 누락되어 상관관계가 잘못 계산되는 **심슨의 역설(Simpson's paradox)**에 직면한다.
- e.g. 모든 사용자를 동부에서 활동하는 데이터 과학자와 서부에서 활동하는 데이터 과학자로 나눌 수 있다고 해보자. 이 중 어느 지역에서 활동하는 데이터 과학자가 더 친구가 많은지 살펴보기로 했다.

|지역|사용자 수(명)|평균 친구 수(명)|
|------|---|---|
|서부|101|8.2|
|동부|103|6.5|

서부 > 동부

|지역|학위|사용자 수(명)|평균 친구 수(명)|
|------|---|---|---|
|서부|박사|35|3.1| 
|동부|박사|70|3.2| 
|서부|기타|66|10.9| 
|동부|기타|33|13.4| 

서부(박사) < 동부(박사), 서부(기타) < 동부(기타)

학위를 고려하게 되면 상관관계가 반대로 변한다. 사용자를 동부, 서부로 나누면서 동부 지역의 사용자 대다수가 박사라는 정보가 생략되었다!
- 상관관계는 다른 모든 것이 **동일**할때 두 변수의 관계를 나타냄
- 실험을 잘 설계해 레이블을 무작위로 설정 $\Rightarrow$ '다른 모든 것이 동일'하다는 가정은 맞다.
- 데이터의 레이블에 대한 어떤 패턴이 존재 $\Rightarrow$ '다른 모든 것이 동일'하다는 가정은 성립되지 않는다.

## 5.4 상관관계에 대한 추가적인 경고 사항
상관관계가 0이라는 것은 두 변수 사이에 **선형적** 관계가 없다는 것을 의미, 하지만 **다른 종류의 관계**가 존재할 수 있다

In [44]:
x = [-2, -1, 0, 1, 2]
y = [2, 1, 0, 1, 2]

# x, y의 상관관계는 0이다.
# 하지만 위의 x, y의 관계는 y는 x의 절댓값이라는 관계를 갖고 있다.
# 이러한 관계는 평균을 이용해서 살펴보는 방식(상관관계로 영관성을 살피는 방식)으로 설명 불가

## 5.5 상관관계와 인과관계
"상관관계는 인과관계를 의미하지 않는다.(coorelation is not causation)"
- e.g. 만약 x와 y가 강한 상관관계를 보인다면 x는 y를 발생시켰다고 볼수도 있고, y가 x를 발생, 서로가 서로를 발생, 다른 외부 요인이 발생, 아무런 인과관계가 없을 수 있다.
- 인과관계를 확인해보는 방법 중에 데이터 포인트를 무작위로 선택해서 확인해보는 방법이 있다. 사용자를 비슷한 조건과 성질의 두 그룹으로 나누고 한 그룹에만 다른 요인을 적용해 본다면 해당 요인과 결과의 인과관계를 확인할 수 있다.
