# 파이썬으로 풀어보는 수학

## 3장 통계값을 이용한 데이터 설명

### 1. 평균(mean)

숫자 집합을 요약하는 가장 일반적이고 집합적인 방법입니다.
모든 숫자들의 합을 그 갯수로 나눈 값입니다.

In [32]:
donations = [100, 60, 70, 900, 100, 200, 500, 500, 503, 600, 1000, 1200]

def calculate_mean(numbers):
    return sum(numbers) / len(numbers)

calculate_mean(donations)

477.75

### 2. 중위수(median)

숫자 집합에서 중간에 있는 값입니다.
만약 짝수개의 숫자가 있는 경우에는 가운데 두 수의 평균값을 계산합니다.

In [33]:
def calculate_median(numbers):
    numbers.sort()
    n = len(numbers)
    i = int(n/2)

    if n % 2 == 0:
        return (numbers[i -1] + numbers[i]) / 2
    else:
        return numbers[i]

calculate_median(donations)  

500.0

### 3. 최빈수(mode)

최빈값이란 가장 자주 발생한 수를 뜻합니다.
`Counter`클래스를 이용하면 쉽게 가능합니다.

In [10]:
scores = [ 7, 8, 9, 3, 10, 9, 9, 9, 9, 4, 5, 6, 1, 5, 6, 7, 8, 6, 1, 10]

from collections import Counter
c = Counter(scores)
c

Counter({1: 2, 3: 1, 4: 1, 5: 2, 6: 3, 7: 2, 8: 2, 9: 5, 10: 2})

그 결과로 `element : 갯수`를 저장한 `Dictionary`를 리턴합니다.
`.most_common(갯수)`를 사용해서 가장 빈도가 높은 요소만을 추출할 수도 있습니다.

In [11]:
c.most_common(1)

[(9, 5)]

이것을 이용하여 최빈수를 구하는 메서드를 만들어 보겠습니다.
최빈수는 여러개가 될 수 있으므로 최대 빈도 횟수를 구한 뒤 같은 것을 모두 리턴해야 합니다.

In [34]:
def calculate_mode(numbers):
    result = []
    c = Counter(numbers).most_common()
    most = c[0][1]
    
    for e, n in c:
        if n == most:
            result.append(e)
    
    return result
    

calculate_mode(scores)

[9]

### 4. 빈도 테이블 생성

전체 숫자에 대한 빈도를 출력하는 테이블을 생성해 보겠습니다.

In [20]:
def frequencyTable(numbers):
    for e, n in Counter(numbers).most_common():
        print (e,'\t', n)

frequencyTable(scores)

9 	 5
6 	 3
1 	 2
5 	 2
7 	 2
8 	 2
10 	 2
3 	 1
4 	 1


출력순서는 빈도수가 아닌 항목의 순서대로 하고 싶다면 아래와 같이 정렬을 해주면 됩니다.

In [30]:
def frequencyTable(numbers):
    c = Counter(numbers).most_common()
    s = sorted(c, key=lambda i : i[0], reverse=False)
    for e, n in s:
        print (e,'\t', n)

frequencyTable(scores)

1 	 2
3 	 1
4 	 1
5 	 2
6 	 3
7 	 2
8 	 2
9 	 5
10 	 2


### 5. 산포정도 측정

#### 5.1 범위(range), 최소(min), 최대(max) 구하기

값들의 최소값과 최대값 간의 거리가 얼마나 되는지를 보여줍니다.

In [31]:
def find_range(numbers):
    lowest = min(numbers)
    highest = max(numbers)
    return highest - lowest, lowest, highest

find_range(donations)

(1140, 60, 1200)

#### 5.2 분산(variance)과 표준편차(standard deviation)

값들이 평균값 주변에 모여있는지 아니면 흩어져 있는지 정도를 알려주는 수치입니다.

분산은 평균값과의 차이를 제곱한 값들의 평균입니다.

![수식 Variance](./image/DoingMathWithPython.Ch03.equation.01.png)

In [37]:
def calculate_variance(numbers):
    mean = calculate_mean(numbers)
    diffSquare = 0
    for n in numbers:
        diffSquare += (n - mean)**2
    return diffSquare/len(numbers)

calculate_variance(donations)

141047.35416666666

표준편차는 분산의 제곱근 값입니다.

값이 0에 가까워질수록 평균에 가까운 값들이 모여 있다는 뜻이고, 값이 커질수록 평균값과 멀게 분산되어 있는 값들이 많다는 뜻입니다.

In [39]:
def calculate_stddev(numbers):
    return calculate_variance(numbers)**0.5

calculate_stddev(donations)

375.5627166887931