In [10]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 복잡한 통계 처리를 위한 라이브러리
from scipy import stats

### 01_1변량 데이터 통계량

### 데이터 준비

In [14]:
# 물고기 몸 길이
fish_length_df = pd.read_csv('data1/3-4-1-fish-length.csv')
fish_length_df

Unnamed: 0,length
0,2
1,3
2,3
3,4
4,4
5,4
6,4
7,5
8,5
9,6


In [16]:
# ndarray로 추출한다.
fish_length = fish_length_df['length'].values
fish_length

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6], dtype=int64)

### 표본 크기
- 분석을 위해서 사용하는 데이터 표본의 행의 개수
- 모집단 전체를 가지고 분석을 할때는 모집의 크기가 된다.

In [20]:
# ndarray
a1 = len(fish_length)
# data frame
a2 = len(fish_length_df)
a3 = fish_length_df.size
print(a1, a2, a3)

10 10 10


In [22]:
# data frame의 count 함수는 결측치를 제외한 데이터의 개수를 구한다.
a4 = fish_length_df['length'].count()
print(a4)


10


### 합계
- 결측치를 제외한 총합을 구한다.

In [30]:
# ndarray
a1 = np.sum(fish_length)
a2 = fish_length.sum()
# data frame
a3 = fish_length_df['length'].sum()

print(a1, a2, a3)

40 40 40


### 평균
- 결측치를 제외한 평균을 구한다.

In [33]:
# 평균은 총합을 표본의 개수로 나누어 준다.
# 표본의 크기
n = len(fish_length)
# 총합
sum_value = np.sum(fish_length)
# 평균
x_bar = sum_value / n
x_bar

4.0

In [35]:
# ndarray
a1 = np.mean(fish_length)
a2 = fish_length.mean()
# data frame
a3 = fish_length_df['length'].mean()
print(a1, a2, a3)

4.0 4.0 4.0


### 02_표본 분산

In [38]:
# 표본 분산을 공식대로 구현해본다.
s2 = np.sum((fish_length - np.mean(fish_length)) ** 2) / len(fish_length)
s2

1.2

In [40]:
# 평균
a1 = np.mean(fish_length)
# 각 원소의 값을 평균으로 빼준다.
a2 = fish_length - a1
# 뺀 값의 제곱을 구한다.
a3 = a2 ** 2
# 총합을 구한다.
a4 = np.sum(a3)
# 표본의 개수로 나눠준다.
s2 = a4 / len(fish_length)
s2

1.2

In [42]:
# 분산을 구하는 함수
# 표본분산을 구할 때는 ddof에 0을 넣어줘야 한다.
a1 = np.var(fish_length, ddof=0)
a2 = fish_length.var(ddof=0)
a3 = fish_length_df['length'].var(ddof=0)
print(a1, a2, a3)

1.2 1.2 1.2


### 03_불편 분산

In [51]:
# 불편 분산은 표준분산을 구하는 공식에서 표본의 크기로 나누는 것이 아닌 표본의 크기에서 1을 뺀
# 수치로 나눠준다.
u2 = np.sum((fish_length - x_bar) ** 2) / (n - 1)
u2

1.3333333333333333

In [53]:
# ddof 에 1을 설정하면 불편분산을 구해준다.
a1 = np.var(fish_length, ddof=1)
a2 = fish_length.var(ddof=1)
a3 = fish_length_df['length'].var(ddof=1)

print(a1, a2, a3)

1.3333333333333333 1.3333333333333333 1.3333333333333333


### 04_표준편차
- 표본분산은 각 데이터를 평균으로 뺀 다음 제곱하여 합산하고 표본의 개수로 나눈것이다.
- 데이터와 평균에 대한 뺄셈을 하게 되면 음수가 나올 수 있기 때문에 제곱한 것을 합산하게 된다.
- 하지만 제곱한 것을 합산하기 때문에 평균과 실제 값의 오차 평균을 보기에는 다소 힘들다
- 이에 표본분산에 제곱근을 씌운 것을 구해 전체적인 오차를 평가할 수 있는데 이를 표준 편차라고 부른다.

In [57]:
# 위에서 구한 표본 분산
s2

1.2

In [59]:
s = np.sqrt(s2)
s

1.0954451150103321

In [65]:
# 표준 편차를 구하는 함수
# ddof 가 0 이면 표본 분산을 가지고 표준 편차를 구하고
# ddof 가 1 이면 불편 분산을 가지고 표준 편차를 구한다.
a1 = np.std(fish_length, ddof=0)
a2 = fish_length.std(ddof=0)
a3 = fish_length_df['length'].std(ddof=0)

print(a1, a2, a3)

1.0954451150103321 1.0954451150103321 1.0954451150103321


### 05_변동계수
- 평균값 대비 편차의 크기를 나타낸다.
- 같은 차이라고 하더라도 값의 범위에 따라서 느껴지는 정도의 차이가 달리진다
- 이러한 것을 직관적으로 확인할 수 있는 지표가 변동계수이다

In [68]:
# 변동계수 = 표준편차 / 평균
cv = s / x_bar
cv

0.27386127875258304

In [70]:
# 변동계수는 scipy가 제공하는 variation 함수를 통해 구할 수 있다.
stats.variation(fish_length)

0.27386127875258304

### 변동 계수 사용시 주의사항
- 변동계수는 계산식에 나눗셈이 포함된다
- 즉 표준편차를 평균으로 나누는 계산을 수행한다.
- 따라서 평균을 0일 경우 변동계를 구하는 것이 불가능하다.
- 데이터가 비율 척도일 경우에만 가능하다.

In [77]:
# 겨울 기온과 여름 기온
winter = np.array([1, 1, 1, 2, 2, 2])
summer = np.array([29, 29, 29, 30, 30, 30])

In [79]:
# 표준편차를 구한다.
# 겨울도 여름도 편차 크기가 같은 것을 확인할 수 있다.
print(f'겨울 기온의 표준 편차 : {np.std(winter, ddof=0)}')
print(f'여름 기온의 표준 편차 : {np.std(summer, ddof=0)}')

겨울 기온의 표준 편차 : 0.5
여름 기온의 표준 편차 : 0.5


In [81]:
# 하지만 변동계수를 확인하면 겨울쪽이 편차가 더 크다라고 간주 할 수 있다.
print(f'겨울 기온의 변동계수 : {stats.variation(winter)}')
print(f'여름 기온의 변동계수 : {stats.variation(summer)}')

겨울 기온의 변동계수 : 0.3333333333333333
여름 기온의 변동계수 : 0.01694915254237288


### 06_표준화

In [84]:
# 표준화를 계산 공식대로 표준화를 수행한다.
z = (fish_length - x_bar) / s
z

array([-1.82574186, -0.91287093, -0.91287093,  0.        ,  0.        ,
        0.        ,  0.        ,  0.91287093,  0.91287093,  1.82574186])

In [86]:
# 표준화한 결과는 평균이 0에 가까워야 한다.
np.mean(z)

2.2204460492503132e-17

In [88]:
# 표준화한 결과는 표준편차가 1과 가까워야 한다.
np.std(z, ddof=0)

1.0

In [90]:
# scipy가 제공하는 함수를 이용하면 표준화를 할 수 있다.
stats.zscore(fish_length, ddof=0)

array([-1.82574186, -0.91287093, -0.91287093,  0.        ,  0.        ,
        0.        ,  0.        ,  0.91287093,  0.91287093,  1.82574186])

### 07_최소값과 최대값

In [99]:
# numpy 에서 최소값
a1 = np.min(fish_length)
a2 = np.amin(fish_length)
a3 = fish_length.min()

print(a1, a2, a3)

2 2 2


In [103]:
# numpy 에서 최대값
a1 = np.max(fish_length)
a2 = np.amax(fish_length)
a3 = fish_length.max()

print(a1, a2, a3)

6 6 6


In [105]:
# pandas를 통한 최소 최대
a1 = fish_length_df['length'].min()
a2 = fish_length_df['length'].max()
print(a1, a2)

2 6


### 08_중앙값

In [120]:
# 중앙값
# 가운데 위치에 해당하는 값이 중앙값이다.
a1 = np.median(fish_length)
a3 = fish_length_df['length'].median()

print(a1, a3)

4.0 4.0


### 평균과 중앙값의 차이

In [115]:
# 물고기 몸 길이에 대한 평균
a1 = np.mean(fish_length)
# 물고기 몸 길이에 대한 중간값
a2 = np.median(fish_length)

# 물고기 몸 길이 데이터에 대한 평균과 중앙값은 동일한 값으로 나타난다.
print(a1, a2)

4.0 4.0


In [117]:
fish_length2 = [2, 3, 3, 4, 4, 4, 4, 5, 5, 100]
# 평균
a1 = np.mean(fish_length2)
# 중앙값
a2 = np.median(fish_length2)

# 평균은 13.4가 나오고 중앙값은 4.0이 나온다. 평균은 극단치(극단적으로 너무 크거나 작은 값)에 
# 끌려갈 수 있지만 중앙값을 그렇지 않다.
print(a1, a2)

13.4 4.0


### 09_사분위수
- 25%, 50%, 75% 위치에 해당하는 값
- 25% 위치의 값을 1사분위점(수), 50% 위치의 값은 2사분위점(수), 75% 위치의 값은 3사분위점(수)이라고 부른다.

In [123]:
# qunatile 함수를 통해 사분위수를 구할 수 있다.
# 1사분위수(25%)
a1 = np.quantile(fish_length, q=0.25)
# 2사분위수(50%)
a2 = np.quantile(fish_length, q=0.5)
# 3사분위수(75%)
a3 = np.quantile(fish_length, q=0.75)

print(a1, a2, a3)

3.25 4.0 4.75


In [129]:
a1 = fish_length_df['length'].quantile(q=0.25)
a2 = fish_length_df['length'].quantile(q=0.5)
a3 = fish_length_df['length'].quantile(q=0.75)

print(a1, a2, a3)

3.25 4.0 4.75


In [131]:
# 표본크기가 홀수인 경우
fish_length3 = np.arange(0, 101, 1)
# 중앙값
print(np.mean(fish_length3))

50.0


In [133]:
# 표본크기가 홀수인 경우
fish_length3 = np.arange(0, 101, 1)
# 중앙값
print(np.median(fish_length3))

50.0


In [135]:
# 표본크기가 짝수인 경우
fish_length4 = np.arange(0, 100, 1)
# 중앙값
# 가운데 두 값의 평균을 구해 중앙값으로 사용한다.
print(np.median(fish_length4))

49.5


### 10_최빈값
- 데이터의 빈도가 가장 높은 값

In [138]:
# 도수분포를 통해 최빈값을 확인할 수 있다.
fish_length_df['length'].value_counts()

length
4    4
3    2
5    2
2    1
6    1
Name: count, dtype: int64

In [140]:
# scipy 에서 제공하는 함수를 사용할 수 있다.
value, count = stats.mode(fish_length)
print(f'{value}가 총 {count}번 나옵니다')

4가 총 4번 나옵니다


In [142]:
# 만약 최빈값이 여러개라면 가장 작은 값을 가져온다.
a1 = np.array([1, 1, 1, 1, 2, 3, 3, 3, 3])
value, count = stats.mode(a1)
print(f'{value}가(이) 총 {count}번 나옵니다')

1가(이) 총 4번 나옵니다


### pandas의 describe함수
- 지금까지 살펴본 통계값 중 일부를 한번에 확인할 수 있다.
- 표본크기, 평균, 표준편차, 최소값, 1사분위수, 중앙값(2사분위수), 3사분위수, 최대값

In [145]:
fish_length_df.describe()

Unnamed: 0,length
count,10.0
mean,4.0
std,1.154701
min,2.0
25%,3.25
50%,4.0
75%,4.75
max,6.0
