- 📚 데이터 사이언티스트의 실전노트, 이지영, [비제이퍼블릭](https://bjpublic.tistory.com/) 
- 🌟 [YouTube: 통계학 & 데이터과학](https://https://www.youtube.com/channel/UC2BreMMPUd0djRpA4UEaD3Q)
- 💻 [클래스101: 데이터 과학자 실무 프로젝트 (분석+예측모델 + AWS 자동화)](https://class101.page.link/MhG4)

# 3.2 기본 통계로 질문자 되기
## 3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까? (Page 188)

In [1]:
# 함수2: 데이터 프레임 구현 (page 226)
from IPython.core.display import display, HTML
def df_display(dfs:list, captions:list):
    """ 데이터 프레임을 나란히 보여줌       
    dfs: 데이터 프레임 리스트        
    captions: 각 데이터 테이블의 설명
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0"
    display(HTML(output))

In [2]:
import numpy as np
import pandas as pd
import random 

pd.set_option("display.precision", 1)

# 임의 숫자 시드 설정
random.seed(20)
np.random.seed(21)

N1=1000
N2=600
N3=400

mu1, sigma1=60, 5
mu2, sigma2=80, 5

beta_positive = 10

# col_A: 정규분포(mu1, sigma1, N1)
col_A = np.random.normal(mu1, sigma1, N1)

# col_B: 정규분포(mu1, sigma1, N1) + Exponential(beta_positive)
X1 = np.random.normal(mu1, sigma1, int(N1*0.8))
X2 = np.random.exponential(beta_positive, int(N1*0.2)) + mu1
col_B = np.concatenate([X1, X2])

# col_C 만들기: col_B에서 flip over 
X3 = np.random.normal(mu1, sigma1, int(N1*0.8))
X4 = np.random.exponential(beta_positive, int(N1*0.2)) + mu1
col_C = np.concatenate([X3, X4])
col_C = (np.mean(col_C) - col_C) + mu1

# col_D 만들기 : Bimodal 
X5 = np.random.normal(mu1, sigma1, N2)
X6 = np.random.normal(mu2, sigma2, N3)
col_D = np.concatenate([X5, X6])

# ID
user_id = np.random.randint(1000, 1999, N1)

df_mt = pd.DataFrame({'ID' : user_id,
                    'col_A': col_A.astype('int64'),
                    'col_B': col_B.astype('int64'),
                    'col_C': col_C.astype('int64'),
                    'col_D': col_D.astype('int64')
                    }) 


In [3]:
print('데이터 사이즈', df_mt.shape)
df_mt.info()

데이터 사이즈 (1000, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   ID      1000 non-null   int64
 1   col_A   1000 non-null   int64
 2   col_B   1000 non-null   int64
 3   col_C   1000 non-null   int64
 4   col_D   1000 non-null   int64
dtypes: int64(5)
memory usage: 39.2 KB


In [4]:
df_display([df_mt.head(), df_mt.tail()], ['처음 5행', '마지막 5행'])

Unnamed: 0,ID,col_A,col_B,col_C,col_D
0,1320,59,67,63,57
1,1339,59,60,67,56
2,1803,65,63,49,64
3,1287,53,53,64,52
4,1637,63,63,57,50

Unnamed: 0,ID,col_A,col_B,col_C,col_D
995,1560,65,64,60,77
996,1402,57,68,48,86
997,1647,51,61,56,77
998,1851,56,65,57,97
999,1838,60,62,39,80


In [5]:
# 계산하고 싶은 열 지정  
list_cols = ['col_A', 'col_B', 'col_C', 'col_D']

# 평균을 데이터프레임으로 표현
df_mt_mean = pd.DataFrame(df_mt[list_cols].mean(), columns=['평균값'])
df_mt_mean

Unnamed: 0,평균값
col_A,59.3
col_B,61.2
col_C,59.5
col_D,67.7


In [6]:
# 중앙값을 데이터프레임으로 표현
df_mt_median = pd.DataFrame(df_mt[list_cols].median(), columns=['중앙값'])
df_mt_median

Unnamed: 0,중앙값
col_A,59.0
col_B,61.0
col_C,60.0
col_D,64.0


In [7]:
# 최빈값 확인 
df_mt[list_cols].mode()

Unnamed: 0,col_A,col_B,col_C,col_D
0,62,62,60,58


In [8]:
# 중심경향값을 데이터프레임으로 표현
df_mt_mean = pd.DataFrame(df_mt[list_cols].mean(), columns=['평균값'])
df_mt_median = pd.DataFrame(df_mt[list_cols].median(), columns=['중앙값'])
# 최빈값 결과 데이터 프레임에서 .T (Transpose)로 행과 열을 바꾼 후, 인덱스 0을 최빈값으로 바꿈 
df_mt_mode = df_mt[list_cols].mode().T.rename(columns={0:'최빈값'})

# 중심경향값 확인 
df_display([df_mt_mean, df_mt_median, df_mt_mode], 
                  ['평균', '중앙값', '최빈값'])


Unnamed: 0,평균값
col_A,59.3
col_B,61.2
col_C,59.5
col_D,67.7

Unnamed: 0,중앙값
col_A,59.0
col_B,61.0
col_C,60.0
col_D,64.0

Unnamed: 0,최빈값
col_A,62
col_B,62
col_C,60
col_D,58


⚠ 저작권: Copyright 2022. (이지영) all rights reserved. 본 자료는 저작권법에 의하여 보호받는 저작물로서 이에 대한 무단 복제 및 배포를 원칙적으로 금합니다. 협의 없이 배포하거나 무단으로 사용할 경우 저작권법 제136조, 137조, 138조 위반으로 사전 경고 없이 손해배상 청구 등 민,형사상의 책임과 처벌을 받을 수 있습니다.