## 1차원 데이터

In [1]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)           # 맑은 고딕 폰트 지정
plt.rcParams["font.size"] = 12         # 글자 크기
plt.rcParams["figure.figsize"] = (10, 4) # 10:4의 그래프 비율
plt.rcParams['axes.unicode_minus'] = False  # minus 부호는 unicode 적용시 한글이 깨짐으로 설정

# Jupyter에게 matplotlib 그래프를 출력 영역에 표시할 것을 지시하는 명령
%matplotlib inline

In [2]:
# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3
# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [3]:
df = pd.read_csv('./data/scores.csv', index_col = 'no')
df.head()

Unnamed: 0_level_0,english,mathematics
no,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [4]:
# 50개의 데이터가 있다.
# 칼럼은 2개 있다. 영어와 수학
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50 entries, 1 to 50
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   english      50 non-null     int64
 1   mathematics  50 non-null     int64
dtypes: int64(2)
memory usage: 1.2 KB


In [5]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [6]:
# 기술 통계
df.describe()

Unnamed: 0,english,mathematics
count,50.0,50.0
mean,58.38,78.88
std,9.8,8.414
min,37.0,57.0
25%,54.0,76.0
50%,57.5,80.0
75%,65.0,84.0
max,79.0,94.0


In [7]:
scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


In [8]:
# 평균: 총점/개수
sum(scores) / len(scores)

55.0

In [9]:
np.mean(scores)

55.0

In [10]:
scores_df.mean()

score    55.0
dtype: float64

In [11]:
# 평균은 이상치(outlier)의 영향을 심하게 받는다.
pay = np.array([4.9, 2.2, 2.5, 3.2, 20.5]) # 단위 천만 원
np.mean(pay * 1000)

6660.0

In [12]:
# 중앙값: Median, 평균의 문제점을 개선함, 정렬이 필요
sorted_scores = np.sort(scores) # 영어 점수
sorted_scores
# 개수가 짝수일 경우: ( (n//2 - 1) + (n//2) ) / 2
# 개수가 홀수일 경우: ( n + 1 ) // 2 - 1


array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

In [13]:
# 이상값의 영향을 덜 받음
n = len(sorted_scores)
if n % 2 == 0: # 짝수개인 경우의 중앙값 
    m0 = sorted_scores[n//2 - 1] # //: 정수 몫
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:  # 홀수개인 경우의 중앙값
    median = sorted_scores[(n+1)//2 - 1] # 9개라면 ( 9 + 1 ) // 2 - 1 = (index번호:4 -> 5번째 값)
median

56.5

In [14]:
np.median(scores)

56.5

In [15]:
scores_df.median()

score    56.5
dtype: float64

In [39]:
# 최빈값: 가장 많이 나오는 값
??

ModeResult(mode=array([[1, 3, 2, 2, 1, 1]]), count=array([[1, 2, 2, 2, 1, 2]]))

In [None]:
# 최빈값: 가장 많이 나오는 값
??

In [29]:
# 최빈값: 가장 많이 나오는 값
??

Unnamed: 0,score
0,65


# 산포도
## 분산, 표준편차

In [16]:
# 편차: 평균과의 차이
mean = np.mean(scores)
deviation = scores - mean # 모든 요소에서 평균을 뺄셈함, 브로드캐스팅
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [17]:
np.mean(deviation) # 편차의 평균은 0

0.0

In [18]:
df = scores_df.copy() # 새롭게 메모리 할당
df['deviation'] = deviation # 편차 변수 추가
df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [19]:
df.mean()

score        55.0
deviation     0.0
dtype: float64

In [20]:
# 분산: 편차의 제곱의 합 / 개수
np.mean(deviation ** 2)

86.0

In [21]:
np.var(scores) # 분산: 평균 -> 편차 -> 제곱 -> 분산

86.0

In [22]:
# 일반적인 분산, 모분산 == 전체 데이터를 대상으로 한 분산
np.var(scores, ddof=0) 

86.0

In [23]:
# 표본분산 == 부분 데이터를 대상으로 한 분산
np.var(scores, ddof=1) 

95.55555555555556

In [24]:
scores_df.var() 
# 왜 다를까? 
# pandas는 데이터분석의 기준을 표본을 대상으로 함
# 표본 분산(불편 분산): 자유도가 n-1
# 자유도: 자유롭게 선정된 데이터의 수

score    95.556
dtype: float64

In [25]:
# 편차의 제곱의 제곱근
df['square of deviation'] = np.square(deviation)
df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [26]:
# 모 표준편차
np.sqrt(np.var(scores, ddof=0)) 

9.273618495495704

In [27]:
# 표본 표준편차, -1가 아님
np.sqrt(np.var(scores, ddof=1)) 

9.775252199076787

In [28]:
# 모 표준편차
np.std(scores)

9.273618495495704

In [29]:
# 표본 표준편차
scores_df.std()

score    9.775
dtype: float64

In [30]:
# 범위
np.max(scores) - np.min(scores)

28

In [31]:
# 사분의 범위와 IQR = 75% 위치 - 25% 위치 구간의 범위, percentile
scores_Q1 = np.percentile(scores, 25) # 25%의 위치: 48.250, 100개 중 25번째 위치값, median과는 다르다
scores_Q3 = np.percentile(scores, 75) # 75% 위치: 63.250, 
scores_IQR = scores_Q3 - scores_Q1 # 75% - 25% 구간의 범위
scores_IQR

15.0

In [32]:
# IQR의 역할: 이상치 제거

In [33]:
pd.Series(scores).describe()
# 48.25라는 값은 없지만
# 정확한 위치를 잡기 어려운 경우 25% 위치를 비례하여 값을 계산하여 출력

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64

In [34]:
# 표준화: 평균 0, 분산 1
z = (scores - np.mean(scores)) / np.std(scores)
z

array([-1.402,  1.51 ,  0.108, -1.51 ,  0.216, -0.755,  1.078, -0.647,
        1.078,  0.323])

In [35]:
# np.var(z, ddof=0): 모분산
print('{0:.0f} {1:.0f}'.format(np.mean(z), np.var(z, ddof=0)))

-0 1


### 데이터 시각화

In [None]:
# 신입사원, 토익점수, 토플 점수 비교