# 탐색적 데이터 분석 (EDA)
- Exploring Data Analysis

In [2]:
import numpy as np
import pandas as pd
import math
from scipy.stats import *
import scipy as sp

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [3]:
# 여러 변수 출력 코드
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# SECTION 2.1 데이터 중심의 지표 (기술통계량)
## 2.1.1 평균값
**1. 산술 평균**

In [1]:
x = [1,2,3,4,5]

In [6]:
np.mean(x)
np.array(x).mean()
pd.Series(x).mean()

3.0

3.0

3.000

In [11]:
# 교재 p.31
df = pd.read_csv('./data/ch2_scores_em.csv',
                index_col='student number')
df.head()
df.shape
# ---------영어 과목의 평균 계산---------
# 1. sum(),len() 함수를 이용하여 산술평균 계산
sum(df['english'])/len(df['english'])

# 2. numpy의 mean() 함수를 이용하여 산술평균 계산
np.mean(df['english'])

# 3. pandas의 데이터프레임에서 mean() 함수를 이용하여 산술평균 계산
df['english'].mean()

# 4. scipy의 mean() 함수를 이용하여 산술평균 계산
sp.mean(df['english'])

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


(50, 2)

58.380

58.380

58.380

  sp.mean(df['english'])


58.380

**2. 기하 평균**
- n개의 양수 값을 모두 곱한 것의 n 제곱근
- 성장률의 평균

<img src='./image/1_00004.png' width='40%' align='left'>

In [16]:
## 예제. 회사의 연 평균 매출 증가율 1차년도에 200%, 2차년도에 800%, 3차년도에 300% 성장 -> 3개년도의 연 평균 성장율은?

data = [200,800,300]

## 1. 산술평균 이용 
np.mean(data) # 433.33333 -> 맞지 않음

## 2. 기하평균 이용 
# 방법 1
# math.prod(data) : data를 다 곱해줌
math.prod(data) ** (1/len(data)) # 363.424

# 방법 2
# scipy.stats.gmean(a[,axis,dtype,weights]) 이용하여 기하 평균 계산
gmean(data)

433.3333333333333

363.424

363.42411856642775

**3. 조화 평균**
- 비율 및 변화율에 대한 평균 계산할 때 사용
- (역수들의 산술평균)의 역수를 취한 값

<img src='./image/1_00005.png' width='30%' align='left'>

In [17]:
## 예제. 100km 떨어진 도시까지 차로 다녀오면서 가는 길에는 시속 80km, 오는 길은 시속 120km로 달렸을 때 평균 속력은 얼마나 되는가?
#       움직인 거리 : 200km, 
#       움직인 시간 : 100/80 + 100/120 


<img src='./image/1_00006.png' width='50%' align='left'>

In [19]:
# 방법 1
data = np.array([80,120])
len(data) / np.sum(1/data) # 역수의 합을 분모, 총 길이(거리)를 분자

# 방법 2
# scipt.stat.hmean(a[,axis,dtype]) 이용하여 조화평균 계산
hmean(data)

95.99999999999999

95.99999999999999

**4. 가중 평균**
- 가중치가 있는 값들의 평균

In [21]:
# 1. 산술평균 이용
np.average(np.arange(1,11)) # 5.5

# 2. 가중치 부여한 가중 평균 이용
np.average(np.arange(1,11), weights = np.arange(10,0,-1))

5.5

4.0

## 2.1.2 중앙값
- 중앙에 위치하는 값, 이상치에 영향을 받지 않음

<img src='./image/1_00007.png' width='50%' align='left'>

In [22]:
# 1. 예제 데이터 생성
scores = np.array(df['english'])
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58, 70, 47, 51, 64, 62, 70, 71,
       68, 73, 37, 65, 65, 61, 52, 57, 57, 75, 61, 47, 54, 66, 54, 54, 42,
       37, 79, 56, 62, 62, 55, 63, 57, 57, 67, 55, 45, 66, 55, 64, 66])

In [29]:
# 2. 순서 통계량
sorted_scores = np.sort(scores)
sorted_scores
n = len(sorted_scores)
n

array([37, 37, 41, 42, 42, 45, 47, 47, 48, 49, 51, 52, 54, 54, 54, 55, 55,
       55, 56, 56, 57, 57, 57, 57, 57, 58, 61, 61, 62, 62, 62, 63, 64, 64,
       65, 65, 65, 65, 66, 66, 66, 67, 68, 69, 70, 70, 71, 73, 75, 79])

50

In [34]:
# 3. 중앙값 추출하기
# 방법 1
if n%2 == 0 :
    x1 = sorted_scores[(n//2) - 1]
    x2 = sorted_scores[(n//2)]
    median = (x1 + x2) / 2
    x1,x2 
else :
    median = sorted_scores[(n+1//2) - 1]
median

# 방법 2
np.median(sorted_scores)

(57, 58)

57.5

57.5

**+) 절사 평균**
- 평균의 장점 + 중앙값의 장점
- 상위 절사비율(%)와 하위 절사비율(%)의 값을 배제하고 산술평균

In [36]:
## 예제
# 1. 평균 2백만원, 표준편차 50만원인 정규분포를 따르는 소득 데이터 100개 생성
np.random.seed(3)
income = np.random.normal(20000000,500000,100) # 평균, 표준편차, 개수
income[:10]

# 2. 산술 평균 계산
np.mean(income)

# 3. 소득 10억인 사람 추가 후 산술 평균 계산 및 중앙값 추출
income = np.append(income, 10**9)
np.mean(income)
np.median(income)

# 4. 절사 평균 계산
# scipy.stats.trim_mean(a, proportiontocut[,axis]) 이용
trim_mean(income,0.2) # 절사비율 : 0.2

array([20894314.237, 20218254.925, 20048248.734, 19068253.648,
       19861305.899, 19822620.51 , 19958629.259, 19686499.662,
       19978090.916, 19761390.985])

19945681.462796967

29649189.567125708

19919743.318406537

19941471.081213262

## 2.1.3 최빈값
- 가장 많이 나타나는 값, 범주형 변수에 대해서만 적용
- DataFrame, Series의 mode 메서드 사용

In [37]:
# 예제 데이터 생성
np.random.seed(3)
data = np.random.choice(['A','B','C'], 1000) # A,B,C 요소로 이뤄진 1000개의 데이터
data[:10]

array(['C', 'A', 'B', 'A', 'A', 'A', 'B', 'B', 'C', 'B'], dtype='<U1')

In [41]:
# 방법 1
# scipy.stats.mode(a[,axis,nan_policy]) 함수 이용
mode(data) # 최빈값, 빈도
mode(data).mode # 최빈값 
mode(data).count # 빈도

# 방법 2
# pandas_Series의 value_counts()를 이용한 후 첫번째 결과가 최빈값
pd.Series(data).value_counts()
pd.Series(data).value_counts().index[0] # 최빈값 mode(data).mode
pd.Series(data).value_counts()[0] # 빈도 mode(data).count

ModeResult(mode=array(['A'], dtype='<U1'), count=array([350]))

array(['A'], dtype='<U1')

array([350])

A    350
B    328
C    322
dtype: int64

'A'

350

## + 최소값, 최대값

In [42]:
# 예제 데이터 생성
np.random.seed(123)
data = np.random.normal(100, 20, size=1000) # 100, 
data[:10]

# 방법 1. 데이터 정렬 후 인덱스를 활용한 최소값, 최대값 추출
sorted(data)[0], sorted(data)[-1]

# 방법 2. numpy의 min(), max() 함수 이용
np.min(data)
np.max(data)

array([ 78.287, 119.947, 105.66 ,  69.874,  88.428, 133.029,  51.466,
        91.422, 125.319,  82.665])

(35.37889984161376, 171.43158436052622)

35.37889984161376

171.43158436052622

# SECTION 2.2 데이터의 산포도 지표 (변이통계량)
- 데이터의 퍼짐 정도
- 범위, 사분위간 범위, 표준편차, 분산, 변동계수 등

In [43]:
import numpy as np
# numpy float 출력옵션 변경
# np.set_printoptions(precision=3)
# np.set_printoptions(precision=20, suppress=True)
# pd.options.display.float_format = '{:.2f}'.format
np.set_printoptions(formatter={'float_kind': lambda x: "{0:0.3f}".format(x)})

## 2.2.1 분산과 표준편차
**1. 편차**
- 각 데이터가 평균으로부터 어느 정도 떨어져 있는가 ( xi - mean )
- numpy의 브로드캐스트

In [58]:
scores = [50,60,58,54,51,56,57,53,52,59]
mean = np.mean(scores)
deviation = scores - mean
deviation
np.mean(deviation) # 편차들의 합은 0

array([-5.000, 5.000, 3.000, -1.000, -4.000, 1.000, 2.000, -2.000, -3.000,
       4.000])

0.0

**2. 분산**
- 평균을 중심으로 데이터가 퍼져있는 정도의 측도

<img src='./image/2_00003.png' width='60%' align='left'>

**분산 계산 : var(a, ddof=0) 함수**
- numpy.var(a[, axis, dtype, out, ddof, keepdims, where])
- pandas.Series.var(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
- ddof 인수: 델타 자유도
    - ddof=0 : n개로 나눔 (Default) (표본분산)
    - ddof=1 : n-1개로 나눔 (불편분산)

In [62]:
# 예제 데이터
# x = [1,2,3,4,5]
x = [1,3,5,7,9]

# 1. ddof = 1 => n-1개로 나눔
np.var(x, ddof=1)

# 2. ddof = 0 => n개로 나눔
np.var(x, ddof=0)
np.var(x)
np.array(x).var()
pd.Series(x).var(ddof=0)

10.0

8.0

8.0

8.0

8.000

**3. 표준편차**
- 분산의 제곱근

**표준편차 계산: std(a, ddof=0) 함수 사용**
- 데이터의 단위와 동일하게 만듦
    - 분산에서 제곱의 영향을 없앤 지표
- 분산과 표준편차가 크면 클수록 산포가 크다

- **numpy.std**(a[, axis, dtype, out, ddof, keepdims,where])
- **pandas.Series.std**(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
- ddof 인수 :
    - 기본값은 0 => 모집단 분산
    - 표본 분산의 경우 1로 설정
    
<img src='./image/2_00004.png' width='70%'>

## 2.2.2 범위와 사분위 범위

## 2.2.3 데이터의 지표 정리