# 기술 통계 - 기초 통계량

## # 01. 기술통계

    - 기술통계란 자료를 그래프나 숫자등으로 요약하는 통계적 행위 및 관련 방법을 의미.

    - 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근한다.

    - 데이터를 요약하고 시각화해서 잘 설명하는 것에 중점을 두며 데이터에 대해서 쉽게 설명하기 위해서 
        시각화를 많이 활용한다.
   
    - 기술 통게에서 기본적으로 사용하는 시각화 자료들은 'Boxplot(상자그림)', '도수분포표', 
        '히스토그램' 이 있으며 이를 기반으로 사실을 객관적으로 확인하는 것을 중점으로 한다.

## # 02. 기술통계 절차

    #### 1. 데이터의 전체 크기와 형태 확인

                    * 행과 열의 수를 확인한다.
                    
                    * 10만 건의 데이터 전체를 출력하는 것은 매우 부담이 큰 처리이므로 상위 n 건, 
                        하위 n 건의 일부 만을 확인한다.

    #### 2. 전체 데이터의 분포를 확인한다.

                    * 구간별 자료의 개수를 나타내는 표(=도수분포표) 를 산정한다.

                    * 도수 분포표를 그래프로 표현한 히스토그램을 확인한다.

    #### 3. 범주형 데이터

                    * 데이터의 빈도수를 확인한다.

## # 03. 작업 준비

    #### 1. 패키지 참조

In [1]:
import sys
from matplotlib import pyplot as plt
from pandas import read_excel
import seaborn as sb

    #### 2. 데이터 가져오기

In [2]:
df = read_excel("C:\\Users\\User\\Desktop\\궁둥박사\\BigdatamegaIT\\수업내용\\D_탐색적_데이터\\01_데이터_시각화/ad-sales.xlsx", index_col="월")
df

Unnamed: 0_level_0,광고비(백만원),매출액(억원)
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,2,100
2월,142,1690
3월,122,298
4월,130,390
5월,185,590
6월,121,200
7월,101,190
8월,199,460
9월,221,660
10월,139,350


    #### 3. 데이터 전처리

In [3]:
df.rename(columns = {'광고비(백만원)' : 'adv', '매출액(억원)' : 'sales'}, inplace = True)
df.index.name = 'month'
df

Unnamed: 0_level_0,adv,sales
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,2,100
2월,142,1690
3월,122,298
4월,130,390
5월,185,590
6월,121,200
7월,101,190
8월,199,460
9월,221,660
10월,139,350


## # 04. 기초 통계량

    #### 1. 데이터의 범위

        - '최대값 ~ 최소값' 의 구간을 의미

In [4]:
max_adv = df['adv'].max()
min_adv = df['adv'].min()

'광고비 구간은 {min} ~ {max}백만원 입니다.'.format(max = max_adv, min = min_adv)

'광고비 구간은 2 ~ 237백만원 입니다.'

In [5]:
max_sales = df['sales'].max()
min_sales = df['sales'].min()

'매출액 구간은 {min} ~ {max}백만원 입니다.'.format(max = max_sales, min = min_sales)

'매출액 구간은 100 ~ 1690백만원 입니다.'

    #### 2. 합계

In [6]:
sum_adv = df['adv'].sum()
sum_sales = df['sales'].sum()

'광고비의 총 합은 %d백만원이고, 매출액의 총 합은 %d억원 입니다.' % (sum_adv, sum_sales)

'광고비의 총 합은 1768백만원이고, 매출액의 총 합은 6458억원 입니다.'

    #### 평균

        - 모든 값을 더한 후 개수로 나눈 값

            1, 2, 3, 4, 5, 100의 평균은 (1+2+3+4+5+100)/6 이므로 19.17 이다.
        
        - 평균은 특정 값이 다른 값들의 범위와 차이가 큰 경우 신뢰도가 떨어진다.

        - 위의 데이터에서 100에 해당하는 값은 다른 값들에 비해 극단적으로 높다. 이러한 값을 극단치라고 
            한다.

In [7]:
mean_adv = df['adv'].mean()
mean_sales = df['sales'].mean()

'광고비의 평균은 %d백만원이고, 매출액의 평균은 %d억원 입니다.' % (mean_adv, mean_sales)

'광고비의 평균은 147백만원이고, 매출액의 평균은 538억원 입니다.'

    #### 4. 중앙값($m_e$)

        - 모든 값을 순서대로 정렬한 후 가운데 위치의 값.

        - 평균의 신뢰도가 현저히 낮을 경우 데이터의 분포를 확인하기 위해 사용한다.

        * 데이터의 수가 홀수인 경우

            - 모든 값을 순서대로 정렬한 후 가운데 위치의 값

            ex) 1, 2, 3, 4, 5 의 중앙값은 3이다.

            $m_e = x{(\frac{n+1}2)}$

        * 데이터의 수가 짝수인 경우

            -  모든 값을 순서대로 정렬한 후 가운데 두 값의 평균.
            
            ex)  `1, 2, 3, 4, 5, 6`의 중앙값은 `(3+4)/2`이므로 `3.5`이다.

$m_e = \frac{1}{2}{({x{(\frac{n}{2})} + {x{(\frac{n}{2})+1}}})}$