<a href="https://github.com/AI-FREE-Team/Machine-Learning-Basic/blob/main/Materials/%E7%B5%B1%E8%A8%88%E6%A6%82%E5%BF%B5_%E6%95%98%E8%BF%B0%E7%B5%B1%E8%A8%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![Logo](https://raw.githubusercontent.com/AI-FREE-Team/Machine-Learning-Basic/main/README_imgs/aifreeteam.png) 
<center>Welcome to the course《Python: from business analytics to Artificial Intelligence》by AI . FREE Team.</center>
<center>歡迎大家來到 AI . FREE Team 《Python 從商業分析到人工智慧》的第二堂課 - 機器學習(ML)基礎教學。 </center>
<br/>

<center>作者: Michelle Chuang (<a href="https://github.com/sueshow">Github</a>)</center>
<center>AI . FREE Team: <a href="https://aifreeblog.herokuapp.com/">https://aifreeblog.herokuapp.com/</a></center>
<br>


# 前言

本篇文章以 <font color="#00dd00">**Python**</font> 3.7.10、<font color="#00dd00">**Numpy**</font> 1.19.5、<font color="#00dd00">**Pandas**</font> 1.1.5、<font color="#00dd00">**Matplotlib**</font> 3.2.2、<font color="#00dd00">**Seaborn**</font> 0.11.1、<font color="#00dd00">**SciPy**</font> 1.4.1 進行教學。本篇文章將介紹基本觀察數據各類型的量：
* 集中趨勢：平均數、中位數、眾數
* 變動分散程度：全距、方差、標準差、百分位數

## 匯入基本套件

In [None]:
!python --version

Python 3.7.11


In [None]:
import numpy as np 
import pandas as pd 
import matplotlib
import matplotlib.pyplot as plt   # 繪製影像 
import seaborn as sns
import scipy as sp

print( 'NumPy 版本: ', np.__version__ )
print( 'Pandas 版本: ', pd.__version__ )  
print( 'Matplotlib 版本: ', matplotlib.__version__ )
print( 'Seaborn 版本: ', sns.__version__ )
print( 'SciPy 版本: ', sp.__version__ )

NumPy 版本:  1.19.5
Pandas 版本:  1.1.5
Matplotlib 版本:  3.2.2
Seaborn 版本:  0.11.1
SciPy 版本:  1.4.1


除上述套件外，本篇文章會介紹許多內建的 Python 程式庫，支援基本的描述性統計
，故常使用到 <font color="#00dd00">**math**</font> 、 <font color="#00dd00">**statistics**</font> ，在此先將他們 import，以利後面案例使用

In [None]:
import math
import statistics

# 敘述統計 Descriptive Statistics

* 任何領域對於蒐集取回的資料，正確完成的統計使我們能夠從模糊、複雜和困難的現實世界中提取知識。使用不當，統計數據可用於傷害和誤導。清楚地了解統計數據和各種統計措施的含義對於區分真實性和誤導性很重要。
* 最基本的分析需求是能夠直觀描述，匯總與表示數據資料的基本特徵，本篇文章將介紹如何利用 Python 取得敘述性統計 (descriptive statistics) 及其使用時機。
* 主要為測量樣本有關的內容提供簡易的測量樣本有關的內容提供簡易的總結，將總結有效的量化，例如：統計數據、或用以簡單的圖表顯示 (直方圖、餅圖等)

| 語法 | 說明 |
|----------|:----------:|
| describe | 計算數的幾個描述性統計 |
| gmean | 計算沿指定軸的幾何平均值 |
| hmean | 計算沿指定軸的調和平均值 |
| kurtosis | 計算峰度 |
| skew | 計算偏態 |
| mode | 計算眾數 |
| f_oneway | 執行單因子方差分析 |
| iqr | 計算沿指定軸數據的四分位數範圍 |
| zscore | 計算樣本中每個值 Z 得分，相對於樣本均值和標準差 |
| sem | 計算輸入數的平均值的標準誤差 |


* 本篇文章將收集男女生身高、透過隨機資料，以不同型態的資料為例，來教大家認識敘述統計，資料如下：

* 資料格式：List (男女生身高)

In [None]:
#輸入資料
boys = [164, 176, 169, 169, 165, 175, 159, 151, 144, 160,
     183, 165, 156, 170, 164, 173, 165, 163, 177, 171]
girl = [169, 183, 170, 168, 182, 170, 173, 185, 151, 156,
     162, 169, 162, 181, 159, 154, 167, 175, 170, 160]

* 資料格式：Series/Array (隨機)

In [None]:
d1 = pd.Series(2*np.random.normal(size=100)+3)
d2 = np.random.f(2, 4, size=100)
d3 = np.random.randint(1, 100, size=100)

在此並匯入在這篇文章常用到的套件 `stats` 喔！

In [None]:
from scipy import stats

## 集中趨勢

集中趨勢的度量是代表以下問題的答案的度量："
我們的數據中間是什麼樣子？" 中間這個詞是模糊的，因為我們可以用多種定義來表示中間。用來判斷集中趨勢 (中央趨勢)的敘述統計，有以下三種：
* 平均數 (mean)
* 中位數 (madian , Mo)
* 眾數 (mode)

### 平均數

* 說明：全部數值加總/數值個數，分佈中心的估計量
* 公式：
  $ \bar{x} = \frac{\sum_{i=1}^{n}}{n} = \frac{x_1 + x_2 + ... + x_n}{n} $
* 優點
  * 適合用於數執行資料
  * 進行不同組資料的比較，以看出組與組之間的差別
  * 適用於常態分布或近似於常態分布
* 缺點
  * 不能用於分類資料和順序資料
  * 不是一個強健的(robust)統計量，容易受離群值影響而劇變
* 語法
  ```
  np.mean(目標)
  statistics.mean(目標)
  ```

* 資料格式：List

In [None]:
# 計算統計量_平均數的方法
mean_boy = np.mean(boys)
print('男孩身高平均=', mean_boy)
print('='*20)

statistics_mean_boy = statistics.mean(boys)
print('statistics_mean_boy=', statistics_mean_boy)
print('='*20)

print('scipy_mean_boy=', sp.stats.describe(boys).mean)
print('='*20)

print('mean_boy=', sum(boys)/len(boys))
print('='*20)

print('是否相等：', (mean_boy==statistics_mean_boy) and (mean_boy==sp.stats.describe(boys).mean) and (mean_boy==sum(boys)/len(boys)) )

男孩身高平均= 165.95
statistics_mean_boy= 165.95
scipy_mean_boy= 165.95
mean_boy= 165.95
是否相等： True


* 資料格式：Series

In [None]:
print('平均=', np.mean(d1))
print('statistics_mean=', statistics.mean(d1))
print('scipy_mean_boy=', sp.stats.describe(d1).mean)
print('d1_mean=', d1.mean())
print('d1_mean=', sum(d1)/len(d1))
print('='*20)

print('是否相等：', (np.mean(d1)==statistics.mean(d1)) and (np.mean(d1)==sp.stats.describe(d1).mean) and (np.mean(d1)==sum(d1)/len(d1)) )

平均= 2.800298793949265
statistics_mean= 2.8002987939492647
scipy_mean_boy= 2.800298793949265
d1_mean= 2.800298793949265
d1_mean= 2.800298793949265
是否相等： False


### 中位數


* 說明：中位數為一種和位置相關的數值，將資料所有的數依照大小排列，即為資料中有 50% 高於此數，也有 50% 低於此數，也是百分位數 50，對分佈的尾部不敏感，它是 Robust
* 公式
  * 若資料數量為偶數值，則中間兩數的平均為之
  * 若資料數量為奇數值，則中間數即為之
* 優點
  * 較不受極端值影響
  * 適合用於變化較大的資料
* 缺點
  * 只利用部分數據，可靠性較差
* 語法
  ```
  np.median(目標)
  stats.scoreatpercentile(目標, 50)
  statistics.median(目標)
  ```

* 資料格式：List

In [None]:
# 計算統計量_中位數的方法
np_median_boy = np.median(boys, axis=None)
print('np_median_boy=', np_median_boy)
print('='*20)

statistics_median_boy = statistics.median(boys)
print('statistics_median_boy=', statistics_median_boy)
print('='*20)

stats_median_boy = stats.scoreatpercentile(boys, 50)
print('stats_median_boy=', stats_median_boy)
print('='*20)

print('是否相等：', (np_median_boy==statistics_median_boy) and (np_median_boy==stats_median_boy) )

np_median_boy= 165.0
statistics_median_boy= 165.0
stats_median_boy= 165.0
是否相等： True


In [None]:
n = len(boys)
if n%2:   #資料筆數為奇數，直接取中間值
  median01 = sorted(boys)[round(0.5*(n-1))]
else:
  order01, index01 = sorted(boys), round(0.5*n)
  median01 = 0.5 * (order01[index01-1]+order01[index01])
print('中位數=%.2f' % (median01))
print('='*20)

print('是否相等：', (np_median_boy==median01) )

中位數=165.00
是否相等： True


* 資料格式：Series

In [None]:
print('平均=', np.median(d1))
print('statistics_median=', statistics.median(d1))
print('d1_mean=', d1.median())
print('='*20)

print('是否相等：', (np.median(d1)==statistics.median(d1)) and (np.median(d1)==d1.median()) )

平均= 2.7516022257912782
statistics_median= 2.7516022257912782
d1_mean= 2.7516022257912782
是否相等： True


In [None]:
n = len(d1)
if n%2:   #資料筆數為奇數，直接取中間值
  median01 = sorted(d1)[round(0.5*(n-1))]
else:
  order01, index01 = sorted(d1), round(0.5*n)
  median01 = 0.5 * (order01[index01-1]+order01[index01])
print('中位數=%.2f' % (median01))
print('='*20)

print('是否相等：', (np.median(d1)==median01) )

中位數=2.75
是否相等： True


### 眾數

* 說明：出現最多次的數值
* 優點
  * 適用於資料有很大的變動，且某個數據出現的次數最多
* 缺點
  * 當資料分配很平均或眾數較多時，眾數則失去意義及功能
  * 最常出現數值不一定為最接近整體分配之中心數值，也有可能不是最具代表性的數值，可靠性較差
  * 可能不存在或存在多個(語法會取最小)
* 語法
  ```
  stats.mode(目標)
  statistics.mode(目標)
  ```

* 資料格式：List

In [None]:
# 統計量_眾數
# 統計量的眾數，如果有多個眾數，取最小的值當眾數。

mode_boy = stats.mode(boys, axis=None)
print('男孩身高眾數結果：', mode_boy)
print('='*20)
print('男孩身高眾數=', mode_boy[0][0])
print('='*20)

# 統計量_眾數
statistics_mode_boy = statistics.mode(boys)
print('statistics_mode_boy=', statistics_mode_boy) 
print('='*20)

print('是否相等：', (mode_boy[0][0]==statistics_mode_boy) )

男孩身高眾數結果： ModeResult(mode=array([165]), count=array([3]))
男孩身高眾數= 165
statistics_mode_boy= 165
是否相等： True


In [None]:
mode01 = max((boys.count(item), item) for item in set(boys))[1]
print('眾數=%.2f' %(mode01))
print('='*20)

print('是否相等：', (mode_boy[0][0]==mode01) )

眾數=165.00
是否相等： True


* 資料格式：Series

In [None]:
print('眾數=', stats.mode(d1, axis=None)[0][0])
print('d1_mode=', d1.mode()[0])
print('='*20)

print('是否相等：', (stats.mode(d1, axis=None)[0][0]==d1.mode()[0]) )

眾數= -1.730329334372767
d1_mode= -1.730329334372767
是否相等： True


## 變動分散程度

用來判斷離散趨勢的敘述統計，有以下三種：
* 全距 (Range)
* 方差 (Variance)
* 標準差 (Standard Deviation)
* 百分位數 (Percentile)

### 全距

* 說明：又稱極差，最大值和最小值的差
* 優點
  * 計算較為簡單，易理解
  * 適用範圍廣泛
* 缺點
  * 忽略全部觀察值間的差異，可能產生全距相等，但離散程度可能有所差異
  * 易受極端值的影響，僅與極值有關
  * 對全部數據的離散程度沒有代表性
* 語法

  ```
  def rangeV(x):
    return(max(x)-min(x))
  print(rangeV(目標))
  ```

In [None]:
#全距
#rangeV=max(boys)-min(boys)
def rangeV(x): 
    return(max(x)-min(x))
    
print('男生身高的全距: ', rangeV(boys))
print('d1的全距: ', rangeV(d1))

男生身高的全距:  39
d1的全距:  8.894770749701374


### 方差

* 說明：即為母體變異數，開方根號即為標準差
* 公式：
  * 母體：$ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i-\hat{x})^2}{n} $
  * 樣本：$ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i-\hat{x})^2}{n-1} $
* 優點
  * 反映數據的偏離程度，當標準差較大時，表示大部分數據與平均值之間差異較大，反之代表這些數值較接近平均值
* 缺點
* 語法
  ```
  np.var(目標, ddof=1)   #ddof=1代表計算樣本
  statistics.variance(目標)
  ```

* 資料格式：List

In [None]:
# 計算變異數的方法
print('男孩身高變異數=', np.var(boys, ddof=1))
print('='*20)
print('男孩身高變異數=', statistics.variance(boys))
print('='*20)
print('男孩身高變異數=', sp.stats.describe(boys).variance)
print('='*20)

print('是否相等：', (np.var(boys, ddof=1)==statistics.variance(boys)) and (np.var(boys, ddof=1)==sp.stats.describe(boys).variance) )

男孩身高變異數= 84.89210526315789
男孩身高變異數= 84.89210526315789
男孩身高變異數= 84.89210526315789
是否相等： True


In [None]:
n = len(boys)
mu01 = sum(boys)/len(boys)
var01 = sum((item-mu01)**2 for item in boys)/(n-1)
print('變異數=%.3f' %(var01))
print('='*20)

print('是否相等：', (np.var(boys, ddof=1)==var01) )

變異數=84.892
是否相等： True


In [None]:
print('男孩身高的母體變異數=', np.var(boys))
print('='*20)
print('男孩身高的母體變異數=', statistics.pvariance(boys))
print('='*20)

print('是否相等：', (np.var(boys)==statistics.pvariance(boys) ))

男孩身高的母體變異數= 80.6475
男孩身高的母體變異數= 80.6475
是否相等： True


* 資料格式：Series

In [None]:
print('變異數=', np.var(d1, ddof=1))
print('='*20)
print('變異數=', statistics.variance(d1))
print('='*20)
print('變異數=', d1.var())
print('='*20)

print('是否相等：', (np.var(d1, ddof=1)==statistics.variance(d1)) and (np.var(d1, ddof=1)==d1.var()) )

變異數= 3.8537940070927843
變異數= 3.8537940070927816
變異數= 3.8537940070927843
是否相等： False


In [None]:
n = len(d1)
mu01 = sum(d1)/len(d1)
var01 = sum((item-mu01)**2 for item in d1)/(n-1)
print('變異數=%.3f' %(var01))
print('='*20)

print('是否相等：', (np.var(d1, ddof=1)==var01))

變異數=3.854
是否相等： True


### 標準差

* 說明：方差開方根號
* 語法
  ```
  np.std(目標, ddof=1)   #ddof=1代表計算樣本
  statistics.stdev(目標)
  ```

* 資料格式：List

In [None]:
# 統計量_標準差的方法
#樣本標準差
#ddof=1, 回傳 sample standard deviation 樣本標準差，分母(n-1)，無偏估計
std_boy = np.std(boys, ddof=1)
print('男孩身高標準差=', std_boy)
print('='*20)

statistics_stdev_boy = statistics.stdev(boys)
print('statistics_mean_boy=', statistics_stdev_boy)
print('='*20)

print('stats_mean_boy=', sp.stats.describe(boys).variance**0.5)
print('='*20)

print('是否相等：', (std_boy==statistics_stdev_boy) and (std_boy==statistics_stdev_boy) and (std_boy==sp.stats.describe(boys).variance**0.5) )

男孩身高標準差= 9.213691185575838
statistics_mean_boy= 9.213691185575838
stats_mean_boy= 9.213691185575838
是否相等： True


In [None]:
print('男孩身高的母體標準差=', np.std(boys))
print('='*20)
print('男孩身高的母體標準差=', statistics.pstdev(boys))
print('='*20)

print('是否相等：', (np.std(boys)==statistics.pstdev(boys)) )

男孩身高的母體標準差= 8.980395314238677
男孩身高的母體標準差= 8.980395314238677
是否相等： True


### 百分位數

* 說明：將一組數據從小到大排序，併計算相應的累計百分位，則某一百分位所對應數據的值就稱為這一百分位的百分位數，以 $P_k$ 表示第 k 百分位數
* 語法
  ```
  np.percentile(目標, k)
  stats.scoreatpercentile(目標, k)
  ```

* 資料格式：List

In [None]:
# python 百分位數
#np
print('90百分位數=', np.percentile(boys, 90))
print('50百分位數=', np.percentile(boys, 50))
print('25百分位數=', np.percentile(boys, 25))
#stat
print('25百分位數=', stats.scoreatpercentile(boys, 25))

90百分位數= 176.1
50百分位數= 165.0
25百分位數= 162.25
25百分位數= 162.25


In [None]:
print('四分位數= %.2f, %.2f, %.2f' %(np.quantile(boys, 0.25), np.quantile(boys, 0.5), np.quantile(boys, 0.75)))
print('='*20)

print('是否相等：', (np.percentile(boys, 25)==stats.scoreatpercentile(boys, 25)) and np.percentile(boys, 25)==np.quantile(boys, 0.25) )

四分位數= 162.25, 165.00, 171.50
是否相等： True


* 資料格式：Series

In [None]:
print('10百分位數=', np.percentile(d1, 10))
print('10%分位數=', d1.quantile(0.1))

10百分位數= 0.04921489897774487
10%分位數= 0.04921489897774487


In [None]:
print('四分位數=\n', d1.quantile([0.25, 0.5, 0.75]))
print('='*20)

print('是否相等：', (np.percentile(d1, 25)==d1.quantile(0.25)) and (np.percentile(d1, 25)==d1.quantile([0.25])[0.25]) )

四分位數=
 0.25    1.535161
0.50    2.751602
0.75    4.167786
dtype: float64
是否相等： True


# 結語 

本文介紹觀察資料的集中趨勢(平均數、中位數、眾數)、變動分散程度(全距、方差、標準差、百分位數)的統計量，並透過不同的資料型態進行介紹，這些將是探索式資料分析(Exploratory Data Analysis；EDA)的過程中重要工具之一，讀者要瞭解各統計量的定義，透過它們初步認識資料的樣貌，以利進行資料前處理。<br>
敘述統計能夠直觀反映一組數據的基本特徵，但由於簡單、難以描述多元變量之間的複雜關係，相較於統計特徵數值，數據展現的一種直觀方式是視覺化，可通過數據間的關係，選擇合適的圖表來展現數據。<br>
針對本文的內容，若讀者們有發現任何的錯誤或疑問，非常歡迎您 [來信 sueshow2006@gmail.com](mailto:sueshow2006@gmail.com) 給予建議及討論，讓我們一同來學習成長！

# 參考資料

* [使用 Python 語言的描述性統計了解資料集基本特性](https://www.lijyyh.com/2020/11/pythonuse-python-language-descriptive.html)
* [使用NumPy、SciPy和Matplotlib進行描述性統計](https://www.zendei.com/article/8892.html)
* [Basic Statistics in Python — Descriptive Statistics](https://www.dataquest.io/blog/basic-statistics-with-python-descriptive-statistics/)

# 返回 [課程大綱](https://github.com/AI-FREE-Team/Machine-Learning-Basic#%E8%AA%B2%E7%A8%8B%E5%A4%A7%E7%B6%B1-course-outline)