# D26 用統計描述資料的樣態

## 為什麼需要敘述統計？

為了了解台灣男生和女生在身高上誰比較高，收集到 20 位男生和 20 位女生的身高，肉眼看原始資料，無法很快速的比較出結果。

## 母體 ( population ) 與 樣本 ( Sample ) 的關係

無法檢測所有的母體的特性，所以用局部的方式來觀察全部的特性，取局部的資料點的科學方法，稱作抽樣方法，所以每一次抽都會抽出不一樣的資料點。

以上述例子

### 母體：
* 台灣的所有男生和女生的身高

### 樣本：
* 樣本是母體的一部分
* 透過不同的抽樣方法，抽取出的值 
* 男生女生各抽20位
    
所以樣本，是我們觀察到的現象，而統計推論的方法，就是一種以小窺大的一門技術，希望得到母體的真實狀況，也就是真相，透過現象(樣本)企圖了解真相(母體)。

## 透過統計量，知道目前真相調查的現況

### 統計量：
* 描述一變數或樣本之特徵的數值，樣本數的函數。
* 可以讓人類可以很快了解資料的分布和訊息。
* 平均數、眾數皆為一種統計量
* 可分為集中趨勢、離散程度和分布型態三類統計量

## 集中趨勢 — 確定一組數據的均衡點

* 平均數
* 中位數：樣本最中間之值，偶數則為中間兩數平均
* 眾數：出現最多次的數據值

## 離散程度 — 確定一組數據分散程度

* 全距：max - min
* 變異數：量測所有資料到平均數的平均距離
* 百分位數：PR值

## 分布形態 — 確定一組數據分布的均勻程度

* 偏度：
    * 負偏態或左偏態：左側的尾部更長，分布的主體集中在右側，左側有較多極端值。
    * 正偏態或右偏態：右側的尾部更長，分布的主體集中在左側，右側有較多極端值，日常生活數據常見右偏態分布。
    * 記尾巴朝著哪個方向
* 峰度：峰度反映了峰部的尖度，也代表變異數的來源來自於不常出現的尾巴兩端的數值。

In [2]:
# library
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy import stats
import math
import statistics
import seaborn as sns

boys = [164,175,183,173,176,159,165,165,169,151,156,163,169,144,170,177,165,160,164,171]  
girls = [169,170,162,154,183,173,169,167,170,185,162,175,168,151,181,170,182,156,159,160]

Q1.試著用今天所教的內容，如何描述這兩組資料的樣態？

In [13]:
boys = [164,175,183,173,176,159,165,165,169,151,156,163,169,144,170,177,165,160,164,171]
girls = [169,170,162,154,183,173,169,167,170,185,162,175,168,151,181,170,182,156,159,160]
# 計算統計量_平均數的方法
mean_boy=np.mean(boys)
print("男孩身高平均=",mean_boy)
mean_girl=np.mean(girls)
print("女孩身高平均=",mean_girl)

# 計算統計量_中位數的方法
np_median_boy=np.median(boys,axis=None)
print("男孩身高中位數=",np_median_boy)
np_median_girl=np.median(girls,axis=None)
print("女孩身高中位數=",np_median_girl)

#計算統計量_眾數
mode_boy=stats.mode(boys,axis=None)
print("男孩身高眾數=",mode_boy[0][0])

mode_girl=stats.mode(girls,axis=None)
print("女孩身高眾數=",mode_girl[0][0])

#計算全距:
def rangeV(x): 
  return(max(x)-min(x))
    
print("男孩身高全距=",rangeV(boys))
print("女孩身高全距=",rangeV(girls))

#計算變異數
print("男孩身高變異數=",np.var(boys,ddof=1))
print("男孩身高變異數=",np.var(girls,ddof=1))


#計算標準差
std_boy=np.std(boys,ddof=1)
print("男孩身高標準差=",std_boy)
std_girl=np.std(girls,ddof=1)
print("女孩身高標準差=",std_girl)

## python 百分位數
#np
print("男孩身高90百分位數=",np.percentile(boys, 90))
print("男孩身高50百分位數=",np.percentile(boys, 50))
print("男孩身高20百分位數=",np.percentile(boys, 20))

print("女孩身高90百分位數=",np.percentile(girls, 90))
print("女孩身高50百分位數=",np.percentile(girls, 50))
print("女孩身高20百分位數=",np.percentile(girls, 20))


#計算峰度和偏度
print("男孩身高偏度=",stats.skew(boys))
print("男孩身高峰度=",stats.kurtosis(boys))

print("女孩身高偏度=",stats.skew(girls))
print("女孩身高峰度=",stats.kurtosis(girls))

男孩身高平均= 165.95
女孩身高平均= 168.3
男孩身高中位數= 165.0
女孩身高中位數= 169.0
男孩身高眾數= 165
女孩身高眾數= 170
男孩身高全距= 39
女孩身高全距= 34
男孩身高變異數= 84.8921052631579
男孩身高變異數= 95.37894736842104
男孩身高標準差= 9.213691185575838
女孩身高標準差= 9.766214587465353
男孩身高90百分位數= 176.1
男孩身高50百分位數= 165.0
男孩身高20百分位數= 159.8
女孩身高90百分位數= 182.1
女孩身高50百分位數= 169.0
女孩身高20百分位數= 159.8
男孩身高偏度= -0.4713212731737694
男孩身高峰度= 0.19395882957876243
女孩身高偏度= 0.059853211293650746
女孩身高峰度= -0.8203607083948947


Q2.請問男生和女生在平均身高上誰比較高？

女生

In [12]:
print("means:")
print("boys:", np.mean(boys),", girls:", np.mean(girls))

means:
boys: 165.95 , girls: 168.3


Q3.請問第二題的答案和日常生活中觀察的一致嗎？如果不一致，你覺得原因可能為何？

由以上看出，這兩組數據和我們認知有出入，數據顯示女生身高是高於男生的。  
會有如此狀況發生，有兩種解釋
* 其一為抽樣時都是抽取到極端的例子
    * 要增加抽取的樣本數
* 二為我們的認知偏差，實際數據並沒有問題