# D13 pandas 統計函式使用教學

## 範例目標: 

1. 實做統計函式
2. 實做自定義的行或列函式應用

## 範例重點: 
1. 統計函數使用方式與 Numpy 類似，不同之處為 Pandas 的資料型態是 DataFrame
2. 使用自定義函數時lambda x 與數學中的 f(x) 是相同的意思

In [1]:
import pandas as pd

In [2]:
score_df = pd.DataFrame([[1,50,80,70], 
              [2,60,45,50],
              [3,98,43,55],
              [4,70,69,89],
              [5,56,79,60],
              [6,60,68,55],
              [7,45,70,77],
              [8,55,77,76],
              [9,25,57,60],
              [10,88,40,43]],columns=['student_id','math_score','english_score','chinese_score'])
score_df = score_df.set_index('student_id')
score_df

Unnamed: 0_level_0,math_score,english_score,chinese_score
student_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,50,80,70
2,60,45,50
3,98,43,55
4,70,69,89
5,56,79,60
6,60,68,55
7,45,70,77
8,55,77,76
9,25,57,60
10,88,40,43


## .mean()：平均值

### 指定欄位算平均值

In [4]:
#指定欄位算平均值
print('數學分數平均值：', score_df.math_score.mean())

數學分數平均值： 60.7


### 不指定欄位算平均值 = 對所有欄算平均值

In [7]:
#不指定欄位算平均值
print('不指定欄位算平均值：\n', score_df.mean())

不指定欄位算平均值：
 math_score       60.7
english_score    62.8
chinese_score    63.5
dtype: float64


### 針對每一欄算平均值

In [11]:
#針對每一欄算平均值
score_df.mean(axis=0)

math_score       60.7
english_score    62.8
chinese_score    63.5
dtype: float64

### 針對每一列算平均值

In [10]:
#針對每一列算平均值
score_df.mean(axis=1)

student_id
1     66.666667
2     51.666667
3     65.333333
4     76.000000
5     65.000000
6     61.000000
7     64.000000
8     69.333333
9     47.333333
10    57.000000
dtype: float64

## .sum()：加總

In [23]:
#對某個欄位進行加總
score_df.math_score.sum()

607

In [12]:
#對每一個欄位進行加總
score_df.sum()

math_score       607
english_score    628
chinese_score    635
dtype: int64

In [13]:
#對每一個欄位進行加總
score_df.sum(axis=0)

math_score       607
english_score    628
chinese_score    635
dtype: int64

In [14]:
#對每一列(每一筆資料)進行加總
score_df.sum(axis=1)

student_id
1     200
2     155
3     196
4     228
5     195
6     183
7     192
8     208
9     142
10    171
dtype: int64

## .count()：計算個數 

In [22]:
#計算某個欄位有幾筆資料
score_df.math_score.count()

10

In [15]:
#計算每一個欄位有幾筆資料
score_df.count()

math_score       10
english_score    10
chinese_score    10
dtype: int64

In [16]:
#計算每一個欄位有幾筆資料
score_df.count(axis=0)

math_score       10
english_score    10
chinese_score    10
dtype: int64

In [17]:
#計算每一筆資料有幾個欄位
score_df.count(axis=1)

student_id
1     3
2     3
3     3
4     3
5     3
6     3
7     3
8     3
9     3
10    3
dtype: int64

## .median()：中位數

In [21]:
#計算某個欄位的中位數
score_df.math_score.median()

58.0

In [18]:
#計算每一個欄位的中位數
score_df.median()

math_score       58.0
english_score    68.5
chinese_score    60.0
dtype: float64

In [19]:
#計算每一個欄位的中位數
score_df.median(axis=0)

math_score       58.0
english_score    68.5
chinese_score    60.0
dtype: float64

In [20]:
#計算每一筆資料的中位數
score_df.median(axis=1)

student_id
1     70.0
2     50.0
3     55.0
4     70.0
5     60.0
6     60.0
7     70.0
8     76.0
9     57.0
10    43.0
dtype: float64

## .quantile()：百分位數

- 預設取 0.5 百分位數
- 也可以自己指定百分位數

In [27]:
#針對某欄位算百分位數，預設取0.5百分位數
score_df.math_score.quantile()

58.0

In [28]:
#針對某欄位算百分位數，指定取0.7百分位數
score_df.math_score.quantile(0.7)

63.0

In [29]:
#針對每一欄位算百分位數，預設取0.5百分位數
score_df.quantile()

math_score       58.0
english_score    68.5
chinese_score    60.0
Name: 0.5, dtype: float64

In [30]:
#針對每一欄位算百分位數，預設取0.5百分位數
score_df.quantile(axis=0)

math_score       58.0
english_score    68.5
chinese_score    60.0
Name: 0.5, dtype: float64

In [31]:
#針對每一筆資料算百分位數
score_df.quantile(axis=1)

student_id
1     70.0
2     50.0
3     55.0
4     70.0
5     60.0
6     60.0
7     70.0
8     76.0
9     57.0
10    43.0
Name: 0.5, dtype: float64

## .max()：最大值

In [34]:
#針對某個欄位找最大值
score_df.math_score.max()

98

In [35]:
#針對每一個欄位找最大值
score_df.max()

math_score       98
english_score    80
chinese_score    89
dtype: int64

In [50]:
#針對每一個欄位找最大值
score_df.max(axis=0)

math_score       98
english_score    80
chinese_score    89
dtype: int64

In [36]:
#針對每一筆資料找最大值
score_df.max(axis=1)

student_id
1     80
2     60
3     98
4     89
5     79
6     68
7     77
8     77
9     60
10    88
dtype: int64

## .min()：最小值

In [None]:
#針對某個欄位找最小值
score_df.math_score.min()

In [37]:
#針對每一個欄位找最小值
score_df.min()

math_score       25
english_score    40
chinese_score    43
dtype: int64

In [39]:
#針對每一個欄位找最小值
score_df.min(axis=0)

math_score       25
english_score    40
chinese_score    43
dtype: int64

In [38]:
#針對每一筆資料找最小值
score_df.min(axis=1)

student_id
1     50
2     45
3     43
4     69
5     56
6     55
7     45
8     55
9     25
10    40
dtype: int64

## .std()：標準差

In [40]:
#針對某個欄位算標準差
score_df.math_score.std()

20.854256160314133

In [41]:
#針對每一個欄位算標準差
score_df.std()

math_score       20.854256
english_score    15.418603
chinese_score    14.151953
dtype: float64

In [43]:
#針對每一個欄位算標準差
score_df.std(axis=0)

math_score       20.854256
english_score    15.418603
chinese_score    14.151953
dtype: float64

In [42]:
#針對每一筆資料算標準差
score_df.std(axis=1)

student_id
1     15.275252
2      7.637626
3     28.919428
4     11.269428
5     12.288206
6      6.557439
7     16.822604
8     12.423097
9     19.399313
10    26.888659
dtype: float64

## .var()：變異數

In [44]:
#針對某欄位取變異數
score_df.math_score.var()

434.9

In [45]:
#針對每一個欄位取變異數
score_df.var()

math_score       434.900000
english_score    237.733333
chinese_score    200.277778
dtype: float64

In [46]:
#針對每一個欄位取變異數
score_df.var(axis=0)

math_score       434.900000
english_score    237.733333
chinese_score    200.277778
dtype: float64

In [47]:
#針對每一筆資料取變異數
score_df.var(axis=1)

student_id
1     233.333333
2      58.333333
3     836.333333
4     127.000000
5     151.000000
6      43.000000
7     283.000000
8     154.333333
9     376.333333
10    723.000000
dtype: float64

## .corr()：相關係數

相關係數 : 皮爾遜積矩相關係數（Pearson product-moment correlation coefficient）用於度量兩個變數X和Y之間的相關程度（線性相依程度）。

相關係數的值介於 –1 與 +1 之間，即 –1≤r≤+1。其性質如下：

- 當 r>0 時，表示兩變數正相關
- r<0 時，兩變數為負相關，r=0 時，表示兩變數間無線性相關關係。

相關係數一般可按三級劃分：
- |r|<0.4 為低度線性相關
- 0.4≤|r|<0.7 為顯著性相關
- 0.7≤|r|<1為高度線性相關

In [49]:
#針對所有欄位取相關係數
score_df.corr()

Unnamed: 0,math_score,english_score,chinese_score
math_score,1.0,-0.532708,-0.314552
english_score,-0.532708,1.0,0.68234
chinese_score,-0.314552,0.68234,1.0


## .apply()：自訂義的行或列函式應用

In [54]:
#自定義 lambda x 為 x 開根號乘以 10
score_df.apply(lambda x : x**(0.5)*10)

Unnamed: 0_level_0,math_score,english_score,chinese_score
student_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,70.710678,89.442719,83.666003
2,77.459667,67.082039,70.710678
3,98.994949,65.574385,74.161985
4,83.666003,83.066239,94.339811
5,74.833148,88.881944,77.459667
6,77.459667,82.462113,74.161985
7,67.082039,83.666003,87.749644
8,74.161985,87.749644,87.177979
9,50.0,75.498344,77.459667
10,93.808315,63.245553,65.574385


### .apply() 也適用於其他統計函式

In [55]:
score_df.apply(sum, axis=0)

math_score       607
english_score    628
chinese_score    635
dtype: int64

In [56]:
score_df.sum()

math_score       607
english_score    628
chinese_score    635
dtype: int64