<img width=150 src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/200px-NumPy_logo.svg.png"></img>

* 教學目標：
  * 知道如何使用 DataFrame 中的運算
  * 了解 DataFrame 運算的特性
  * 知道 DataFrame 中統計與字串的操作
  * 認識類別資料
  * 實做缺值處理方法與應用函式
* 範例重點：
  * 類別資料，有分順序型與一般型，使用的編碼方式不同
  * 缺失值有很多處理方式，在這邊簡單介紹2種常見的方式

In [1]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from '/Users/wei/.virtualenvs/py3/lib/python3.6/site-packages/numpy/__init__.py'>
1.16.1
<module 'pandas' from '/Users/wei/.virtualenvs/py3/lib/python3.6/site-packages/pandas/__init__.py'>
0.23.1


# 【基礎11】

### 相同欄位的算術運算：
* 在 DataFrame 的算術運算也有「對齊」的特性

In [2]:
df1 = pd.DataFrame([[1, 2, 3]])
df2 = pd.DataFrame([[1, 1, 1]])

print(df1 + df2)
print(df1 - df2)
print(df1 * df2)
print(df1 / df2)

   0  1  2
0  2  3  4
   0  1  2
0  0  1  2
   0  1  2
0  1  2  3
     0    1    2
0  1.0  2.0  3.0


### 不同欄位的算術運算
* 在 DataFrame 的「對齊」的特性很嚴格，欄位對不上會產生錯誤的結果

In [3]:
df1 = pd.DataFrame([[1, 2, 3]], columns=['a', 'b', 'c'])
df2 = pd.DataFrame([[1, 1, 1]], columns=['c', 'd', 'e'])

print(df1 + df2)

    a   b  c   d   e
0 NaN NaN  4 NaN NaN


* 補充：NaN 是 Not a Number 的縮寫，在程式中泛指無法定義的數值

### DataFrame 也有廣播的特性

In [4]:
df1 = pd.DataFrame([[1, 2, 3]])

print(df1 + 1)


   0  1  2
0  2  3  4


### DataFrame 和 Array 有點不一樣
* 在 DataFrame 的「廣播」的特性也比較嚴格，只有支援常數的廣播

In [7]:
df = pd.DataFrame([[1, 2, 3]])

print(df + 1)
print('=='*10)
print(df + pd.DataFrame([1]))

   0  1  2
0  2  3  4
   0   1   2
0  2 NaN NaN


In [8]:
a = np.array([[1, 2, 3]])

print(a + 1)
print('=='*10)
print(a + np.array([1]))

[[2 3 4]]
[[2 3 4]]


### DataFrame 也有遮罩運算
* DataFrame 也有沿用遮罩的特性，也可以用來做資料篩選

In [10]:
print(df > 2)
print('=='*10)
print(df[df > 2])

       0      1     2
0  False  False  True
    0   1  2
0 NaN NaN  3


In [11]:
print(df['A'] > 2)
# a    False
# b     True
# Name: A, dtype: bool

print(df[df['A'] > 2])
#    A  B  C
# b  4  5  6

KeyError: 'A'

### DataFrame 中的排序

In [15]:
df = pd.DataFrame({
    'col1': ['A', 'a', 'B', 'B', 'B', 'b'],
    'col2': [2, 1, 2, 3, 1, 8],
})

df.sort_values(by=['col1'])

Unnamed: 0,col1,col2
0,A,2
2,B,2
3,B,3
4,B,1
1,a,1
5,b,8


In [16]:
df.sort_values(by=['col1', 'col2'])

Unnamed: 0,col1,col2
0,A,2
4,B,1
2,B,2
3,B,3
1,a,1
5,b,8


In [17]:
df.sort_values(by='col2', ascending=False)

Unnamed: 0,col1,col2
5,b,8
3,B,3
0,A,2
2,B,2
1,a,1
4,B,1


| df.count() | 非空元素計算 | df.mode() | 眾數 |
|------------|:-----------:|:---------:|:----:|
| df.min() | 最小值 | df.var() | 方差 |
| df.max() | 最大值 | df.std() | 標準差 |
| df.idxmin() | 最小值的位置 | df.mad() | 平均絕對偏差 |
| df.idxmax() | 最大值的位置 | df.skew() | 偏度 |
| df.quantile(0,1) | 10%分位數 | df.kurt() | 峰度 |
| df.sum() | 求和 | df.describe() | 一次性輸出多個描述性統計指標|
| df.mean() | 均值 |||

### DataFrame 的字串方法
* df.str.findall() ：對所有欄位的文字進行 re.findall()
* df.str.replace() ：對所有欄位的文字進行取代
* df.str.contains() ：對所有欄位的文字進行包含子字串的檢查
* df.str.count() ：對所有欄位的文字進行計數操作
* df.str.split() ：對所有欄位的文字進行分割操作

# 【進階11-1】

In [None]:
score_df = pd.DataFrame([[1,50,80,70], 
              [2,60,45,50],
              [3,98,43,55],
              [4,70,69,89],
              [5,56,79,60],
              [6,60,68,55],
              [7,45,70,77],
              [8,55,77,76],
              [9,25,57,60],
              [10,88,40,43]],columns=['student_id','math_score','english_score','chinese_score'])
score_df = score_df.set_index('student_id')
score_df

Unnamed: 0_level_0,math_score,english_score,chinese_score
student_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,50,80,70
2,60,45,50
3,98,43,55
4,70,69,89
5,56,79,60
6,60,68,55
7,45,70,77
8,55,77,76
9,25,57,60
10,88,40,43


In [None]:
#指定欄位算平均
score_df.math_score.mean()

60.7

In [None]:
#全欄位算平均
score_df.mean()

math_score       60.7
english_score    62.8
chinese_score    63.5
dtype: float64

In [None]:
#全欄位算平均
score_df.mean()

math_score       60.7
english_score    62.8
chinese_score    63.5
dtype: float64

In [None]:
#學生3科總分數
score_df.sum(axis=1)

student_id
1     200
2     155
3     196
4     228
5     195
6     183
7     192
8     208
9     142
10    171
dtype: int64

In [None]:
#本次各科考試人數
score_df.count()

math_score       10
english_score    10
chinese_score    10
dtype: int64

In [None]:
#各科中位數分佈
score_df.median()

math_score       58.0
english_score    68.5
chinese_score    60.0
dtype: float64

In [None]:
#各科百分位數分佈(75%)
score_df.quantile(0.75)

math_score       67.50
english_score    75.25
chinese_score    74.50
Name: 0.75, dtype: float64

In [None]:
#各科最大值
score_df.max()

math_score       98
english_score    80
chinese_score    89
dtype: int64

In [None]:
#各科最小值
score_df.min()

math_score       25
english_score    40
chinese_score    43
dtype: int64

In [None]:
#各科百分位數分佈(75%)
score_df.quantile(0.75)

math_score       67.50
english_score    75.25
chinese_score    74.50
Name: 0.75, dtype: float64

In [None]:
#各科標準差
score_df.std()

math_score       20.854256
english_score    15.418603
chinese_score    14.151953
dtype: float64

In [None]:
#各科變異數
score_df.var()

math_score       434.900000
english_score    237.733333
chinese_score    200.277778
dtype: float64

In [None]:
#各科之間的相關係數
score_df.corr()

Unnamed: 0,math_score,english_score,chinese_score
math_score,1.0,-0.532708,-0.314552
english_score,-0.532708,1.0,0.68234
chinese_score,-0.314552,0.68234,1.0


In [None]:
#各科開根號乘以十
score_df.apply(lambda x : x**(0.5)*10)

Unnamed: 0_level_0,math_score,english_score,chinese_score
student_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,70.710678,89.442719,83.666003
2,77.459667,67.082039,70.710678
3,98.994949,65.574385,74.161985
4,83.666003,83.066239,94.339811
5,74.833148,88.881944,77.459667
6,77.459667,82.462113,74.161985
7,67.082039,83.666003,87.749644
8,74.161985,87.749644,87.177979
9,50.0,75.498344,77.459667
10,93.808315,63.245553,65.574385


In [None]:
#各科加總apply
score_df.apply(sum,axis=1)

student_id
1     200
2     155
3     196
4     228
5     195
6     183
7     192
8     208
9     142
10    171
dtype: int64

In [None]:
#各科加總apply
score_df.apply(sum,axis=1)

student_id
1     200
2     155
3     196
4     228
5     195
6     183
7     192
8     208
9     142
10    171
dtype: int64

# 【進階11-2】

In [None]:
df = pd.DataFrame([['green', 'M', 'male', 'short'],
          ['red', 'L', 'female', 'normal'],
          ['blue', 'XL', 'male', 'long']])
df.columns =['color', 'size', 'sex', 'lenght']
df

Unnamed: 0,color,size,sex,lenght
0,green,M,male,short
1,red,L,female,normal
2,blue,XL,male,long


In [None]:
#順序性類別資料，編碼也需要有順序性，將類別資料依序編碼由0到n-1，其中n為類別總數，因此類別之間會有順序關係0<1<2<….
from sklearn.preprocessing import LabelEncoder
df['size_label'] = LabelEncoder().fit_transform(df['size'].values)
df

Unnamed: 0,color,size,sex,lenght,size_label
0,green,M,male,short,1
1,red,L,female,normal,0
2,blue,XL,male,long,2


In [None]:
#排序依照python內建順序，可以藉由ord()查看內建順序
ord('L'),ord('M')

(76, 77)

In [None]:
#get_dummies()把資料表中的每個類別 對應的欄位，經過One-hot Encoding(一位有效編碼)
#One-hot Encoding(一位有效編碼) 是沒有順序性的編碼
pf = pd.get_dummies(df[['color']])
df = pd.concat([df, pf], axis=1)
df

Unnamed: 0,color,size,sex,lenght,size_label,color_blue,color_green,color_red
0,green,M,male,short,1,0,1,0
1,red,L,female,normal,0,0,0,1
2,blue,XL,male,long,2,1,0,0


In [None]:
temp_data = pd.DataFrame([['2020-11-01', 24.8], 
              ['2020-11-02', 24.8],
              ['2020-11-03', None],
              ['2020-11-04', 25]],columns=['date','current_temp'])
temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


In [None]:
#以0填補
temp_data.fillna(0)

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,0.0
3,2020-11-04,25.0


In [None]:
#以該欄位所有資料的算術平均數做填補
temp_data.fillna(temp_data.current_temp.mean())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.866667
3,2020-11-04,25.0


In [None]:
#以該欄位所有資料的中位數做填補
temp_data.fillna(temp_data.current_temp.median())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


In [None]:
#運用參數method=‘ffill’即可填補前一列數值
temp_data.fillna(method='ffill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


In [None]:
#method=‘bfill’填補後一列數值
temp_data.fillna(method='bfill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,25.0
3,2020-11-04,25.0


In [None]:
#內差法補值
temp_data.interpolate()

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.9
3,2020-11-04,25.0
