# 01.What is Pandas?
一個開源的Python第三方套件: 用於**數據分析, 數據處理, 數據可視化**
* 高性能
* 容易使用的數據結構
* 容易使用的數據分析工具

方便與其他套件一起使用
* **Numpy**: 用於數學計算
* **SciKit-Learn**: 用於機器學習

In [1]:
import pandas as pd
import numpy as np

# 02.Pandas資料結構
DataFrame & Series

## Series
Series是一種**"一維物件資料"**, 由一組資料(不同資料型態)以及一組與之相關的資料標籤(index, 索引)組成

### 僅有資料列表即可產生最簡單的Series

In [2]:
i = [1,2,3,4,5]

### 創建一個具有標籤所引的Series

In [5]:
pd.Series([1,2,3,4,5])
s1 = pd.Series(i,index=['a','f','c','d','e'])

### 使用Python的字典(Dictionary)創建Series

In [11]:
dic = {
    'a':1,
    'b':'a',
    'c':5.2,
    'd':57
}
s2 = pd.Series(dic)
s2

a      1
b      a
c    5.2
d     57
dtype: object

### 根據標籤索引查詢資料
類似Python的字典(dict)

In [14]:
s2[['a','b']]

a    1
b    a
dtype: object

## DataFrame
DataFrame是一個表格型的資料結構
* 每列可以是不同的資料型態 (數值, 字串, 布林值... 等)
* 既有索引(index), 也有標題(columns)
* 可以被看作由Series組成的字典


### 根據多個字典創建DataFrame

In [19]:
df = pd.DataFrame({
    'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
    'year':[2000,2001,2002,2003,2004],
    'pop':[1.5,1.7,3.6,2.4,2.9]
})

### 從DataFrame中查詢出Series
* 如果是只查詢一列, 回傳的是pd.Series
* 如果是查尋多行多列, 回傳的是pd.DataFrame

In [20]:
type(df['year'])

pandas.core.series.Series

In [21]:
df[['year','pop']]

Unnamed: 0,year,pop
0,2000,1.5
1,2001,1.7
2,2002,3.6
3,2003,2.4
4,2004,2.9


# 03.Pandas讀取檔案

## 讀取CSV
使用默認標題, 以逗號分隔

### 使用pd.read_csv讀取資料

In [23]:
df_csv = pd.read_csv('assets/C0K400-2022-03.csv')

### 資料修改

In [25]:
df_1 = df_csv.drop(0)

### 查看前幾行資料

In [26]:
df_1[:5]

Unnamed: 0,觀測時間(day),測站氣壓(hPa),海平面氣壓(hPa),測站最高氣壓(hPa),測站最高氣壓時間(LST),測站最低氣壓(hPa),測站最低氣壓時間(LST),氣溫(℃),最高氣溫(℃),最高氣溫時間(LST),...,最大六十分鐘降水量(mm),最大六十分鐘降水量起始時間(LST),日照時數(hour),日照率(%),全天空日射量(MJ/㎡),能見度(km),A型蒸發量(mm),日最高紫外線指數,日最高紫外線指數時間(LST),總雲量(0~10)
1,1,1010.0,...,1012.4,2022-03-01 08:35,1007.7,2022-03-01 15:55,22.5,28.6,2022-03-01 13:26,...,...,...,...,...,...,...,...,...,...,...
2,2,1010.0,...,1012.0,2022-03-02 09:21,1007.9,2022-03-02 15:05,21.6,26.6,2022-03-02 14:45,...,...,...,...,...,...,...,...,...,...,...
3,3,1009.4,...,1012.2,2022-03-03 09:26,1006.9,2022-03-03 15:16,21.2,28.5,2022-03-03 14:06,...,...,...,...,...,...,...,...,...,...,...
4,4,1007.4,...,1010.1,2022-03-04 09:15,1004.9,2022-03-04 16:22,22.5,28.4,2022-03-04 14:51,...,...,...,...,...,...,...,...,...,...,...
5,5,1006.6,...,1008.3,2022-03-05 10:04,1005.0,2022-03-05 15:50,22.0,26.5,2022-03-05 14:00,...,...,...,...,...,...,...,...,...,...,...


### 查看資料的形狀
返回(行數,列數)

### 查看標題

### 查看資料型態

### 查看索引

# 04.Pandas查詢資料
1. df.loc: 根據行列的標籤值查詢
2. df.iloc: 根據行列的位置查詢
3. df.where
4. df.query

In [44]:
df_csv.loc[4]

觀測時間(day)                           04
測站氣壓(hPa)                       1007.4
海平面氣壓(hPa)                         ...
測站最高氣壓(hPa)                     1010.1
測站最高氣壓時間(LST)         2022-03-04 09:15
測站最低氣壓(hPa)                     1004.9
測站最低氣壓時間(LST)         2022-03-04 16:22
氣溫(℃)                             22.5
最高氣溫(℃)                           28.4
最高氣溫時間(LST)           2022-03-04 14:51
最低氣溫(℃)                           18.4
最低氣溫時間(LST)           2022-03-04 07:01
露點溫度(℃)                            ...
相對溼度(%)                             73
最小相對溼度(%)                           45
最小相對溼度時間(LST)         2022-03-04 14:51
風速(m/s)                            0.8
風向(360degree)                       95
最大陣風(m/s)                          5.8
最大陣風風向(360degree)                  333
最大陣風風速時間(LST)         2022-03-04 16:34
降水量(mm)                            0.0
降水時數(hour)                         ...
最大十分鐘降水量(mm)                       ...
最大十分鐘降水量起始時間(LST)                  ...
最大六十分鐘降水量(mm)            

In [33]:
df_csv.iloc[5]

觀測時間(day)                           01
測站氣壓(hPa)                       1010.0
海平面氣壓(hPa)                         ...
測站最高氣壓(hPa)                     1012.4
測站最高氣壓時間(LST)         2022-03-01 08:35
測站最低氣壓(hPa)                     1007.7
測站最低氣壓時間(LST)         2022-03-01 15:55
氣溫(℃)                             22.5
最高氣溫(℃)                           28.6
最高氣溫時間(LST)           2022-03-01 13:26
最低氣溫(℃)                           17.1
最低氣溫時間(LST)           2022-03-01 02:36
露點溫度(℃)                            ...
相對溼度(%)                             69
最小相對溼度(%)                           46
最小相對溼度時間(LST)         2022-03-01 11:59
風速(m/s)                            1.1
風向(360degree)                        3
最大陣風(m/s)                          5.7
最大陣風風向(360degree)                    2
最大陣風風速時間(LST)         2022-03-01 16:13
降水量(mm)                            0.0
降水時數(hour)                         ...
最大十分鐘降水量(mm)                       ...
最大十分鐘降水量起始時間(LST)                  ...
最大六十分鐘降水量(mm)            

## df.loc 查詢方法
* 適用於行也適用於列
* 注意觀察降維的DataFrame -> Series -> Value

### 使用單個label的值查詢

### 使用值列批量查詢

### 使用區間進行範圍查詢

### 使用條件表達式查詢
* 使用布林列表 Boolean Series 作為條件表達式
* Boolean Series的長度得於行數或是列數

### 使用函式查詢

# 05.Pandas新增資料
在進行數據分析時, 經常需要按照一定條件創建新的數據資料, 然後進行下一步的分析

1. 直接賦值
2. df.appy
3. df.assign
4. 按照條件選擇分組來分別賦值

## 直接賦值的方法

## df.apply方法
Apply一個函數處理DataFrame的Column(axis=1) 或是 Row(axis=0)

## df.assign方法
Assign一個新的column到原本的DataFrame中



## 按照條件選擇分別賦值
按照條件先選擇數據, 然後對部分資料賦值

# 06.Pandas資料統計
* 匯總統計
* 唯一去重與按值計數
* 相關係數和與斜方差

## 匯總統計

### 平均: df.mean()

### 最大值: df.max()

### 最小值: df.min()

### 資料描述: df.describe()

## 唯一去重與按值計數

### 唯一去重
一般不用於數值列, 而是枚舉或分類列

### 按值計數

## 相關係數與斜方差
**用途**:
1. 兩支股票是不是同漲同跌? 程度多大? 正相關或負相關?
2. 產品銷量的波動, 跟那些因素正相關? 負相關? 程度多大?


### 相關係數 df.corr()
衡量相似程度
* 當相關係數為1時, 說明兩個變量變化時的正向相似度最大
* 當相關係數為-1時, 說明兩個變量變化時的反向相似度最大

### 協方差
衡量同/反方向程度
* 如果協方差為正: 說明X,Y同向變化, 協方差越大說明同向程度越高
* 如果協方查為負: 說明X,Y反向運動, 協方差越小說明反向程度越高



# 07.Pandas缺失值處理

* 檢測: isnull & notnull
* 丟棄: dropna
* 填充: fillna

## 讀取時略過前幾個行(Rows)

## 檢測空值 Null
檢測是否為空值, 可用於DataFrame和Series

### df.isnull()

### df.notnull()

## 丟棄空值 df.dropna()
* axis:刪除行row或是列column
    * row: 0 or 'index'
    * column: 1 or 'column'
* how:
    * 如果等於'any'則任何值為空都刪除
    * 如果等於'all'則所有值都為空才刪
* inplace:
    * 如果為True則修改當前DataFrame
    * 如果為False則返回新的DataFrame

### 刪除全是空值的columns

### 刪除全是空值的rows

## 填充空值 df.fillna()
將空值的cell填充
* value: 用於填充的值, 可以是單個值或是字典(key是column的名稱, value是值)
* method:
  * ffill: 使用前一個不為空的值填充, forword fill
  * bfill: 使用後一個不為空的值填充, backword fill
* axis: 按'行row'或'列column'進行填充
 * row: 0 or 'index'
 * column: 1 or 'columns'
* inplace:
  * 如果為True則修改當前的DataFrame
  * 如果為False則返回新的DataFrame


### 將空值的cell填充為0

# 08.Setting with Copy Warning

## **Setting with Copy Warning**
* 警報重現
* 警報原因
* 解決方案

## **警報重現**

## **警報原因**
df[condition]['溫差F'] = df['最高溫F'] - df['最低溫F']

相當於: **df.get(condition)**.set(溫差)

鏈是操作其實是兩個步驟, 先get後set, get得到的DataFrame可能是view也可能是copy

Pandas 的 DataFrame 修改只允許在原本的DataFrame上進行, 一步到位

## **解決方法 1**
將get+set的兩步操作, 改成set的一步操作

## **解決方法2**
如果需要預先猜選資料作為後續的處理分析, 使用copy來複製DataFrame

Pandas不允許先篩選subDataFrame再進行修改寫入
* 使用df.loc實現一個步驟直接修改原本的DataFrame
* 先複製一個subDataFrame再一個步驟執行修改

# 09.Pandas資料排序

## **Series的排序**
Series.sort_values(ascending=True, inplace=False)

**參數說明**
* ascending: 默認為True遞增排序, False為遞減排序
* inplace: 是否修改原始Series

## **DataFrame的排序**
DataFrame.sort_values(by, ascending=True, inplace=False)

**參數說明**
* by: 字串或List, 單列排序或多列排序
* ascending: bool或list, 默認為True遞增, False為遞減; 如果是list會對應by的多列排序順序
* inplcae: 是否修改原始DataFrame

### 單列排序

### 多列排序

# 10.Pandas字串處理

前面已經使用了字串的處理函數: df.str.replace()

**Pandas的字串處理**
1. 使用方法: 先獲取Series的str屬性,然後在屬性上調用函數
2. 只能在字串列上使用(object), 不能在數字列上使用
3. DataFrame上沒有str屬性和處理方法
4. Series.str不是Python原生字串,而是一套自己的方法(不過大部分和原生string很相似)

**Series.str 字串方法列表參考文件**

https://pandas.pydata.org/docs/reference/series.html#string-handling

## **獲取Series的str屬性** **bold text**
使用各種字串處理函數

## **Boolean查詢條件**
使用 str.startwith() , str.contains()得到布林值的Series作為查詢條件

## **需要多次str處理的鏈是操作**
怎樣提取202203這樣的數字月份
1. 先將日期2022-03-31替換成20220331的形式
2. 提取月份字串202203

## **使用正則表達式的處理**

**問題:** 怎麼將 "2022年03月31日"中的年,月,日三個中文字串去除?

Series.str默認就開啟了政則表達式模式

# 11.Pandas的axis參數

* **axis=0 或 'index'**
  * 如果是單個row操作, 就指的是某一個row
  * 如果是聚合操作, 指的是cross rows

* **axis=1 或 'columns'**
  * 如果是單個column操作, 就指的是某一個column
  * 如果是聚合操作, 指的是cross columns

**按哪個axis, 就是這個axis要動起來, 其他的axis保持不動**


## **單個column drop**
就是刪除某一個column

## **單個row drop**
就是刪除某一個row就是刪除某一個row

## **按axis=0/'index'執行mean聚合操作**

**按哪個axis, 就是這個axis要動起來, 其他的axis保持不動**

類似for loop的概念

## **按axis=1/'columns'執行mean聚合操作**

**按哪個axis, 就是這個axis要動起來, 其他的axis保持不動**

類似for loop的概念

## **加深理解**