## pandas 簡介

pandas是一個以python程式語言為基礎的開源軟體，主要用於資料分析，提供高效能、容易操作的資料結構。pandas不僅提供資料角力與準備，也可支援資料分析與建模。pandas可與統計分析(statsmodels)與機器學習(scikit-learn)軟體結合，提供廣泛的資料分析、資料探勘、機器學習、甚至人工智慧的應用。

pandas吸引人之處包括

* 快速有效率處理資料運作，如整合索引，「資料框」(dataframe)物件。
* 資料結構與不同的格式間，如CSV與文字檔、微軟Excel、SQL資料庫、及快速HDF5，的資料讀寫工具。
* 智慧型的資料對齊(data alignment)及遺失資料(missing data)整合處理；計算處理中自動標籤為主的對齊，以及將雜亂的資料整理成有次序的形式。
* 彈性地重新塑造資料維度(reshape)及資料集的樞紐分析(pivot)。
* 聰明的標籤為主的巨大資料集分割(slicing)、索引(indexing)、及建立子集(subsetting)。
* 資料結構欄位插入或刪除以獲取資料集大小可變性(size mutability)。
* 提供 group by 功能允許資料集的「分割合併」(split-apply-combine)運作，如彙總(aggregating)與轉化(transforming)資料。
* 高效能資料集合併與連結。
* 階層式軸向索引(Hierarchical axis indexing)提供直覺方式以低維度資料結構處理高維度資料。
* 時間序列功能；資料範圍產生與頻率轉換，移動視窗統計，移動視窗線性規劃，日期移動與滯後。建立特定領域的時間偏移並加入時間序列，而不會遺失數據；
* 使用Cython或C語言的核心模組提供高度效能最佳化。
* pandas的應用涵蓋學術及商用領域，包含財務分析、神經科學、經濟、統計、廣告、網頁分析...等。

## Pandas核心資料結構

>  **Series**
> 稱之為**序列**(series)，可視為一種「一維陣列」資料結構。在 pandas 中為 `<class 'pandas.core.series.Series'>`物件類別。序列資料內容包含資料項及索引項(index)。

> **DataFrame**
> 稱之為**資料框**(DataFrame)，可視為一種「資料表」資料結構。在 pandas 中為 `<class 'pandas.core.frame.DataFrame'>`物件類別。資料框資料包含資料項、索引項、及屬性欄位。資料框是一種列、行型態的資料，每一列代表一筆資料，包含列索引值，每一行代表一種資料屬性，包含欄位名稱索引。資料框也可視為一種矩陣型式，可經由矩陣索引，如 `[m, n]`方式辨識資料。

## 導入Pandas模組

使用pandas進行資料處理與分析時，必須先導入 pandas 模組，`import pandas`

In [46]:
import pandas as pd #導入pandas模組，並設定縮寫代名以利後續使用方便

## 建立資料

### 1.建立序列資料

In [20]:
#以 python list 建立 pandas Series
l1 = [1, 2, 3, 4, 5]
s1 = pd.Series(l1)
print(s1)
print(type(s1))

0    1
1    2
2    3
3    4
4    5
dtype: int64
<class 'pandas.core.series.Series'>


以上執行結果可知，由pd.Series方法建立完成一維序列資料(class 'pandas.core.series.Series)，資料型別內建為`int64`，資料列索引預設為0至4。可以利用 s1.index 設定索引值，如 `s1.index = "abcde"`

In [21]:
s1.index = ['a', 'b', 'c', 'd', 'e']
print(s1) #注意序列 s1 的列索引變化。

a    1
b    2
c    3
d    4
e    5
dtype: int64


也可以利用時間序列函數產生日期資料作為 s1 的列索引值，如 `pd.data_range('20200114', periods=5)`

In [22]:
s1.index = pd.date_range('20200114', periods=5)
print(s1) #注意序列 s1 的列索引變化。

2020-01-14    1
2020-01-15    2
2020-01-16    3
2020-01-17    4
2020-01-18    5
Freq: D, dtype: int64


### 2.建立資料框資料

#### 以numpy的隨機函數產生一個矩陣

In [None]:
import pandas as pd
import numpy as np
m = np.random.randn(6,4) #產生6x4矩陣亂數，亂數符合normal dist (0,1)
print(m)

In [13]:
#利用DataFrame函數產生6x4資料框
df = pd.DataFrame(m)
print(df)
print(type(df))

          0         1         2         3
0  2.173430 -0.044919 -0.945484 -0.135298
1 -0.376395 -0.281409  0.390295  1.892100
2 -1.492734 -0.233241 -1.561134  0.155534
3  2.401358 -2.846531 -1.007822  0.619914
4 -1.401210 -0.067333 -1.373007 -0.007015
5 -0.162764  0.908664 -0.033261  2.425267
<class 'pandas.core.frame.DataFrame'>


以上由pd.DataFrame方法建立完成產生一個6列4行的資料框(df)，index預設為0-5，columns(欄位名稱)預設為0-3，df 為 `pandas.core.frame.DataFrame`物件類別。可以經由index及columns屬性重新設定列編號及欄位名稱。

In [24]:
df = pd.DataFrame(m, index=pd.date_range("20200101", periods=6), columns=list('ABCD'))
print(df)

                   A         B         C         D
2020-01-01 -0.754162  0.179576 -0.407870 -0.981600
2020-01-02 -0.017086 -1.659598  1.618270  0.719040
2020-01-03 -0.457965  2.022921 -0.068882  0.021272
2020-01-04  0.592873  1.473515 -0.168522 -0.018108
2020-01-05  0.201340 -1.274083 -0.853631  0.536968
2020-01-06  1.325419 -0.887413  0.850980  0.319508


經由index及columns屬性重新設定，df的index變為 "20200101" 至 "20200106"，欄位名稱變為 A, B, C, D。

#### 以python字典結構建立資料況

python字典結構是以key:valu方式定義字典元素，如`{"love":4, "happy":5, "beautiful":9}`。在資料框結構中，可以`"欄位": 資料`的方式定義資料框的每一欄(行)，如

``` python

data = {
    "A": 1.,
    "B":  pd.Timestamp('20180316'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(["test","train", "test", "train"]),
    'F': 'foo'
}

```

In [29]:
data = {
    "A": 1.,
    "B":  pd.Timestamp('20180316'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(["test","train", "test", "train"]),
    'F': 'foo'
}
df = pd.DataFrame(data)
print(df)

     A          B    C  D      E    F
0  1.0 2018-03-16  1.0  3   test  foo
1  1.0 2018-03-16  1.0  3  train  foo
2  1.0 2018-03-16  1.0  3   test  foo
3  1.0 2018-03-16  1.0  3  train  foo


注意每一欄資料的數量必須一致。

#### 讀取檔案建立資料

**1.讀取CSV檔案資料建立資料框**

In [41]:
df1 = pd.read_csv("data/persons.csv")
df1

Unnamed: 0,name,age,gender,salary
0,Chung,55,M,30000
1,Lee,45,M,54000
2,Huang,60,F,36000
3,Hu,27,F,48000
4,Shen,36,M,66000


**2.讀取Excel檔案資料建立資料框**

In [42]:
df2 = pd.read_excel("data/personxls.xlsx", sheet_name="persons", index_col="id")
df2

Unnamed: 0_level_0,name,age,gender,salary
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
p001,Chung,55,M,30000
p002,Lee,45,M,54000
p003,Huang,60,F,36000
p004,Hu,27,F,48000
p005,Shen,36,M,66000


## 資料框屬性

In [45]:
df2.ndim

2