## pandas 簡介

pandas是一個以python程式語言為基礎的開源軟體，主要用於資料分析，提供高效能、容易操作的資料結構。pandas不僅提供資料角力與準備，也可支援資料分析與建模。pandas可與統計分析(statsmodels)與機器學習(scikit-learn)軟體結合，提供廣泛的資料分析、資料探勘、機器學習、甚至人工智慧的應用。

pandas吸引人之處包括

* 快速有效率處理資料運作，如整合索引，「資料框」(dataframe)物件。
* 資料結構與不同的格式間，如CSV與文字檔、微軟Excel、SQL資料庫、及快速HDF5，的資料讀寫工具。
* 智慧型的資料對齊(data alignment)及遺失資料(missing data)整合處理；計算處理中自動標籤為主的對齊，以及將雜亂的資料整理成有次序的形式。
* 彈性地重新塑造資料維度(reshape)及資料集的樞紐分析(pivot)。
* 聰明的標籤為主的巨大資料集分割(slicing)、索引(indexing)、及建立子集(subsetting)。
* 資料結構欄位插入或刪除以獲取資料集大小可變性(size mutability)。
* 提供 group by 功能允許資料集的「分割合併」(split-apply-combine)運作，如彙總(aggregating)與轉化(transforming)資料。
* 高效能資料集合併與連結。
* 階層式軸向索引(Hierarchical axis indexing)提供直覺方式以低維度資料結構處理高維度資料。
* 時間序列功能；資料範圍產生與頻率轉換，移動視窗統計，移動視窗線性規劃，日期移動與滯後。建立特定領域的時間偏移並加入時間序列，而不會遺失數據；
* 使用Cython或C語言的核心模組提供高度效能最佳化。
* pandas的應用涵蓋學術及商用領域，包含財務分析、神經科學、經濟、統計、廣告、網頁分析...等。

## Pandas核心資料結構

>  **Series**
> 稱之為**序列**(series)，可視為一種「一維陣列」資料結構。在 pandas 中為 `<class 'pandas.core.series.Series'>`物件類別。序列資料內容包含資料項及索引項(index)。

> **DataFrame**
> 稱之為**資料框**(DataFrame)，可視為一種「資料表」資料結構。在 pandas 中為 `<class 'pandas.core.frame.DataFrame'>`物件類別。資料框資料包含資料項、索引項、及屬性欄位。資料框是一種列、行型態的資料，每一列代表一筆資料，包含列索引值，每一行代表一種資料屬性，包含欄位名稱索引。資料框也可視為一種矩陣型式，可經由矩陣索引，如 `[m, n]`方式辨識資料。

## 導入Pandas模組

使用pandas進行資料處理與分析時，必須先導入 pandas 模組，`import pandas`

In [46]:
import pandas as pd #導入pandas模組，並設定縮寫代名以利後續使用方便

## 建立資料

### 1.建立序列資料

In [20]:
#以 python list 建立 pandas Series
l1 = [1, 2, 3, 4, 5]
s1 = pd.Series(l1)
print(s1)
print(type(s1))

0    1
1    2
2    3
3    4
4    5
dtype: int64
<class 'pandas.core.series.Series'>


以上執行結果可知，由pd.Series方法建立完成一維序列資料(class 'pandas.core.series.Series)，資料型別內建為`int64`，資料列索引預設為0至4。可以利用 s1.index 設定索引值，如 `s1.index = "abcde"`

In [21]:
s1.index = ['a', 'b', 'c', 'd', 'e']
print(s1) #注意序列 s1 的列索引變化。

a    1
b    2
c    3
d    4
e    5
dtype: int64


也可以利用時間序列函數產生日期資料作為 s1 的列索引值，如 `pd.data_range('20200114', periods=5)`

In [22]:
s1.index = pd.date_range('20200114', periods=5)
print(s1) #注意序列 s1 的列索引變化。

2020-01-14    1
2020-01-15    2
2020-01-16    3
2020-01-17    4
2020-01-18    5
Freq: D, dtype: int64


### 2.建立資料框資料

#### 以numpy的隨機函數產生一個矩陣

In [2]:
import pandas as pd
import numpy as np
m = np.random.randn(6,4) #產生6x4矩陣亂數，亂數符合normal dist (0,1)
print(m)

[[-0.99457375  1.24774556 -0.20057281 -2.58992327]
 [-0.34750673 -1.57501264 -1.04797903  0.94347474]
 [-0.68858946  1.35263164  1.00113962 -0.65178533]
 [-0.87741953  1.30379548 -0.3292226  -3.28565624]
 [ 1.54364349  0.62462294  0.4268162  -0.211626  ]
 [ 0.74317759 -1.49980476  1.42477943  1.02845832]]


In [13]:
#利用DataFrame函數產生6x4資料框
df = pd.DataFrame(m)
print(df)
print(type(df))

          0         1         2         3
0  2.173430 -0.044919 -0.945484 -0.135298
1 -0.376395 -0.281409  0.390295  1.892100
2 -1.492734 -0.233241 -1.561134  0.155534
3  2.401358 -2.846531 -1.007822  0.619914
4 -1.401210 -0.067333 -1.373007 -0.007015
5 -0.162764  0.908664 -0.033261  2.425267
<class 'pandas.core.frame.DataFrame'>


以上由pd.DataFrame方法建立完成產生一個6列4行的資料框(df)，index預設為0-5，columns(欄位名稱)預設為0-3，df 為 `pandas.core.frame.DataFrame`物件類別。可以經由index及columns屬性重新設定列編號及欄位名稱。

In [24]:
df = pd.DataFrame(m, index=pd.date_range("20200101", periods=6), columns=list('ABCD'))
print(df)

                   A         B         C         D
2020-01-01 -0.754162  0.179576 -0.407870 -0.981600
2020-01-02 -0.017086 -1.659598  1.618270  0.719040
2020-01-03 -0.457965  2.022921 -0.068882  0.021272
2020-01-04  0.592873  1.473515 -0.168522 -0.018108
2020-01-05  0.201340 -1.274083 -0.853631  0.536968
2020-01-06  1.325419 -0.887413  0.850980  0.319508


經由index及columns屬性重新設定，df的index變為 "20200101" 至 "20200106"，欄位名稱變為 A, B, C, D。

#### 以python字典結構建立資料況

python字典結構是以key:valu方式定義字典元素，如`{"love":4, "happy":5, "beautiful":9}`。在資料框結構中，可以`"欄位": 資料`的方式定義資料框的每一欄(行)，如

``` python

data = {
    'A': 1.,
    'B':  pd.Timestamp('20180316'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(["test","train", "test", "train"]),
    'F': 'foo'
}

```

In [3]:
data = {
    'A': 1.,
    'B': pd.Timestamp('20180316'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(["test","train", "test", "train"]),
    'F': 'foo'
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-03-16,1.0,3,test,foo
1,1.0,2018-03-16,1.0,3,train,foo
2,1.0,2018-03-16,1.0,3,test,foo
3,1.0,2018-03-16,1.0,3,train,foo


注意每一欄資料的數量必須一致。

以下例子運用python中的dict，zip函數來建立

In [5]:
import pandas as pd
cities = ['Austin', 'Dallas', 'Austin', 'Dallas']
signups = [7, 12, 3, 5]
visitors = [139, 237, 326, 456]
weekdays = ['sun', 'sun', 'mon', 'mon']
list_labels = ['city', 'signups', 'visitors', 'weekday']
list_cols = [cities, signups, visitors, weekdays]
zipped = zip(list_labels, list_cols) #將二個串列連結
data1 = dict(zipped) #將zip物件轉換維字典結構
users1 = pd.DataFrame(data1) #將字典結構轉換為資料框
users1

Unnamed: 0,city,signups,visitors,weekday
0,Austin,7,139,sun
1,Dallas,12,237,sun
2,Austin,3,326,mon
3,Dallas,5,456,mon


#### 讀取檔案建立資料

**1.讀取CSV檔案資料建立資料框**

In [12]:
df1 = pd.read_csv("data/persons.csv")
df1

Unnamed: 0,name,age,gender,salary
0,Chung,55,M,30000
1,Lee,45,M,54000
2,Huang,60,F,36000
3,Hu,27,F,48000
4,Shen,36,M,66000


**2.讀取Excel檔案資料建立資料框**

In [5]:
df2 = pd.read_excel("data/personxls.xlsx", sheet_name="persons", index_col="id")
df2

Unnamed: 0_level_0,name,age,gender,salary
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
p001,Chung,55,M,30000
p002,Lee,45,M,54000
p003,Huang,60,F,36000
p004,Hu,27,F,48000
p005,Shen,36,M,66000


## 資料屬性

* ndim : 資料維度數量
* shape : 資料維度
* size : 資料數量

In [10]:
import pandas as pd
d1 = pd.Series([1, 2, 3, 4]) #d1為序列資料
print(d1.ndim) #d1為一為向量資料
print(d1.shape) #d1的維度 (4, )
print(d1.size) #d1的資料數量4

1
(4,)
4


In [6]:
df2 = pd.read_excel("data/personxls.xlsx", sheet_name="persons", index_col="id") #df2由personxls.xlsx讀入的資料
print(df2.ndim) #df2為2維資料
print(df2.shape) #df2的維度(5x4)
print(df2.size) #df2的資料數量為20
print(df2.index)
print(df2.columns)

2
(5, 4)
20
Index(['p001', 'p002', 'p003', 'p004', 'p005'], dtype='object', name='id')
Index(['name', 'age', 'gender', 'salary'], dtype='object')


## 資料操作

### 資料觀察與概述

`DataFrame.info()`方法用來讀取資料框的項目資料，內容包括資料物件的類別，如`<class 'pandas.core.frame.DataFrame'>`表示資料框類別，Index表示資料列數量及編號，欄位數量，以及各個欄位名稱與資料型別，age欄位的型別為int64。另外，也顯示使用的記憶體數量。

In [7]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, p001 to p005
Data columns (total 4 columns):
name      5 non-null object
age       5 non-null int64
gender    5 non-null object
salary    5 non-null int64
dtypes: int64(2), object(2)
memory usage: 200.0+ bytes


`DataFrame.head(n)`方法可用來讀取前n筆資料，可以看到資料的初始樣貌。另`.tail(n)`則可讀取資料的倒數n筆資料。

In [8]:
df2.head(3) #tail()

Unnamed: 0_level_0,name,age,gender,salary
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
p003,Huang,60,F,36000
p004,Hu,27,F,48000
p005,Shen,36,M,66000


### 資料選擇、切割、搜尋

分析資料時，經常需要由資料集中選取某些資料，或將資料切割成子集再處理，以下介紹一些選取切割資料的方法。先讀取`iris.csv`資料。

In [13]:
import pandas as pd
df = pd.read_csv("data/iris.csv")
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
Id               150 non-null int64
SepalLengthCm    150 non-null float64
SepalWidthCm     150 non-null float64
PetalLengthCm    150 non-null float64
PetalWidthCm     150 non-null float64
Species          150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


鳶尾花資料集包含6個屬性欄位，分別為id(編號)，SepalLengthCm(萼片長度)，SepalWidthCm(萼片寬度)，PetalLengthCm(花瓣長度)，PetalWidthCm(花瓣寬度)，Species(種類)。id的資料型別為int64，Species的資料型別為object，其餘為float64。資料總共有150筆，占用7.2+ KB記憶體容量。

可以利用id欄位作為資料的列索引值。

In [18]:
df.index = df['Id']
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 150 entries, 1 to 150
Data columns (total 6 columns):
Id               150 non-null int64
SepalLengthCm    150 non-null float64
SepalWidthCm     150 non-null float64
PetalLengthCm    150 non-null float64
PetalWidthCm     150 non-null float64
Species          150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 8.2+ KB


Unnamed: 0_level_0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1,5.1,3.5,1.4,0.2,Iris-setosa
2,2,4.9,3.0,1.4,0.2,Iris-setosa
3,3,4.7,3.2,1.3,0.2,Iris-setosa
4,4,4.6,3.1,1.5,0.2,Iris-setosa
5,5,5.0,3.6,1.4,0.2,Iris-setosa


`df['SpedalLength']`可用來讀取**SpedalLength**欄位的資料。

In [22]:
df['SepalLengthCm'] #df.SepalLength有同樣結果

Id
1      5.1
2      4.9
3      4.7
4      4.6
5      5.0
      ... 
146    6.7
147    6.3
148    6.5
149    6.2
150    5.9
Name: SepalLengthCm, Length: 150, dtype: float64

`df[m:n]`用來讀取m到n-1列的資料，m，n代表資料原始列索引值。

In [36]:
df[2:7] #讀取2至6筆的資料

Unnamed: 0_level_0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3,3,4.7,3.2,1.3,0.2,Iris-setosa
4,4,4.6,3.1,1.5,0.2,Iris-setosa
5,5,5.0,3.6,1.4,0.2,Iris-setosa
6,6,5.4,3.9,1.7,0.4,Iris-setosa
7,7,4.6,3.4,1.4,0.3,Iris-setosa


利用`.loc`方法讀取資料。`.loc`是以列編號或欄位名稱來選取資料。

In [44]:
df.loc[2]#選取列編號2的資料

Id                         2
SepalLengthCm            4.9
SepalWidthCm               3
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 2, dtype: object

In [53]:
df.loc[2:7] #選取列編號2至7的資料

Unnamed: 0_level_0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,2,4.9,3.0,1.4,0.2,Iris-setosa
3,3,4.7,3.2,1.3,0.2,Iris-setosa
4,4,4.6,3.1,1.5,0.2,Iris-setosa
5,5,5.0,3.6,1.4,0.2,Iris-setosa
6,6,5.4,3.9,1.7,0.4,Iris-setosa
7,7,4.6,3.4,1.4,0.3,Iris-setosa


In [54]:
df.loc[2:7, ['SepalLengthCm','PetalLengthCm','Species']]

Unnamed: 0_level_0,SepalLengthCm,PetalLengthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,4.9,1.4,Iris-setosa
3,4.7,1.3,Iris-setosa
4,4.6,1.5,Iris-setosa
5,5.0,1.4,Iris-setosa
6,5.4,1.7,Iris-setosa
7,4.6,1.4,Iris-setosa


利用`.iloc`方法讀取資料。`.iloc`是以列或欄的索引位置來選取資料。

In [51]:
df.iloc[1] #選取列索引值1的單筆資料

Id                         2
SepalLengthCm            4.9
SepalWidthCm               3
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 2, dtype: object

In [52]:
df.iloc[2:7] #選取列索引值2至6的資料

Unnamed: 0_level_0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3,3,4.7,3.2,1.3,0.2,Iris-setosa
4,4,4.6,3.1,1.5,0.2,Iris-setosa
5,5,5.0,3.6,1.4,0.2,Iris-setosa
6,6,5.4,3.9,1.7,0.4,Iris-setosa
7,7,4.6,3.4,1.4,0.3,Iris-setosa


In [56]:
df.iloc[2:7, [1,3,5]] #選取列索引值2至6，且1, 3, 5欄的資料

Unnamed: 0_level_0,SepalLengthCm,PetalLengthCm,Species
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,4.7,1.3,Iris-setosa
4,4.6,1.5,Iris-setosa
5,5.0,1.4,Iris-setosa
6,5.4,1.7,Iris-setosa
7,4.6,1.4,Iris-setosa


### 資料分群

### 資料合併與結合

### 統計運算

In [23]:
df2.describe()

Unnamed: 0,age,salary
count,5.0,5.0
mean,44.6,46800.0
std,13.501852,14324.803664
min,27.0,30000.0
25%,36.0,36000.0
50%,45.0,48000.0
75%,55.0,54000.0
max,60.0,66000.0


### 資料排序