# 認識PANDAS

* `Pandas`套件簡介 

    ![](pic1.png)
    - 名稱是源於`"Python and data analysis"` and `"panel data"`字首的縮寫，`Pandas` 完整包含`NumPy`、`Scipy`和`Matplotlab`套件的功能

    - 目的是幫助開發者能夠有效率的對資料進行篩選及分析，提供了快速、靈活、明確 的資料結構，旨在簡單、直觀地處理關係型、標記型資料。 

    - `Pandas`套件是資料處理和分析工具，可以將`Pandas`套件視為是一套`Python`程式版 的`Excel`試算表工具，透過`Python`程式碼針對表格資料執行試算表的功能。 能夠快速地進行對資料的前處理，例如缺失值、異質，進行取代或刪除 能夠從檔案中讀取資料，在整理好後，也能進行輸出

##　`PANDAS`的資料結構 
* `Pandas`主要有兩種資料結構`Series`和`DataFrame`，如下圖所示：

![](pic2.png)



## SERIES物件 
* 因為`Pandas`套件關於資料處理和分析的重點是`DataFrame`物件，所以本 章只準備簡單說明`Series`物件的使用 
* 在`Python`程式首先需要匯入`Pandas`套件的別名`pd`，如下所示：

In [1]:
import pandas as pd

* 建立`Series`物件 
    - `Series`物件可以使用`Python`清單來建立，使用的是`Series()`方法，參數是`Python` 清單，如下所示：

In [2]:
s = pd.Series([12, 29, 72, 4])
print(s)

0    12
1    29
2    72
3     4
dtype: int64


* 建立自訂索引的`Series`物件 
    - `Series`物件如同是2個陣列，一是索引標籤；一是資料，所以可以使用2個`Python` 清單建立`Series`物件，在`Series()`方法的第1個參數是資料清單，第2個是使用 `index`參數指定的索引清單 
    - 然後使用`index`屬性顯示索引；`values`屬性可以顯示資料

In [6]:
fruits = ["蘋果", "橘子", "梨子"]
quantities = [15, 33, 45]
s = pd.Series(quantities, index=fruits)
print(s)

蘋果    15
橘子    33
梨子    45
dtype: int64


In [7]:
print(s.index)
print(s.values)

Index(['蘋果', '橘子', '梨子'], dtype='object')
[15 33 45]


* 使用索引取出資料和執行運算 
    - 在建立`Series`物件後，可以使用索引值來取出資料 
    - 如同`NumPy`陣列，一樣可以使用索引清單一次就取出多筆資料 
    - `Series`物件也可以作為運算元來執行四則運算，如下所示

In [8]:
print(s["橘子"])

33


In [10]:
print(s[["橘子", "梨子"]])

橘子    33
梨子    45
dtype: int64


In [11]:
print((s + 2) * 3)

蘋果     51
橘子    105
梨子    141
dtype: int64


# 建立DATAFRAME物件

* 使用`Python`字典建立`DataFrame`物件 
    - `DataFrame`物件是表格擁有列和欄標籤，首先建立3個元素的`fruits`字典，鍵是字串； 值是清單，然後呼叫`pd.DataFrame()`方法建立`DataFrame`物件，如下所示：

In [13]:
fruits = {"蘋果": [4, 3, 1, 0],
          "香蕉": [0, 4, 6, 2],
          "橘子": [1, 5, 2, 4]}

fruit_df = pd.DataFrame(fruits)
fruit_df

Unnamed: 0,蘋果,香蕉,橘子
0,4,0,1
1,3,4,5
2,1,6,2
3,0,2,4


* 使用自訂索引建立`DataFrame`物件 
    - 如果沒有指明索引標籤，`Pandas`預設替`DataFrame`物件產生數值索引標籤，當然 可以使用`cites`清單來建立自訂索引標籤，共有4個元素，對應4筆資料。
    - 在建立`DataFrame`物件時，可以使用`columns`參數**重新指定欄位順序**，將原來蘋果、 香蕉、橘子順序改為香蕉、橘子、蘋果。

In [15]:
cites = ["台北", "新北", "台中", "高雄"]
df = pd.DataFrame(fruits, index=cites)
df

Unnamed: 0,蘋果,香蕉,橘子
台北,4,0,1
新北,3,4,5
台中,1,6,2
高雄,0,2,4


In [16]:
df = pd.DataFrame(fruits,
                  columns=["橘子", "蘋果", "香蕉"],
                  index=["台北", "新北", "台中", "高雄"])
df 

Unnamed: 0,橘子,蘋果,香蕉
台北,1,4,0
新北,5,3,4
台中,2,1,6
高雄,4,0,2


* 更改索引標籤和欄位標籤 
    - 在建立`DataFrame`物件`df`後，可以使用`columns`屬性重新指定欄位標籤，`index`屬 性是更改索引標籤，如下所示：

In [17]:
df.columns = ["banana", "orange", "apple"]
cites[2] = "桃園"
df.index = cites
df

Unnamed: 0,banana,orange,apple
台北,1,4,0
新北,5,3,4
桃園,2,1,6
高雄,4,0,2


* 轉置`DataFrame`物件 
    - 可以使用`.T`屬性轉置`DataFrame`物件，即欄變列、列成欄

In [18]:
df.T

Unnamed: 0,台北,新北,桃園,高雄
banana,1,5,2,4
orange,4,3,1,0
apple,0,4,6,2


# 匯入與匯出DATAFRAME物件 

* `Pandas`套件可以匯入和匯出多種格式檔案至`DataFrame`物件，匯出 `DataFrame`物件`df`至檔案的相關方法，如下表所示：

![](pic3.png)

* 匯入檔案內容成為`DataFrame`物件`df`的相關方法，如下表所示：

![](pic4.png)