# pandas 

我們引用 pandas 套件之後依照使用慣例將它縮寫為 pd，

最基本建立 data frame 的方式是利用 pandas 套件的 DataFrame() 方法

將一個 dictionary 的資料結構轉換為 data frame

（如果你對於 dictionary 資料結構感到陌生，我推薦你閱讀[[第 04 天] 資料結構 List，Tuple 與 Dictionary。）

In [2]:
import pandas as pd # 引用套件並縮寫為 pd

groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"]
ironmen = [46, 8, 12, 12, 6, 58]

ironmen_dict = {"groups": groups,
                "ironmen": ironmen
                }

ironmen_df = pd.DataFrame(ironmen_dict)

print(ironmen_df) # 看看資料框的外觀
print(type(ironmen_df)) # pandas.core.frame.DataFrame

       groups  ironmen
0  Modern Web       46
1      DevOps        8
2       Cloud       12
3    Big Data       12
4    Security        6
5       自我挑戰組       58
<class 'pandas.core.frame.DataFrame'>


# Pandas 的 data frame

可以由 NumPy 的 2d array 轉換

如果 data frame 的變數類型相同，亦可以從 NumPy 的 2d array 轉換。

In [3]:
import numpy as np
import pandas as pd

my_2d_array = np.array([[1, 3],
                        [2, 4]
                       ])

my_df = pd.DataFrame(my_2d_array, columns = ["col1", "col2"])
print(my_df)

   col1  col2
0     1     3
1     2     4


# 包含多種資料類型

跟 list 的特性相仿，不會像 ndarray 僅限制容納單一資料類型。

In [1]:
import pandas as pd

groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"]
ironmen = [46, 8, 12, 12, 6, 58]

ironmen_dict = {"groups": groups,
                "ironmen": ironmen
                }

ironmen_df = pd.DataFrame(ironmen_dict)

ironmen_df
ironmen_df.dtypes # 欄位的變數類型

Unnamed: 0,groups,ironmen
0,Modern Web,46
1,DevOps,8
2,Cloud,12
3,Big Data,12
4,Security,6
5,自我挑戰組,58


groups     object
ironmen     int64
dtype: object

# 選擇元素

Pandas 透過使用中括號 [] 與 .iloc 可以很靈活地從 data frame 中選擇想要的元素。

要注意的是 Python 在指定 0:1 時不包含 1，在指定 0:2 時不包含 2，
        
這一點是跟 R 語言有很大的不同之處。

In [4]:
import pandas as pd

groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"]
ironmen = [46, 8, 12, 12, 6, 58]

ironmen_dict = {
    "groups": groups,
    "ironmen": ironmen
}

ironmen_df = pd.DataFrame(ironmen_dict)

ironmen_df
print(ironmen_df.iloc[0:1, 1]) # 第一列第二欄：Modern Web 組的鐵人數
print("---")
print(ironmen_df.iloc[0:1,:]) # 第一列：Modern Web 組的組名與鐵人數
print("---")
print(ironmen_df.iloc[:,1]) # 第二欄：各組的鐵人數
print("---")
print(ironmen_df["ironmen"]) # 各組的鐵人數
print("---")
print(ironmen_df.ironmen) # 各組的鐵人數

Unnamed: 0,groups,ironmen
0,Modern Web,46
1,DevOps,8
2,Cloud,12
3,Big Data,12
4,Security,6
5,自我挑戰組,58


0    46
Name: ironmen, dtype: int64
---
       groups  ironmen
0  Modern Web       46
---
0    46
1     8
2    12
3    12
4     6
5    58
Name: ironmen, dtype: int64
---
0    46
1     8
2    12
3    12
4     6
5    58
Name: ironmen, dtype: int64
---
0    46
1     8
2    12
3    12
4     6
5    58
Name: ironmen, dtype: int64


最後兩行我們用了簡便的選擇語法，但是在正式環境選擇元素時仍然推薦使用最合適的 pandas 方法 .iloc 與 .loc 等。`

# 可以使用布林值篩選

Pandas 可以透過布林值來針對 data frame 進行觀測值的篩選。

In [5]:
import pandas as pd

groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"]
ironmen = [46, 8, 12, 12, 6, 58]

ironmen_dict = {"groups": groups,
                "ironmen": ironmen
                }

ironmen_df = pd.DataFrame(ironmen_dict)

print(ironmen_df[ironmen_df.loc[:,"ironmen"] > 10]) # 選出鐵人數超過 10 的 data frame

       groups  ironmen
0  Modern Web       46
2       Cloud       12
3    Big Data       12
5       自我挑戰組       58


# 了解 data frame 概觀

Pandas 的 data frame 資料結構有一些方法或屬性可以幫助我們了解概觀。

In [6]:
import pandas as pd

groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"]
ironmen = [46, 8, 12, 12, 6, 58]

ironmen_dict = {"groups": groups,
                "ironmen": ironmen
                }

ironmen_df = pd.DataFrame(ironmen_dict)

print(ironmen_df.shape) # 回傳列數與欄數
print("---")
print(ironmen_df.describe()) # 回傳描述性統計
print("---")
print(ironmen_df.head(3)) # 回傳前三筆觀測值
print("---")
print(ironmen_df.tail(3)) # 回傳後三筆觀測值
print("---")
print(ironmen_df.columns) # 回傳欄位名稱
print("---")
print(ironmen_df.index) # 回傳 index

(6, 2)
---
         ironmen
count   6.000000
mean   23.666667
std    22.393451
min     6.000000
25%     9.000000
50%    12.000000
75%    37.500000
max    58.000000
---
       groups  ironmen
0  Modern Web       46
1      DevOps        8
2       Cloud       12
---
     groups  ironmen
3  Big Data       12
4  Security        6
5     自我挑戰組       58
---
Index(['groups', 'ironmen'], dtype='object')
---
RangeIndex(start=0, stop=6, step=1)


# pandas 的 category 資料結構

## Nominal

我們利用 pandas 套件的 Categorical() 方法轉換 list 為 pandas 的 category 資料結構。

In [7]:
import pandas as pd

groups_categorical = pd.Categorical(["Modern Web", "DevOps", "Cloud", "Big Data", "Security", "自我挑戰組"])
print(groups_categorical)
print("---")
print(type(groups_categorical))

[Modern Web, DevOps, Cloud, Big Data, Security, 自我挑戰組]
Categories (6, object): [Big Data, Cloud, DevOps, Modern Web, Security, 自我挑戰組]
---
<class 'pandas.core.categorical.Categorical'>


## Ordinal

Pandas 使用 ordered = True 與指定 categories = 參數加入 ordinal 的特性。

In [8]:
import pandas as pd

temperature_list = ["cold", "warm", "hot"]
temperature_categorical = pd.Categorical(temperature_list, categories = ["cold", "warm", "hot"], ordered = True)
temperature = pd.Series(temperature_categorical)
print(temperature)

0    cold
1    warm
2     hot
dtype: category
Categories (3, object): [cold < warm < hot]
