## DataFrame物件的常用屬性和方法

還是覺得Excel呈現的資訊比較豐富嗎?別擔心，pandas的DataFrame物件也提供許多方便的方法讓我們可以觀察以及了解資料，第二部分就讓我們來看一下一些最基本的方法吧。

- ### 觀察資料

當我們手上拿到資料後，首先當然是需要看表格內到底有甚麼欄位、以及資料大概的樣子。但如果資料很大的話要呈現所有資料不僅費時又很容易眼花撩亂，因此通常我們會只看前幾筆資料或是隨機看幾筆資料，在Pandas中我們可以輕易的使用.head()、.tail()、以及.sample()等方式只抽出幾筆資料做觀察。

In [None]:
# 產生範例的資料集
dataset = CreateDataSet(4)
df = pd.DataFrame(data=dataset,
                  columns=['State', 'Status', 'CustomerCount', 'StatusDate'])

In [None]:
# 使用.head(n=10)的方法觀察前10筆資料，若不輸入n則預設呈現前五筆資料
df.head()

可以看到資料內總共有4個欄位，分別為State、Status、CustomerCount、StatusDate，不同的欄位似乎有不同的資料類型(數字、文字、日期)。

另外最前面沒有欄位名稱的部分在Pandas被稱為index(索引)，在沒有指定索引的狀況下會自動由0開始作編號，由於我們呈現的是前10筆資料，因此索引值為0到9。然而除了用數字之外列索引也可以是字串甚至是時間類型的格式。

In [None]:
# 使用.sample(n=6)的方法隨機抽出6筆資料
# 可以看到是隨機抽出的資料，因此索引的順序是亂的
df.sample(n=6)

- ### 欄位資料型態與描述

除了直接觀察資料之外，也可以用一些簡單的方法取得資料筆數、欄位名稱、欄位描述等資訊。

In [None]:
# 透過.shape屬性得到資料筆數與欄位數量，大家應該可以發現到這與numpy的使用方式非常類似
# 可以發現這份資料包含836筆觀察值與4個欄位
shape = df.shape
print(shape, end='\n\n')


# .columns屬性可以回傳表格資料內的欄位名稱
# 這份資料的欄位名稱分別為State、Status、CustomerCount、StatusDate
columns = df.columns
print(columns, end='\n\n')


# .index屬性可以回傳表格資料內的列索引
# 在這份資料中的列索引是從0到836的數值索引
index_ = df.index
print(index_, end='\n\n')


# .dtypes屬性顯示的是各個欄位的資料型態
dtypes = df.dtypes
print(dtypes, end='\n\n')


# 利用.info()方法可以知道表格資料各欄位的數量、資料型態、以及記憶體使用量
info = df.info()
print(info, end='\n\n')

In [None]:
在這份資料中，共有一個時間型態的欄位、兩個整數類型的欄位、以及一個物件類型的欄位。然而不同資料型態之間又有甚麼差異呢?讓我們用以下的表格來幫大家整理吧。

<img src="./image/data_types.PNG"/>