<img width=200 src="https://camo.githubusercontent.com/903f3cc51db134b8c9faed2ba2b18ffedff67ff2aafe75259cbde477b27d9b4f/68747470733a2f2f75706c6f61642e77696b696d656469612e6f72672f77696b6970656469612f636f6d6d6f6e732f7468756d622f652f65642f50616e6461735f6c6f676f2e7376672f3132303070782d50616e6461735f6c6f676f2e7376672e706e673f7261773d74727565"></img>

# Day-09 Pandas 物件的定義與屬性

* 教學目標：
  * 知道 Pandas 的特性與貢獻
  * 能夠使用 DataFrame 與 Series 當中的屬性
  * 初步理解 Seies、DataFrame 與 NdArray 的比較
  * 能夠使用不同的方法初始化一個陣列
  * 知道固定大小對於陣列的意義
  * 了解不同的亂數陣列有什麼差異

## Pandas

### 發展史

* [Pandas](https://pandas.pydata.org/) 是一個開源的(BSD 協議許可的函式庫)，為 Python 提供高性能的數據結構和數據分析工具
* Pandas 是由 NumFOCUS 組織所贊助

### 重要特性

* 提供快速高效的 DataFrame 結構(底層使用 Cython 或 C 的實作對效能進行高度優化)
* 廣泛地在學術傑與商業領域中使用，包括金融，神經科學，經濟學，統計學，廣告，Web分析等
* 對於資料格式有高度的銜接性，包含 CSV、Excel 或資料庫(SQL)皆能提供彈性的讀寫工具

## 匯入套件

In [None]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from 'D:\\anaconda3\\lib\\site-packages\\numpy\\__init__.py'>
1.19.2
<module 'pandas' from 'D:\\anaconda3\\lib\\site-packages\\pandas\\__init__.py'>
1.1.3


## Series

* 是一維的資料結構，用來一定序列型的資料

In [None]:
s = pd.Series([1, 2, 3])
print(s)
print(type(s))

0    1
1    2
2    3
dtype: int64
<class 'pandas.core.series.Series'>


### 常用屬性

In [None]:
print(s.shape) # (3, )
print(s.size) # 3
print(s.dtype) # int64

(3,)
3
int64


### 範例

In [None]:
s = pd.Series([1,2,3],  index=['Amy', 'Bob', 'Tom'])
print(s)
s

Amy    1
Bob    2
Tom    3
dtype: int64


Amy    1
Bob    2
Tom    3
dtype: int64

## DataFrame

* 是二維的資料結構，用表格的形式存放常見的資料內容
* 直向的欄位稱為是 Column(行)，橫向的資料稱為是 Row(列)
* 物件來源
  * 從原有的物件轉換
  * 從外部資料讀取而來

In [None]:
df = pd.DataFrame([1, 2, 3])
print(df)
print(type(df))

   0
0  1
1  2
2  3
<class 'pandas.core.frame.DataFrame'>


### 常用屬性

In [None]:
print(df.shape) # (3, 1)
print(df.size) # 3
print(df.dtypes) 

(3, 1)
3
0    int64
dtype: object


In [None]:
df = pd.DataFrame([1, 2, 3], index=['a', 'b', 'c'], columns=['No'])
print(df)
df

   No
a   1
b   2
c   3


Unnamed: 0,No
a,1
b,2
c,3


### 二維

In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
print(df)
df

   A  B  C
a  1  2  3
b  4  5  6


Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


### 範例

In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
print(df)
dfdf = pd.DataFrame({
    'Name': ['Alice', 'Bob'],
    'Age': [18, 20],
})
print(df)
df

    Name  Age
0  Alice   18
1    Bob   20


Unnamed: 0,Name,Age
0,Alice,18
1,Bob,20


In [None]:
df = pd.DataFrame([
  {'Name': 'Alice', 'Age': 18},
  {'Name': 'Bob', 'Age': 20}
])
print(df)
df

   Age   Name
0   18  Alice
1   20    Bob


Unnamed: 0,Age,Name
0,18,Alice
1,20,Bob


### DataFrame 是由 Series 组成的

In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
print(df['B'])
print(type(df['B']))

a    2
b    5
Name: B, dtype: int64
<class 'pandas.core.series.Series'>


#### 常用屬性

In [None]:
print(df.shape)
print(df.size)
print(df.index)
print(df.columns)
print(df.values)

(2, 3)
6
Index(['a', 'b'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
[[1 2 3]
 [4 5 6]]


#### 查看資料

In [None]:
print(df.head())
print(df.tail())
print(df.describe())
print(df.info())

   A  B  C
a  1  2  3
b  4  5  6
   A  B  C
a  1  2  3
b  4  5  6
             A        B        C
count  2.00000  2.00000  2.00000
mean   2.50000  3.50000  4.50000
std    2.12132  2.12132  2.12132
min    1.00000  2.00000  3.00000
25%    1.75000  2.75000  3.75000
50%    2.50000  3.50000  4.50000
75%    3.25000  4.25000  5.25000
max    4.00000  5.00000  6.00000
<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, a to b
Data columns (total 3 columns):
A    2 non-null int64
B    2 non-null int64
C    2 non-null int64
dtypes: int64(3)
memory usage: 64.0+ bytes
None


## 資料型態

* Pandas 大部分沿用 NumPy 定義的型態，只是沒有那麼嚴格。除此之外， Pandas 新增了兩種在資料分析時常用的型態「timedelta」和「category」

|Pandas dtype|Python type|NumPy type|
|-----|:-----|:-----|
|object|str|string_, unicode_|
|int64|int|int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64|
|float64|float|float_, float16, float32, float64|
|bool|bool|bool_|
|datetime64|NA|datetime64[ns]|
|timedelta[ns]|NA|NA|
|category|NA|NA|

## Seies、DataFrame 與 NdArray 的比較

* DataFrame 代表的是用「資料」的角度去思考程式中的實踐應該長什麼樣子、應該要提供哪些方法，是以資料的觀點出發
*  Seies、DataFrame 都是由陣列所封裝而成的加工品，那為什麼不直接用陣列就好呢？陣列當中所有資料型態必須相同，而 DataFrame 是由  Seies 所組成，也就說同一個欄位形態相同，欄位與欄位間可不相同