# Pandas 物件的定義與屬性

## 函式與函式庫

### 函式

函式是指將一段程式碼封裝而成的函式，可用於重複呼叫。


### 函式庫

函式庫是由一堆函式鎖組成的集合，又稱模組、套件、模塊。

## Pandas 的重要特性

Pandas是一個建構在 Numpy 之上的模組，主要是整合了 Numpy、Scipy 和 Matplotlib 的功能，可以很方便的執行數據處理和分析。

Pandas = **pan**el、**da**taframe、**S**eries

而 panel、dataframe、series 也是 pandas 的三個資料結構


- 提供了快速高效的 DataFrame 結構
- 對於資料格式有高度銜接性，包含 csv、excel、SQL等，皆能提供彈性的讀寫工具

#### 參考資料
https://pandas.pydata.org/

## Pandas 套件載入指令
### 載入Pandas

In [1]:
import pandas as pd

### 印出套件的物件

In [4]:
print(pd)

<module 'pandas' from 'C:\\Users\\Sherry.HH.Chen\\Anaconda3\\lib\\site-packages\\pandas\\__init__.py'>


### 查看 pandas 版本

In [5]:
print(pd.__version__)

1.1.3


## DataFrame and Series

### Series
Series 是 **一維** 的資料結構，用來一定序列型的資料。

Series 可以存放：
- 整數
- 浮點數
- 字串
- Python 物件(e.g.字串list、字典 list...)
- Numpy 的 ndarray
- 純量...等

Series 雖然是 **一維** 陣列，但看起來卻像是二維陣列資料，是因為一個是 **索引(index)**，一個是實際的資料。

Series 的結構與 Python 的 list 類似，不過程式設計師可以為 Series 的每個元素自行命名索引(index)。

#### 產生 Series 物件的指令

    pd.Series(data=None, index=None, dtype=None, options...)
    

### DataFrame
DataFrame 是 **二維** 的資料結構，用 **表格** 的形式存放常見的資料內容。



##  建立Series物件(王者歸來25-1)

- 使用串列 list 建立 Series 物件
- 使用 Python 字典 dict 建立 Series 物件
- 使用 Numpy 的 ndarray 建立 Series 物件
- 建立含索引(index)的 Series 物件
- 使用純量建立 Series 物件



### (1) 使用串列 list 建立 Series 物件

我們只有建立 s1 的內容，但列印出來時，可以看到左邊欄位有系統自建的索引。
pandas 的索引也是從 0 開始計數，有了索引，就可以用索引存取物件內容。

In [18]:
#範例：使用串列 list 建立 Series 物件
s1 = pd.Series([1,2,3,4,5])
print(s1)

0    1
1    2
2    3
3    4
4    5
dtype: int64


#### 使用索引(index)取值

In [19]:
print(s1[1])

2


#### 使用索引(index)修改值

In [21]:
s1[2] = 10
print(s1)

0     1
1     2
2    10
3     4
4     5
dtype: int64


### (2) 使用 Python 字典 dict 建立 Series 物件

使用 python 字典建立 Series 物件時，字典的 key 就會被視為 Series 物件的索引(index)；字典的值(value)就會被視為 Series 物件的值。
```
字典的 key   -> Series 的 index
字典的 value -> Series 的 value
```

In [22]:
#建立字典
dict = {'北京':'beijing',
       '台灣':'Taiwan'}

#用字典建立 Series
s2 = pd.Series(dict)
print(s2)

北京    beijing
台灣     Taiwan
dtype: object


### (3) 使用 Numpy 的 ndarray 建立 Series 物件

In [25]:
import numpy as np
s3 = pd.Series(np.arange(0,10,2))
print(s3)

0    0
1    2
2    4
3    6
4    8
dtype: int32


### (4) 建立含索引(index)的 Series 物件

- 預設情況索引是從 0 開始計數，也可以使用 index 參數建立索引
- 若是用字典建立，key 就是 index

In [4]:
#範例一：建立不是0開始的索引
import pandas as pd
index = [2,4,6]
price = [250, 350, 400]
s4 = pd.Series(price, index = index)
print(s4)

2    250
4    350
6    400
dtype: int64


In [5]:
#建立含自訂索引的Series物件，同時列出結果
#方法一
fruits = ['apple', 'grapefruit','guava']
price = [250, 350, 400]
s5 = pd.Series(price, index = fruits)
print(s5)

apple         250
grapefruit    350
guava         400
dtype: int64


In [8]:
#建立含自訂索引的Series物件，同時列出結果
#方法二
s5 = pd.Series([123, 456, 789], index = ['a', 'b', 'c'])
print(s5)

a    123
b    456
c    789
dtype: int64


### (5) 使用純量建立 Series 物件

範例：
1 個純量，搭配 3 個索引，pandas 會主動將所有索引值用此純量補上

In [9]:
s6 = pd.Series(9, index=[1,2,3])
print(s6)

1    9
2    9
3    9
dtype: int64


### (6) 列出 Series 物件的索引與值

假設物件名稱是 obj，Series 物件值

```obj.values```


假設物件名稱是 obj，Series 物件索引

```obj.index```

In [12]:
s5 = pd.Series([30,40,50], index=['Orange','Apple','Grape'])

#列印物件索引(index)
print(s5.index)

#列印物件值(value)
print(s5.values) 

Index(['Orange', 'Apple', 'Grape'], dtype='object')
[30 40 50]


### (7) Series 的運算
 
Series 運算方法大多與 Numpy 的 ndarray 或是 Python 的串列相同，但是有一些擴充更好用的功能。

可應用在 Series 的觀念
- 切片
- 四則運算
- 相同索引的物件相加：索引相同可直接相加
- 不同索引的物件相加：索引相同的會相加，不同的會顯示 NaN
- 求餘數
- 邏輯運算：x>y、x==y、x<=y


#### 將切片觀念應用在 Series 物件

In [13]:
#將切片觀念應用在 Series 物件
s = pd.Series([0,1,2,3,4,5])
print(s[2:4])

2    2
3    3
dtype: int64


In [14]:
print(s[:3])

0    0
1    1
2    2
dtype: int64


In [15]:
print(s[2:])

2    2
3    3
4    4
5    5
dtype: int64


In [16]:
print(s[-1:])

5    5
dtype: int64


#### 將四則運算觀念應用在 Series 物件

In [18]:
#Series物件相加
x = pd.Series([1, 2, 3])
y = pd.Series([2, 2, 2])
print( x+y )

0    3
1    4
2    5
dtype: int64


In [21]:
#Series物件相減
x = pd.Series([20, 30])
y = pd.Series([5, 5])
print(x-y)

0    15
1    25
dtype: int64


In [20]:
#Series物件相乘
x = pd.Series([2, 3])
y = pd.Series([5, 5])
print(x*y)

0    10
1    15
dtype: int64


In [22]:
#Series物件相除
x = pd.Series([20, 30])
y = pd.Series([5, 5])
print(x/y)

0    4.0
1    6.0
dtype: float64


#### 將求餘數觀念應用在 Series 物件

In [31]:
#求餘數
x = pd.Series([2, 4, 5, 0])
y = pd.Series([1, 5, 2, 0])
print(x % y)

0    0.0
1    4.0
2    1.0
3    NaN
dtype: float64


#### 將邏輯運算觀念應用在 Series 物件

In [24]:
x = pd.Series([2, 4, 0])
y = pd.Series([1, 5, 0])
x>y

0     True
1    False
2    False
dtype: bool

In [25]:
x = pd.Series([2, 4, 0])
y = pd.Series([1, 5, 0])
x==y

0    False
1    False
2     True
dtype: bool

In [26]:
x = pd.Series([2, 4, 0])
y = pd.Series([1, 5, 0])
x>=y

0     True
1    False
2     True
dtype: bool

In [27]:
x = pd.Series([2, 4, 0])
y = pd.Series([1, 5, 0])
x!=y

0     True
1     True
2    False
dtype: bool

#### 物件擁有相同索引，進行相加

In [32]:
fruits = ['apple', 'grapes', 'guava']
x1 = pd.Series([20, 30, 40], index = fruits)
x2 = pd.Series([25, 35, 55], index = fruits)
y = x1 + x2
print(y)

apple     45
grapes    65
guava     95
dtype: int64


#### 物件擁有不同索引，進行相加
索引相同的會相加，不同的會顯示 NaN

In [34]:
fruits1 = ['Orange', 'Apple', 'Grape']
fruits2 = ['Apple', 'Guava','Grape']
x1 = pd.Series([10, 20, 30], index = fruits1)
x2 = pd.Series([5, 5, 5], index = fruits2)
print(x1 + x2)

Apple     25.0
Grape     35.0
Guava      NaN
Orange     NaN
dtype: float64


In [None]:
-----分隔線------

In [6]:
# 產生 Series 變數
s = pd.Series([1,2,3])
print(s)

0    1
1    2
2    3
dtype: int64


In [7]:
#查看物件屬性(type)
type(s)

pandas.core.series.Series

#### 產生 DataFrame 變數

In [9]:
df = pd.DataFrame([1,2,3])
print(df)

   0
0  1
1  2
2  3


In [10]:
#查看物件屬性(type)
type(df)

pandas.core.frame.DataFrame

## Series 的常用屬性

Series 和 Numpy 的 array 很類似，所以 array 有的屬性，Series 絕大部分都可以沿用。

### 完整的 Series 屬性
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [15]:
s = pd.Series([1,2,3])
print(s)

2    1
2    2
2    3
dtype: int64


In [16]:
print(s.T)

2    1
2    2
2    3
dtype: int64
