## Pandas 簡介

Pandas是基於Numpy基礎上開發出的資料處理套件

提供兩種主要的資料型態: Series(1d) and DataFrame(2d)

Pandas保留Numpy Array的特性，並強化標籤(label)的概念，使Pandas更適合用來處理表格類型資料

## Series

- ### 建構


    - Series的建構除了值以外，可以定義index來設定標籤，若不設定則預設遞增數列


In [22]:
import pandas as pd

In [3]:
ser = pd.Series([1,2,3])
ser

0    1
1    2
2    3
dtype: int64

In [4]:
ser = pd.Series([1,2,3], index=['A','B','C'])
ser

A    1
B    2
C    3
dtype: int64

In [5]:
ser = pd.Series(['A','B','C'], index=[1,2,3])
ser

1    A
2    B
3    C
dtype: object

- ### 元素級別運算

In [6]:
ser1 = pd.Series([1,2,3])
ser2 = pd.Series([10,20,30])

In [7]:
ser1 + 10

0    11
1    12
2    13
dtype: int64

In [6]:
ser1 + ser2

0    11
1    22
2    33
dtype: int64

In [7]:
# 加入index後的運算
ser3 = pd.Series([1,2,3], index=[['A','B','C']])
ser4 = pd.Series([1,2,3], index=[['A','B','D']])

In [8]:
ser3 + ser4

A    2.0
B    4.0
C    NaN
D    NaN
dtype: float64

- ### np.nan (NAN)


    - Not A Number
    - Pandas中代表空值的物件
    - NAN 與任何數值相加都會返回NAN
    - 但它的型態是float 但它的型態是float 但它的型態是float

In [9]:
# 原本是在Numpy底下，但可以從Pandas中呼叫
pd.np.nan

nan

In [10]:
pd.np.nan + 999

nan

In [11]:
type(pd.np.nan)

float

- ### 用index存取資料

In [12]:
ser = pd.Series([1,2,3], ['A','B','D'])

In [13]:
ser

A    1
B    2
D    3
dtype: int64

In [14]:
ser['A']

1

In [15]:
ser['A'] = 999
ser

A    999
B      2
D      3
dtype: int64

## Series方法

- ### 聚合aggregation: mean(), max(), min()..etc

In [8]:
ser = pd.Series([1,2,3])
ser

0    1
1    2
2    3
dtype: int64

In [9]:
ser.mean()

2.0

In [10]:
ser.max()

3

- ### argmax(), argmin(), idxmax(), idxmin()

In [13]:
ser = pd.Series([1,2,3], index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [14]:
ser.argmax() # position

2

In [15]:
ser.idxmax() # label

'c'

- ### all(), any()

    all: 判定是否所有元素都是True
    
    any: 判定是否任一元素是True

In [20]:
ser = pd.Series([0,2,3])

In [21]:
ser.all()

False

In [22]:
ser.any()

True

- ### to_list()

    將Series轉換為list做操作

In [9]:
ser = pd.Series([0,2,3])

In [24]:
ser.to_list()

[0, 2, 3]

- ### sort_values()

In [27]:
ser = pd.Series([3,2,5,2,3,9,0])

In [28]:
ser.sort_values()

6    0
1    2
3    2
0    3
4    3
2    5
5    9
dtype: int64

In [None]:
# Pandas特性，所有的方法都會回傳一個新的結果，不會修改原本的資料

- ### value_counts()

In [20]:
ser = pd.Series([3,2,5,2,3,9,0])

In [21]:
ser.value_counts()

3    2
2    2
5    1
9    1
0    1
dtype: int64

- ### unique()

In [30]:
ser.unique()

array([3, 2, 5, 9, 0], dtype=int64)

[--QUIZ--]

A與B兩名選手比賽   
用Series a & Series b分別代表比賽紀錄   
比賽一共五個回合   
a = pd.Series([10, 3, 1, 8, 3])   
b = pd.Series([1, 5, 7, None, 7])   

1. 若某回合選手棄權，則該選手該回合紀錄為None，查看是否有選手有棄權紀錄   
2. 若拿到較多回合勝的選手贏得比賽，請問誰獲勝   
3. 若比較單回合勝分差最高者贏得比賽，棄權回合不採計，請問誰獲勝   