![pandas_logo.png](attachment:pandas_logo.png)

https://pandas.pydata.org

Pandas 的名稱是源自於“Python and data analysis and panel data“ 。是一個功能強大的套件，建立在 NumPy 的一個資料處理套件。很常用於處理各種數據，如矩陣，統計，觀察等

也有人將 Pandas 視為一套 Python 程式版的 Excel 試算表工具，透過簡單的語法，可以做一些類似 Excel 試算表的功能

載入套件


In [1]:
import pandas as pd
import numpy as np

Pandas 常用的數據結構有：
- Series
- DataFrame

# Series 

常用的屬性或方法：
- axes：返回行軸標籤的列表
- dtype：返回對象的dtype
- empty：如果系列為空，則返回True
- ndim：根據定義1，返回基礎數據的維數
- size：返回基礎數據中的元素數。
- values：將系列返回為ndarray
- head()：返回前n行
- tail()：返回最後n行

![pandas-series.jpg](attachment:pandas-series.jpg)

# 建立 pandas.Series

Pandas Series 是一個擁有標籤的一維陣列，可以將 Series 視為 2 個陣列的組合，一個是類似索引（index）的標籤，另一個是實際資料。可以使用Array、Dict、Scalar value or constant 來建立

這結構與 dict 字典類似，字典是一種無序的數據結構，而 Series 是不一樣，是相當於定長有序的字典，且它的 index 和 value 之間是獨立的。兩者的索引還是有區别的，Series 的 index 是可變的，而 dict 字典的 key 值是不可變的

**pandas.Series(data = None, index = None, dtype = None, name = None, copy = False, fastpath = False)**

參數描述：
- data：數據採用各種形式，如 ndarray，list，常量
- index：索引值必須是唯一且可清除的，與數據長度相同。如果沒有傳遞索引，則預設為 np.arrange（n）
- dtype：dtype 用於數據類型。如果為 None，則將推斷數據類型
- copy：複製數據。預設為 False

In [2]:
pd.Series()

Series([], dtype: float64)

In [3]:
s = pd.Series([59, 85, 73, 100, 35])
s

0     59
1     85
2     73
3    100
4     35
dtype: int64

In [4]:
s[0]

59

In [5]:
s[1::3]

1    85
4    35
dtype: int64

Series 索引

In [6]:
s = pd.Series([59, 85, 73, 100, 34, 70], index = ['a', 'b', 'c', 1, 2, 3])
s

a     59
b     85
c     73
1    100
2     34
3     70
dtype: int64

In [7]:
s[1]

100

In [8]:
s['a']

59

以 dict 建立

In [9]:
pd.Series({'Jack':60.9, 'Bob':73.5, 'Tommy':99.2})

Jack     60.9
Bob      73.5
Tommy    99.2
dtype: float64

In [10]:
pd.Series(66, index = [0, 1, 2, 3])

0    66
1    66
2    66
3    66
dtype: int64

In [11]:
pd.Series([1, 2, np.nan, 3])

0    1.0
1    2.0
2    NaN
3    3.0
dtype: float64

In [12]:
pd.Series({'Jack':60.9, 'Bob':73.5, 'Tommy':99.2}, index = ['Tommy', 'Bob'])

Tommy    99.2
Bob      73.5
dtype: float64

## 練習：

從以下兩個 list 建立一個 pandas series，index 為 lst2 的內容

In [18]:
lst1 = ['a', 'b', 'c']
lst2 = [1, 2, 3]

In [19]:
pd.Series(lst1, index = lst2)

1    a
2    b
3    c
dtype: object

# Series 運算

加法的聯集運算

In [13]:
fruits = ['蘋果', '橘子', '梨子', '櫻桃']
quantities = [15, 33, 45, 55]

In [16]:
s = pd.Series(quantities, index = fruits)
s

蘋果    15
橘子    33
梨子    45
櫻桃    55
dtype: int64

In [17]:
p = pd.Series([11, 16, 21, 32], index = fruits)
p

蘋果    11
橘子    16
梨子    21
櫻桃    32
dtype: int64

In [15]:
s + p

蘋果    26
橘子    49
梨子    66
櫻桃    87
dtype: int64

In [18]:
print('總計 =', sum(s + p))

總計 = 228


使用 NumPy 函式

In [19]:
s.apply(np.sin)

蘋果    0.650288
橘子    0.999912
梨子    0.850904
櫻桃   -0.999755
dtype: float64

# 索引

使用索引取出資料

In [20]:
fruits = ['蘋果', '橘子', '梨子', '櫻桃']

In [21]:
s = pd.Series([15, 33, 45, 55], index = fruits)
s

蘋果    15
橘子    33
梨子    45
櫻桃    55
dtype: int64

In [22]:
print('橘子 =', s['橘子'])

橘子 = 33


In [23]:
print(s[['橘子', '梨子', '櫻桃']])

橘子    33
梨子    45
櫻桃    55
dtype: int64


# 映射 (map與one hot encoding)
- pandas.Series.map
- pandas.get_dummies

In [28]:
data1 = pd.Series(['Engineering', 'Accounting', 'Engineering', 'HR', 'HR', 'Engineering'])
data1

In [29]:
data1_map = {'Engineering':1, 'Accounting':2, 'HR':3}

In [30]:
data1.map(data1_map)

0    1
1    2
2    1
3    3
4    3
5    1
dtype: int64

In [31]:
pd.get_dummies(data1)

Unnamed: 0,Accounting,Engineering,HR
0,0,1,0
1,1,0,0
2,0,1,0
3,0,0,1
4,0,0,1
5,0,1,0
