# NumPy 運算

## 算術運算

你可以輕鬆地進行*陣列與陣列*的算術運算，或者*標量與陣列*的算術運算。讓我們來看一些例子：

In [1]:
import numpy as np
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [2]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [3]:
arr * arr

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [4]:
arr - arr

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [5]:
arr/arr

  arr/arr


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [6]:
1/arr

  1/arr


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111])

## 通用陣列函數

NumPy 提供了許多[通用陣列函數](http://docs.scipy.org/doc/numpy/reference/ufuncs.html)，或稱為 <em>ufuncs</em>（universal functions），它們本質上是可以應用於整個陣列的數學運算。讓我們來展示一些常見的通用函數：

1. **np.add** - 對陣列中的元素進行加法運算。
2. **np.subtract** - 對陣列中的元素進行減法運算。
3. **np.multiply** - 對陣列中的元素進行乘法運算。
4. **np.divide** - 對陣列中的元素進行除法運算。
5. **np.sqrt** - 計算陣列中每個元素的平方根。
6. **np.exp** - 計算 e 的指數，應用於陣列中的每個元素。
7. **np.log** - 計算陣列中每個元素的自然對數。
8. **np.sin**, **np.cos**, **np.tan** - 分別計算陣列中元素的正弦、餘弦和正切值。

這些函數可以對整個陣列進行快速和有效的元素級運算，使得數據處理更加方便和高效。

In [7]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

計算指數 (e^)

在 NumPy 中，你可以使用 `np.exp()` 函數來計算 e 的指數。這個函數將 e (自然對數的底數，約等於 2.71828) 的指數應用於陣列中的每個元素。這種運算在許多科學和工程領域中都非常有用，例如在計算連續增長或衰減過程中。

In [8]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

在 NumPy 中使用 `np.log(arr)` 的意思是對 `arr` 這個陣列中的每個元素進行自然對數運算。這個函數計算的是以 e (約等於 2.71828) 為底的對數。自然對數在數學、物理學、工程學及經濟學等許多領域中都非常重要，常用於各種成長或衰減模型的分析。使用此函數時，必須確保陣列中的所有元素都是正數，因為對數只對正數有定義。

In [10]:
np.log(arr)

  np.log(arr)


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])

In [11]:
np.sin(arr)

array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ,
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849])

## 陣列的摘要統計

NumPy 也提供了常見的摘要統計功能，如 <em>sum</em>（總和）、<em>mean</em>（平均值）和 <em>max</em>（最大值）。你可以將這些函數作為陣列的方法來調用。下面是如何使用這些統計方法的例子：

1. **np.sum(arr)** - 計算陣列 `arr` 中所有元素的總和。
2. **np.mean(arr)** - 計算陣列 `arr` 中所有元素的平均值。
3. **np.max(arr)** - 找出陣列 `arr` 中的最大元素。
4. **np.min(arr)** - 找出陣列 `arr` 中的最小元素。
5. **np.std(arr)** - 計算陣列 `arr` 中元素的標準差。
6. **np.var(arr)** - 計算陣列 `arr` 中元素的方差。

這些摘要統計函數能幫助你快速獲得數據的整體統計特徵，對於數據分析和處理非常有用。

In [12]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
arr.sum()

45

In [14]:
arr.mean()

4.5

In [15]:
arr.max()

9

In [16]:
arr.var()

8.25

In [17]:
arr.std()

2.8722813232690143

## 軸邏輯
在處理二維陣列（矩陣）時，我們必須考慮行和列。當我們進入到 pandas 的相關部分時，這會變得非常重要。在陣列中，軸 0（零）代表垂直軸（行），而軸 1 則是水平軸（列）。這些值（0,1）對應於 `arr.shape` 返回值的順序。

讓我們看看這如何影響我們上面提到的摘要統計計算：

- 當使用軸 0 進行操作時，意味著沿著行（垂直方向）進行計算，將每一列的值聚合起來。例如，計算每一列的總和或平均值。
- 當使用軸 1 進行操作時，則沿著列（水平方向）進行計算，將每一行的值聚合起來。例如，計算每一行的總和或平均值。

這種區分在進行統計分析時非常重要，它確保你可以按照期望的方向對數據進行操作。這種對軸的理解同樣適用於更高維度的數據處理。讓我們看一個例子，如果有一個矩陣 `arr` 如下所示：
```
[[1, 2, 3],
 [4, 5, 6],
 [7, 8, 9]]
```
- 使用 `np.sum(arr, axis=0)` 將返回每一列的總和：`[12, 15, 18]`
- 使用 `np.sum(arr, axis=1)` 將返回每一行的總和：`[6, 15, 24]`

這樣的操作讓我們可以根據具體需求選擇適當的軸進行數據統計。

In [18]:
arr_2d = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
arr_2d


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [19]:
arr_2d.shape

(3, 4)

In [22]:
arr_2d.sum(axis=0)

array([15, 18, 21, 24])

In [21]:
arr_2d.sum(axis=1)

array([10, 26, 42])

In [23]:
import numpy as np

#### 2. 創建一個包含10個零的陣列

In [25]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [31]:
#### 3. 創建一個包含10個1的陣列

np.ones(10).reshape(5,2)
# array([[1., 1.],
#        [1., 1.],
#        [1., 1.],
#        [1., 1.],
#        [1., 1.]])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [34]:
#### 4. 產生10個5的陣列
#array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

np.ones(10) * 5

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

In [35]:
#### 5. 創建一個包含從10到50的整數的陣列
"""
array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50])
"""
np.arange(10,51)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50])

In [36]:
#### 6. 要創建一個包含從10到50的所有偶數整數的陣列
"""
array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48, 50])
"""
np.arange(10,51,2)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48, 50])

In [40]:
#### 7. 要創建一個3x3矩陣，其中包含從0到8的值

"""
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
"""
np.arange(9).reshape(3,3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

####  要使用 NumPy 生成一個介於0和1之間的隨機數

In [48]:
np.random.rand(1)

array([0.4466603])

#### 要使用 NumPy 生成一個包含25個從標準正態分布（平均值為0，標準差為1的正態分布）抽樣的隨機數陣列

In [50]:
narr = np.random.randn(25)
print(narr.mean())
print(narr.std())

-0.09114488537546787
1.0178031568921397


In [51]:
# RUN THIS CELL - THIS IS OUR STARTING MATRIX
mat = np.arange(1,26).reshape(5,5)
mat

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [52]:
"""
array([[12, 13, 14, 15],
       [17, 18, 19, 20],
       [22, 23, 24, 25]])
"""
mat[2:,1:]

array([[12, 13, 14, 15],
       [17, 18, 19, 20],
       [22, 23, 24, 25]])

In [53]:
## 輸出20
mat[3,4]

20

In [58]:
"""array([[ 2],
       [ 7],
       [12]])
"""
mat[:3,1:2]

array([[ 2],
       [ 7],
       [12]])

In [None]:
"""
array([21, 22, 23, 24, 25])
"""
mat[4,:]

array([[21, 22, 23, 24, 25]])

In [73]:
#### 根據 columns 加總

"""
array([55, 60, 65, 70, 75])
"""
mat.sum(axis=0)

array([55, 60, 65, 70, 75])

In [74]:
mat.sum(axis=1)

array([ 15,  40,  65,  90, 115])

# Series
第一個我們將學習的主要數據類型是Pandas中的Series數據類型。讓我們導入Pandas並探索Series對象。

Series與NumPy陣列非常相似（事實上它是建立在NumPy陣列對象之上的）。將NumPy陣列與Series區分開來的是，Series可以具有軸標籤，這意味著它可以通過標籤進行索引，而不僅僅是通過數字位置。它也不需要保存數字數據，可以保存任意的Python對象。

讓我們通過一些示例來探索這個概念：

In [75]:
import pandas as pd

In [76]:
myindex = ['USA','Canada','Mexico']

In [77]:
mydata = [1776,1867,1821]

In [78]:
myser = pd.Series(data=mydata)

In [79]:
myser

0    1776
1    1867
2    1821
dtype: int64

In [80]:
pd.Series(data=mydata,index=myindex)

USA       1776
Canada    1867
Mexico    1821
dtype: int64

In [83]:
ran_data = np.random.randint(0,100,4)

In [84]:
ran_data

array([28, 12, 65, 30])

In [85]:
names = ['Andrew','Bobo','Claire','David']

In [86]:
ages = pd.Series(ran_data,names)
ages

Andrew    28
Bobo      12
Claire    65
David     30
dtype: int32

### From a  Dictionary

In [88]:
ages = {"Sammy":5,"Frank":10,"Spike":7}
ages

{'Sammy': 5, 'Frank': 10, 'Spike': 7}

In [89]:
pd.Series(ages)

Sammy     5
Frank    10
Spike     7
dtype: int64

In [90]:
q1 = {'Japan': 80, 'China': 450, 'India': 200, 'USA': 250}
q2 = {'Brazil': 100,'China': 500, 'India': 210,'USA': 260}

sales_Q1 = pd.Series(q1)
sales_Q2 = pd.Series(q2)

In [91]:
sales_Q1

Japan     80
China    450
India    200
USA      250
dtype: int64

In [92]:
sales_Q2

Brazil    100
China     500
India     210
USA       260
dtype: int64

In [94]:
sales_Q1["Japan"]

80

In [95]:
sales_Q2["China"]

500

In [96]:
sales_Q1[0]

  sales_Q1[0]


80

In [97]:
sales_Q1.keys()


Index(['Japan', 'China', 'India', 'USA'], dtype='object')

In [98]:
sales_Q1 * 2

Japan    160
China    900
India    400
USA      500
dtype: int64

In [100]:
sales_Q2 / 100

Brazil    1.0
China     5.0
India     2.1
USA       2.6
dtype: float64

In [101]:
sales_Q1 + sales_Q2

Brazil      NaN
China     950.0
India     410.0
Japan       NaN
USA       510.0
dtype: float64

In [102]:

sales_Q1.add(sales_Q2,fill_value=0)

Brazil    100.0
China     950.0
India     410.0
Japan      80.0
USA       510.0
dtype: float64

In [103]:
import pandas as pd
import numpy as np

In [106]:
np.random.seed(101)
mydata = np.random.randint(0,101,(4,3))
mydata

array([[95, 11, 81],
       [70, 63, 87],
       [75,  9, 77],
       [40,  4, 63]])

In [107]:
myindex = ['CA','NY','AZ','TX']

In [108]:
mycolumns = ['Jan','Feb','Mar']

In [109]:
df = pd.DataFrame(data = mydata)
df

Unnamed: 0,0,1,2
0,95,11,81
1,70,63,87
2,75,9,77
3,40,4,63


In [111]:
df = pd.DataFrame(data=mydata,index=myindex,columns=mycolumns)
df

Unnamed: 0,Jan,Feb,Mar
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


In [112]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, CA to TX
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Jan     4 non-null      int32
 1   Feb     4 non-null      int32
 2   Mar     4 non-null      int32
dtypes: int32(3)
memory usage: 80.0+ bytes


In [113]:
df = pd.read_csv("tips.csv")

In [115]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


關於此數據集（如果您感興趣）

* 描述
    * 一位服務員在一家餐廳工作幾個月期間記錄了他收到的每一筆小費的信息。他收集了幾個變量：

* 格式
    * 一個包含244行和7個變量的數據框

* 詳細信息
    *账单金额（美元）， 
    * 小費金額（美元），
    * 付款者的性别，
    * 聚會中是否有吸烟者，
    * 一周中的哪一天，
    * 一天中的時間，
    * 聚會的人數。

總共記錄了244筆小費。這些數據在一系列商業統計案例研究中被報告（Bryant & Smith 1995）。

* 參考文獻
    * Bryant, P. G. 和 Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics. Homewood, IL: Richard D. Irwin Publishing:
    
* 注意：我們創建了一些包含假數據的額外列，包括姓名、信用卡號和付款ID。

In [116]:
df.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size',
       'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'],
      dtype='object')

In [117]:
df.index

RangeIndex(start=0, stop=244, step=1)

In [118]:
df.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458


In [119]:
df.tail(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
241,22.67,2.0,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17
243,18.78,3.0,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139,Thur672


In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   total_bill        244 non-null    float64
 1   tip               244 non-null    float64
 2   sex               244 non-null    object 
 3   smoker            244 non-null    object 
 4   day               244 non-null    object 
 5   time              244 non-null    object 
 6   size              244 non-null    int64  
 7   price_per_person  244 non-null    float64
 8   Payer Name        244 non-null    object 
 9   CC Number         244 non-null    int64  
 10  Payment ID        244 non-null    object 
dtypes: float64(3), int64(2), object(6)
memory usage: 21.1+ KB


In [121]:
len(df)

244

In [122]:
df.describe()

Unnamed: 0,total_bill,tip,size,price_per_person,CC Number
count,244.0,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,7.888197,2563496000000000.0
std,8.902412,1.383638,0.9511,2.914234,2369340000000000.0
min,3.07,1.0,1.0,2.88,60406790000.0
25%,13.3475,2.0,2.0,5.8,30407310000000.0
50%,17.795,2.9,2.0,7.255,3525318000000000.0
75%,24.1275,3.5625,3.0,9.39,4553675000000000.0
max,50.81,10.0,6.0,20.27,6596454000000000.0


In [123]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.78594,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9510998,1.0,2.0,2.0,3.0,6.0
price_per_person,244.0,7.888197,2.914234,2.88,5.8,7.255,9.39,20.27
CC Number,244.0,2563496000000000.0,2369340000000000.0,60406790000.0,30407310000000.0,3525318000000000.0,4553675000000000.0,6596454000000000.0


In [124]:
df.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458


In [125]:
df["total_bill"]

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

In [126]:
type(df["total_bill"])

pandas.core.series.Series

In [127]:
df[["total_bill","tip"]]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


In [128]:
type(df[["total_bill","tip"]])

pandas.core.frame.DataFrame

In [129]:
df["tip_percentage"] = 100 * df["tip"] /  df["total_bill"]

In [130]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.944673
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.054159
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,16.658734
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.978041
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.680765


In [131]:
df["price_per_person"] = np.round(df["price_per_person"],2) 

In [134]:
df["tip_percentage"] = np.round(df["tip_percentage"],2 )

In [135]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.05
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.68
