<a href="https://colab.research.google.com/github/alen88925/py-test/blob/main/intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Numpy

##What is Numpy?

是**資料科學**與**機器學習**的基礎

是Python的一個第三方套件

##用途

1. **資料處理**的套件 -> Pandas
2. **機器學習**的套件 -> TensorFlow

##Numpy 好處

用**陣列(ndarray)**代替Python原生的列表(List)處理資料

適合處理**多維度(N-dimension)**的資料

##WHY 陣列運算遠高於列表?

1. 核心用C/C++來實作
2. ndarray儲存元素時内存可以連續；List就只能通过循址找下一個元素
3. ndarray支持並行運算


![Numpy vs List](https://img-blog.csdnimg.cn/20190902100831489.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h1ZWJpbmRpbmc=,size_16,color_FFFFFF,t_70)

#Start Numpy



##安裝Numpy


在終端機輸入指令
pip install numpy

##載入Numpy套件


In [2]:
import numpy as np

##名詞解釋


vector(向量) -> 一維陣列

matrix(矩陣) -> 二維陣列(以上)

axis -> 軸向 (第一維度=>axis=0)

dimension -> 陣列的維度 (二維陣列=>two-dimensional array)

shape -> 維度的大小 ( (2x2)=>(2,2) )

dtype -> 資料類型 (float64,int8)

size -> 資料總數量


##建立ndarray物件

ndarray是一個可以裝載**相同類型**資料的**多維度**容器。

![ndarray](https://miro.medium.com/max/3000/0*oh7hF_yEMu8Phmpj.png)

In [33]:
#基本建立
result=np.array([3,4,-5])

#未指定初始值的陣列
result1=np.empty([3,4,5])   #出現任何數皆有可能

#有初始值的陣列
r1=np.zeros([2,3])      # 建立一個2x3全為0的陣列
r2=np.ones([2,3,4])      # 建立一個2x3x4全為1的陣列
r3=np.arange(1,10,2)     # 建立一個由1開始，不超過10，間隔值為2的均勻數值陣列 (1+2...)<10
r4=np.linspace(0,10,5)    # 建立一個0到10之間，均勻的5個數值陣列 (0+10)/(5-1)
r5=np.full((3,2),8)      # 建立一個3x2全為8的陣列
r6=np.eye(4)         # 建立一個4x4矩陣，對角線為1，其餘為0
r7=np.random.random((2,3))  # 建立一個2x3的隨機值矩陣
r8=r7.astype(int)       # 轉換資料型態

print(r6.size)  #數量
print(r6.shape)  #形狀 (幾乘幾的陣列)
print(r8.dtype)  #資料型態
print(len(r8))  #長度 (若無指定維度則為第一維度(axis=0))
print(r7.ndim)  #陣列的維度

[[[4.63949434e-310 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]]

 [[0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]]

 [[0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
   0.00000000e+000]
  [0.00000000e+000 0.00000000e+000 0.00

## Data Types

NumPy支援的數字類型比Python更多。

![data type](https://miro.medium.com/max/875/0*iISwXpti0yoko803.png)

# 多維陣列(ndarray) 基礎運算

In [37]:
data1=np.array([3,-4,5])  #1x3
data2=np.array([2,10,4])  #1x3
data3=np.array([[2,4,5,3],[8,3,-1,3],[5,2,6,-1]]) #3x4

##逐元運算(element-wise)

針對陣列每個資料(元素)，逐一進行基本運算。


In [62]:
# +
a1=data1+data2
a1=np.add(data1,data2)
# -
a2=data1-data2
a2=np.subtract(data1,data2)
# *
a3=data1*data2
a3=np.multiply(data1,data2)
# /
a4=data1/data2
a4=np.divide(data1,data2)
# 平方根 & sin & cos & log
a5=np.sqrt(data2)
a6=np.sin(data2)
a7=np.cos(data2)
a8=np.log(data2)

# element-wise (各元素比較)
a9=data1>data2
a10=data1==data2
a11=data1<=data2
# array-wise  (陣列比較=>形狀&元素值)
a12=np.array_equal(data1,data2) #same shape and value => True

print(a5)

[1.41421356 3.16227766 2.        ]


##矩陣運算(matrix)

針對兩個多維陣列，進行矩陣運算。


In [None]:
b1=data1.dot(data3)     #內積 1x4
b2=data1@data3       #內積 1x4
b3=np.outer(data1,data3)  #外積 3x12
print(b3)

[[  6  12  15   9  24   9  -3   9  15   6  18  -3]
 [ -8 -16 -20 -12 -32 -12   4 -12 -20  -8 -24   4]
 [ 10  20  25  15  40  15  -5  15  25  10  30  -5]]


##統計運算(statistics)


又稱**聚合函數**(Aggregate Functions)

針對單一陣列，進行統計運算。


In [46]:
#統計運算的函式中，都可以加入axis來進行不同維度的運算。
c1=data3.sum()
c2=data3.sum(axis=0)  #Column 第一維度
c3=data3.sum(axis=1)  #Row 第二維度
c4=data3.max()     #最大值
c5=data3.min()     #最小值
c6=np.median(data3)   #中位數
c7=data3.cumsum()    #逐一加法

#平均數
c8=data3.mean()    
c8=np.mean(data3)

#標準差
c9=data3.std(axis=0) 
c9=np.std(data3)

print(c8)

3.25


# 多維陣列的排序(Sorting) & 複製(Copy)

In [49]:
data=np.array([[2,4,5,3],[8,3,-1,3],[5,2,6,-1]]) #3x4

#Sorting
so=np.sort(data)
print(so)

#Copy
so1=np.copy(data)
print(so1)

[[ 2  3  4  5]
 [-1  3  3  8]
 [-1  2  5  6]]
[[ 2  4  5  3]
 [ 8  3 -1  3]
 [ 5  2  6 -1]]
[ 2 -1  2 -1]


# 多維陣列的索引(Index) & 切片(Slicing)

In [51]:
data4=np.array([
  [
   [2,4,3],[3,-1,1]
  ],
  [
   [8,3,2],[-1,3,-4]
  ],
  [
   [5,2,-2],[6,-1,-6]
  ]
]) #3x2x3

##索引(Index) - Boolean & Fancy Indexing

每個資料都有一個索引(編號)，從0開始遞增。

In [58]:
i1=data4[0,0,1]
print(i1)

#Boolean Indexing
i2=data4[data4<2]
print(i2)

#Fancy Indexing
i3=data4[[2,1,2],[0,1,1],[2,1,0]]   #[2,0,2]=-2, [1,1,1]=3, [2,1,0]=6
print(i3)

4
[-1  1 -1 -4 -2 -1 -6]
[-2  3  6]


##切片(Slicing)

以下語法取得特定陣列資料: 多維陣列**[開始索引 ：結束索引-1]**

In [None]:
#(...)&(:) 代表全都要
s1=data4[1:,...,:2]
s2=data4[1:,:,:2]
print(s1)
print(s2)

[[[ 8  3]
  [-1  3]]

 [[ 5  2]
  [ 6 -1]]]
[[[ 8  3]
  [-1  3]]

 [[ 5  2]
  [ 6 -1]]]


#多維陣列的翻轉(Transpose)與變形(Reshape)

In [146]:
data5=np.array([
  [2,4,5,3],
  [8,3,-1,3],
  [5,2,6,-1]
]) #3x4
data6=np.array([
  [8,3,-1,-3],
  [7,2,-5,3],
  [3,1,6,1]
]) #3x4

##翻轉陣列(Transposing array)

Row & Column 互換

![transpose](https://miro.medium.com/max/875/0*_75N7sAckdBHQFGq.png)

In [61]:
t1=data5.T
t2=np.transpose(data5)

print(t1)

[[ 2  8  5]
 [ 4  3  2]
 [ 5 -1  6]
 [ 3  3 -1]]
[[ 2  8  5]
 [ 4  3  2]
 [ 5 -1  6]
 [ 3  3 -1]]


##改變陣列的形狀(Reshape & Ravel & Resize)

**Reshape & Resize 的差異**：
前者生成的新陣列和原始陣列是共用一個記憶體，所以雙方更改的元素會互相影響；後者則不共用，因此不會互相影響。

**Reshape：**生成的新陣列和原始陣列是共用一個記憶體的，有點類似於 Python 裡面的 shallow copy，當你改變一個陣列的元素，另外一個陣列的元素也相應的改變，形狀則不會隨著改變。

**Resize：**生成的新陣列跟原陣列並不共用一個記憶體，所以彼此元素的改變不會影響到對方。

**Resize的總資料數可以跟原陣列不同。**

In [147]:
tere=np.array([0,1,2,3,4,5,6,7,8,9,10,11])
tere1=np.array([0,1,2,3,4,5,6,7,8,9,10,11])
#重塑
re1=tere1.reshape(2,3,2)
re1[0,0,0]=10
re2=np.reshape(tere,(2,3,2),order='C') # 按行填充
re3=np.reshape(tere,(2,3,2),order='F') # 按列填充
re2[0,0,0]=10

re4=np.resize(tere1,(2,3,3))      # Numpy.resize如超出大小，會重複填值
re4[0,0,0]=1
tere1.resize((2,3,3),refcheck=False)  # ndarray.resize如超出大小，會填0 ; refcheck=False，資料總數可以不同 ; return = none

#扁平化
re6=data5.ravel()

print(re1)
print(tere1)
print(re4)
print(data5)

[[[93904405153184              1]
  [             2              3]
  [             4              5]]

 [[             6              7]
  [             8              9]
  [            10             11]]]
[[[10  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [ 0  0  0]
  [ 0  0  0]]]
[[[ 1  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [10  1  2]
  [ 3  4  5]]]
[[ 2  4  5  3]
 [ 8  3 -1  3]
 [ 5  2  6 -1]]


# 多維陣列的合併(Stacking) & 切割(Splitting)

## 合併(Stacking)

### 新增, 插入, 刪除資料(元素)

In [130]:
#陣列後加資料(元素)
ap1=np.append(data5,[[7],[2],[1]],axis=1)  # append(array, value, axis) 若無指定axis，則多維陣列會扁平化ap1(12)
ap2=np.append(data5,[[7,2,1,2]],axis=0)

#陣列中插入資料(元素)
ap3=np.insert(data5,1,0,1) # insert(array, index, value, axis) 若無指定axis，則多維陣列會扁平化ap2(12)

#陣列中刪除資料(元素)
ap4=np.delete(data5,1,1) # delete(array, index, axis)

#print(ap1)

aos=np.arange(12).reshape((3,2,2))
print(aos)



[[ 2  4  5  3  7]
 [ 8  3 -1  3  2]
 [ 5  2  6 -1  1]]
[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]]


###陣列合併


將數個多維陣列，合併成一個。
![stack](https://miro.medium.com/max/875/0*ezTvkIMMC1QCodyA.png)
![stack1](https://miro.medium.com/max/875/0*xGdZB-Wx-cnvubVv.png)

In [153]:

s=np.append(data5,data6,axis=0) # Size和Dimension需相同 axis=0，則axis=1的size需相同；axis=1，則axis=0的size`需相同。

s1=np.vstack((data5,data6)) # 第一維度 (垂直方向合併)
s2=np.concatenate((data5,data6),axis=0)

s3=np.hstack((data5,data6)) # 第二維度 (水平方向合併)
s4=np.concatenate((data5,data6),axis=1)

print(s1)
print(s3)

[[ 2  4  5  3]
 [ 8  3 -1  3]
 [ 5  2  6 -1]
 [ 8  3 -1 -3]
 [ 7  2 -5  3]
 [ 3  1  6  1]]
[[ 2  4  5  3]
 [ 8  3 -1  3]
 [ 5  2  6 -1]
 [ 8  3 -1 -3]
 [ 7  2 -5  3]
 [ 3  1  6  1]]


## 切割(Splitting)

將一個多維陣列，分割成數個。
![split](https://miro.medium.com/max/875/0*BgJKQ0muYYoCLCdT.png)
![aplit1](https://miro.medium.com/max/875/0*pKUlcW7Rk5O4Ka54.png)

In [154]:
s5=np.vsplit(data5,3) #第一維度
s6=np.split(data5,3,axis=0)

s7=np.hsplit(data5,2) #第二維度
s8=np.split(data5,2,axis=1)

print(s5)
print(s7)

[array([[2, 4, 5, 3]]), array([[ 8,  3, -1,  3]]), array([[ 5,  2,  6, -1]])]
[array([[2, 4],
       [8, 3],
       [5, 2]]), array([[ 5,  3],
       [-1,  3],
       [ 6, -1]])]
