# การใช้งาน Numpy เบื้องต้น

## รายวิชาการประมวลผลข้อมูลขนาดใหญ่
### ผู้ช่วยศาสตราจารย์พิศาล สุขขี
สาขาวิทยาการคอมพิวเตอร์, มหาวิทยาลัยราชภัฏศรีสะเกษ

<hr />

In [1]:
import matplotlib.pyplot as plt
import numpy as np
np.__version__

'1.18.1'

## ความแตกต่างระหว่าง Numpy และ List

เราใช้ NumPy Arrays แทนลิสต์ของภาษาไพธอนด้วยเหตุผลสามประการดังนี้

- ใช้พื้นที่หน่วยความจำน้อยลง
- รวดเร็วกว่า
- สะดวกสบายในการทำงานมากว่า

เหตุผลแรกที่เลือก NumPy Arrays คือใช้หน่วยความจำน้อยกว่าเมื่อเทียบกับลิสต์
 
จะเป็นสาเหตุในด้านความรวดเร็วในการทำงาน ซึ่งนี่คือข้อได้เปรียบที่สำคัญที่ NumPy Arrays มีมากกว่าลิสต์ 

โดยสามารถแสดงให้เห็นถึงความแตกต่างดังตัวอย่างด้านล่าง

In [2]:
"""
เปรียบเทียบควมเร็วในการทำงานระหว่างลิสต์ และ Numpy Array
"""
import time  
import sys  
	  
S= range(1000)  
print("list: ", sys.getsizeof(5)*len(S))  
   
D= np.arange(1000)  
print("NumPy Arrays: ", D.size*D.itemsize)  

list:  28000
NumPy Arrays:  8000


In [3]:
# สร้างลิสต์
gpas_as_list = [4.0, 3.286, 3.5]

In [4]:
# สามารถเพิ่มข้อมูลเข้าไปในลิสต์ได้
gpas_as_list.append(4.0)

# ภายในลิสต์สามารถเก็บข้อมูลที่มีชนิตแตกต่างกันได้
gpas_as_list.insert(1, "Whatevs")

# แสดงผลลิสต์
gpas_as_list

[4.0, 'Whatevs', 3.286, 3.5, 4.0]

In [5]:
# สามารถนำข้อมูลออกจากลิสต์ได้
gpas_as_list.pop(1)

'Whatevs'

In [6]:
# แสดงผลลิสต์
gpas_as_list

[4.0, 3.286, 3.5, 4.0]

In [7]:
# การสร้าง Numpy Array จาก List
gpas = np.array(gpas_as_list)

gpas.dtype

dtype('float64')

In [8]:
# ขนาดของ element เพียงหนึ่งตัวภายใน array
gpas.itemsize

8

In [9]:
# จำนวน element ทั้งหมด
gpas.size

4

In [10]:
# จำนวน element ทั้งหมด
len(gpas)

4

In [11]:
gpas

array([4.   , 3.286, 3.5  , 4.   ])

In [12]:
# จำนวนไบต์ที่ element ใข้ใน array
gpas.nbytes

32

<hr />

## การสร้างอะเรย์หลายมิติ (Multidimensional Arrays)
### Numpy ndarray

In [13]:
# สร้าง ndarray
students_gpas = np.array(
    [
        [4.0, 3.286, 3.5, 4.0],
        [3.2, 3.8, 4.0, 4.0],
        [3.96, 3.92, 4.0, 4.0]
    ], 
    np.float16)

students_gpas

array([[4.   , 3.285, 3.5  , 4.   ],
       [3.2  , 3.8  , 4.   , 4.   ],
       [3.96 , 3.92 , 4.   , 4.   ]], dtype=float16)

In [14]:
# แสดงจำนวนมิติของ array ที่สร้างขึ้น
students_gpas.ndim

2

In [15]:
# แสดงจำนวน แถว และ คอลัมน์ ของ array ที่สร้างขึ้น
students_gpas.shape

(3, 4)

In [16]:
# แสดงจำนวน element ทั้งหมดของ array ที่สร้างขึ้น
students_gpas.size

12

In [17]:
students_gpas.itemsize * students_gpas.size

24

In [18]:
# แสดงรายละเอียดของ ndarray ที่สร้างขึ้นทั้งหมด
%whos ndarray

Variable        Type       Data/Info
------------------------------------
D               ndarray    1000: 1000 elems, type `int64`, 8000 bytes
gpas            ndarray    4: 4 elems, type `float64`, 32 bytes
students_gpas   ndarray    3x4: 12 elems, type `float16`, 24 bytes


In [19]:
#  แสดงรายละเอียดของ ndarray อย่างละเอียดแบบเจาะจง
np.info(students_gpas)

class:  ndarray
shape:  (3, 4)
strides:  (8, 2)
itemsize:  2
aligned:  True
contiguous:  True
fortran:  False
data pointer: 0x60000334d920
byteorder:  little
byteswap:  False
type: float16


## ndarray indexing

Numpy มีหลายวิธีในการจัดทำดัชนีลงในอาร์เรย์

Slicing: คล้ายกับการดำเนินการในลิสต์ของ Python สามารถแบ่งอาร์เรย์ numpy ได้ เนื่องจากอาร์เรย์อาจเป็นแบบหลายมิติ ผู้ใช้งานต้องระบุตำแหน่งสไลซ์สำหรับแต่ละมิติของอาร์เรย์:

In [47]:
'''
แสดงการอ้างอิงค่าของ array ที่สร้างขึ้น
ความสัมพันธ์ระหว่าง a และ b เป็นจะเป็นแบบ reference
'''

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
b = a[:2, 1:3]

In [21]:
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [22]:
print(b)

[[2 3]
 [6 7]]


In [23]:
a[0, 1]

2

In [24]:
b[0, 0] = 77

# ค่าที่กำหนดให้ b จะส่งผลกระทบต่อค่าที่อ้างอิงจาก a
print(b[0, 0])
print(a[0, 1])

77
77


คุณยังสามารถผสมการจัดทำดัชนีจำนวนเต็มกับการจัดทำดัชนีสไลซ์ อย่างไรก็ตาม 

การทำเช่นนี้จะทำให้อาร์เรย์มีลำดับต่ำกว่าอาร์เรย์ดั้งเดิม โปรดทราบว่าสิ่งนี้ค่อนข้างแตกต่างจากวิธีที่ MATLAB จัดการกับการแบ่งอาร์เรย์:

In [49]:
'''
ทำการสร้างอะเรย์ 2 มิติที่มีขนาดเท่ากับ (3, 4)
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
'''
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

'''
มี 2 วิธีสำหรับการเข้าถึงข้อมูลที่อยู่ภายในอะเรย์
ตัวอย่างด้านล่างเป็นการผสมการเข้าถึงข้อมูลที่อยู่ภายในอะเรย์ด้วยการกำหนดดัชนีแบบจำนวนเต็ม ร่วมกับการ slicing
'''
row_r1 = a[1, :]    # Rank 1 view of the second row of a
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape)  # Prints "[5 6 7 8] (4,)"
print(row_r2, row_r2.shape)  # Prints "[[5 6 7 8]] (1, 4)"

# We can make the same distinction when accessing columns of an array:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]

print(col_r1, col_r1.shape)  # Prints "[ 2  6 10] (3,)"
print(col_r2, col_r2.shape)  # Prints "[[ 2]
                             #          [ 6]
                             #          [10]] (3, 1)"

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


In [50]:
a = np.array([[1,2], [3, 4], [5, 6]])

print(a, "\n")

'''
ตัวย่างการใช้ดัชนีในรูปแบบอะเรย์
The returned array will have shape (3,) and
'''
print(a[[0, 1, 2], [0, 1, 0]])  # Prints "[1 4 5]"

print(np.array([a[0, 0], a[1, 1], a[2, 0]]))  # Prints "[1 4 5]"

'''
When using integer array indexing, you can reuse the same
element from the source array:
'''
print(a[[0, 0], [1, 1]])  # Prints "[2 2]"

# Equivalent to the previous integer array indexing example
print(np.array([a[0, 1], a[0, 1]]))  # Prints "[2 2]"

[[1 2]
 [3 4]
 [5 6]] 

[1 4 5]
[1 4 5]
[2 2]
[2 2]


In [27]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

# Create an array of indices
b = np.array([0, 2, 0, 1])
print(b)

print(a[np.arange(4), b]) # Prints "[ 1  6  7 11]"

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[0 2 0 1]
[ 1  6  7 11]


## ประเภทข้อมูล

ในทุก ๆ Numpy Array เป็นตารางขององค์ประกอบประเภทเดียวกัน 

Numpy มีชุดข้อมูลตัวเลขจำนวนมากที่คุณสามารถใช้สร้างอาร์เรย์ได้ Numpy พยายามเดาประเภทข้อมูลเมื่อคุณสร้างอาร์เรย์ 

แต่ฟังก์ชันที่สร้างอาร์เรย์มักจะรวมอาร์กิวเมนต์ที่เป็นตัวเลือกเพื่อระบุประเภทข้อมูลอย่างชัดเจน นี่คือตัวอย่าง:

In [28]:
x = np.array([1, 2])   # Let numpy choose the datatype
print(x.dtype)         # Prints "int64"

x = np.array([1.0, 2.0])   # Let numpy choose the datatype
print(x.dtype)             # Prints "float64"

x = np.array([1, 2], dtype=np.int64)   # Force a particular datatype
print(x.dtype)                 

int64
float64
int64


<hr />

## ฟังก์ชั่นทางคณิตศาสตร์สำหรับอาร์เรย์

ฟังก์ชันทางคณิตศาสตร์พื้นฐานทำงานตามองค์ประกอบบนอาร์เรย์ และมีให้ใช้งานทั้งแบบโอเวอร์โหลดตัวดำเนินการและเป็นฟังก์ชันในโมดูล numpy:

In [29]:
import numpy as np

x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Elementwise sum; both produce the array
# [[ 6.0  8.0]
#  [10.0 12.0]]
print(x + y)
print(np.add(x, y))
print()

# Elementwise difference; both produce the array
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))

# Elementwise product; both produce the array
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))
print()

# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))
print()

# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [30]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

10
[4 6]
[3 7]


## การ Transpose

In [31]:
x = np.array([[1,2], [3,4]])
print(x)    # Prints "[[1 2]
            #          [3 4]]"
print(x.T)  # Prints "[[1 3]
            #          [2 4]]"

# Note that taking the transpose of a rank 1 array does nothing:
v = np.array([1,2,3])
print(v)    # Prints "[1 2 3]"
print(v.T)  # Prints "[1 2 3]"

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[1 2 3]
[1 2 3]


<hr>

## Broadcasting

การ Broadcast เป็นกลไกอันทรงพลังที่ช่วยให้ numpy ทำงานกับอาร์เรย์ที่มีรูปร่างต่างกันได้

เมื่อดำเนินการคำนวณทางคณิตศาสตร์ บ่อยครั้งที่เรามีอาร์เรย์ที่เล็กกว่าและอาร์เรย์ที่ใหญ่กว่า 

และเราต้องการใช้อาร์เรย์ที่เล็กกว่าหลายครั้งเพื่อดำเนินการบางอย่างกับอาร์เรย์ที่ใหญ่กว่า

In [32]:
# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # ทำการสร้างเมทริกซ์เปล่าที่มีขนาดเท่ากับ x

# ดำเนินการบวกเวกเตอร์ v กับทุก ๆ ในเมทริกซ์ x โดยไม่มีการปรับขนาดของ x
for i in range(4):
    y[i, :] = x[i, :] + v

# ข้อมูลปัจจุบันของ y คือ
# [[ 2  2  4]
#  [ 5  5  7]
#  [ 8  8 10]
#  [11 11 13]]
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


จากตัวอย่างด้านบน !!
เป็นการใช้ Loop For สำหรับวนรอบเพื่อดำเนินการกับแต่ละแถวของเมทริกซ์ x ด้วยเวกตอร์ y

ตัวอย่างด้านล่างนี้เป็นอีกหนึ่งวิธีที่ให้ผลลัพธ์เหมือนกันกันแต่ไม่ต้องใช้ Loop For

In [33]:
# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))   # Stack 4 copies of v on top of each other
print(vv)                 # Prints "[[1 0 1]
                          #          [1 0 1]
                          #          [1 0 1]
                          #          [1 0 1]]"

# Add x and vv elementwise                 
y = x + vv  
print(y)  # Prints "[[ 2  2  4
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


### ตัวอย่างด้านล่างนี้ !! 

แสดงให้เห็นว่า Numpy Broadcasting ช่วยให้เราสามารถคำนวณได้โดยไม่ต้องสร้าง v หลายชุด พิจารณาเวอร์ชันนี้โดยใช้การ Boardcasting:

In [34]:
# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])

# Add v to each row of x using broadcasting
y = x + v  
print(y)  # Prints "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


<hr />

## การปรับรูปร่างของอะเรย์ (Reshape)

In [35]:
grid = np.arange(1, 10).reshape((3, 3))
grid

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
grid.reshape((1, 9))

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

<hr />

## การต่ออาร์เรย์

In [37]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [38]:
'''
นอกจากนี้เรายังเพิ่มอาร์เรย์ได้มากกว่า 2 อาร์เรย์พร้อมกัน
'''
np.concatenate([x, y, [5, 6, 7]])

array([1, 2, 3, 3, 2, 1, 5, 6, 7])

In [39]:
'''
np.concatenate ยังสามารถใช้กับ อาร์เรย์ 2 มิติได้
'''
grid = np.array([
            [1, 2, 3], 
            [4, 5, 6]
        ])
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [40]:
'''
หรือเราสามารถทําการรวมอาร์เรย์ 2 มิติโดยใช้แกนที่สอง ด้วยการกําหนด axis=1
'''
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [41]:
'''
สําหรับในกรณีที่ต้องทํางานกับอาร์เรย์ที่มีขนาดแตกต่างกันก็สามารถก็สามารถใช้เมธอด
np.vstack (vertical stack) และ np.hstack (horizontal stack) ได้ดังนี้
'''

x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],[6, 5, 4]])

np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [42]:
y = np.array([[99],[99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

<hr />

## การแยกอาร์เรย์ (Splitting of Arrays)

In [43]:
'''
การดำเนินการที่ตรงข้ามการรวมอาร์เรย์ก็คือการแยกอาร์เรย์ สามารถทำได้โดยใช้ฟังก์ชัน np.split 
โดยฟังก์ชัน np.hsplit และ np.vsplit เราสามารถทำการส่งลิสต์ของดัชนี (Index) 
เพื่อใช้สำหรับการเป็นจุดในการแยกอาร์เรย์ ดังตัวอย่างเช่น
'''

x = [1,2,3,99,99,3,2,1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [44]:
'''
จากตัวอย่างด้านบนสำหรับการทำงานของ np.split นั้นเราได้ส่งลิสต์ของดัชนีเพื่อใช้เป็นจุดตัดอาร์เรย์จำนวน 2 ตัว 
ทำให้เกิดการแยกเป็นอาร์เรย์ย่อยจำนวน 3 อาร์เรย์โดยสามารถสังเกตได้ว่าจุดแยก N จะนำไปสู่อาร์เรย์ย่อย N + 1 
โดยฟังก์ชัน np.hsplit และ np.vsplit มีลักษณะการทำงานที่คล้ายกัน ดังนี้
'''

grid = np.arange(16).reshape((4, 4))  
grid  

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [45]:
'''
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
'''

# ตัวอย่างการใช้ np.vsplit โดยส่งลิสต์ของดัชนีเพื่อใช้เป็นจุดตัดอาร์เรย์
upper, lower = np.vsplit(grid, [2])  

print(upper)  
print(lower)  

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [46]:
'''
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
'''
# ตัวอย่างการใช้ np.hsplit โดยส่งลิสต์ของดัชนีเพื่อใช้เป็นจุดตัดอาร์เรย์
left, right = np.hsplit(grid, [2])

print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
