# 배열 데이터를 효과적으로 다루는 NumPy

- 파이썬으로 과학 연산을 쉽고 빠르게 할 수 있게 만든 패키지
- 다차원 array를 처리할 수 있음
- 리스트, 튜플 타입의 데이터를 모두 사용 가능하지만 주로 리스트 데이터 이용
- import numpy as np


- 독립된 array를 얻기 위해서는 .copy() !!  
- https://blog.naver.com/jjys9047/221565200268

In [1]:
# 시퀸스 데이터로 1차원
import numpy as np

data1 = [0, 1, 2, 3, 4, 5]
a1 = np.array(data1)
a1                             

# 실제 리스트가 들어 있는 게 아니라 원소들의 표기법을 [] 

array([0, 1, 2, 3, 4, 5])

In [2]:
data2 = [0.1, 5, 4, 12, 0.5]
a2 = np.array(data2)
a2

# 정수와 실수가 혼합된 경우, 하나의 데이터 타입으로 통일시킴

array([ 0.1,  5. ,  4. , 12. ,  0.5])

In [3]:
a1.dtype  # 32비트 정수 타입

dtype('int32')

In [4]:
a2.dtype  # 64비트 실수 타입

dtype('float64')

In [5]:
# 다차원 배열 생성 / 리스트 데이터를 직접 넣어 배열 객체 생성 가능

np.array([[1,2,3],[4,5,6],[7,8,9]]) 

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
np.array([[3, 3.0, 1], [4, 5.2, 12], [14, 10, 0]])

array([[ 3. ,  3. ,  1. ],
       [ 4. ,  5.2, 12. ],
       [14. , 10. ,  0. ]])

In [7]:
np.array([[3, 1], [4, 12], [14, 10, 10]])

array([list([3, 1]), list([4, 12]), list([14, 10, 10])], dtype=object)

#### 범위 지정하여 배열 생성

- arr_obj = np.arange([start,] stop[,step]) 
- .arange 간격 설정

In [8]:
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

In [9]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.arange(5)

array([0, 1, 2, 3, 4])

#### * m x n 행렬 설정하기: reshape(m,n)
#### * m x n 행력 형태 확인: .shape
#### * 범위의 시작과 끝, 데이터의 개수를 지정해 배열 생성 : np.linspace(start, stop[, num])
#### * 특별한 형태의 배열 생성:
 - np.zeros(m, n) : 0으로 채워진 array생성
 - np.ones(m, n) : 1로 채워진 array 생성
 
#### * 단위 행렬 : np.eye(n) : 주대각선이 모두 1, 나머지는 0인 행렬 생성

In [11]:
np.arange(12).reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [15]:
b1 = np.arange(12).reshape(4,3)
b1.shape

(4, 3)

In [16]:
b2 = np.arange(5)
b2.shape   # 튜플이므로 한자리수 다음에 콤마

(5,)

In [17]:
np.linspace(1, 10, 10)   # 1부터 10까지 10개의 데이터 생성

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [19]:
np.linspace(0, np.pi, 20)  # 0부터 원주율(pi)까지 동일한 간격을 나눈 20개의 데이터 생성

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

In [20]:
np.zeros(10)  # 10개의 0으로 1차원 배열 생성

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [22]:
np.zeros((4, 5))   # 4 x 5 배열의 0으로 채워진 2차원 배열 생성

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [23]:
np.ones(3)  # 3개의 1로 채워진 1차원 배열 생성

array([1., 1., 1.])

In [24]:
np.ones((2,6)) # 2 x 6 배열의 1로 채워진 2차원 배열 생성

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [28]:
np.eye(6)  # 주 대각선을 1로 채운 6 x 6 배열 생성

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

#### 배열의 데이터 타입 변환

In [27]:
np.array(['1.5', '0.62', '2', '3.14', '3.141592'])

array(['1.5', '0.62', '2', '3.14', '3.141592'], dtype='<U8')

In [31]:
str_a1 = np.array(['1.567', '0.123', '5.123', '9', '8'])
num_a1 = str_a1.astype(float) # str_a1을 실수로 변환(문자 > 실수)
num_a1

array([1.567, 0.123, 5.123, 9.   , 8.   ])

In [33]:
str_a1.dtype    # str_a1 은 문자열(U)이었는데

dtype('<U5')

In [34]:
num_a1.dtype    # num_a1은 실수(float)로 변경됨

dtype('float64')

In [35]:
str_a2 = np.array(['1', '3', '5', '7', '9'])
num_a2 = str_a2.astype(int)    # str_a2를 정수로 변환하여 num_a2에 저장
num_a2

array([1, 3, 5, 7, 9])

In [36]:
num_f1 = np.array([10, 21, 0.549, 4.75, 5.98])
num_i1 = num_f1.astype(int) # 위의 수를 모두 정수로 변환
num_i1

array([10, 21,  0,  4,  5])

#### 난수 배열의 생성

- rand(m, n) : 

In [37]:
np.random.rand(2,3)

array([[0.38524252, 0.10732637, 0.12536739],
       [0.65494988, 0.51127723, 0.41987492]])

In [38]:
np.random.rand()

0.6391716549038697

In [39]:
np.random.rand(2,3,4)

array([[[0.95873842, 0.93946461, 0.91179839, 0.40087806],
        [0.15290807, 0.81028901, 0.23031702, 0.8171653 ],
        [0.41047283, 0.49255364, 0.32065444, 0.43319233]],

       [[0.73437113, 0.8000046 , 0.50568531, 0.64706955],
        [0.1925325 , 0.39641409, 0.45393293, 0.56247298],
        [0.78650986, 0.68689723, 0.15306102, 0.62795257]]])

In [40]:
np.random.randint(10, size=(3,4))

array([[5, 1, 3, 3],
       [0, 6, 8, 7],
       [0, 4, 1, 4]])

In [41]:
np.random.randint(1, 30)

7

In [42]:
arr1 = np.array([10, 20, 30, 40])
arr2 = np.array([1, 2, 3, 4])

In [43]:
arr1 + arr2

array([11, 22, 33, 44])

In [44]:
arr1 - arr2

array([ 9, 18, 27, 36])

In [45]:
arr2 * 2

array([2, 4, 6, 8])

In [46]:
arr2 ** 2

array([ 1,  4,  9, 16], dtype=int32)

In [47]:
arr1 * arr2

array([ 10,  40,  90, 160])

In [48]:
arr1 / arr2

array([10., 10., 10., 10.])

In [49]:
arr1 / (arr2 **2)

array([10.        ,  5.        ,  3.33333333,  2.5       ])

In [50]:
arr1 > 20

array([False, False,  True,  True])

#### 통계를 위한 연산

- sum(), mean(), std(), var(), min(), max(), cumsum(), cumprod()
- 합계, 평균, 표준편차, 분산, 최소값, 최대값, 누적 합, 누적 곱

In [52]:
arr3 = np.arange(5)
arr3

array([0, 1, 2, 3, 4])

In [53]:
[arr3.sum(), arr3.mean()]

[10, 2.0]

In [54]:
[arr3.std(), arr3.var()]

[1.4142135623730951, 2.0]

In [55]:
[arr3.min(), arr3.max()]

[0, 4]

In [57]:
arr4 = np.arange(1,5)
arr4

array([1, 2, 3, 4])

In [58]:
arr4.cumsum()

array([ 1,  3,  6, 10], dtype=int32)

In [59]:
arr4.cumprod()

array([ 1,  2,  6, 24], dtype=int32)

#### 행렬 연산

- A.dot(B) / np.dot(A,B) : 행렬 곱
- A.transpose() / np.transpose(A) : 전치행렬
- np.linalg.inv(A) : 역행렬  
- **np.linalg.det(A) : 행렬식**

In [61]:
A = np.array([0, 1, 2, 3]).reshape(2,2)
A

array([[0, 1],
       [2, 3]])

In [63]:
B = np.array([3, 2, 0, 1]).reshape(2,2)
B

array([[3, 2],
       [0, 1]])

In [64]:
A.dot(B)  # 행렬곱

array([[0, 1],
       [6, 7]])

In [65]:
np.dot(A,B) # 행렬곱

array([[0, 1],
       [6, 7]])

In [66]:
np.transpose(A)  # 전치행렬

array([[0, 2],
       [1, 3]])

In [67]:
A.transpose() # 전치행렬

array([[0, 2],
       [1, 3]])

In [68]:
np.linalg.inv(A) # 역행렬

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

In [69]:
np.linalg.det(A)  # 행렬식

-2.0

### 배열의 인덱싱과 슬라이싱

#### 배열의 인덱싱

In [70]:
a1 = np.array([0, 10, 20, 30, 40, 50])
a1

array([ 0, 10, 20, 30, 40, 50])

In [71]:
a1[0]

0

In [72]:
a1[3]

30

In [73]:
a1[5] = 70   # 원소 변경
a1

array([ 0, 10, 20, 30, 40, 70])

In [74]:
a1[[1,3,4]]

array([10, 30, 40])

In [77]:
a2 = np.arange(10, 100, 10).reshape(3,3)
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [79]:
a2[0,2]

30

In [81]:
a2[2,2] = 96
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 96]])

In [82]:
a2[1]

array([40, 50, 60])

In [83]:
a2[1,2]

60

In [85]:
a2[1] = np.array([45,55,65])  # NumPy만 가능!!
a2

array([[10, 20, 30],
       [45, 55, 65],
       [70, 80, 96]])

In [87]:
a2[1] = [47,57,67] # 위는 NumPy array를 추가 / 아래는 파이썬 리스트를 추가
a2

array([[10, 20, 30],
       [47, 57, 67],
       [70, 80, 96]])

In [88]:
a2[[0,2],[0,1]]  # 0번째 행, 2번째 행 , 0번째 열, 1번째 열

array([10, 80])

In [89]:
a = np.array([1,2,3,4,5,6])
a[a > 3]

array([4, 5, 6])

In [91]:
a[ (a % 2) == 0]

array([2, 4, 6])

#### 배열의 슬라이싱

##### 1차원

In [93]:
b1 = np.array([0, 10, 20, 30, 40, 50])  # 끝지점-1 
b1[1:4]

array([10, 20, 30])

In [94]:
b1[:3]

array([ 0, 10, 20])

In [95]:
b1[2:]

array([20, 30, 40, 50])

In [96]:
b1[2:5] = np.array([25,35,45])
b1

array([ 0, 10, 25, 35, 45, 50])

In [97]:
b1[3:6] = 60
b1

array([ 0, 10, 25, 60, 60, 60])

##### 2차원

In [98]:
b2 = np.arange(10, 100, 10).reshape(3,3)
b2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [101]:
b2[1:3, 1:3]

array([[50, 60],
       [80, 90]])

In [102]:
b2[:3, 1:]

array([[20, 30],
       [50, 60],
       [80, 90]])

In [107]:
b2

array([[10, 25, 35],
       [40, 55, 65],
       [70, 80, 90]])

In [103]:
b2[1][0:2]

array([40, 50])

In [114]:
b2[2][0:1]

array([70])

In [119]:
b2[2][0]

70

In [105]:
b2[0:2, 1:3] = np.array([[25,35],[55,65]])
b2

array([[10, 25, 35],
       [40, 55, 65],
       [70, 80, 90]])

In [120]:
data1 = [0, 1, 2, 3, 4, 5]
a1 = np.array(data1)
a1 

array([0, 1, 2, 3, 4, 5])