# 2. NumPy 배열
* NumPy에는 **ndarray**(n dimension array)라는 데이터 타입의 배열이 사용된다.
* ndarray는 NumPy의 N차원 배열 객체이다.
* 같은 타입의 데이터만 저장할 수 있다.
* Python의 list에 비해 계산 속도가 빠르다.

In [2]:
# numpy import하기
import numpy as np
np.__version__

'1.19.2'

## 2-1. np.array() 함수로 생성하기

### 1차원 배열 생성하기

In [3]:
# 1차원 배열
# ? : docstring
arr = np.array([1, 2, 3, 4])
arr

array([1, 2, 3, 4])

In [4]:
# type 확인
type(arr)

numpy.ndarray

In [11]:
mylist = [1, 2, 3, 4]  # tuple도 되지만 list를 많이 씀
arr = np.array(mylist)
arr

array([1, 2, 3, 4])

In [5]:
# 주의할 점 : array함수에는 data는 1개만 들어가야 한다.
arr = np.array(1, 2, 3, 4)

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [13]:
# 데이터타입 확인
# NumPy data type 검색해보기
arr.dtype

dtype('int32')

In [24]:
# overflow 테스트
arr = np.array([2147483648, 2, 3, 4], dtype=np.int64)
arr

array([2147483648,          2,          3,          4], dtype=int64)

In [19]:
arr.dtype

dtype('int64')

In [30]:
arr = np.array([1, 2, 3, 4], dtype=float)
arr

array([1., 2., 3., 4.])

In [31]:
arr.dtype

dtype('float64')

In [32]:
# shape : 각 차원의 배열의 size (차원의 모양)
arr.shape

(4,)

In [34]:
# size : 배열의 전체 element의 수
arr.size

4

In [35]:
# ndim : 차원의 수
arr.ndim

1

In [36]:
# ndarray에는 같은 데이터만 들어가야 한다.
# int, float -> float
arr = np.array([1, 2, 3, 3.14])
arr

array([1.  , 2.  , 3.  , 3.14])

In [37]:
# int, float -> int
arr = np.array([1, 2, 3, 3.14], dtype=int)
arr

array([1, 2, 3, 3])

In [43]:
# int, float, string -> string
# <U32 : unicode 문자열
# '>' (big-endian), '<' (little-endian) : 메모리에 연속된 바이트를 배열하는 방법 (big: 큰 단위를 먼저 배열, little: 작은 단위를 먼저 배열)
# 32-character string
arr = np.array([1, 3.14, '1234'])
arr

array(['1', '3.14', '1234'], dtype='<U32')

In [46]:
# int, float, string -> int
arr = np.array([1, 3.14, '1234'], dtype=int)
arr

array([   1,    3, 1234])

In [53]:
# 이미 만들어진 배열을 이용하여 타입이 다른 배열을 생성하기
new_arr = arr.astype(float)
arr.dtype, new_arr.dtype

(dtype('int32'), dtype('float64'))

### 다차원 배열 생성하기

In [62]:
arr2 = np.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [63]:
type(arr2)

numpy.ndarray

In [66]:
arr2.shape, arr2.dtype, arr2.ndim, arr2.size, 

((3, 4), dtype('int32'), 2, 12)

In [67]:
arr2 = np.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]], dtype=float)
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [69]:
new_arr2 = arr2.astype(int)
arr2, new_arr2

(array([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.],
        [ 9., 10., 11., 12.]]),
 array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]))

## 2-2. np.arange() 함수로 생성하기

* np.arange() 함수는 순차적인 값을 갖는 배열을 생성할 경우 사용한다.

### 1차원 배열 생성하기

In [87]:
# 파이썬의 range
for i in range(1, 11, 2):
    print(i)

1
3
5
7
9


In [89]:
# 1~10까지의 값을 갖는 ndarray를 생성하기
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [90]:
# arange를 사용해서 쉽게 생성하기 (start 이상, stop 미만, step)
arr = np.arange(1, 11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [91]:
# keyword 인자를 사용해보기
arr = np.arange(start=1, stop=11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [92]:
arr = np.arange(stop=11, start=1)

In [93]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [94]:
# 홀수값만 생성하기
arr = np.arange(1, 11, 2)
arr

array([1, 3, 5, 7, 9])

In [96]:
arr = np.arange(start=1, stop=11, step=2)
arr

array([1, 3, 5, 7, 9])

### 다차원 배열 만들기

In [102]:
arr = np.arange(12)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [118]:
# 배열의 shape을 바꿈
# 원본 배열은 변경되지 않음
new_arr = arr.reshape(3, 4)
new_arr, arr

(array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]),
 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]))

In [115]:
new_arr = arr.reshape(4, 3)
new_arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [113]:
arr.reshape(3, 5)

ValueError: cannot reshape array of size 12 into shape (3,5)

In [120]:
# 원본 배열의 shape를 변경하고자 할 경우
arr.shape = (3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

## 2-3. np.zeros() 함수로 생성

In [157]:
# 1차원 배열
arr = np.zeros(4)
arr

array([0., 0., 0., 0.])

In [158]:
arr = np.zeros(4, dtype=int)
arr

array([0, 0, 0, 0])

In [159]:
# 2차원 배열
arr2 = np.zeros((3, 4))
arr2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## 2-4. np.ones() 함수로 생성

In [160]:
# 1차원 배열
arr = np.ones(4)
arr

array([1., 1., 1., 1.])

In [161]:
# 2차원 배열
arr2 = np.ones((3, 4), dtype=int)
arr2

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

## 2-5. np.linspace() 함수로 생성

In [175]:
arr = np.linspace(0, 10, 5)
arr

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [176]:
arr = np.linspace(0, 10)
arr

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [177]:
# 2차원 배열로 만들려면?
new_arr = arr.reshape(10, 5)
new_arr

array([[ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653],
       [ 1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469],
       [ 2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286],
       [ 3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102],
       [ 4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918],
       [ 5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735],
       [ 6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551],
       [ 7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367],
       [ 8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184],
       [ 9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ]])

## 2-5. np.full() 함수로 생성

In [183]:
# 특정 값으로 생성하고자 하는 경우
arr = np.full(4, 10)
arr

array([10, 10, 10, 10])

In [184]:
arr2 = np.full((3, 4), 10)
arr2

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

## 2-6. np.eye() 함수로 생성

In [185]:
# 단위 행렬 또는 항등 행렬: 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬이다.
arr = np.eye(2)
arr

array([[1., 0.],
       [0., 1.]])

In [187]:
arr = np.eye(5)
arr

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## 2-7. np.random() 함수로 생성

In [191]:
# 랜덤 실수값 생성
arr = np.random.rand(3)
arr

array([0.16533995, 0.83832478, 0.00961339])

In [196]:
arr2 = np.random.rand(2, 3)
arr2

array([[0.73471991, 0.03820504, 0.51496854],
       [0.69029695, 0.56446963, 0.69186802]])

In [198]:
# 랜덤 정수값 생성
arr = np.random.randint(5, size=10)  # 0~4까지
arr

array([3, 0, 2, 2, 1, 4, 1, 3, 4, 2])

In [199]:
arr = np.random.randint(1, 5, size=10)  # 1~4까지
arr

array([2, 3, 3, 1, 2, 3, 3, 1, 4, 2])

In [200]:
arr2 = np.random.randint(1, 5, size=(3, 4))
arr2

array([[4, 2, 4, 1],
       [2, 3, 1, 3],
       [4, 3, 1, 1]])

In [213]:
# 일정한 랜덤값을 만들려면?
# 랜덤 알고리즘은 수행시각을 seed값으로 사용하므로 매번 실행시마다 다른값이 나옴
# 일정한 랜덤값을 만들려면 시작 seed값을 주면 됨, 그 seed값을 이용해서 첫번째 랜덤값을 만들고, 그 랜덤값을 이용하여 두번째 랜덤값을 만듬
np.random.seed(123)
np.random.rand(2, 3)

array([[0.69646919, 0.28613933, 0.22685145],
       [0.55131477, 0.71946897, 0.42310646]])

## 2-8. NumPy 배열 Save & Load

In [4]:
arr

array([1, 2, 3, 4])

In [7]:
np.save('my_arr', arr)

In [9]:
new_arr = np.load('my_arr.npy')
new_arr

array([1, 2, 3, 4])