# NumPy

> 과학 연산을 쉽고 빠르게 할 수 있게 만든 패키지
> 배열 데이터를 효과적으로 다룰 수 있다.

## 배열 생성

* `import numpy as np`로 NumPy 패키지를 불러옴
* 배열(Array) : 순서가 있는 같은 종류의 데이터가 저장된 집합



### 1. 시퀀스 데이터로부터 배열 생성

`arr_obj = np.array(seq_data)`

시퀀스 데이터로 리스트와 튜플 타입의 데이터를 모두 사용할 수 있지만 주로 데이터를 이용

In [84]:
import numpy as np
a1 = np.array([0,1,2,3,4])
a1

array([0, 1, 2, 3, 4])

Numpy에서 인자로 정수와 실수가 혼합되어 있으면 모두 실수로 변환한다.

In [85]:
a2 = np.array([0.1, 8, 2.6, 3, 7])
a2

array([0.1, 8. , 2.6, 3. , 7. ])

다차원 배열 생성

In [86]:
a3 = np.array([[1,2,3],[4,5,6]])
a3

array([[1, 2, 3],
       [4, 5, 6]])

**배열의 속성을 표현하기**

1. array의 자료형 확인 : ndrray.dtype

In [87]:
a1.dtype

dtype('int32')

In [88]:
a2.dtype

dtype('float64')

In [89]:
a3.dtype

dtype('int32')

2. 배열의 행렬이 몇 행 몇 열인지 나타냄 : ndrray.shape -> 튜플형태로 반환

In [90]:
a1.shape

(5,)

In [91]:
a2.shape

(5,)

In [92]:
a3.shape

(2, 3)

### 2. 범위를 지정해 배열 생성
1. aranne() 이용

`arr_obj = np.arange([start,] stop[, step])`

In [93]:
# 1부터 시작해서 9까지 2만큼 더해 배열 생성
b1 = np.arange(1,10,2)
b

array([1, 3, 5, 7, 9])

In [94]:
# 0부터 10까지의 배열 생성
b2 = np.arange(10)
b2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

* `.reshape(m,n)` : m x n 형태의 배열로 변경

     ※주의할 점 : arange()로 생성되는 배열의 원소 개수와 reshape(m,n)에서 m x n의 개수가 같아야 한다.

In [95]:
b2.reshape(5,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [96]:
b3 = np.arange(10,55,5).reshape(3,3)
b3

array([[10, 15, 20],
       [25, 30, 35],
       [40, 45, 50]])

In [97]:
np.arange(7).reshape(3,3)      # 오류발생 : array의 크기가 맞지 않아서 생성불가

ValueError: cannot reshape array of size 7 into shape (3,3)

2. linspace() 이용

`arr_obj = np.linspace(start, stop [,step])`

* 범위의 시작과 끝을 지정하고 데이터 개수를 지정해 배열을 생성
* start부터 stop까지 동일한 간격으로 나눈 num개의 배열을 생성함(step의 기본값은 50)

In [98]:
b4 = np.linspace(1,10,10)
b4

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [99]:
b5 = np.linspace(50,500)   # step값 생략시 50
b5

array([ 50.        ,  59.18367347,  68.36734694,  77.55102041,
        86.73469388,  95.91836735, 105.10204082, 114.28571429,
       123.46938776, 132.65306122, 141.83673469, 151.02040816,
       160.20408163, 169.3877551 , 178.57142857, 187.75510204,
       196.93877551, 206.12244898, 215.30612245, 224.48979592,
       233.67346939, 242.85714286, 252.04081633, 261.2244898 ,
       270.40816327, 279.59183673, 288.7755102 , 297.95918367,
       307.14285714, 316.32653061, 325.51020408, 334.69387755,
       343.87755102, 353.06122449, 362.24489796, 371.42857143,
       380.6122449 , 389.79591837, 398.97959184, 408.16326531,
       417.34693878, 426.53061224, 435.71428571, 444.89795918,
       454.08163265, 463.26530612, 472.44897959, 481.63265306,
       490.81632653, 500.        ])

### 특별한 형태의 배열 생성
1. `zeros()` : 모든 원소가 0인 다차원 배열을 생성

    * np.zeros(n) n개의 원소가 모두 0을 갖는 1차원 배열
    * np.zeros((m x n)) 원소가 모두 0을 갖는 m x n의 2차원 배열

In [100]:
# 모든 원소가 0인 1차원 배열생성
np.zeros(3)

array([0., 0., 0.])

In [101]:
# 모든 원소가 0인 3 x 4의 2차원 배열
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

2. `ones()` : 모든 원소가 1인 다차원 배열을 생성
    * np.ones(n) n개의 원소가 모두 1을 갖는 1차원 배열
    * np.ones((m x n)) 원소가 모두 1을 갖는 m x n의 2차원 배열

In [102]:
# 모든 원소가 1인 1차원 배열생성
np.ones(6)

array([1., 1., 1., 1., 1., 1.])

In [103]:
# 모든 원소가 1인 2 x 3의 2차원 배열
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

3. `eye()` : 대각요소가 1이고 나머지는 0인 배열을 생성
    * np.eye(m, n[, k=0, dtype=<class 'float'>])
     
     k가 양수이면 해당 수 만큼 오른쪽으로 이동, 음수이면 해당 수만큼 왼쪽으로 이동

In [104]:
np.eye(3,3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [105]:
np.eye(5,6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.]])

In [106]:
# 대각요소를 오른쪽으로 한칸씩 이동한 배열
np.eye(5,6,k=1)

array([[0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

In [107]:
# 대각요소를 왼쪽으로 두칸씩 이동한 배열
np.eye(5,6,k=-2)

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [108]:
np.eye(4,5,dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0]])

4. `np.identity(n,[dtype=])` : 정방요소 1인 n x n 크기의 단위행렬 생성

In [109]:
np.identity(5,dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

5. `np.empty(n[, dtype=])` 또는 `np.empty((n,m)[, dtype=])` : 초기화 되지 않은 배열 생성

In [110]:
np.empty((3,5))

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [111]:
np.empty(5)

array([1., 1., 1., 1., 1.])

### 배열의 데이터 타입 변환
NumPy의 배열은 숫자 뿐만 아니라 문자열도 원소로 가질 수 있다
* NumPy 데이터의 형식
  |기호|의미|
  |-----|-----------|
  |'b'| 불 |
  |'c'| 기호가 있는 정수 |
  |'u'| 기호가 없는 정수 |
  |'f'| 실수|
  |'c'| 복소수 |
  |'M'| 날짜 |
  |'O'| 파이썬객체 |
  |'S' 또는 'a'| 바이트 문자열 |
  |'U'| 유니코드 |

* `astype(dtype)` : 배열의 모든 요소를 지정한 데이터 타입으로 변환

배열이 문자열로 되어있다면 연산을 하기 위해서 숫자로 변환해야한다.

In [112]:
# 요소가 문자열인 배열 생성
str_a = np.array(['1.657','3.4','8.354','6','1'])
str_a

array(['1.657', '3.4', '8.354', '6', '1'], dtype='<U5')

In [113]:
# str_a를 실수형으로 변환
num_a = str_a.astype(dtype='f')
num_a
# str_a.astype(dtype=float)와 같음

array([1.657, 3.4  , 8.354, 6.   , 1.   ], dtype=float32)

In [114]:
str_a.dtype, num_a.dtype

(dtype('<U5'), dtype('float32'))

In [115]:
# 실수형 요소가 있는 배열을 정수형 데이터 타입으로 변환
float_a = np.array([1.56, 0.64, 5, 9.36])
float_a.astype(dtype=int)   # 소숫점 이하 값들은 버림

array([1, 0, 5, 9])

### 난수 배열 생성
1. `random.rand(n,m)` : 0에서 1사이의 실수 난수를 갖는 n x m 크기의 배열 생성(1은 포함되지 않음)

    `random.rand()` : 인자가 없으면 임의의 실수 하나 생성

In [116]:
# 임의의 실수 하나 생성
np.random.rand()

0.06528792579808151

In [117]:
# 3 x 4 크기의 난수 배열 생성
np.random.rand(3,4)

array([[0.14937537, 0.57496926, 0.47314291, 0.35796017],
       [0.71406977, 0.00496289, 0.96946325, 0.11658335],
       [0.03361627, 0.69422641, 0.10455508, 0.13835064]])

2. `random.randint([low,] high [,size = (n x m)])` : low에서 high사이의 정수 난수를 갖는 배열 생성(high는 포함되지 않음)
    * low가 입력되지 않으면 0으로 간주
    * size가 입력되지 않으면 1으로 간주

In [118]:
np.random.randint(1,10)

3

In [83]:
# 0부터 9사이의 정수 난수를 갖는 2 x 2 크기의 배열 생성
np.random.randint(10,size=(2,2))

array([[2, 2],
       [6, 2]])