# NumPy 특징

*   Numerical Python의 약자
*   고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
*   범용적 데이터 처리에 사용가능한 다차원 컨테이너
*   정교한 브로드캐스팅(broadcasting) 기능
*   파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
*   반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
*   데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음


In [3]:
import numpy as np

# 배열 **생성**

In [4]:
a1 = np.array([1, 2, 3, 4, 5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)


[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3
[4 5 6 4 5]


In [6]:
a2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 2차원은 리스트 안에 리스트를 내포한 형태
print(a2)
print(a2.shape) # 3, 3 2차원 array
print(a2[0,0], a2[1,1], a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


In [10]:
a3 = np.array([ [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ],
                [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ],
                [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ] ] )
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


# 배열 생성 및 초기화 

* zeros(): 모든 요소를 0으로 초기화

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* ones(): 모든 요소를 1로 초기화

In [21]:
np.ones(10)
np.ones((3, 3))


array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

* full(): 모든 요소를 지정한 값으로 초기화

In [22]:
np.full((3, 3), 1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

* eye(): 단위행렬(identity matrix) 생성
*주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [23]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* tri(): 삼각행렬 생성

In [24]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* empty() : 초기화되지 않은 배열 생성
* 초기화가 없어서 배열 생성 비용 저렴하고 빠름
* 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [25]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* _like(): 지정된 배열과 shape가 같은 행렬 생성
* np.zeros_like()
* np.ones_like()
* np.full_like()
* np.empty_like()

In [27]:
print(a1)
np.zeros_like(a1)

[4 5 6 4 5]


array([0, 0, 0, 0, 0])

In [29]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [30]:
print(a3)
np.full_like(a3, 10) # full의 경우 뭐로 채울지 알려줘야 한다.

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

# 생성한 값으로 배열 생성

* arange() : 정수 범위로 배열 생성

In [33]:
np.arange(0, 30, 2) # (시작, 끝(미포함), 간격 크기)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

* linspace() : 범위 내에서 균등 간격의 배열 생성

In [36]:
np.linspace(0, 1, 5) # (시작, 끝(포함), 간격 개수)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* logspace(): 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [37]:
np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

# 랜덤값으로 배열 생성

* random.random(): 랜덤한 수의 배열 생성

In [38]:
np.random.random((3,3))

array([[0.73120451, 0.86263451, 0.1972486 ],
       [0.33941314, 0.50844747, 0.34716914],
       [0.04779622, 0.30090309, 0.81811409]])

* random.randint() : 일정 구간의 랜덤 정수의 배열 생성

In [42]:
np.random.randint(0, 10, (3,3)) # 0부터 10까지 중에 랜덤정수로 3, 3배열 생성

array([[0, 9, 1],
       [4, 5, 6],
       [5, 7, 5]])

* random.normal() : 정규분포(normal distribution)을 고려한 랜덤한 수의 배열 생성
* 평균 = 0, 표준편차 = 1, 3 x 3배열

In [46]:
np.random.normal(0, 1, (3, 3))

array([[ 0.526401  ,  1.50726596, -0.48216677],
       [-0.22217174,  1.10447293, -1.69896358],
       [-0.40493987,  1.21355848, -0.81304159]])

* random.rand() : 균등분포(uniform distribution)을 고려한 랜덤한 수의 배열 생성

In [47]:
np.random.rand(3,3)

array([[0.0183001 , 0.48698425, 0.94082481],
       [0.27333934, 0.46680007, 0.54641839],
       [0.62434996, 0.63275773, 0.5082765 ]])

* random.randn() : 표준 정규 분포 (standard normal distribution)을 고려한 랜덤한 수의 배열 생성

In [48]:
np.random.randn(3, 3)

array([[ 0.70027279,  0.83795374,  2.89880428],
       [-0.62446772,  0.74638796, -2.05281148],
       [-0.40906371,  1.24055211,  0.14358589]])

# 표준 데이터 타입 

In [49]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [50]:
np.ones((3,3), dtype = bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [52]:
np.full((3,3), 1.0, dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

# 날짜/시간 배열 생성 

In [53]:
date = np.array('2020-01-01', dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [56]:
date + np.arange(12) # 기존날짜에 0부터 11이 각각 더해짐

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [58]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [60]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

# 배열 조회

* 배열 속성 정보

In [63]:
def array_info(array):
    print(array)
    print('ndim: ', array.ndim)
    print('shape: ', array.shape)
    print('dtype: ', array.dtype)
    print('size: ', array.size)
    print('itemsize: ', array.itemsize)
    print('nbytes: ', array.nbytes)
    print('strides: ', array.strides)

In [64]:
array_info(a1)

[4 5 6 4 5]
ndim:  1
shape:  (5,)
dtype:  int32
size:  5
itemsize:  4
nbytes:  20
strides:  (4,)


In [65]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim:  2
shape:  (3, 3)
dtype:  int32
size:  9
itemsize:  4
nbytes:  36
strides:  (12, 4)


In [66]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim:  3
shape:  (3, 3, 3)
dtype:  int32
size:  27
itemsize:  4
nbytes:  108
strides:  (36, 12, 4)


# 인덱싱(indexing)

In [69]:
print(a1)
print(a1[0])
print(a1[2])
print(a1[-1])
print(a1[-2])

[4 5 6 4 5]
4
6
5
4


In [72]:
print(a2)
print(a2[0, 0]) # a2[a, b] >> a번째 행의 b 열
print(a2[0, 2])
print(a2[1, 1])
print(a2[2, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
5
9


In [75]:
print(a3)
print(a3[0, 0, 0]) # a2[a, b, c] >> a번째의 b행의 c열
print(a3[1, 1, 1])
print(a3[2, 2, 2])
print(a3[2, -1, -1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
5
9
9


# 슬라이싱(slicing)

* 슬라이싱 구문 : a[start:stop: step]
* 기본값 : start = 0, stop = ndim, step = 1

In [76]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[::2])
print(a1[::-1]) # 역으로 접근

[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4 6 5]
[5 4 6 5 4]


In [80]:
print(a2)
print()
print(a2[1])
print()
print(a2[1, :])
print()
print(a2[:2, :2])
print()
print(a2[1:, ::-1])
print()
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[4 5 6]

[4 5 6]

[[1 2]
 [4 5]]

[[6 5 4]
 [9 8 7]]

[[9 8 7]
 [6 5 4]
 [3 2 1]]


# 불리언 인덱싱 (Boolean Indexing) 

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [84]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi]) # True인 위치만 출력 / False는 미출력한다

[4 5 6 4 5]
[5 6 5]


In [88]:
print(a2)
bi = np.random.randint(0, 2, (3, 3), dtype=bool)
print(bi)
print(a2[bi])
# 불리언 인덱싱은 특정 조건에 대하여 그 결과를 불리언 인덱싱 결과로 준다
# 그 결과에 대하여 필터링된 배열에 원하는 값만 받을 때 자주 사용

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False  True]
 [False False False]
 [ True  True False]]
[3 7 8]


# 팬시 인덱싱 (Fancy Indexing) 

In [90]:
print(a1)
print(a1[0], a1[2])
ind = [0, 2]
print(a1[ind])
ind = np.array([[0,1],
                 [2,0]])
print(a1[ind]) # 1차원 배열이지만 2차원 인덱스를 넣었기 때문에 2차원으로 출력

[4 5 6 4 5]
4 6
[4 6]
[[4 5]
 [6 4]]


In [94]:
print(a2)
row = np.array([0, 2])
col = np.array([1, 2])
print(a2[row, col]) # row = 0, col = 1  /// row = 2, col = 2
print(a2[row, :])
print(a2[:, col])
print(a2[row, 1])
print(a2[2, col])
print(a2[row, 1:])
print(a2[1:, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[2 8]
[8 9]
[[2 3]
 [8 9]]
[[5 6]
 [8 9]]


# 배열 값 삽입/수정/삭제/복사

## 배열 값 삽입

* insert() : 배열의 특정 위치에 값 삽입
* axis를 지정핮 ㅣ않으면 1차원 배열로 변환
* 추가할 뱡향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 변환

In [95]:
print(a1)

[4 5 6 4 5]
