### numpy Numerical Python의 약자
### 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
### 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
### 정교한 브로드캐스팅 기능
### 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리(C언어 기반 라이브러리)
### 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
### 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [4]:
import numpy as np
np.__version__

'1.23.2'

In [5]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
[4 5 6 4 5]


In [6]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0],a2[1,1],a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


In [7]:
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]]])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


## 배열 생성 및 초기화

In [8]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
np.ones(10)
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [10]:
np.full((3,3),1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

In [11]:
# 단위행렬
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [12]:
# 삼각행렬
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* #### empty() : 초기화되지 않은 배열 생성  
>초기화가 없어서 배열 생성비용 저렴하고 빠름  
>초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [13]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* <h4>_like() : 지정된 배열과 shape가 같은 행렬 생성</h4>   
> np.zeros_like(), np.ones_like(), np.full_like()

In [14]:
print(a1)
np.zeros_like(a1)

[4 5 6 4 5]


array([0, 0, 0, 0, 0])

In [15]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [16]:
print(a3)
np.full_like(a3,10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

* #### 생성한 값으로 배열 생성
> arange() : 정수 범위로 배열 생성  
> linspace() : 범위 내에서 균등 간격의 배열 생성  
> logspace() : 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [17]:
np.arange(0,30,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [18]:
np.linspace(0, 1, 5) # 0 ~ 1 을 5등분 해라

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [19]:
np.logspace(0.1,1,20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

* ### 랜덤값으로 배열 생성

In [20]:
# 랜덤한 수의 배열 생성
np.random.random((3,3))

array([[0.03875027, 0.65730282, 0.29129658],
       [0.36626281, 0.72079776, 0.45044382],
       [0.65324623, 0.11368138, 0.40614784]])

In [21]:
# 일정 구간의 랜덤 정수의 배열 생성
np.random.randint(0, 10, (3, 3))

array([[9, 5, 2],
       [3, 2, 0],
       [5, 2, 1]])

* random.normal() : 정규분포를 고려한 랜덤한 수의 배열 생성  
* 평균 = 0, 표준편차 = 1 , 3 x 3 배열

In [22]:
np.random.normal(0,1,size=(3,3))

array([[-0.55034305,  0.27959949, -0.62130441],
       [ 1.59241799,  0.09339361, -0.46023303],
       [ 0.79792158,  1.21688034,  0.15225372]])

* random.rand() : 균등분포를 고려한 랜덤한 수의 배열 생성

In [23]:
np.random.rand(3,3)

array([[0.41894055, 0.61859221, 0.85764583],
       [0.16155651, 0.31652   , 0.91846875],
       [0.17671659, 0.83348992, 0.6731529 ]])

* random.randn() : 표준정규분포를 고려한 랜덤한 수의 배열 생성

In [24]:
np.random.randn(3,3)

array([[ 0.70302054, -1.54335547,  1.1812904 ],
       [ 1.56827091, -0.34856016,  1.39799609],
       [-0.20972089,  0.62836871, -0.89842414]])

## 표준 데이터 타입

In [25]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [26]:
np.ones((3,3), dtype=bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [27]:
np.full((3,3),1.0, dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 날짜 시간 정보 배열

In [28]:
date = np.array('2020-01-01',dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [29]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [30]:
datetime = np.datetime64('2022-09-19 12:00')
datetime

numpy.datetime64('2022-09-19T12:00')

In [31]:
datetime2 = np.datetime64('2022-09-19 16:21:14.56','ns') #나노초
datetime2

numpy.datetime64('2022-09-19T16:21:14.560000000')

# 배열조회

In [32]:
def array_info(array):
    print(array)
    print("ndim",array.ndim) # 배열 차원
    print("shape:",array.shape)
    print("dytpe:",array.dtype)
    print("size:",array.size)
    print("itemsize",array.itemsize) # 각 요소의 크기
    print("nbytes",array.nbytes) # 배열 전체 크기
    print("strides",array.strides) #

In [33]:
array_info(a1)

[4 5 6 4 5]
ndim 1
shape: (5,)
dytpe: int32
size: 5
itemsize 4
nbytes 20
strides (4,)


In [34]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim 2
shape: (3, 3)
dytpe: int32
size: 9
itemsize 4
nbytes 36
strides (12, 4)


In [35]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim 3
shape: (3, 3, 3)
dytpe: int32
size: 27
itemsize 4
nbytes 108
strides (36, 12, 4)


# 인덱싱

In [36]:
print(a1)
print(a1[0])
print(a1[2])
print(a1[-1])
print(a1[-2])

[4 5 6 4 5]
4
6
5
4


In [38]:
print(a2)
print(a2[0,0])
print(a2[0,2])
print(a2[1,1])
print(a2[2,-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
5
9


In [39]:
print(a3)
print(a3[0,0,0])
print(a3[0,2])
print(a3[1,1,1])
print(a3[2,-1,-1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
[7 8 9]
5
9


# 슬라이싱

In [44]:
print(a1)
print(a1[0:2])
print(a1[:])
print(a1[:1])
print(a1[::2]) # 두 칸씩 건너뛰어 출력
print(a1[::-1]) # 역출력

[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4]
[4 6 5]
[5 4 6 5 4]


In [46]:
print(a2,"\n")
print(a2[1])
print(a2[1,:])
print(a2[:2,:2])
print(a2[1:,::-1])
print(a2[::-1,::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[4 5 6]
[4 5 6]
[[1 2]
 [4 5]]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


# 불리언 인덱싱

##### * 배열 각 요소의 선택 여부를 불리언으로 지정  
##### * True 값인 인덱스의 값만 조회(자주 사용함)

In [48]:
print(a1)
bi = [False,True,True,False,True]
print(a1[bi])
bi = [True,False,True,True,True]
print(a1[bi])

[4 5 6 4 5]
[5 6 5]
[4 6 4 5]


In [51]:
print(a2)
bi = np.random.randint(0,2,(3,3),dtype=bool)
print(bi)
print(a2[bi])


[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ True False  True]
 [ True False False]
 [ True False False]]
[1 3 4 7]


# 펜시 인덱싱

In [54]:
print(a1)
print(a1[0],a1[2])
ind = [0,2]
print(a1[ind])
ind = np.array([[0,1],[2,0]]) # a1의 인덱스를 이용해 a1의 값으로 새로운 배열 생성
print(a1[ind])

[4 5 6 4 5]
4 6
[4 6]
[[4 5]
 [6 4]]


In [56]:
print(a2)
row = np.array([0,2])
col = np.array([1,2])
print(a2[row,col])
print(a2[row,:])
print(a2[:,col])
print(a2[2,col])
print(a2[row,1:])
print(a2[1:,col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[8 9]
[[2 3]
 [8 9]]
[[5 6]
 [8 9]]


# 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입  
* insert() : 배열의 특정 위치에 값 삽입  
* axis를 지정하지 않으면 1차원 배열로 변환  
* 추가할  방향을 axis로 지정  
* 원본 배열 변경없이 새로운 배열 반환 

In [60]:
# np.insert(arr, obj, values, axis=None)
print(a1)
b1 = np.insert(a1,0,10)
print(b1)
c1 = np.insert(a1,2,10)
print(c1)

[4 5 6 4 5]
[10  4  5  6  4  5]
[ 4  5 10  6  4  5]


In [63]:
print(a2)
b2 = np.insert(a2,1,10,axis=0) # axis = 0 : 행
print(b2)
c2 = np.insert(a2,1,10,axis=1) # axis = 1 ; 열
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


### 배열 값 수정  
* 배열의 인덱싱으로 접근하여 값 수정

In [67]:
print(a1)
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)
a1[:1] = 9
print(a1)
i = np.array([1,3,4]) # 펜시 인덱싱
a1[i] = 0
print(a1)
a1[i] += 4
print(a1)

[9 0 3 0 0]
[1 2 3 0 0]
[9 2 3 0 0]
[9 0 3 0 0]
[9 4 3 4 4]


In [70]:
print(a2)
a2[0,0] = 1
a2[1,1] = 2
a2[2,2] = 3
a2[0] = 1
print(a2)
a2[1:,2] = 9
print(a2)
row = np.array([0,1])
col = np.array([1,2])
a2[row,col] = 0
print(a2)

[[1 1 1]
 [4 2 9]
 [7 8 9]]
[[1 1 1]
 [4 2 9]
 [7 8 3]]
[[1 1 1]
 [4 2 9]
 [7 8 9]]
[[1 0 1]
 [4 2 0]
 [7 8 9]]


### 배열값 삭제  
* delete() : 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [71]:
print(a1)
b1 = np.delete(a1,1)
print(b1)
print(a1)

[9 4 3 4 4]
[9 3 4 4]
[9 4 3 4 4]


In [74]:
print(a2)
b2 = np.delete(a2,1,axis=0)
print(b2)
c2 = np.delete(a2,1,axis=1)
print(c2)

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0 1]
 [7 8 9]]
[[1 1]
 [4 0]
 [7 9]]


### 배열 복사  
* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님

In [75]:
# 기본적으로 카피가 아닌 동일한 메모리 위치의 원본을 가져와 차용함
print(a2)
print(a2[:2,:2]) 
a2_sub = a2[:2,:2] # 슬라이싱 하여 받아옴
# 받아와 생성된 객체는 원본 객체에 영향을 준다.
print(a2_sub)
a2_sub[:,1] = 0
print(a2_sub)
print(a2) # 원본 배열도 바뀜 

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0]
 [4 2]]
[[1 0]
 [4 2]]
[[1 0]
 [4 0]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


* copy() : 배열이나 하위 배열 내의 값을 명시적으로 복사

In [77]:
print(a2)
a2_sub_copy = a2[:2,:2].copy()
print(a2_sub_copy)
a2_sub_copy[:,1] = 1
print(a2_sub_copy)
print(a2)

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 0]
 [4 0]]
[[1 1]
 [4 1]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


# 배열 변환  
### 배열 전치 및 축 변경

In [78]:
print(a2)
print(a2.T) # 전치

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [1 0 9]]


In [79]:
print(a3)
print(a3.T)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 1 1]
  [4 4 4]
  [7 7 7]]

 [[2 2 2]
  [5 5 5]
  [8 8 8]]

 [[3 3 3]
  [6 6 6]
  [9 9 9]]]


In [80]:
print(a2)
print(a2.swapaxes(1,0))

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [1 0 9]]


In [81]:
print(a3)
print(a3.swapaxes(0,1))
print(a3.swapaxes(1,2))

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 2 3]
  [1 2 3]
  [1 2 3]]

 [[4 5 6]
  [4 5 6]
  [4 5 6]]

 [[7 8 9]
  [7 8 9]
  [7 8 9]]]
[[[1 4 7]
  [2 5 8]
  [3 6 9]]

 [[1 4 7]
  [2 5 8]
  [3 6 9]]

 [[1 4 7]
  [2 5 8]
  [3 6 9]]]


### 배열 재구조화

* reshape() : 배열의 형상을 변경

In [84]:
n1 = np.arange(1,10)
print(n1)
print(n1.reshape(3,3))

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


* newaxis() : 새로운 축 추가

In [86]:
print(n1)
print(n1[np.newaxis, :5])
print(n1[:5,np.newaxis])
print(n1)

[1 2 3 4 5 6 7 8 9]
[[1 2 3 4 5]]
[[1]
 [2]
 [3]
 [4]
 [5]]
[1 2 3 4 5 6 7 8 9]


### 배열 크기 변경

* 배열 모양만 변경
* resize() : 모양 변경, 기본적으로 한줄로 늘여놓은 값들을 입려된 모양으로 자름

In [87]:
n2 = np.random.randint(0,10,(2,5))
print(n2)
n2.resize((5,2))
print(n2)

[[8 4 2 8 0]
 [2 5 7 7 0]]
[[8 4]
 [2 8]
 [0 2]
 [5 7]
 [7 0]]


* 배열 크기 증가  
* 남은 공간은 0으로 채워짐

In [89]:
n2.resize((5,5)) 
print(n2)

[[8 4 2 8 0]
 [2 5 7 7 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


* 배열 크기 감소  
* 포함되지 않은 값은 삭제됨

In [90]:
n2.resize((3,3))
print(n2)

[[8 4 2]
 [8 0 2]
 [5 7 7]]


### 배열 추가

* append() : 배열의 끝에 값 추가

In [91]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2 = np.arange(10,19).reshape(3,3)
print(b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]


* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

In [92]:
c2 = np.append(a2,b2)
print(c2)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]


* axis를 0으로 지정  
* shape[0]을 제외한 나머지 shape은 같아야함

In [93]:
c2 = np.append(a2,b2,axis=0)
print(c2)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]]


In [94]:
c2 = np.append(a2,b2,axis=1)
print(c2)

[[ 1  2  3 10 11 12]
 [ 4  5  6 13 14 15]
 [ 7  8  9 16 17 18]]


### 배열 연결

* concatenate() : 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

In [95]:
a1 = np.array([1,3,5])
b1 = np.array([2,4,6])
np.concatenate([a1,b1])

array([1, 3, 5, 2, 4, 6])

In [96]:
c1 = np.array([7,8,9])
np.concatenate([a1,b1,c1])

array([1, 3, 5, 2, 4, 6, 7, 8, 9])

In [97]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
np.concatenate([a2,a2]) # axis=0 디폴트

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [98]:
np.concatenate([a2,a2],axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

* vstack() : 수직 스택(vertical stack), 1차원으로 연결

In [99]:
np.vstack([a2,a2])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

* hstack() : 수평스택(horizontal stack),2차원으로 연결

In [100]:
np.hstack([a2,a2])

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

* dstack() : 깊이 스택(depth stack), 3차원으로 연결

In [101]:
np.dstack([a2,a2])

array([[[1, 1],
        [2, 2],
        [3, 3]],

       [[4, 4],
        [5, 5],
        [6, 6]],

       [[7, 7],
        [8, 8],
        [9, 9]]])

* stack() : 새로운 차원으로 연결 2->3

In [102]:
np.stack([a2,a2])

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

### 배열 분할

* split() : 배열 분할

In [105]:
a1 = np.arange(0,10)
print(a1)
b1,c1 = np.split(a1,[5])
print(b1,c1)
b1,c1,d1,e1,f1 = np.split(a1,[2,4,6,8])
print(b1,c1,d1,e1,f1)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4] [5 6 7 8 9]
[0 1] [2 3] [4 5] [6 7] [8 9]


* vsplit() : 수직 분할, 1차원으로 분할

In [107]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2,c2 = np.vsplit(a2,[2])
print(b2,c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]] [[7 8 9]]


* hsplit() : 수평 분할, 2차원으로 분할

In [108]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2,c2 = np.hsplit(a2,[2])
print(b2,c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2]
 [4 5]
 [7 8]] [[3]
 [6]
 [9]]


* dsplit() : 깊이 분할, 3차원으로 분할

In [109]:
a3 = np.arange(1,28).reshape(3,3,3)
print(a3)
b3,c3 = np.dsplit(a3,[2])
print(b3,c3)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
[[[ 1  2]
  [ 4  5]
  [ 7  8]]

 [[10 11]
  [13 14]
  [16 17]]

 [[19 20]
  [22 23]
  [25 26]]] [[[ 3]
  [ 6]
  [ 9]]

 [[12]
  [15]
  [18]]

 [[21]
  [24]
  [27]]]
