

---



# NumPy 

## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [1]:
import numpy as np



---



## 배열 생성

### 리스트로 배열 만들기


In [2]:
arr = np.array([1,2,3])
arr
arr.shape  #  (3,) 3개의 요소 , 1차원 

(3,)

In [3]:
arr1 = np.array([[1,2,3],[4,5,6]])

print(arr1[0,1],arr1[1,2])
print(arr1.shape) #  2행 3열 

2 6
(2, 3)


In [4]:
arr2 = np.array([ [[1,2,3],[4,5,6],[7,8,9]],
                 [[1,2,3],[4,5,6],[7,8,9]],
                 [[1,2,3],[4,5,6],[7,8,9]]])
print(arr2)
print(arr2.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [5]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [6]:
np.ones((3,3)) # 2차원 형태로 생성 

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [7]:
np.full((3,3),5)     

array([[5, 5, 5],
       [5, 5, 5],
       [5, 5, 5]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [8]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

* `tri()`: 삼각행렬 생성

In [9]:
np.tri(4)

array([[1., 0., 0., 0.],
       [1., 1., 0., 0.],
       [1., 1., 1., 0.],
       [1., 1., 1., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [10]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [11]:
u = np.arange(1,10).reshape(3,3)
u

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [12]:
np.zeros_like(u)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [13]:
np.full_like(u,3)

array([[3, 3, 3],
       [3, 3, 3],
       [3, 3, 3]])

In [14]:
np.empty_like(arr)

array([-1593661904,         687,           0])

### 생성한 값으로 배열 생성

* `arange()`: 정수 범위로 배열 생성

In [15]:
np.arange(0,30,5)

array([ 0,  5, 10, 15, 20, 25])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [16]:
np.linspace(10,30,5)

array([10., 15., 20., 25., 30.])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [17]:
np.logspace(1,0.1)

array([10.        ,  9.58589468,  9.18893768,  8.80841888,  8.44365757,
        8.09400122,  7.75882432,  7.43752728,  7.12953531,  6.83429746,
        6.55128557,  6.27999335,  6.01993548,  5.77064675,  5.5316812 ,
        5.30261134,  5.08302738,  4.87253651,  4.67076218,  4.47734343,
        4.29193426,  4.11420298,  3.94383164,  3.78051548,  3.62396232,
        3.47389211,  3.33003639,  3.19213781,  3.05994969,  2.93323554,
        2.8117687 ,  2.69533186,  2.58371673,  2.47672365,  2.3741612 ,
        2.27584593,  2.18160194,  2.09126064,  2.00466042,  1.92164637,
        1.84206997,  1.76578887,  1.69266662,  1.62257239,  1.5553808 ,
        1.49097166,  1.42922973,  1.37004456,  1.31331029,  1.25892541])

### 표준 데이터 타입

In [18]:
np.zeros(10, dtype = int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [19]:
np.ones((3,3) , dtype = bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [20]:
date = np.array('2020-01-01', dtype ='datetime64[Y]')
date
date +  np.array(12)

numpy.datetime64('2032')

In [21]:
datetime = np.datetime64('2020-06-05')
datetime + np.array(15)

numpy.datetime64('2020-06-20')



---



### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [22]:
ar = np.random.randint(0,10,(3,3))
bol = np.array(([[1,2,3],[4,5,6],[7,8,9]]), dtype = bool).reshape(3,3)

In [23]:
ar[bol]

array([7, 2, 3, 3, 4, 9, 0, 6, 9])

### 팬시 인덱싱(Fancy Indedxing)

In [24]:
a = np.arange(9).reshape(3,3)
ind = ([0,2])
print(a)
a[ind]


[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([[0, 1, 2],
       [6, 7, 8]])

In [25]:
row = ([2,0]) 
col = ([0,1])

In [26]:
a[row , :]
a[:1, col]

array([[0, 1]])



---



## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [27]:
ins = np.insert(a,1,2, axis =0)
print(a)
ins

[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([[0, 1, 2],
       [2, 2, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [28]:
np.insert(a,0,7, axis = 1)

array([[7, 0, 1, 2],
       [7, 3, 4, 5],
       [7, 6, 7, 8]])

### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

In [29]:
a[0][1]= 3
a

array([[0, 3, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [30]:
a[:,1:]=2
a

array([[0, 2, 2],
       [3, 2, 2],
       [6, 2, 2]])

### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [31]:
de = np.delete(a ,0)
de

array([2, 2, 3, 2, 2, 6, 2, 2])

In [32]:
np.delete(a,0 ,axis = 1)

array([[2, 2],
       [2, 2],
       [2, 2]])

### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님
* numpy배열.copy()를 사용하여 복제할 경우, 원본과 별개의 배열 생성

In [33]:
import copy as cp


* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사

In [34]:
a.copy

<function ndarray.copy>

In [35]:
a = np.array([1,2,3])

b = a 
c = a.copy()    # copy를 한 배열은 원래배열의 값이 변경되어도 영향을 받지 않는다.
b[0] = 5

print(a)
print(b)
print(c)

[5 2 3]
[5 2 3]
[1 2 3]




---



### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

In [36]:
np.arange(20).reshape(4,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### 배열 크기 변경

* 배열 모양만 변경

In [37]:
n2 = np.random.randint(0,10,(2,5))
n2.resize((5,2))
n2

array([[7, 2],
       [0, 3],
       [5, 8],
       [5, 9],
       [3, 2]])

* 배열 크기 증가
* 남은 공간은 0으로 채워짐

In [38]:
np.resize(n2,(5,5))

array([[7, 2, 0, 3, 5],
       [8, 5, 9, 3, 2],
       [7, 2, 0, 3, 5],
       [8, 5, 9, 3, 2],
       [7, 2, 0, 3, 5]])

* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

In [39]:
np.resize(n2,(1,1))

array([[7]])

### 배열 추가

* `append()`: 배열의 끝에 값 추가

In [40]:
a1 =np.arange(1,10).reshape(3,3)
a2 = np.arange(10,19).reshape(3,3)

ap = np.append(a1,a2)
ap

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18])

* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

In [41]:
ap = np.append(a1,a2, axis = 0)
ap

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

In [42]:
ap = np.append(a1,a2, axis = 1)
ap

array([[ 1,  2,  3, 10, 11, 12],
       [ 4,  5,  6, 13, 14, 15],
       [ 7,  8,  9, 16, 17, 18]])

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

In [43]:
a= np.array([1,2,3])
a1 = np.array([4,5,6])
con = np.concatenate([a,a1])
con

array([1, 2, 3, 4, 5, 6])

In [44]:
a2= np.arange(1,10).reshape(3,3)
a22 = np.concatenate([a2,a2])
a22

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [45]:
a22 = np.concatenate([a2,a2],axis = 1) # axis default는 0 
a22

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

#### vstack 수직결합

In [46]:
a = np.random.randint(1,10, (3,3))
b = np.random.randint(10,19,(3,3))

np.vstack((a,b))

array([[ 2,  4,  9],
       [ 9,  7,  7],
       [ 3,  8,  7],
       [16, 12, 13],
       [15, 13, 15],
       [11, 16, 13]])

#### hstack 수평 분할 

In [47]:
a = np.random.randint(1,10, (3,3))
b = np.random.randint(10,19,(3,3))

np.hstack((a,b))

array([[ 1,  6,  1, 14, 18, 17],
       [ 5,  9,  7, 12, 13, 13],
       [ 7,  3,  5, 10, 18, 15]])

### 배열 분할

* `split()`: 배열 분할

In [48]:
a = np.random.randint(0,10 , size = 10)

print(np.split(a, 2))

[array([9, 1, 9, 0, 1]), array([6, 4, 1, 2, 2])]


#### hsplit(수평분할)

In [49]:
a = np.random.randint(0,10 , size = 10)

print(np.hsplit(a,2))

[array([9, 1, 0, 0, 9]), array([5, 1, 5, 8, 2])]


#### vsplit(수직분할)

In [50]:
a = np.array([[1,2,3],[1,2,3]])

print(np.vsplit(a,2))

[array([[1, 2, 3]]), array([[1, 2, 3]])]




---

